abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 05:33 | Pozvánky

    Protože je už po aprílu, můžou strahováci opět zveřejnit program další Virtuální Bastlírny, aniž by připravená témata působila dojmem, že jde o žert. Vězte tedy, že již v úterý 7. dubna od 20:00 proběhne VB, kde se setkají bastlíři, technici, učitelé i nadšenci do techniky a kde i vy se můžete zapojit do družného hovoru, jako by všichni seděli u pomyslného piva. Co mají bastlíři tento měsíc na srdci? Pravděpodobně by nás musel zasáhnout meteorit

    … více »
    bkralik | Komentářů: 1
    včera 23:33 | Nová verze

    Byla vydána verze 26.1 aneb čtvrtletní aktualizace open source počítačového planetária Stellarium (Wikipedie, GitHub). Vyzkoušet lze webovou verzi Stellaria na Stellarium Web.

    Ladislav Hagara | Komentářů: 1
    včera 23:00 | Zajímavý projekt

    VOID (Video Object and Interaction Deletion) je nový open-source VLM model pro editaci videa, který dokáže z videí odstraňovat objekty včetně všech jejich fyzikálních interakcí v rámci scény (pády, kolize, stíny...) pomocí quadmaskingu (čtyřhodnotová maska, která člení pixely scény do čtyř kategorií: objekt určený k odstranění, překrývající se oblasti, objektem ovlivněné oblasti a pozadí scény) a dvoufázového inpaintingu. Za projektem stojí výzkumníci ze společnosti Netflix.

    NUKE GAZA! 🎆 | Komentářů: 7
    včera 05:22 | Zajímavý software

    Design (GitHub) je 2D CAD pro GNOME. Instalovat lze i z Flathubu. Běží také ve webovém prohlížeči.

    Ladislav Hagara | Komentářů: 13
    včera 04:11 | Zajímavý software

    Příspěvek na blogu herního enginu Godot představuje aplikaci Xogot přinášející Godot na iPad a iPhone. Instalovat lze z App Storu. Za Xogotem stojí Miguel de Icaza (GitHub) a společnost Xibbon.

    Ladislav Hagara | Komentářů: 2
    4.4. 04:22 | Komunita

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za březen (YouTube).

    Ladislav Hagara | Komentářů: 18
    3.4. 16:44 | Nová verze

    ESP-IDF (Espressif IoT Development Framework), tj. oficiální vývojový framework pro vývoj aplikací na mikrokontrolérech řady ESP32, byl vydán v nové verzi 6.0. Detaily na portálu pro vývojáře.

    Ladislav Hagara | Komentářů: 0
    3.4. 12:33 | Nová verze

    DeepMind (Alphabet) představila novou verzi svého multimodálního modelu, Gemma 4. Modely jsou volně k dispozici (Ollama, Hugging Face a další) ve velikostech 5-31 miliard parametrů, s kontextovým oknem 128k až 256k a v dense i MoE variantách. Modely zvládají text, obrázky a u menších verzí i audio. Modely jsou optimalizované pro běh na desktopových GPU i mobilních zařízeních, váhy všech těchto modelů jsou uvolněny pod licencí Apache 2.0. Návod na spuštění je už i na Unsloth.

    NUKE GAZA! 🎆 | Komentářů: 13
    3.4. 03:55 | Nová verze

    Cursor (Wikipedie) od společnosti Anysphere byl vydán ve verzi 3. Jedná se o multiplatformní proprietární editor kódů s podporou AI (vibe coding).

    Ladislav Hagara | Komentářů: 0
    2.4. 19:55 | Zajímavý projekt

    Průkopnická firma FingerWorks kolem roku 2000 vyvinula vícedotykové trackpady s gesty a klávesnice jako TouchStream LP. V roce 2005 ji koupil Apple, výrobu těchto produktů ukončil a dotykové technologie využil při vývoji iPhone. Multiplatformní projekt Apple Magic TouchstreamLP nyní implementuje funkcionalitu TouchStream LP na současném Apple Magic Trackpad, resp. jejich dvojici. Diskuze k vydání probíhá na Redditu.

    |🇵🇸 | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (7%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (1%)
     (14%)
     (23%)
    Celkem 1226 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Vypreparovani bloku textu z html souboru

    22.5.2009 09:10 | Přečteno: 922× | Linux | poslední úprava: 22.5.2009 11:15

    Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

    Strucny postup:

    1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

    wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

    2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

    Zjednoduseny priklad:

    .
    .
    .
    .
    -----pocatecni radek ohranicujici blok-----
    vlastni
    blok
    textu
    -----koncovy radek ohranicujici blok----- 
    .
    .
    .
    .
    

    2.1 Silena i kdyz castecne fungujici varianta:
    find . -iname '*' -type f | while read soub
    do
    a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
    b=`cat $soub | wc -l`
    d=$( expr $b-$a)
    e=`$soub | tail --lines=$d`
    f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
    cat $soub | tail --lines=$d | head --lines=$(($f-1))
    done
    Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

    2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.
    #!/bin/bash
    find ./anotace_test -iname '*' -type f | while read file; do
        text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
        if [ -n "${text}" ];then
            echo --------------------zacatek--------------------
            echo "${text}"
            echo --------------------konec--------------------
        fi
    done
    
    exit 0
    Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

    Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.        

    Hodnocení: 60 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    hikikomori82 avatar 22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.
    22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

    Marián Kyral avatar 22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

    22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

    hikikomori82 avatar 22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.
    22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

    22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

    22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.
    hikikomori82 avatar 22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.
    22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

    GandY avatar 22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

    mkoubik avatar 22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.
    23.5.2009 17:43 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...
    In Ada the typical infinite loop would normally be terminated by detonation.
    24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

    22.5.2009 20:05 k okot
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co takhle priohnout si zdrojaky nejakeho www prohlizece?
    24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

    Ale těch 0% se mi vůbez nelíbí...

    Dávám tedy Dobré...
    Jsem mimořádně obtížný případ

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.