abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 22:22 | Nová verze

    Byla vydána nová verze 9.7 multiplatformní digitální pracovní stanice pro práci s audiem (DAW) Ardour. Přehled novinek, vylepšení a oprav v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 18:22 | Komunita

    Vývojáři webového prohlížeče Ladybird dnes oznámili, že mění způsob vývoje. S blížícím se vydáním alfa verze přestávají přijímat veřejné pull requesty. Všechny otevřené veřejné pull requesty budou uzavřeny. Tým nedokáže garantovat bezpečnost AI generovaných pull requestů.

    Ladislav Hagara | Komentářů: 2
    včera 17:33 | Zajímavý software

    OpenLogi (GitHub) je open source náhrada aplikace Logi Options+ pro přizpůsobení myší od společnosti Logitech. Zatím běží pouze na macOS.

    Ladislav Hagara | Komentářů: 0
    včera 04:33 | Nová verze

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za květen (YouTube).

    Ladislav Hagara | Komentářů: 9
    4.6. 11:22 | Bezpečnostní upozornění

    Úřad pro ochranu osobních údajů řeší desítky stížností na jednotné měsíční hlášení zaměstnavatele, které stát spustil počátkem dubna. Systém, jenž má firmám odlehčit od desítek formulářů, nejenže výrazně zatížil jejich účetní oddělení, ale docházelo v něm i k únikům osobních dat zaměstnanců k firmám, kde nepracovali. Podle ministerstva práce a sociálních věcí stála za problémem technická chyba. „Incident se týkal několika stovek

    … více »
    Ladislav Hagara | Komentářů: 16
    4.6. 10:46 | Nová verze

    Byla vydána (𝕏, Bluesky) nová verze 22.0.0 open source webového aplikačního frameworku Angular (Wikipedie). Přehled novinek v příspěvku na blogu.

    Ladislav Hagara | Komentářů: 0
    4.6. 04:33 | Nová verze

    Vim Classic byl vydán ve verzi 8.3. Drew DeVault oznámil tento fork editoru Vim (verze 8.2.0148, tj. těsně před zavedením Vim9 skriptování) v březnu letošního roku. Důvodem forku bylo, že vývojáři editorů Vim a Neovim začali při vývoji využívat LLM.

    Ladislav Hagara | Komentářů: 7
    4.6. 03:44 | Komunita

    Open source konference DevConf.CZ 2026 proběhne 18. a 19. června v Brně na FIT VUT. Publikován byl program a spuštěna byla registrace.

    Ladislav Hagara | Komentářů: 0
    3.6. 19:44 | Nová verze

    Společnost JetBrains uvolnila verzi 2 svého open-source velkého jazykového modelu (LLM) pro vývojáře Mellum.

    Ladislav Hagara | Komentářů: 0
    3.6. 14:44 | IT novinky

    Probíhá konference Microsoft Build 2026. Microsoft představuje své novinky: kvantový čip Majorana 2, Surface Laptop Ultra a Surface RTX Spark Dev Box s NVIDIA RTX Spark, Intelligent Terminal, Coreutils for Windows (fork Rust Coreutils), AI modely MAI, AI agenta Scout, platformu pro agent-first zařízení Project Solara, …

    Ladislav Hagara | Komentářů: 0
    Které desktopové prostředí na Linuxu používáte?
     (12%)
     (8%)
     (2%)
     (15%)
     (31%)
     (3%)
     (6%)
     (3%)
     (15%)
     (26%)
    Celkem 1835 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Vypreparovani bloku textu z html souboru

    22.5.2009 09:10 | Přečteno: 928× | Linux | poslední úprava: 22.5.2009 11:15

    Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

    Strucny postup:

    1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

    wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

    2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

    Zjednoduseny priklad:

    .
    .
    .
    .
    -----pocatecni radek ohranicujici blok-----
    vlastni
    blok
    textu
    -----koncovy radek ohranicujici blok----- 
    .
    .
    .
    .
    

    2.1 Silena i kdyz castecne fungujici varianta:
    find . -iname '*' -type f | while read soub
    do
    a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
    b=`cat $soub | wc -l`
    d=$( expr $b-$a)
    e=`$soub | tail --lines=$d`
    f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
    cat $soub | tail --lines=$d | head --lines=$(($f-1))
    done
    Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

    2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.
    #!/bin/bash
    find ./anotace_test -iname '*' -type f | while read file; do
        text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
        if [ -n "${text}" ];then
            echo --------------------zacatek--------------------
            echo "${text}"
            echo --------------------konec--------------------
        fi
    done
    
    exit 0
    Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

    Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.        

    Hodnocení: 60 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    hikikomori82 avatar 22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.
    22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

    Marián Kyral avatar 22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

    22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

    hikikomori82 avatar 22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.
    22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

    22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

    22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.
    hikikomori82 avatar 22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.
    22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

    GandY avatar 22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

    mkoubik avatar 22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.
    23.5.2009 17:43 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...
    In Ada the typical infinite loop would normally be terminated by detonation.
    24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

    22.5.2009 20:05 k okot
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co takhle priohnout si zdrojaky nejakeho www prohlizece?
    24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

    Ale těch 0% se mi vůbez nelíbí...

    Dávám tedy Dobré...
    Jsem mimořádně obtížný případ

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.