abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 17:44 | Zajímavý článek

    Devadesátková hra Brány Skeldalu prošla portací a je dostupná na platformě Steam. Vyšel i parádní blog autora o portaci na moderní systémy a platformy včetně Linuxu.

    karkar | Komentářů: 0
    dnes 12:11 | Humor

    Lidi dělají divné věci. Například spouští Linux v Excelu. Využít je emulátor RISC-V mini-rv32ima sestavený jako knihovna DLL, která je volaná z makra VBA (Visual Basic for Applications).

    Ladislav Hagara | Komentářů: 1
    dnes 10:44 | IT novinky

    Revolut nabídne neomezený mobilní tarif za 12,50 eur (312 Kč). Aktuálně startuje ve Velké Británii a Německu.

    Ladislav Hagara | Komentářů: 21
    dnes 09:55 | IT novinky

    Společnost Amazon miliardáře Jeffa Bezose vypustila na oběžnou dráhu první várku družic svého projektu Kuiper, který má z vesmíru poskytovat vysokorychlostní internetové připojení po celém světě a snažit se konkurovat nyní dominantnímu Starlinku nejbohatšího muže planety Elona Muska.

    Ladislav Hagara | Komentářů: 0
    dnes 09:33 | IT novinky

    Poslední aktualizací začal model GPT-4o uživatelům příliš podlézat. OpenAI jej tak vrátila k předchozí verzi.

    Ladislav Hagara | Komentářů: 0
    dnes 08:11 | Nová verze

    Google Chrome 136 byl prohlášen za stabilní. Nejnovější stabilní verze 136.0.7103.59 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Opraveno bylo 8 bezpečnostních chyb. Vylepšeny byly také nástroje pro vývojáře.

    Ladislav Hagara | Komentářů: 0
    včera 20:55 | Nová verze

    Homebrew (Wikipedie), správce balíčků pro macOS a od verze 2.0.0 také pro Linux, byl vydán ve verzi 4.5.0. Na stránce Homebrew Formulae lze procházet seznamem balíčků. K dispozici jsou také různé statistiky.

    Ladislav Hagara | Komentářů: 0
    včera 16:22 | Nová verze

    Byl vydán Mozilla Firefox 138.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 138 je již k dispozici také na Flathubu a Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    včera 15:55 | Pozvánky

    Šestnáctý ročník ne-konference jOpenSpace se koná 3. – 5. října 2025 v Hotelu Antoň v Telči. Pro účast je potřeba vyplnit registrační formulář. Ne-konference neznamená, že se organizátorům nechce připravovat program, ale naopak dává prostor všem pozvaným, aby si program sami složili z toho nejzajímavějšího, čím se v poslední době zabývají nebo co je oslovilo. Obsah, který vytvářejí všichni účastníci, se skládá z desetiminutových

    … více »
    Zdenek H. | Komentářů: 2
    včera 15:44 | IT novinky Ladislav Hagara | Komentářů: 4
    Jaký filesystém primárně používáte?
     (58%)
     (1%)
     (9%)
     (22%)
     (4%)
     (1%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 492 hlasů
     Komentářů: 19, poslední dnes 11:32
    Rozcestník

    Vypreparovani bloku textu z html souboru

    22.5.2009 09:10 | Přečteno: 854× | Linux | poslední úprava: 22.5.2009 11:15

    Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

    Strucny postup:

    1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

    wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

    2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

    Zjednoduseny priklad:

    .
    .
    .
    .
    -----pocatecni radek ohranicujici blok-----
    vlastni
    blok
    textu
    -----koncovy radek ohranicujici blok----- 
    .
    .
    .
    .
    

    2.1 Silena i kdyz castecne fungujici varianta:
    find . -iname '*' -type f | while read soub
    do
    a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
    b=`cat $soub | wc -l`
    d=$( expr $b-$a)
    e=`$soub | tail --lines=$d`
    f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
    cat $soub | tail --lines=$d | head --lines=$(($f-1))
    done
    Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

    2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.
    #!/bin/bash
    find ./anotace_test -iname '*' -type f | while read file; do
        text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
        if [ -n "${text}" ];then
            echo --------------------zacatek--------------------
            echo "${text}"
            echo --------------------konec--------------------
        fi
    done
    
    exit 0
    Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

    Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.        

    Hodnocení: 60 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    hikikomori82 avatar 22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.
    22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

    Marián Kyral avatar 22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

    22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

    hikikomori82 avatar 22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.
    22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

    22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

    22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.
    hikikomori82 avatar 22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.
    22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

    GandY avatar 22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

    mkoubik avatar 22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.
    23.5.2009 17:43 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...
    In Ada the typical infinite loop would normally be terminated by detonation.
    24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

    22.5.2009 20:05 k okot
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co takhle priohnout si zdrojaky nejakeho www prohlizece?
    24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

    Ale těch 0% se mi vůbez nelíbí...

    Dávám tedy Dobré...
    Jsem mimořádně obtížný případ

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.