abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 17:11 | IT novinky

    Společnost Jolla spustila kampaň na podporu svého nového telefonu Jolla Phone se Sailfish OS. Dodání je plánováno na první polovinu příštího roku. Pokud bude alespoň 2 000 zájemců. Záloha na telefon je 99 €. Cena telefonu v rámci kampaně je 499 €.

    Ladislav Hagara | Komentářů: 7
    dnes 15:11 | IT novinky

    Netflix kupuje Warner Bros. včetně jejích filmových a televizních studií HBO Max a HBO. Za 72 miliard dolarů (asi 1,5 bilionu korun).

    Ladislav Hagara | Komentářů: 1
    dnes 14:11 | IT novinky

    V Las Vegas dnes končí pětidenní konference AWS re:Invent 2025. Společnost Amazon Web Services (AWS) na ní představila celou řadu novinek. Vypíchnout lze 192jádrový CPU Graviton5 nebo AI chip Trainium3.

    Ladislav Hagara | Komentářů: 0
    dnes 00:33 | Nová verze

    Firma Proxmox vydala novou serverovou distribuci Datacenter Manager ve verzi 1.0 (poznámky k vydání). Podobně jako Virtual Environment, Mail Gateway či Backup Server je založená na Debianu, k němuž přidává integraci ZFS, webové administrační rozhraní a další. Datacenter Manager je určený ke správě instalací právě ostatních distribucí Proxmox.

    |🇵🇸 | Komentářů: 6
    včera 23:44 | Nová verze

    Byla vydána nová verze 2.4.66 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 5 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 0
    včera 14:00 | IT novinky

    Programovací jazyk JavaScript (Wikipedie) dnes slaví 30 let od svého oficiálního představení 4. prosince 1995.

    Ladislav Hagara | Komentářů: 0
    včera 04:22 | Bezpečnostní upozornění

    Byly zveřejněny informace o kritické zranitelnosti CVE-2025-55182 s CVSS 10.0 v React Server Components. Zranitelnost je opravena v Reactu 19.0.1, 19.1.2 a 19.2.1.

    Ladislav Hagara | Komentářů: 3
    včera 02:44 | Komunita

    Bylo rozhodnuto, že nejnovější Linux 6.18 je jádrem s prodlouženou upstream podporou (LTS). Ta je aktuálně plánována do prosince 2027. LTS jader je aktuálně šest: 5.10, 5.15, 6.1, 6.6, 6.12 a 6.18.

    Ladislav Hagara | Komentářů: 0
    včera 02:22 | Nová verze

    Byla vydána nová stabilní verze 3.23.0, tj. první z nové řady 3.23, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 1
    3.12. 18:11 | Nová verze

    Byla vydána verze 6.0 webového aplikačního frameworku napsaného v Pythonu Django (Wikipedie). Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (47%)
     (19%)
     (18%)
     (23%)
     (15%)
     (25%)
     (16%)
     (18%)
    Celkem 431 hlasů
     Komentářů: 18, poslední 2.12. 18:34
    Rozcestník

    Vypreparovani bloku textu z html souboru

    22.5.2009 09:10 | Přečteno: 899× | Linux | poslední úprava: 22.5.2009 11:15

    Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

    Strucny postup:

    1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

    wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

    2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

    Zjednoduseny priklad:

    .
    .
    .
    .
    -----pocatecni radek ohranicujici blok-----
    vlastni
    blok
    textu
    -----koncovy radek ohranicujici blok----- 
    .
    .
    .
    .
    

    2.1 Silena i kdyz castecne fungujici varianta:
    find . -iname '*' -type f | while read soub
    do
    a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
    b=`cat $soub | wc -l`
    d=$( expr $b-$a)
    e=`$soub | tail --lines=$d`
    f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
    cat $soub | tail --lines=$d | head --lines=$(($f-1))
    done
    Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

    2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.
    #!/bin/bash
    find ./anotace_test -iname '*' -type f | while read file; do
        text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
        if [ -n "${text}" ];then
            echo --------------------zacatek--------------------
            echo "${text}"
            echo --------------------konec--------------------
        fi
    done
    
    exit 0
    Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

    Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.        

    Hodnocení: 60 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    hikikomori82 avatar 22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.
    22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

    Marián Kyral avatar 22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

    22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

    hikikomori82 avatar 22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.
    22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

    22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

    22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.
    hikikomori82 avatar 22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.
    22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

    GandY avatar 22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

    mkoubik avatar 22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.
    23.5.2009 17:43 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...
    In Ada the typical infinite loop would normally be terminated by detonation.
    24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

    22.5.2009 20:05 k okot
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co takhle priohnout si zdrojaky nejakeho www prohlizece?
    24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

    Ale těch 0% se mi vůbez nelíbí...

    Dávám tedy Dobré...
    Jsem mimořádně obtížný případ

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.