abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 20:00 | Nová verze

    Byla vydána verze 4.2 multiplatformního integrovaného vývojového prostředí (IDE) pro rychlý vývoj aplikaci (RAD) ve Free Pascalu Lazarus (Wikipedie). Využíván je Free Pascal Compiler (FPC) 3.2.2.

    Ladislav Hagara | Komentářů: 0
    dnes 19:33 | IT novinky

    Anton Carniaux, právní zástupce Microsoft France, pod přísahou: Microsoft nemůže garantovat, že data z EU nepředá do USA bez EU souhlasu, musí dodržovat americké zákony.

    Ladislav Hagara | Komentářů: 1
    dnes 15:33 | Nová verze

    Byl vydán Mozilla Firefox 141.0. Přehled novinek v poznámkách k vydání a poznámkách k vydání pro vývojáře. Lokální AI umí uspořádat podobné panely do skupin. Firefox na Linuxu využívá méně paměti. Řešeny jsou rovněž bezpečnostní chyby. Nový Firefox 141 je již k dispozici také na Flathubu a Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    včera 22:44 | Bezpečnostní upozornění

    NÚKIB upozorňuje na kritickou zranitelnost v SharePointu. Jedná se o kritickou zranitelnost typu RCE (remote code execution) – CVE-2025-53770, která umožňuje neautentizovaný vzdálený přístup a spuštění kódu, což může vést k úplnému převzetí kontroly nad serverem. Zranitelné verze jsou pouze on-premise verze a to konkrétně SharePoint Server 2016, 2019 a Subscription Edition. SharePoint Online (Microsoft 365) není touto zranitelností ohrožen.

    Ladislav Hagara | Komentářů: 3
    včera 21:00 | IT novinky

    Společnost Valve zpřísnila pravidla pro obsah, který je možné distribuovat ve službě Steam. Současně řadu her ze Steamu odstranila. V zásadách a pravidlech přibylo omezení 15: Obsah, který by mohl porušovat pravidla a normy stanovené zpracovateli plateb a souvisejícími sítěmi platebních karet a bankami nebo poskytovateli připojení k internetu. Sem spadají zejména určité druhy obsahu pouze pro dospělé.

    Ladislav Hagara | Komentářů: 0
    včera 13:33 | Komunita

    Dle analytics.usa.gov je za posledních 90 dnů 6,2 % přístupů k webových stránkám a aplikacím federální vlády Spojených států z Linuxu.

    Ladislav Hagara | Komentářů: 0
    20.7. 17:44 | Zajímavý článek

    Jak si zobrazit pomocí Chrome a na Chromiu založených webových prohlížečích stránky s neplatným certifikátem? Stačí napsat thisisunsafe.

    Ladislav Hagara | Komentářů: 3
    20.7. 00:33 | Bezpečnostní upozornění

    V repozitáři AUR (Arch User Repository) linuxové distribuce Arch Linux byly nalezeny a odstraněny tři balíčky s malwarem. Jedná se o librewolf-fix-bin, firefox-patch-bin a zen-browser-patched-bin.

    Ladislav Hagara | Komentářů: 15
    20.7. 00:22 | Komunita

    Dle plánu by Debian 13 s kódovým názvem Trixie měl vyjít v sobotu 9. srpna.

    Ladislav Hagara | Komentářů: 1
    19.7. 13:22 | Komunita

    Vývoj linuxové distribuce Clear Linux (Wikipedie) vyvíjené společností Intel a optimalizováné pro jejich procesory byl oficiálně ukončen.

    Ladislav Hagara | Komentářů: 1
    Kolik tabů máte standardně otevřeno ve web prohlížeči?
     (26%)
     (24%)
     (4%)
     (6%)
     (5%)
     (3%)
     (4%)
     (28%)
    Celkem 78 hlasů
     Komentářů: 11, poslední dnes 20:35
    Rozcestník

    Vypreparovani bloku textu z html souboru

    22.5.2009 09:10 | Přečteno: 857× | Linux | poslední úprava: 22.5.2009 11:15

    Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

    Strucny postup:

    1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

    wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

    2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

    Zjednoduseny priklad:

    .
    .
    .
    .
    -----pocatecni radek ohranicujici blok-----
    vlastni
    blok
    textu
    -----koncovy radek ohranicujici blok----- 
    .
    .
    .
    .
    

    2.1 Silena i kdyz castecne fungujici varianta:
    find . -iname '*' -type f | while read soub
    do
    a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
    b=`cat $soub | wc -l`
    d=$( expr $b-$a)
    e=`$soub | tail --lines=$d`
    f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
    cat $soub | tail --lines=$d | head --lines=$(($f-1))
    done
    Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

    2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.
    #!/bin/bash
    find ./anotace_test -iname '*' -type f | while read file; do
        text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
        if [ -n "${text}" ];then
            echo --------------------zacatek--------------------
            echo "${text}"
            echo --------------------konec--------------------
        fi
    done
    
    exit 0
    Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

    Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.        

    Hodnocení: 60 %

            špatnédobré        

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    hikikomori82 avatar 22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.
    22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

    Marián Kyral avatar 22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

    22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

    hikikomori82 avatar 22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.
    22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

    22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

    22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.
    hikikomori82 avatar 22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.
    22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

    GandY avatar 22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

    mkoubik avatar 22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.
    23.5.2009 17:43 pht | skóre: 48 | blog: pht
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...
    In Ada the typical infinite loop would normally be terminated by detonation.
    24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

    Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

    22.5.2009 20:05 k okot
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Co takhle priohnout si zdrojaky nejakeho www prohlizece?
    24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
    Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru
    Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

    Ale těch 0% se mi vůbez nelíbí...

    Dávám tedy Dobré...
    Jsem mimořádně obtížný případ

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.