Vypreparovani bloku textu z html souboru

AbcLinuxu:/ Blogy / uranit / Vypreparovani bloku textu z html souboru

Štítky: cat, find, grep, HTML, Internet, RAR, sci-fi, sed, sítě, skript, stahování, web, wget, zip

Vypreparovani bloku textu z html souboru

22.5.2009 09:10 | Přečteno: 946× | Linux | poslední úprava: 22.5.2009 11:15

Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

Strucny postup:

1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

Zjednoduseny priklad:

.
.
.
.
-----pocatecni radek ohranicujici blok-----
vlastni
blok
textu
-----koncovy radek ohranicujici blok----- 
.
.
.
.

2.1 Silena i kdyz castecne fungujici varianta:

find . -iname '*' -type f | while read soub
do
a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
b=`cat $soub | wc -l`
d=$( expr $b-$a)
e=`$soub | tail --lines=$d`
f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
cat $soub | tail --lines=$d | head --lines=$(($f-1))
done

Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.

#!/bin/bash
find ./anotace_test -iname '*' -type f | while read file; do
    text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
    if [ -n "${text}" ];then
        echo --------------------zacatek--------------------
        echo "${text}"
        echo --------------------konec--------------------
    fi
done

exit 0

Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.

Hodnocení: 60 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (0) ? , Tisk

Vložit další komentář

22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.

Slobodný font na technické kreslenie

22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.

Slobodný font na technické kreslenie

22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

22.5.2009 10:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.

22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.

Slobodný font na technické kreslenie

22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

môj fotoblog

22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.

Plesk! | Population | Industry

23.5.2009 17:43 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...

In Ada the typical infinite loop would normally be terminated by detonation.

24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

22.5.2009 20:05 k okot
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Co takhle priohnout si zdrojaky nejakeho www prohlizece?

24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

Ale těch 0% se mi vůbez nelíbí...

Dávám tedy Dobré...

Jsem mimořádně obtížný případ

Založit nové vlákno • Nahoru