Vypreparovani bloku textu z html souboru

Přihlášení | Registrace

napište » Zprávičky

dnes 16:44 | IT novinky

Počítačová hra Tetris slaví 40 let. Alexej Pažitnov dokončil první hratelnou verzi 6. června 1984. Mezitím vznikla celá řada variant. Například Peklo nebo Nebe. Loni měl premiéru film Tetris.

Ladislav Hagara | Komentářů: 7

MicroPython 1.23.0

dnes 10:44 | Nová verze

MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.23.0. V přehledu novinek je vypíchnuta podpora dynamických USB zařízení nebo nové moduly openamp, tls a vfs.

Ladislav Hagara | Komentářů: 0

Ubuntu Core 24

dnes 10:22 | Nová verze

Canonical vydal Ubuntu Core 24. Představení na YouTube. Nová verze Ubuntu Core vychází z Ubuntu 24.04 LTS a podporována bude 12 let. Ubuntu Core je určeno pro IoT (internet věcí) a vestavěné systémy.

Ladislav Hagara | Komentářů: 1

DuckDB 1.0.0

dnes 01:00 | Nová verze

Databáze DuckDB (Wikipedie) dospěla po 6 letech do verze 1.0.0.

Ladislav Hagara | Komentářů: 0

Intel na veletrhu Computex 2024

včera 19:55 | IT novinky

Intel na veletrhu Computex 2024 představil (YouTube) mimo jiné procesory Lunar Lake a Xeon 6.

Ladislav Hagara | Komentářů: 0

Raspberry Pi AI Kit

včera 13:44 | IT novinky

Na blogu Raspberry Pi byl představen Raspberry Pi AI Kit určený vlastníkům Raspberry Pi 5, kteří na něm chtějí experimentovat se světem neuronových sítí, umělé inteligence a strojového učení. Jedná se o spolupráci se společností Hailo. Cena AI Kitu je 70 dolarů.

Ladislav Hagara | Komentářů: 0

FreeBSD 14.1

včera 13:22 | Nová verze

Byla vydána nová verze 14.1 svobodného unixového operačního systému FreeBSD. Podrobný přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Kaspersky Virus Removal Tool (KVRT) také pro Linux

včera 12:55 | Zajímavý software

Společnost Kaspersky vydala svůj bezplatný Virus Removal Tool (KVRT) také pro Linux.

Ladislav Hagara | Komentářů: 11

LyX 2.4.0

včera 12:33 | Nová verze

Grafický editor dokumentů LyX, založený na TeXu, byl vydán ve verzi 2.4.0 shrnující změny za šest let vývoje. Novinky zahrnují podporu Unicode jako výchozí, export do ePub či DocBook 5 a velké množství vylepšení uživatelského rozhraní a prvků editoru samotného (např. rovnic, tabulek, citací).

Fluttershy, yay! | Komentářů: 1

Zabbix 7.0 LTS

včera 12:00 | Nová verze

Byla vydána (𝕏) nová verze 7.0 LTS open source monitorovacího systému Zabbix (Wikipedie). Přehled novinek v oznámení na webu, v poznámkách k vydání a v aktualizované dokumentaci.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

Rozcestník

AbcLinuxu

HDmag.cz

Uran - uranit

Aktuální zápisy

? Archív

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / uranit / Vypreparovani bloku textu z html souboru

Štítky: cat, find, grep, HTML, Internet, RAR, sci-fi, sed, sítě, skript, stahování, web, wget, zip

Vypreparovani bloku textu z html souboru

22.5.2009 09:10 | Přečteno: 848× | Linux | poslední úprava: 22.5.2009 11:15

Na internetu jsem narazil na zajimavy web/databazi v cechach vydanych sci-fi a fantasy knih ( www.legie.info ). Jako na potvoru jsem v te dobe nemel pristup na internet (jen v praci). Rozhodl jsem se ze si web stahnu pomoci wget-u offline )stranky jsou v soucasne dobe pod licenci Creative Commons tak jsem v tom nevidel zadny problem)

Strucny postup:

1. Stazeni pomoci wget-u. Struktura webu je pomerne jednoducha tak jsem pouzil pouzil nasledujici syntakci:

wget -r -l inf -nc -e robots=off --reject=jpg,JPG,zip,ZIP,rar,RAR,gif,GIF,bmp,BMP,avi,AVI,mpg,MPG --wait=5 --include-directories=autor,kniha,serie,povidka www.legie.info

2. Problem nastal co s takto stazenymi daty. Pri pohledu do zdrojoveho kodu html souboru jsem zjistil, ze mnou obsahujici anotaci ke knize tvori jen cast souboru a ostatni je nepotrebny balast.

Zjednoduseny priklad:

.
.
.
.
-----pocatecni radek ohranicujici blok-----
vlastni
blok
textu
-----koncovy radek ohranicujici blok----- 
.
.
.
.

2.1 Silena i kdyz castecne fungujici varianta:

find . -iname '*' -type f | while read soub
do
a=`cat $soub | grep -n anotace | sed s#[^0-9][0-9]*##g | tail`
b=`cat $soub | wc -l`
d=$( expr $b-$a)
e=`$soub | tail --lines=$d`
f=`$soub | tail --lines=$d | grep -n 'Texy2' | sed s#[^0-9][0-9]*##g | tail`
cat $soub | tail --lines=$d | head --lines=$(($f-1))
done

Strucne reseno pomoci grepu a tail/head jsem urcil cislo radku kde zacina/konci preparovany text a nasledne pomoci head/tail vypsal dany blok textu. fungovalo to jen castecne a hazelo to spoustu chyb, ale vysledek nejaky vznikl.

2.2 Konecna varianta neni mym dilem, jen jsem drobne upravil kod do cyklu.

#!/bin/bash
find ./anotace_test -iname '*' -type f | while read file; do
    text="$(cat ${file} |sed -n '/anotace/,/Texy2/p'|head -n -2|tail -n +2)"
    if [ -n "${text}" ];then
        echo --------------------zacatek--------------------
        echo "${text}"
        echo --------------------konec--------------------
    fi
done

exit 0

Co tedy vlastne skript dela? Find rekurzivne prohledava slozku ./anotace_test nehledi na velikost pismen a testuje zdali se jedna o soubor. Ten pak nasledne vypise a predhodi cyklu, ktery ho dale zpracuje. V cyklu je nejdulezitejsi sed, ktery vytahne text mezi radky obsahujici "anotace" a "Texy2".

Zaverem bych chtel rict, ze na sobe cim dal tim casteji pozoruji tvoreni pekne neprehledneho a zpraseneho kodu.

Hodnocení: 60 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (0) ? , Tisk

Vložit další komentář

22.5.2009 09:40 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

NIKDY nepublikuj viac ako 1 blog denne! To je zlate pravidlo blogovania. Prosim, dodrziavaj ho.

Slobodný font na technické kreslenie

22.5.2009 10:01 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Jasny taky jsem si rikal, ale kdyz ja jsem takovy bordelar a nekam jsem ty nove (pro me) poznatky potreboval umistit.

22.5.2009 10:12 Marián Kyral | skóre: 29 | blog: Sem_Tam | Frýdek-Místek
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Na poznámky se mi osvědčil basket. Sedí v liště a je vždy při ruce.

22.5.2009 10:17 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Ja pouzvam tomboy, ale problem je v tom, ze pomerne casto zapomenu kam jsem to dal pripadne jako se mi to stalo pri prechodu z mandrivy na ubuntu to omylem smazu

22.5.2009 10:19 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

A to je taky problem tie blogy spojit do jedneho a zverejnit to az vecer? Je tu u blogov moznost odlozit ako koncept a zverejnit to az neskor.

Slobodný font na technické kreslenie

22.5.2009 10:24 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

jj mas pravdu. jinak rozhrani mi nepripadne moc intuitivni a zalozku koncepty dotedka hledam

22.5.2009 10:28 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Tak se kaji. Nevyplni jsem predmet a tim padem se to neulozilo do konceptu

22.5.2009 10:29 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Co mu do toho kecáš?! Je to jeho blog, jeho věc a jeho problém. Pokud má někdo potřebu, ať si ublogne třeba stokrát za sebou. Ty si ho můžeš vždy odfiltrovat tím, že ho zablokuješ.

22.5.2009 10:32 hikikomori82 | skóre: 18 | blog: foobar | Košice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Prosim ta porad mi ako sa v RSS daju blokovat blogy uzivatelov, dakujem.

Slobodný font na technické kreslenie

22.5.2009 10:32 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Dekuji za podporu. Nejak jsem potreboval ty "moje" pokroky prezentovat, zaznamenat. Ono me to publikovaci nadseni urcite prejde. :-)

22.5.2009 11:12 GandY | skóre: 3 | blog: Zo života | Bratislava
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Oprav si link v texte, máš tam odkaz na hotel a nie databázu kníh.

môj fotoblog

22.5.2009 17:48 mkoubik | skóre: 5 | blog: lorem_ipsum | Praha 8 - Bohnice
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Nejlepší bude použít nějakej datamining tool, třeba trial komerčního softu. Když budeš preparovat html data regulárníma výrazama, tak umřeš o 15 let dřív.

Plesk! | Population | Industry

23.5.2009 17:43 pht | skóre: 48 | blog: pht
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

ale prdlačku... jediné co je tady potřeba znát je, že Perl znamená Practical extraction ...

In Ada the typical infinite loop would normally be terminated by detonation.

24.5.2009 08:44 Uran | skóre: 9 | blog: uranit
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Pomoci sedu mi to funguje, tak nejaky specialni soft nebo perl neresim

22.5.2009 20:05 k okot
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Co takhle priohnout si zdrojaky nejakeho www prohlizece?

24.5.2009 09:47 pozortucnak | skóre: 21 | blog: vecny_windowsar
Rozbalit Rozbalit vše Re: Vypreparovani bloku textu z html souboru

Odpovědět | Sbalit | Link | Blokovat | Admin

Hele ono to má 0%.... Vidíš Jardo, takhle se to dělá...

Ale těch 0% se mi vůbez nelíbí...

Dávám tedy Dobré...

Jsem mimořádně obtížný případ

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje