abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
včera 17:02 | Pozvánky

Přijďte si popovídat o open source obecně a openSUSE konkrétně s dalšími uživateli a vývojáři. Oslava nového vydání openSUSE Leap se uskuteční 16. prosince od 17:00 v nových prostorách firmy SUSE v Praze. K dispozici bude nějaké občerstvení a DVD pro ty, kdo je sbírají nebo ještě mají mechaniku. Po párty v kanceláři se bude pokračovat v některé z hospod v okolí.

Miška | Komentářů: 7
včera 14:55 | Zajímavý software

Byla vydána verze Alpha 1.0 otevřeného operačního systému pro chytré hodinky AsteroidOS. Podporovány jsou hodinky LG G Watch, LG G Watch Urbane, Asus ZenWatch 2 a Sony Smartwatch 3. Ukázka ovládání hodinek na YouTube. Jaroslav Řezník přednášel o AsteroidOS na chytrých hodinkách (videozáznam) na letošní konferenci OpenAlt.

Ladislav Hagara | Komentářů: 0
včera 13:30 | Zajímavý software

Byly uvolněny zdrojové kódy známé rogue-like hry DoomRL. Počátky hry jsou v roce 2002. Je napsána ve FreePascalu a zdrojový kód je nyní k dispozici na GitHubu pod licencí GNU GPL 2.0. Autor pracuje na nové hře Jupiter Hell, která je moderním nástupcem DoomRL a na jejíž vývoj shání peníze prostřednictvím Kickstarteru.

Blaazen | Komentářů: 0
včera 13:15 | Pozvánky

Přijďte s námi oslavit vydání Fedory 25. Na programu budou přednášky o novinkách, diskuse, neřízený networking atd. Release Party se bude konat 16. prosince v prostorách společnosti Etnetera. Na party budou volně k dispozici také propagační materiály, nová DVD s Fedorou 25 a samozřejmě občerstvení. Přednášky budou probíhat v češtině. Pro více informací se můžete podívat na web MojeFedora.cz. Jen připomínám, že tentokrát jsme zavedli

… více »
frantisekz | Komentářů: 0
9.12. 16:38 | Komunita

Byly zveřejněny videozáznamy přednášek a workshopů z letošní konference OpenAlt konané 5. a 6. listopadu v Brně. K videozáznamům lze přistupovat ze stránky na SuperLectures nebo přes program konference, detaily o vybrané přednášce nebo workshopu a dále kliknutím na ikonku filmového pásu. Celkově bylo zpracováno 65 hodin z 89 přednášek a workshopů.

Ladislav Hagara | Komentářů: 0
9.12. 11:30 | Komunita

Bylo oznámeno, že bude proveden bezpečnostní audit zdrojových kódů open source softwaru pro implementaci virtuálních privátních sítí OpenVPN. Audit provede Matthew D. Green (blog), uznávaný kryptolog a profesor na Univerzitě Johnse Hopkinse. Auditována bude verze 2.4 (aktuálně RC 1, stabilní verze je 2.3.14). Audit bude financován společností Private Internet Access [reddit].

Ladislav Hagara | Komentářů: 4
9.12. 06:00 | Komunita

Na YouTube byl publikován Blender Institute Reel 2016, ani ne dvouminutový sestřih z filmů, které vznikly za posledních 10 let díky Blender Institutu. V institutu aktuálně pracují na novém filmu Agent 327. Dění kolem filmu lze sledovat na Blender Cloudu. Videoukázka Agenta 327 z června letošního roku na YouTube.

Ladislav Hagara | Komentářů: 0
9.12. 01:02 | Zajímavý článek

Minulý týden byly vydány verze 1.2.3 a 1.1.7 webového poštovního klienta Roundcube. V oznámení o vydání bylo zmíněno řešení bezpečnostního problému nalezeného společností RIPS a souvisejícího s voláním funkce mail() v PHP. Tento týden byly zveřejněny podrobnosti. Útočník mohl pomocí speciálně připraveného emailu spustit na serveru libovolný příkaz. Stejně, jak je popsáno v článku Exploit PHP’s mail() to get remote code execution z roku 2014.

Ladislav Hagara | Komentářů: 1
8.12. 16:00 | Nová verze

Byla vydána verze 0.98 svobodného nelineárního video editoru Pitivi. Z novinek lze zmínit například přizpůsobitelné klávesové zkratky. Videoukázka práce s nejnovější verzí Pitivi na YouTube.

Ladislav Hagara | Komentářů: 1
8.12. 15:00 | Zajímavý software

Stop motion je technika animace, při níž je reálný objekt mezi jednotlivými snímky ručně upravován a posouván o malé úseky, tak aby po spojení vyvolala animace dojem spojitosti. Jaký software lze pro stop motion použít na Linuxu? Článek na OMG! Ubuntu! představuje Heron Animation. Ten bohužel podporuje pouze webové kamery. Podpora digitálních zrcadlovek je začleněna například v programu qStopMotion.

Ladislav Hagara | Komentářů: 5
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (23%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 810 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: prevod HTML tabulky na csv soubor

2.11.2011 17:01 Milan Roubal | skóre: 25
prevod HTML tabulky na csv soubor
Přečteno: 491×
Zdravim, mam problem s prevodem HTML tabulky na datovy soubor, ktery by byl strojove zpracovatelny. Dosud jsem pro tuto operaci pouzival prikaz
lynx -width=8000 -dump "file:///temp/data.html" > data.txt
Bohuzel nejnovejsi datovy soubor uz ma vice nez 1000 znaku na vyrenderovanem radku a z nejakeho neznameho duvodu (asi vnitrni limit lynxu) se nejdelsi radek renderuje jen do 1000 znaku a pak zacne na novem radku. Bohuzel vysledek nema v tom pripade pravidelnou sloupcovou strukturu a sloupce jsou ruzne posunute o nepredikovatelny pocet mezer. Zdrojovy HTML soubor ma asi 215 MB.

Neznate nekdo nejaky jiny program, ktery zvladne prevest HTML tabulku na textovy soubor (at uz s pevnou sirkou sloupce nebo jako soubor s nejakym preddefinovanym oddelovacem? Diky za jakykoliv rozumny tip.

Odpovědi

2.11.2011 17:33 NN
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Nebyl by to idealni pripad napsat si vlastni skript ?

NN
2.11.2011 18:00 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Zkus v PHP DOMDocument::loadHTMLfile();
3.11.2011 10:40 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Diky za tip. Bohuzel jakykoliv nastroj, co udrzuje cely dokument najednou v pameti, neni dobry napad.
cezz avatar 3.11.2011 02:09 cezz | skóre: 24 | blog: dm6 | Žilina
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Computers are not intelligent. They only think they are.
bambas avatar 3.11.2011 08:04 bambas | skóre: 20 | blog: bambasovo
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
No naprevod tabulky dost na prd. Cekal bych, ze prevede tabulku tak, kazdy radek tabulky nacpe do jednoho radku txt souboru a hodnoty oddeli carkou ci strednikem.
3.11.2011 10:08 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Diky za tip, ale pro moje ucely to bohuzel neni pouzitelne. Ve vysledku zustavaji neprelozene znaky jako napriklad & nbsp; a dalsi.
cezz avatar 4.11.2011 09:43 cezz | skóre: 24 | blog: dm6 | Žilina
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak mozno iny z kvanta html2txt programov - co som tak narychlo pozeral, nasiel som 3 dalsie.
Computers are not intelligent. They only think they are.
3.11.2011 08:49 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Pokud je to jednoduchý pevný html formát, něco jako
<tr><td>X<td><td>Y<td></tr>
<tr><td>X<td><td>Y<td></tr>
tak to jednoduchých několik regulárních výrazů zvládne.
Nevím jak z velikostí toho souboru (trošku bych se bál), ale obecně OO Calc by to mohl načíst a uložit.
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
3.11.2011 09:51 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Regulární výrazy jsou hezká věc a dlouho jsem je používal i k podobným účelům, ale jakýkoli HTML parser je praktičtější a spolehlivější.
3.11.2011 11:32 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Narazil jsem na tento soubor regularnich vyrazu, ktery pravdepodobne uz resi vetsinu zaludnosti prevodu HTML na text. Zatim to vypada jako nejschudnejsi varianta.
3.11.2011 11:56 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak ten skript vypadá úplně šíleně. Je složitý a přitom některé možnosti zápisu HTML vůbec neřeší. Na určité speciální případy se možná použít dá, ale parsery to řeší mnohem lépe.
3.11.2011 10:01 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Format vypada podle vseho asi takto:
<tr ....>
<th ....>
Z
</th>
</tr>
<tr ....>
<td ....>
X
</td>
<td ....>
Y
</td>
</tr>
Nedokazu odhadnout, zda se nekde uvnitr souboru formatovani nezmeni, zda tam neni napriklad prazdny radek.

Problem je, ze uvnitr tech policek muze byt cokoliv, zatim jsem tam nasel napriklad & nbsp ; a & quot ;.

Proto hledam takovy prevodovy mechanizmus, ktery je vyzkouseny take na UTF8 a UTF16 souborech, nebot pristi datovy soubor bude s cinskyma znakama. Prevod se musi povest na 100%, nemuzu si bohuzel dovolit zjistit za tyden ze jsem nejake specialni znaky v HTML zapomnel prevest.
3.11.2011 11:14 l4m4
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
S tak specifickými požadavky si to asi budeš muset napsat. Pokud je držení 250MB v paměti problém, tak použij v podstatě jakýkoli SAX parser v tvém oblíbeném jazyce, při textNode shdromažďuj hodnoty, pokud je přímý rodič td nebo th a při elementEnd elementu tr je vyplivni jako CSV řádek.
3.11.2011 23:48 rastos | skóre: 60 | blog: rastos
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Ja teda neviem ..., ale nešlo by urobiť niečo ako

cat vstup.html | tr -d \\n | sed -e 's,</tr ....><tr ....>,\n,g' -e 's,</td ....><td ....>,\n,g' > vystup.csv

?
3.11.2011 12:16 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak to vypada ze existuje i moznost opravit lynx. Narazil jsem na tuto diskuzi. Asi nejrychlejsi reseni pokud to bude fungovat.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.