abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 17:28 | Bezpečnostní upozornění

Byly zveřejněny informace o bezpečnostní chybě CVE-2017-6074 v Linuxu zneužitelné k lokální eskalaci práv. Jde o chybu v podpoře DCCP (Datagram Congestion Control Protocol). Do linuxového jádra se dostala v říjnu 2005. V upstreamu byla opravena 17. února (commit). Bezpečnostní chyba byla nalezena pomocí nástroje syzkaller [Hacker News].

Ladislav Hagara | Komentářů: 2
dnes 15:00 | Zajímavý software

Společnost Valve vydala novou beta verzi SteamVR. Z novinek lze zdůraznit oficiální podporu Linuxu. Další informace o podpoře této platformy pro vývoj virtuální reality v Linuxu v diskusním fóru. Hlášení chyb na GitHubu.

Ladislav Hagara | Komentářů: 0
dnes 06:00 | Nová verze

Po necelém roce od vydání verze 0.67 byla vydána verze 0.68 populárního telnet a ssh klienta PuTTY. Podrobnosti v přehledu změn. Řešeny jsou také bezpečnostní chyby.

Ladislav Hagara | Komentářů: 0
včera 21:32 | Nasazení Linuxu

Canonical představuje nejnovější verzi chytré helmy DAQRI s Ubuntu pro rozšířenou realitu. K vidění bude příští týden v Barceloně na veletrhu Mobile World Congress 2017.

Ladislav Hagara | Komentářů: 0
včera 21:31 | Pozvánky

Pro zájemce o hlubší znalosti fungování operačních systémů připravila MFF UK nový předmět Pokročilé operační systémy, v rámci něhož se vystřídají přednášející nejen z řad pracovníků fakulty, ale dorazí také odborníci ze společností AVAST, Oracle, Red Hat a SUSE. Tento předmět volně navazuje na kurz Operační systémy ze zimního semestru, ale pokud máte praktické zkušenosti odjinud (například z přispívání do jádra Linuxu) a chcete si

… více »
Martin Děcký | Komentářů: 6
včera 21:30 | Pozvánky

Czech JBoss User Group Vás srdečně zve na setkání JBUG v Brně, které se koná ve středu 1. března 2017 v prostorách Fakulty Informatiky Masarykovy Univerzity v místnosti A318 od 18:00. Přednáší Tomáš Remeš a Matěj Novotný na téma CDI 2.0 - New and Noteworthy. Více informací na Facebooku a na Twitteru #jbugcz.

mjedlick | Komentářů: 0
20.2. 23:45 | Zajímavý software

Na blogu Qt bylo představeno Qt 3D Studio. Jedná se o produkt dosud známý pod názvem NVIDIA DRIVE™ Design Studio. NVIDIA jej věnovala Qt. Jedná se o několik set tisíc řádků zdrojového kódu. Qt 3D Studio bude stejně jako Qt k dispozici jak pod open source, tak pod komerční licencí. Ukázka práce s Qt 3D Studiem na YouTube.

Ladislav Hagara | Komentářů: 10
20.2. 17:50 | Komunita

Nadace The Document Foundation (TDF) zastřešující vývoj svobodného kancelářského balíku LibreOffice slaví 5 let od svého oficiálního vzniku. Nadace byla představena 28. září 2010. Formálně byla založena ale až 17. února 2012.

Ladislav Hagara | Komentářů: 0
20.2. 12:50 | Komunita

Mozilla.cz informuje, že dosud experimentální funkce Page Shot z programu Firefox Test Pilot (zprávička) se stane součástí Firefoxu. Page Shot je nástroj pro vytváření snímků webových stránek. Umí výběr oblasti, prvku stránky (např. odstavce), nebo uložení snímku celé stránky. Snímky lze ukládat na disk nebo nahrávat na server Mozilly. Nedávno bylo oznámeno, že se součástí Firefoxu stane Activity Stream.

Ladislav Hagara | Komentářů: 51
20.2. 04:10 | Nová verze

Po 10 týdnech vývoje od vydání Linuxu 4.9 (zprávička) oznámil Linus Torvalds, mj. již 20 let žijící v USA, vydání Linuxu 4.10 (LKML). Přehled nových vlastností a vylepšení například na Kernel Newbies a v Jaderných novinách (1, 2 a 3). Kódové jméno Linuxu 4.10 je Fearless Coyote.

Ladislav Hagara | Komentářů: 37
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (13%)
 (2%)
 (71%)
 (4%)
 (10%)
Celkem 685 hlasů
 Komentářů: 66, poslední dnes 18:57
Rozcestník

Dotaz: prevod HTML tabulky na csv soubor

2.11.2011 17:01 Milan Roubal | skóre: 25
prevod HTML tabulky na csv soubor
Přečteno: 508×
Zdravim, mam problem s prevodem HTML tabulky na datovy soubor, ktery by byl strojove zpracovatelny. Dosud jsem pro tuto operaci pouzival prikaz
lynx -width=8000 -dump "file:///temp/data.html" > data.txt
Bohuzel nejnovejsi datovy soubor uz ma vice nez 1000 znaku na vyrenderovanem radku a z nejakeho neznameho duvodu (asi vnitrni limit lynxu) se nejdelsi radek renderuje jen do 1000 znaku a pak zacne na novem radku. Bohuzel vysledek nema v tom pripade pravidelnou sloupcovou strukturu a sloupce jsou ruzne posunute o nepredikovatelny pocet mezer. Zdrojovy HTML soubor ma asi 215 MB.

Neznate nekdo nejaky jiny program, ktery zvladne prevest HTML tabulku na textovy soubor (at uz s pevnou sirkou sloupce nebo jako soubor s nejakym preddefinovanym oddelovacem? Diky za jakykoliv rozumny tip.

Odpovědi

2.11.2011 17:33 NN
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Nebyl by to idealni pripad napsat si vlastni skript ?

NN
2.11.2011 18:00 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Zkus v PHP DOMDocument::loadHTMLfile();
3.11.2011 10:40 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Diky za tip. Bohuzel jakykoliv nastroj, co udrzuje cely dokument najednou v pameti, neni dobry napad.
cezz avatar 3.11.2011 02:09 cezz | skóre: 24 | blog: dm6 | Žilina
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Computers are not intelligent. They only think they are.
bambas avatar 3.11.2011 08:04 bambas | skóre: 20 | blog: bambasovo
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
No naprevod tabulky dost na prd. Cekal bych, ze prevede tabulku tak, kazdy radek tabulky nacpe do jednoho radku txt souboru a hodnoty oddeli carkou ci strednikem.
3.11.2011 10:08 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Diky za tip, ale pro moje ucely to bohuzel neni pouzitelne. Ve vysledku zustavaji neprelozene znaky jako napriklad & nbsp; a dalsi.
cezz avatar 4.11.2011 09:43 cezz | skóre: 24 | blog: dm6 | Žilina
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak mozno iny z kvanta html2txt programov - co som tak narychlo pozeral, nasiel som 3 dalsie.
Computers are not intelligent. They only think they are.
3.11.2011 08:49 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Pokud je to jednoduchý pevný html formát, něco jako
<tr><td>X<td><td>Y<td></tr>
<tr><td>X<td><td>Y<td></tr>
tak to jednoduchých několik regulárních výrazů zvládne.
Nevím jak z velikostí toho souboru (trošku bych se bál), ale obecně OO Calc by to mohl načíst a uložit.
To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
3.11.2011 09:51 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Regulární výrazy jsou hezká věc a dlouho jsem je používal i k podobným účelům, ale jakýkoli HTML parser je praktičtější a spolehlivější.
3.11.2011 11:32 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Narazil jsem na tento soubor regularnich vyrazu, ktery pravdepodobne uz resi vetsinu zaludnosti prevodu HTML na text. Zatim to vypada jako nejschudnejsi varianta.
3.11.2011 11:56 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak ten skript vypadá úplně šíleně. Je složitý a přitom některé možnosti zápisu HTML vůbec neřeší. Na určité speciální případy se možná použít dá, ale parsery to řeší mnohem lépe.
3.11.2011 10:01 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Format vypada podle vseho asi takto:
<tr ....>
<th ....>
Z
</th>
</tr>
<tr ....>
<td ....>
X
</td>
<td ....>
Y
</td>
</tr>
Nedokazu odhadnout, zda se nekde uvnitr souboru formatovani nezmeni, zda tam neni napriklad prazdny radek.

Problem je, ze uvnitr tech policek muze byt cokoliv, zatim jsem tam nasel napriklad & nbsp ; a & quot ;.

Proto hledam takovy prevodovy mechanizmus, ktery je vyzkouseny take na UTF8 a UTF16 souborech, nebot pristi datovy soubor bude s cinskyma znakama. Prevod se musi povest na 100%, nemuzu si bohuzel dovolit zjistit za tyden ze jsem nejake specialni znaky v HTML zapomnel prevest.
3.11.2011 11:14 l4m4
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
S tak specifickými požadavky si to asi budeš muset napsat. Pokud je držení 250MB v paměti problém, tak použij v podstatě jakýkoli SAX parser v tvém oblíbeném jazyce, při textNode shdromažďuj hodnoty, pokud je přímý rodič td nebo th a při elementEnd elementu tr je vyplivni jako CSV řádek.
3.11.2011 23:48 rastos | skóre: 60 | blog: rastos
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Ja teda neviem ..., ale nešlo by urobiť niečo ako

cat vstup.html | tr -d \\n | sed -e 's,</tr ....><tr ....>,\n,g' -e 's,</td ....><td ....>,\n,g' > vystup.csv

?
3.11.2011 12:16 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
Tak to vypada ze existuje i moznost opravit lynx. Narazil jsem na tuto diskuzi. Asi nejrychlejsi reseni pokud to bude fungovat.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.