Přihlášení | Registrace

napište » Zprávičky

včera 18:00 | IT novinky

DuckDuckGo AI Chat umožňuje "pokecat si" s GPT-3.5 Turbo od OpenAI nebo Claude 1.2 Instant od Anthropic. Bez vytváření účtu. Všechny chaty jsou soukromé. DuckDuckGo je neukládá ani nepoužívá k trénování modelů umělé inteligence.

Ladislav Hagara | Komentářů: 1

VASA-1, generování mluvící hlavy z jediné fotky a zvukového záznamu

včera 14:22 | IT novinky

VASA-1, výzkumný projekt Microsoftu. Na vstupu stačí jediná fotka a zvukový záznam. Na výstupu je dokonalá mluvící nebo zpívající hlava. Prý si technologii nechá jenom pro sebe. Žádné demo, API nebo placená služba. Zatím.

Ladislav Hagara | Komentářů: 2

MagPi 140 a HackSpace 77

včera 04:44 | Nová verze

Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 140 (pdf) a HackSpace 77 (pdf).

Ladislav Hagara | Komentářů: 0

ESPHome 2024.4.0

včera 01:00 | Nová verze

ESPHome, tj. open source systém umožňující nastavovat zařízení s čipy ESP (i dalšími) pomocí konfiguračních souborů a připojit je do domácí automatizace, například do Home Assistantu, byl vydán ve verzi 2024.4.0.

Ladislav Hagara | Komentářů: 0

Open Platform for Enterprise AI (OPEA)

18.4. 22:11 | IT novinky

LF AI & Data Foundation patřící pod Linux Foundation spustila Open Platform for Enterprise AI (OPEA).

Ladislav Hagara | Komentářů: 0

OpenXR 1.1

18.4. 20:55 | Nová verze

Neziskové průmyslové konsorcium Khronos Group vydalo verzi 1.1 specifikace OpenXR (Wikipedie), tj. standardu specifikujícího přístup k platformám a zařízením pro XR, tj. platformám a zařízením pro AR (rozšířenou realitu) a VR (virtuální realitu). Do základu se z rozšíření dostalo XR_EXT_local_floor. Společnost Collabora implementuje novou verzi specifikace do platformy Monado, tj. open source implementace OpenXR.

Ladislav Hagara | Komentářů: 2

mpv 0.38.0

18.4. 17:22 | Nová verze

Byla vydána nová verze 0.38.0 multimediálního přehrávače mpv (Wikipedie) vycházejícího z přehrávačů MPlayer a mplayer2. Přehled novinek, změn a oprav na GitHubu. Požadován je FFmpeg 4.4 nebo novější a také libplacebo 6.338.2 nebo novější.

Ladislav Hagara | Komentářů: 13

ClamAV 1.3.1, 1.2.3 a 1.0.6

18.4. 17:11 | Nová verze

ClamAV (Wikipedie), tj. multiplatformní antivirový engine s otevřeným zdrojovým kódem pro detekci trojských koní, virů, malwaru a dalších škodlivých hrozeb, byl vydán ve verzích 1.3.1, 1.2.3 a 1.0.6. Ve verzi 1.3.1 je mimo jiné řešena bezpečnostní chyba CVE-2024-20380.

Ladislav Hagara | Komentářů: 2

Mobilní aplikace Portál občana je ode dneška oficiálně venku

18.4. 12:11 | IT novinky

Digitální a informační agentura (DIA) oznámila (PDF, X a Facebook), že mobilní aplikace Portál občana je ode dneška oficiálně venku.

Ladislav Hagara | Komentářů: 10

#HACKUJBRNO 2024

18.4. 05:11 | Komunita

#HACKUJBRNO 2024, byly zveřejněny výsledky a výstupy hackathonu města Brna nad otevřenými městskými daty, který se konal 13. a 14. dubna 2024.

Ladislav Hagara | Komentářů: 2

Centrum | Napsat | Starší

navrhněte » Anketa

KDE Plasma 6

už používám (68%)

čekám, až se dostane do mé distibuce (11%)

čekám na pozdější vydání v řadě (2%)

preferuji jiné desktopové prostředí (20%)

Celkem 566 hlasů

Komentářů: 4, poslední 6.4. 15:51

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Linuxová poradna / prevod HTML tabulky na csv soubor

Štítky: CSV, data, HTML, limit, problém, převod, web

Dotaz: prevod HTML tabulky na csv soubor

2.11.2011 17:01 Milan Roubal | skóre: 25
prevod HTML tabulky na csv soubor

Přečteno: 570×

Odpovědět | Admin

Zdravim, mam problem s prevodem HTML tabulky na datovy soubor, ktery by byl strojove zpracovatelny. Dosud jsem pro tuto operaci pouzival prikaz

lynx -width=8000 -dump "file:///temp/data.html" > data.txt

Bohuzel nejnovejsi datovy soubor uz ma vice nez 1000 znaku na vyrenderovanem radku a z nejakeho neznameho duvodu (asi vnitrni limit lynxu) se nejdelsi radek renderuje jen do 1000 znaku a pak zacne na novem radku. Bohuzel vysledek nema v tom pripade pravidelnou sloupcovou strukturu a sloupce jsou ruzne posunute o nepredikovatelny pocet mezer. Zdrojovy HTML soubor ma asi 215 MB.

Neznate nekdo nejaky jiny program, ktery zvladne prevest HTML tabulku na textovy soubor (at uz s pevnou sirkou sloupce nebo jako soubor s nejakym preddefinovanym oddelovacem? Diky za jakykoliv rozumny tip.

Nástroje: Začni sledovat (0) ?

Odpovědi

2.11.2011 17:33 NN
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Nebyl by to idealni pripad napsat si vlastni skript ?

2.11.2011 18:00 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Zkus v PHP DOMDocument::loadHTMLfile();

3.11.2011 10:40 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Diky za tip. Bohuzel jakykoliv nastroj, co udrzuje cely dokument najednou v pameti, neni dobry napad.

3.11.2011 02:09 cezz | skóre: 24 | blog: dm6
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

http://www.aaronsw.com/2002/html2text/ vyzera pouzitelne.

Computers are not intelligent. They only think they are.

3.11.2011 08:04 bambas | skóre: 20 | blog: bambasovo
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

No naprevod tabulky dost na prd. Cekal bych, ze prevede tabulku tak, kazdy radek tabulky nacpe do jednoho radku txt souboru a hodnoty oddeli carkou ci strednikem.

Cowboys from Hell

3.11.2011 10:08 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Diky za tip, ale pro moje ucely to bohuzel neni pouzitelne. Ve vysledku zustavaji neprelozene znaky jako napriklad & nbsp; a dalsi.

4.11.2011 09:43 cezz | skóre: 24 | blog: dm6
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Tak mozno iny z kvanta html2txt programov - co som tak narychlo pozeral, nasiel som 3 dalsie.

Computers are not intelligent. They only think they are.

3.11.2011 08:49 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Pokud je to jednoduchý pevný html formát, něco jako

<tr><td>X<td><td>Y<td></tr>
<tr><td>X<td><td>Y<td></tr>

tak to jednoduchých několik regulárních výrazů zvládne.
Nevím jak z velikostí toho souboru (trošku bych se bál), ale obecně OO Calc by to mohl načíst a uložit.

To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†

3.11.2011 09:51 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Regulární výrazy jsou hezká věc a dlouho jsem je používal i k podobným účelům, ale jakýkoli HTML parser je praktičtější a spolehlivější.

3.11.2011 11:32 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Narazil jsem na tento soubor regularnich vyrazu, ktery pravdepodobne uz resi vetsinu zaludnosti prevodu HTML na text. Zatim to vypada jako nejschudnejsi varianta.

3.11.2011 11:56 Kit
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Tak ten skript vypadá úplně šíleně. Je složitý a přitom některé možnosti zápisu HTML vůbec neřeší. Na určité speciální případy se možná použít dá, ale parsery to řeší mnohem lépe.

3.11.2011 10:01 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Format vypada podle vseho asi takto:

<tr ....>
<th ....>
Z
</th>
</tr>
<tr ....>
<td ....>
X
</td>
<td ....>
Y
</td>
</tr>

Nedokazu odhadnout, zda se nekde uvnitr souboru formatovani nezmeni, zda tam neni napriklad prazdny radek.

Problem je, ze uvnitr tech policek muze byt cokoliv, zatim jsem tam nasel napriklad & nbsp ; a & quot ;.

Proto hledam takovy prevodovy mechanizmus, ktery je vyzkouseny take na UTF8 a UTF16 souborech, nebot pristi datovy soubor bude s cinskyma znakama. Prevod se musi povest na 100%, nemuzu si bohuzel dovolit zjistit za tyden ze jsem nejake specialni znaky v HTML zapomnel prevest.

3.11.2011 11:14 l4m4
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

S tak specifickými požadavky si to asi budeš muset napsat. Pokud je držení 250MB v paměti problém, tak použij v podstatě jakýkoli SAX parser v tvém oblíbeném jazyce, při textNode shdromažďuj hodnoty, pokud je přímý rodič td nebo th a při elementEnd elementu tr je vyplivni jako CSV řádek.

3.11.2011 23:48 rastos | skóre: 62 | blog: rastos
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Ja teda neviem ..., ale nešlo by urobiť niečo ako

cat vstup.html | tr -d \\n | sed -e 's,</tr ....><tr ....>,\n,g' -e 's,</td ....><td ....>,\n,g' > vystup.csv

3.11.2011 12:16 Milan Roubal | skóre: 25
Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor

Tak to vypada ze existuje i moznost opravit lynx. Narazil jsem na tuto diskuzi. Asi nejrychlejsi reseni pokud to bude fungovat.

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje