abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

21.4. 15:00 | Komunita

V diskusním listu Thunderbird planning vývojáři poštovního klienta Thunderbird řeší, zda by nebylo možné budoucí Thunderbird postavit nad webovými technologiemi, tj. nad Electronem, stejně jako například Nylas Mail. Gecko, nad kterým je Thunderbird postaven, se má hodně změnit. V plánu je odstranění vlastností, které Firefox už nepotřebuje, ale Thunderbird je na nich závislý [Hacker News, reddit].

Ladislav Hagara | Komentářů: 74
21.4. 10:22 | Bezpečnostní upozornění

Společnost Oracle vydala čtvrtletní bezpečnostní aktualizaci svých softwarových produktů (CPU, Critical Patch Update). Opraveno bylo celkově 299 bezpečnostních chyb. V Oracle Java SE je například opraveno 8 bezpečnostních chyb. Vzdáleně zneužitelných bez autentizace je 7 z nich. V Oracle MySQL je opraveno 39 bezpečnostních chyb. Vzdáleně zneužitelných bez autentizace je 11 z nich.

Ladislav Hagara | Komentářů: 6
21.4. 10:00 | Pozvánky

V úterý 25. dubna proběhne další Prague Containers Meetup. Přijďte se nechat inspirovat jak zlepšit build/delivery pipeline vašich kontejnerových aplikací.

little-drunk-jesus | Komentářů: 2
20.4. 21:33 | Komunita

Na Launchpadu se objevilo kódové jméno následující verze Ubuntu. Ubuntu 17.10 bude Artful Aardvark (mazaný hrabáč) [OMG! Ubuntu!].

Ladislav Hagara | Komentářů: 9
20.4. 20:11 | Zajímavý software

MojeFedora.cz informuje, že společnost Nylas oznámila vydání verze 2.0 poštovního klienta Nylas Mail (původně Nylas N1), která již plně podporuje Linux. Obchodní model společnosti je tzv. open core. Samotný klient je open source, ale uživatel si musí připlatit za některé pokročilé funkce. V základu se lze připojit k GMailu nebo libovolnému účtu přes IMAP. Podpora Exchange je pouze v placené verzi. Klient je napsaný nad Electronem.

Ladislav Hagara | Komentářů: 12
20.4. 15:55 | Zajímavý článek

České centrum pro investigativní žurnalistiku (ČCIŽ) publikovalo na svých stránkách článek s názvem Je česká státní správa „rukojmím Microsoftu“?. Drtivá většina české veřejné správy je závislá na výrobcích softwarového gigantu Microsoft – a nijak zvlášť jí to nevadí.

Ladislav Hagara | Komentářů: 16
20.4. 02:48 | Nová verze

Google Chrome 58 byl prohlášen za stabilní. Nejnovější stabilní verze 58.0.3029.81 tohoto webového prohlížeče přináší řadu oprav a vylepšení (YouTube). Opraveno bylo 29 bezpečnostních chyb. Mezi nimi i chyba umožňující phishing s unicode doménami.

Ladislav Hagara | Komentářů: 0
19.4. 22:44 | Nová verze

Po šesti týdnech od vydání verze 52.0 byla vydána verze 53.0 webového prohlížeče Mozilla Firefox. Z novinek lze upozornit například na nové kompaktní vzhledy – tmavý z Firefoxu Developer Edition a jeho světlá varianta. Na Linuxu byla ukončena podpora procesorů starších než Pentium 4 a AMD Opteron. Podrobné informace v poznámkách k vydání a na stránce věnované vývojářům. Řešeny jsou také bezpečnostní chyby.

Ladislav Hagara | Komentářů: 11
19.4. 17:44 | IT novinky

Realtimová strategická počítačová hra StarCraft a její rozšíření StarCraft: Brood War jsou ode dneška zdarma. Společnost Blizzard Entertainment chystá remasterovanou verzi (YouTube) a při té příležitosti se rozhodla neremasterovanou verzi aktualizovat a dát ji ode dneška k dispozici zdarma. Hru lze na Linuxu hrát pod Wine.

Ladislav Hagara | Komentářů: 3
18.4. 13:11 | Bezpečnostní upozornění

CSIRT.CZ upozorňuje na chybu v prohlížečích Chrome a Firefox umožňující vytvořit phishingovou stránku, kterou lze jen velmi těžko identifikovat jako závadnou. Chyba spočívá v implementaci ochrany proti dávno známému útoku homograph attack. Čínský bezpečnostní expert Xudong Zheng zjistil, že ochrana proti tomuto útoku selže v okamžiku, kdy doménové jméno obsahuje všechny znaky v jiném jazyce. Viz například аррӏе.com vs. apple.com nebo еріс.com vs. еріс.com.

Ladislav Hagara | Komentářů: 40
Chystáte se pořídit CPU AMD Ryzen?
 (4%)
 (35%)
 (0%)
 (7%)
 (45%)
 (9%)
Celkem 267 hlasů
 Komentářů: 31, poslední 20.4. 21:26
    Rozcestník

    Dotaz: prevod HTML tabulky na csv soubor

    2.11.2011 17:01 Milan Roubal | skóre: 25
    prevod HTML tabulky na csv soubor
    Přečteno: 510×
    Zdravim, mam problem s prevodem HTML tabulky na datovy soubor, ktery by byl strojove zpracovatelny. Dosud jsem pro tuto operaci pouzival prikaz
    lynx -width=8000 -dump "file:///temp/data.html" > data.txt
    
    Bohuzel nejnovejsi datovy soubor uz ma vice nez 1000 znaku na vyrenderovanem radku a z nejakeho neznameho duvodu (asi vnitrni limit lynxu) se nejdelsi radek renderuje jen do 1000 znaku a pak zacne na novem radku. Bohuzel vysledek nema v tom pripade pravidelnou sloupcovou strukturu a sloupce jsou ruzne posunute o nepredikovatelny pocet mezer. Zdrojovy HTML soubor ma asi 215 MB.

    Neznate nekdo nejaky jiny program, ktery zvladne prevest HTML tabulku na textovy soubor (at uz s pevnou sirkou sloupce nebo jako soubor s nejakym preddefinovanym oddelovacem? Diky za jakykoliv rozumny tip.

    Odpovědi

    2.11.2011 17:33 NN
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Nebyl by to idealni pripad napsat si vlastni skript ?

    NN
    2.11.2011 18:00 Kit
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Zkus v PHP DOMDocument::loadHTMLfile();
    3.11.2011 10:40 Milan Roubal | skóre: 25
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Diky za tip. Bohuzel jakykoliv nastroj, co udrzuje cely dokument najednou v pameti, neni dobry napad.
    cezz avatar 3.11.2011 02:09 cezz | skóre: 24 | blog: dm6 | Žilina
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Computers are not intelligent. They only think they are.
    bambas avatar 3.11.2011 08:04 bambas | skóre: 20 | blog: bambasovo
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    No naprevod tabulky dost na prd. Cekal bych, ze prevede tabulku tak, kazdy radek tabulky nacpe do jednoho radku txt souboru a hodnoty oddeli carkou ci strednikem.
    3.11.2011 10:08 Milan Roubal | skóre: 25
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Diky za tip, ale pro moje ucely to bohuzel neni pouzitelne. Ve vysledku zustavaji neprelozene znaky jako napriklad & nbsp; a dalsi.
    cezz avatar 4.11.2011 09:43 cezz | skóre: 24 | blog: dm6 | Žilina
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Tak mozno iny z kvanta html2txt programov - co som tak narychlo pozeral, nasiel som 3 dalsie.
    Computers are not intelligent. They only think they are.
    3.11.2011 08:49 Šangala | skóre: 56 | blog: Dutá Vrba - Wally
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Pokud je to jednoduchý pevný html formát, něco jako
    <tr><td>X<td><td>Y<td></tr>
    <tr><td>X<td><td>Y<td></tr>
    tak to jednoduchých několik regulárních výrazů zvládne.
    Nevím jak z velikostí toho souboru (trošku bych se bál), ale obecně OO Calc by to mohl načíst a uložit.
    To, že trpíš stihomamem, ještě neznamená, že po tobě nejdou. ⰞⰏⰉⰓⰀⰜⰉ ⰗⰞⰅⰜⰘ ⰈⰅⰏⰉ ⰒⰑⰎⰉⰁⰕⰅ ⰏⰉ ⰒⰓⰄⰅⰎ ·:⁖⁘⁙†
    3.11.2011 09:51 Kit
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Regulární výrazy jsou hezká věc a dlouho jsem je používal i k podobným účelům, ale jakýkoli HTML parser je praktičtější a spolehlivější.
    3.11.2011 11:32 Milan Roubal | skóre: 25
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Narazil jsem na tento soubor regularnich vyrazu, ktery pravdepodobne uz resi vetsinu zaludnosti prevodu HTML na text. Zatim to vypada jako nejschudnejsi varianta.
    3.11.2011 11:56 Kit
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Tak ten skript vypadá úplně šíleně. Je složitý a přitom některé možnosti zápisu HTML vůbec neřeší. Na určité speciální případy se možná použít dá, ale parsery to řeší mnohem lépe.
    3.11.2011 10:01 Milan Roubal | skóre: 25
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Format vypada podle vseho asi takto:
    <tr ....>
    <th ....>
    Z
    </th>
    </tr>
    <tr ....>
    <td ....>
    X
    </td>
    <td ....>
    Y
    </td>
    </tr>
    
    Nedokazu odhadnout, zda se nekde uvnitr souboru formatovani nezmeni, zda tam neni napriklad prazdny radek.

    Problem je, ze uvnitr tech policek muze byt cokoliv, zatim jsem tam nasel napriklad & nbsp ; a & quot ;.

    Proto hledam takovy prevodovy mechanizmus, ktery je vyzkouseny take na UTF8 a UTF16 souborech, nebot pristi datovy soubor bude s cinskyma znakama. Prevod se musi povest na 100%, nemuzu si bohuzel dovolit zjistit za tyden ze jsem nejake specialni znaky v HTML zapomnel prevest.
    3.11.2011 11:14 l4m4
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    S tak specifickými požadavky si to asi budeš muset napsat. Pokud je držení 250MB v paměti problém, tak použij v podstatě jakýkoli SAX parser v tvém oblíbeném jazyce, při textNode shdromažďuj hodnoty, pokud je přímý rodič td nebo th a při elementEnd elementu tr je vyplivni jako CSV řádek.
    3.11.2011 23:48 rastos | skóre: 60 | blog: rastos
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Ja teda neviem ..., ale nešlo by urobiť niečo ako

    cat vstup.html | tr -d \\n | sed -e 's,</tr ....><tr ....>,\n,g' -e 's,</td ....><td ....>,\n,g' > vystup.csv

    ?
    3.11.2011 12:16 Milan Roubal | skóre: 25
    Rozbalit Rozbalit vše Re: prevod HTML tabulky na csv soubor
    Tak to vypada ze existuje i moznost opravit lynx. Narazil jsem na tuto diskuzi. Asi nejrychlejsi reseni pokud to bude fungovat.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.