abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

    včera 23:00 | Upozornění

    Podpora TORu v Debianu 11 Bullseye a 10 Buster byla ukončena. Doporučuje se přechod na Debian 12 Bookworm.

    Ladislav Hagara | Komentářů: 0
    včera 22:33 | IT novinky

    Příkaz "opakuj donekonečna" je nově v rozporu s podmínkami používání ChatGPT. Příkaz vedl k prozrazení trénovacích dat [/.].

    Ladislav Hagara | Komentářů: 1
    včera 21:55 | Nová verze

    GNU Project Debugger aneb GDB byl vydán ve verzi 14.1. Podrobný přehled novinek v souboru NEWS. Vypíchnout lze podporu NO_COLOR a Debugger Adapter Protocol (DAP).

    Ladislav Hagara | Komentářů: 0
    včera 16:55 | Nová verze

    Byla vydána verze 5.0 webového aplikačního frameworku napsaného v Pythonu Django (Wikipedie). Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 16:44 | Nová verze

    TuxClocker je Qt GUI nástroj pro monitorování a nastavování (přetaktovávání) hardwaru na Linuxu. Aktuální verze je 1.4.0. Z novinek lze vypíchnout monitorování využití AMD a NVIDIA VRAM nebo sledování spotřeby energie procesorů AMD a Intel.

    Ladislav Hagara | Komentářů: 0
    3.12. 09:44 | Komunita

    O víkendu (15:00 až 23:00) probíhá EmacsConf 2023, tj. online konference vývojářů a uživatelů editoru GNU Emacs. Sledovat ji lze na stránkách konference. Záznamy jsou k dispozici přímo z programu.

    Ladislav Hagara | Komentářů: 8
    2.12. 17:44 | Komunita

    Na čem aktuálně pracují vývojáři GNOME a KDE? Pravidelný přehled novinek i s náhledy aplikací v Týden v GNOME a Týden v KDE.

    Ladislav Hagara | Komentářů: 3
    1.12. 21:55 | Nová verze

    Organizace Apache Software Foundation (ASF) vydala verzi 20 integrovaného vývojového prostředí a vývojové platformy napsané v Javě NetBeans (Wikipedie). Přehled novinek na GitHubu. Instalovat lze také ze Snapcraftu a Flathubu.

    Ladislav Hagara | Komentářů: 0
    1.12. 17:22 | Nová verze

    Desktopové prostředí Cinnamon, vyvíjené primárně pro distribuci Linux Mint, dospělo do verze 6.0. Seznam změn obsahuje především menší opravy a v říjnovém přehledu novinek v Mintu avizovanou experimentální podporu Waylandu.

    Fluttershy, yay! | Komentářů: 10
    1.12. 13:44 | Nová verze

    OpenZFS (Wikipedie), tj. implementace souborového systému ZFS pro Linux a FreeBSD, byl vydán ve verzích 2.2.2 a 2.1.14. Přináší důležitou opravu chyby vedoucí k možnému poškození dat.

    Ladislav Hagara | Komentářů: 0
     (44%)
     (12%)
     (44%)
    Celkem 50 hlasů
     Komentářů: 1, poslední včera 22:13
    Rozcestník

    Dotaz: HTML Parser

    pele avatar 10.9.2006 18:06 pele | skóre: 28 | blog: Bleabr | UH
    HTML Parser
    Přečteno: 492×
    Zdravim vsechny, mam takovy maly problem, potreboval bych parsovat html. Problem je nasledujici, mam text s html znackami a chtel bych z textu ziskat, napriklad prvni odstavec uzavreny v <p></p> nebo koncici <br>. Jak na to, vim o existenci HTMLparseru ale moc jej neznam, hodilo by se nejake HOWTO, tutorial nebo priklady, na domovskych strankach toho moc neni, jen APIDoc. Takze pokud nekdo o necem vi dejte to pls do diskuze. Dik za rady.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.

    Odpovědi

    10.9.2006 18:11 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Zkus JTidy, nejlépe se umí vypořádat se špatným HTML a poskytuje DOM API.
    pele avatar 11.9.2006 08:25 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Problem je v tom, ze musi byt pouzit htmlparser
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 11:02 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Vy jste se na JTidy ani nepodíval, že? JTidy *JE* HTML parser, který umí taky HTML zkrášlit. Je ze všech zde zmiňovaných nejlepší co se týče vypořádání se s nevalidním HTML, navíc je malý a má jednoduché API.
    11.9.2006 09:15 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    O jaký programovací jazyk se jedná?

    Pro C existuje Tidy, pro Javu JTidy – oba umí převést dokument na XHTML a pak už můžete pracovat s DOM a XPath. Dále pro Javu existuje např. htmlparser, dobrou zkušenost mám s NekoHTML.
    pele avatar 11.9.2006 10:43 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Jedna se o Javu. Stacilo by par prikladu nebo tutorial na problem popsany vyse. Ale musi to byt htmlParser.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 12:11 thingie
    Rozbalit Rozbalit vše Re: HTML Parser
    Ukázka jeho použití je třeba přímo ve zdrojácích ábíčka. Ale je to dost jednoduché.
    11.9.2006 12:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Zatím vše zde v diskuzi uvedené jsou html parsery. Příklad na použití NekoHTML:
    import org.cyberneko.html.parsers.SAXParser;
    …
    SAXParser parser = new SAXParser();
        parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
        parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
        parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
    
    Nyní máte v parser klasický SAXParser, který implementuje org.xml.sax.Parser i org.xml.sax.XMLReader.
    11.9.2006 20:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Ještě jeden: Jericho HTML Parser.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.