abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 22:22 | Komunita

    Open source webový aplikační framework Django slaví 20. narozeniny.

    Ladislav Hagara | Komentářů: 0
    včera 16:11 | Komunita

    V Brestu dnes začala konference vývojářů a uživatelů linuxové distribuce Debian DebConf25. Na programu je řada zajímavých přednášek. Sledovat je lze online.

    Ladislav Hagara | Komentářů: 0
    včera 11:33 | IT novinky

    Před 30 lety, tj. 14. července 1995, se začala používat přípona .mp3 pro soubory s hudbou komprimovanou pomocí MPEG-2 Audio Layer 3.

    Ladislav Hagara | Komentářů: 15
    včera 10:55 | IT novinky

    Výroba 8bitových domácích počítačů Commodore 64 byla ukončena v dubnu 1994. Po více než 30 letech byl představen nový oficiální Commodore 64 Ultimate (YouTube). S deskou postavenou na FPGA. Ve 3 edicích v ceně od 299 dolarů a plánovaným dodáním v říjnu a listopadu letošního roku.

    Ladislav Hagara | Komentářů: 16
    13.7. 17:55 | Zajímavý projekt

    Společnost Hugging Face ve spolupráci se společností Pollen Robotics představila open source robota Reachy Mini (YouTube). Předobjednat lze lite verzi za 299 dolarů a wireless verzi s Raspberry Pi 5 za 449 dolarů.

    Ladislav Hagara | Komentářů: 11
    11.7. 16:44 | Komunita

    Dnes v 17:30 bude oficiálně vydána open source počítačová hra DOGWALK vytvořena v 3D softwaru Blender a herním enginu Godot. Release party proběhne na YouTube od 17:00.

    Ladislav Hagara | Komentářů: 3
    11.7. 14:55 | Humor

    McDonald's se spojil se společností Paradox a pracovníky nabírá také pomocí AI řešení s virtuální asistentkou Olivii běžící na webu McHire. Ian Carroll a Sam Curry se na toto AI řešení blíže podívali a opravdu je překvapilo, že se mohli přihlásit pomocí jména 123456 a hesla 123456 a získat přístup k údajům o 64 milionech uchazečů o práci.

    Ladislav Hagara | Komentářů: 16
    11.7. 00:11 | Nová verze

    Byla vydána (𝕏) červnová aktualizace aneb nová verze 1.102 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.102 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

    Ladislav Hagara | Komentářů: 0
    10.7. 21:00 | Bezpečnostní upozornění

    Byla vydána nová verze 2.4.64 svobodného multiplatformního webového serveru Apache (httpd). Řešeno je mimo jiné 8 bezpečnostních chyb.

    Ladislav Hagara | Komentářů: 4
    10.7. 15:22 | Nová verze

    Společnost xAI na síti 𝕏 představila Grok 4, tj. novou verzi svého AI LLM modelu Grok.

    Ladislav Hagara | Komentářů: 12
    Jaký je váš oblíbený skriptovací jazyk?
     (59%)
     (26%)
     (7%)
     (3%)
     (1%)
     (1%)
     (4%)
    Celkem 393 hlasů
     Komentářů: 16, poslední 8.6. 21:05
    Rozcestník

    Dotaz: HTML Parser

    pele avatar 10.9.2006 18:06 pele | skóre: 28 | blog: Bleabr | UH
    HTML Parser
    Přečteno: 530×
    Zdravim vsechny, mam takovy maly problem, potreboval bych parsovat html. Problem je nasledujici, mam text s html znackami a chtel bych z textu ziskat, napriklad prvni odstavec uzavreny v <p></p> nebo koncici <br>. Jak na to, vim o existenci HTMLparseru ale moc jej neznam, hodilo by se nejake HOWTO, tutorial nebo priklady, na domovskych strankach toho moc neni, jen APIDoc. Takze pokud nekdo o necem vi dejte to pls do diskuze. Dik za rady.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.

    Odpovědi

    10.9.2006 18:11 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Zkus JTidy, nejlépe se umí vypořádat se špatným HTML a poskytuje DOM API.
    pele avatar 11.9.2006 08:25 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Problem je v tom, ze musi byt pouzit htmlparser
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 11:02 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Vy jste se na JTidy ani nepodíval, že? JTidy *JE* HTML parser, který umí taky HTML zkrášlit. Je ze všech zde zmiňovaných nejlepší co se týče vypořádání se s nevalidním HTML, navíc je malý a má jednoduché API.
    11.9.2006 09:15 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    O jaký programovací jazyk se jedná?

    Pro C existuje Tidy, pro Javu JTidy – oba umí převést dokument na XHTML a pak už můžete pracovat s DOM a XPath. Dále pro Javu existuje např. htmlparser, dobrou zkušenost mám s NekoHTML.
    pele avatar 11.9.2006 10:43 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Jedna se o Javu. Stacilo by par prikladu nebo tutorial na problem popsany vyse. Ale musi to byt htmlParser.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 12:11 thingie
    Rozbalit Rozbalit vše Re: HTML Parser
    Ukázka jeho použití je třeba přímo ve zdrojácích ábíčka. Ale je to dost jednoduché.
    11.9.2006 12:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Zatím vše zde v diskuzi uvedené jsou html parsery. Příklad na použití NekoHTML:
    import org.cyberneko.html.parsers.SAXParser;
    …
    SAXParser parser = new SAXParser();
        parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
        parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
        parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
    
    Nyní máte v parser klasický SAXParser, který implementuje org.xml.sax.Parser i org.xml.sax.XMLReader.
    11.9.2006 20:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Ještě jeden: Jericho HTML Parser.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.