abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 12:11 | Zajímavý článek

    Daniel Stenberg na svém blogu informuje, že po strncpy() byla ze zdrojových kódů curlu odstraněna také všechna volání funkce strcpy(). Funkci strcpy() nahradili vlastní funkcí curlx_strcopy().

    Ladislav Hagara | Komentářů: 0
    dnes 03:00 | Nová verze

    Byla vydána nová verze 25.12.30 svobodného multiplatformního video editoru Shotcut (Wikipedie) postaveného nad multimediálním frameworkem MLT. Shotcut je vedle zdrojových kódů k dispozici také ve formátech AppImage, Flatpak a Snap.

    Ladislav Hagara | Komentářů: 0
    včera 18:55 | IT novinky

    Společnost Valve publikovala přehled To nej roku 2025 ve službě Steam aneb ohlédnutí za nejprodávanějšími, nejhranějšími a dalšími nej hrami roku 2025.

    Ladislav Hagara | Komentářů: 0
    včera 16:11 | Komunita

    Byly publikovány výsledky průzkumu mezi uživateli Blenderu uskutečněného v říjnu a listopadu 2025. Zúčastnilo se více než 5000 uživatelů.

    Ladislav Hagara | Komentářů: 0
    včera 03:33 | Bezpečnostní upozornění

    V dokumentově orientované databázi MongoDB byla nalezena a v upstreamu již opravena kritická bezpečností chyba CVE-2025-14847 aneb MongoBleed.

    Ladislav Hagara | Komentářů: 0
    29.12. 23:11 | IT novinky

    Při úklidu na Utažské univerzitě se ve skladovacích prostorách náhodou podařilo nalézt magnetickou pásku s kopií Unixu V4. Páska byla zaslána do počítačového muzea, kde se z pásky úspěšně podařilo extrahovat data a Unix spustit. Je to patrně jediný známý dochovaný exemplář tohoto 52 let starého Unixu, prvního vůbec programovaného v jazyce C.

    🇨🇽 | Komentářů: 1
    29.12. 15:55 | Komunita

    FFmpeg nechal kvůli porušení autorských práv odstranit z GitHubu jeden z repozitářů patřících čínské technologické firmě Rockchip. Důvodem bylo porušení LGPL ze strany Rockchipu. Rockchip byl FFmpegem na porušování LGPL upozorněn již téměř před dvěma roky.

    🇨🇽 | Komentářů: 7
    29.12. 15:44 | Zajímavý software

    K dispozici je nový CLI nástroj witr sloužící k analýze běžících procesů. Název je zkratkou slov why-is-this-running, 'proč tohle běží'. Klade si za cíl v 'jediném, lidsky čitelném, výstupu vysvětlit odkud daný spuštěný proces pochází, jak byl spuštěn a jaký řetězec systémů je zodpovědný za to, že tento proces právě teď běží'. Witr je napsán v jazyce Go.

    🇨🇽 | Komentářů: 1
    29.12. 15:33 | Zajímavý software

    Yazi je správce souborů běžící v terminálu. Napsán je v programovacím jazyce Rust. Podporuje asynchronní I/O operace. Vydán byl v nové verzi 25.12.29. Instalovat jej lze také ze Snapcraftu.

    Ladislav Hagara | Komentářů: 0
    26.12. 18:44 | Komunita

    Od soboty do úterý probíhá v Hamburku konference 39C3 (Chaos Communication Congress) věnovaná také počítačové bezpečnosti nebo hardwaru. Program (jiná verze) slibuje řadu zajímavých přednášek. Streamy a záznamy budou k dispozici na media.ccc.de.

    Ladislav Hagara | Komentářů: 0
    Kdo vám letos nadělí dárek?
     (31%)
     (1%)
     (26%)
     (1%)
     (1%)
     (1%)
     (11%)
     (10%)
     (18%)
    Celkem 205 hlasů
     Komentářů: 21, poslední včera 18:58
    Rozcestník

    Dotaz: HTML Parser

    pele avatar 10.9.2006 18:06 pele | skóre: 28 | blog: Bleabr | UH
    HTML Parser
    Přečteno: 539×
    Zdravim vsechny, mam takovy maly problem, potreboval bych parsovat html. Problem je nasledujici, mam text s html znackami a chtel bych z textu ziskat, napriklad prvni odstavec uzavreny v <p></p> nebo koncici <br>. Jak na to, vim o existenci HTMLparseru ale moc jej neznam, hodilo by se nejake HOWTO, tutorial nebo priklady, na domovskych strankach toho moc neni, jen APIDoc. Takze pokud nekdo o necem vi dejte to pls do diskuze. Dik za rady.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.

    Odpovědi

    10.9.2006 18:11 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Zkus JTidy, nejlépe se umí vypořádat se špatným HTML a poskytuje DOM API.
    pele avatar 11.9.2006 08:25 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Problem je v tom, ze musi byt pouzit htmlparser
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 11:02 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Vy jste se na JTidy ani nepodíval, že? JTidy *JE* HTML parser, který umí taky HTML zkrášlit. Je ze všech zde zmiňovaných nejlepší co se týče vypořádání se s nevalidním HTML, navíc je malý a má jednoduché API.
    11.9.2006 09:15 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    O jaký programovací jazyk se jedná?

    Pro C existuje Tidy, pro Javu JTidy – oba umí převést dokument na XHTML a pak už můžete pracovat s DOM a XPath. Dále pro Javu existuje např. htmlparser, dobrou zkušenost mám s NekoHTML.
    pele avatar 11.9.2006 10:43 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Jedna se o Javu. Stacilo by par prikladu nebo tutorial na problem popsany vyse. Ale musi to byt htmlParser.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 12:11 thingie
    Rozbalit Rozbalit vše Re: HTML Parser
    Ukázka jeho použití je třeba přímo ve zdrojácích ábíčka. Ale je to dost jednoduché.
    11.9.2006 12:16 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Zatím vše zde v diskuzi uvedené jsou html parsery. Příklad na použití NekoHTML:
    import org.cyberneko.html.parsers.SAXParser;
    …
    SAXParser parser = new SAXParser();
        parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
        parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
        parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
    
    Nyní máte v parser klasický SAXParser, který implementuje org.xml.sax.Parser i org.xml.sax.XMLReader.
    11.9.2006 20:31 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Ještě jeden: Jericho HTML Parser.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.