abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 00:11 | Nová verze

    Mastodon (Wikipedie) - sociální síť, která není na prodej - byl vydán ve verzi 4.5. Přehled novinek s náhledy v oznámení na blogu.

    Ladislav Hagara | Komentářů: 0
    včera 23:55 | IT novinky

    Německo zvažuje, že zaplatí místním telekomunikačním operátorům včetně Deutsche Telekom, aby nahradili zařízení od čínské firmy Huawei. Náklady na výměnu by mohly přesáhnout dvě miliardy eur (bezmála 49 miliard Kč). Jeden scénář počítá s tím, že vláda na tento záměr použije prostředky určené na obranu či infrastrukturu.

    Ladislav Hagara | Komentářů: 1
    včera 18:00 | Komunita

    Po dvaceti letech skončil leader japonské SUMO (SUpport.MOzilla.org) komunity Marsf. Důvodem bylo nasazení sumobota, který nedodržuje nastavené postupy a hrubě zasahuje do překladů i archivů. Marsf zároveň zakázal použití svých příspěvků a dat k učení sumobota a AI a požádal o vyřazení svých dat ze všech učebních dat.

    karkar | Komentářů: 3
    včera 11:00 | IT novinky

    Úřad pro ochranu hospodářské soutěže zahajuje sektorové šetření v oblasti mobilních telekomunikačních služeb poskytovaných domácnostem v České republice. Z poznatků získaných na základě prvotní analýzy provedené ve spolupráci s Českým telekomunikačním úřadem (ČTÚ) ÚOHS zjistil, že vzájemné vztahy mezi operátory je zapotřebí detailněji prověřit kvůli možné nefunkčnosti některých aspektů konkurence na trzích, na nichž roste tržní podíl klíčových hráčů a naopak klesá význam nezávislých virtuálních operátorů.

    Ladislav Hagara | Komentářů: 9
    včera 10:55 | Humor

    Různé audity bezpečnostních systémů pařížského muzea Louvre odhalily závažné problémy v oblasti kybernetické bezpečnosti a tyto problémy přetrvávaly déle než deset let. Jeden z těchto auditů, který v roce 2014 provedla francouzská národní agentura pro kybernetickou bezpečnost, například ukázal, že heslo do kamerového systému muzea bylo „Louvre“. 😀

    Ladislav Hagara | Komentářů: 14
    včera 01:00 | Komunita

    Z upstreamu GNOME Mutter byl zcela odstraněn backend X11. GNOME 50 tedy poběží už pouze nad Waylandem. Aplikace pro X11 budou využívat XWayland.

    Ladislav Hagara | Komentářů: 13
    včera 00:00 | IT novinky

    Byl publikován plán na odstranění XSLT z webových prohlížečů Chrome a Chromium. S odstraněním XSLT souhlasí také vývojáři Firefoxu a WebKit. Důvodem jsou bezpečnostní rizika a klesající využití v moderním webovém vývoji.

    Ladislav Hagara | Komentářů: 1
    5.11. 15:55 | Nová verze

    Desktopové prostředí LXQt (Lightweight Qt Desktop Environment, Wikipedie) vzniklé sloučením projektů Razor-qt a LXDE bylo vydáno ve verzi 2.3.0. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    5.11. 05:55 | IT novinky

    Organizace Open Container Initiative (OCI) (Wikipedie), projekt nadace Linux Foundation, vydala Runtime Specification 1.3 (pdf), tj. novou verzi specifikace kontejnerového běhového prostředí. Hlavní novinkou je podpora FreeBSD.

    Ladislav Hagara | Komentářů: 0
    4.11. 11:33 | IT novinky

    Nový open source router Turris Omnia NG je v prodeji. Aktuálně na Allegro, Alternetivo, Discomp, i4wifi a WiFiShop.

    Ladislav Hagara | Komentářů: 22
    Jaké řešení používáte k vývoji / práci?
     (35%)
     (48%)
     (18%)
     (17%)
     (22%)
     (15%)
     (21%)
     (16%)
     (16%)
    Celkem 321 hlasů
     Komentářů: 15, poslední 2.11. 08:25
    Rozcestník

    Dotaz: HTML Parser

    pele avatar 10.9.2006 18:06 pele | skóre: 28 | blog: Bleabr | UH
    HTML Parser
    Přečteno: 537×
    Zdravim vsechny, mam takovy maly problem, potreboval bych parsovat html. Problem je nasledujici, mam text s html znackami a chtel bych z textu ziskat, napriklad prvni odstavec uzavreny v <p></p> nebo koncici <br>. Jak na to, vim o existenci HTMLparseru ale moc jej neznam, hodilo by se nejake HOWTO, tutorial nebo priklady, na domovskych strankach toho moc neni, jen APIDoc. Takze pokud nekdo o necem vi dejte to pls do diskuze. Dik za rady.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.

    Odpovědi

    10.9.2006 18:11 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Zkus JTidy, nejlépe se umí vypořádat se špatným HTML a poskytuje DOM API.
    pele avatar 11.9.2006 08:25 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Problem je v tom, ze musi byt pouzit htmlparser
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 11:02 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
    Rozbalit Rozbalit vše Re: HTML Parser
    Vy jste se na JTidy ani nepodíval, že? JTidy *JE* HTML parser, který umí taky HTML zkrášlit. Je ze všech zde zmiňovaných nejlepší co se týče vypořádání se s nevalidním HTML, navíc je malý a má jednoduché API.
    11.9.2006 09:15 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    O jaký programovací jazyk se jedná?

    Pro C existuje Tidy, pro Javu JTidy – oba umí převést dokument na XHTML a pak už můžete pracovat s DOM a XPath. Dále pro Javu existuje např. htmlparser, dobrou zkušenost mám s NekoHTML.
    pele avatar 11.9.2006 10:43 pele | skóre: 28 | blog: Bleabr | UH
    Rozbalit Rozbalit vše Re: HTML Parser
    Jedna se o Javu. Stacilo by par prikladu nebo tutorial na problem popsany vyse. Ale musi to byt htmlParser.
    Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
    11.9.2006 12:11 thingie
    Rozbalit Rozbalit vše Re: HTML Parser
    Ukázka jeho použití je třeba přímo ve zdrojácích ábíčka. Ale je to dost jednoduché.
    11.9.2006 12:16 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Zatím vše zde v diskuzi uvedené jsou html parsery. Příklad na použití NekoHTML:
    import org.cyberneko.html.parsers.SAXParser;
    …
    SAXParser parser = new SAXParser();
        parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
        parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
        parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
        parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
    
    Nyní máte v parser klasický SAXParser, který implementuje org.xml.sax.Parser i org.xml.sax.XMLReader.
    11.9.2006 20:31 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: HTML Parser
    Ještě jeden: Jericho HTML Parser.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.