Portál AbcLinuxu, 9. května 2025 06:09

Dotaz: HTML Parser

pele avatar 10.9.2006 18:06 pele | skóre: 28 | blog: Bleabr | UH
HTML Parser
Přečteno: 530×
Odpovědět | Admin
Zdravim vsechny, mam takovy maly problem, potreboval bych parsovat html. Problem je nasledujici, mam text s html znackami a chtel bych z textu ziskat, napriklad prvni odstavec uzavreny v <p></p> nebo koncici <br>. Jak na to, vim o existenci HTMLparseru ale moc jej neznam, hodilo by se nejake HOWTO, tutorial nebo priklady, na domovskych strankach toho moc neni, jen APIDoc. Takze pokud nekdo o necem vi dejte to pls do diskuze. Dik za rady.
Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

10.9.2006 18:11 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
Rozbalit Rozbalit vše Re: HTML Parser
Odpovědět | | Sbalit | Link | Blokovat | Admin
Zkus JTidy, nejlépe se umí vypořádat se špatným HTML a poskytuje DOM API.
Later --- Lukáš Zapletal
pele avatar 11.9.2006 08:25 pele | skóre: 28 | blog: Bleabr | UH
Rozbalit Rozbalit vše Re: HTML Parser
Problem je v tom, ze musi byt pouzit htmlparser
Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
11.9.2006 11:02 Lukáš Zapletal | skóre: 42 | blog: lzapův svět | Olomouc
Rozbalit Rozbalit vše Re: HTML Parser
Vy jste se na JTidy ani nepodíval, že? JTidy *JE* HTML parser, který umí taky HTML zkrášlit. Je ze všech zde zmiňovaných nejlepší co se týče vypořádání se s nevalidním HTML, navíc je malý a má jednoduché API.
11.9.2006 09:15 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: HTML Parser
Odpovědět | | Sbalit | Link | Blokovat | Admin
O jaký programovací jazyk se jedná?

Pro C existuje Tidy, pro Javu JTidy – oba umí převést dokument na XHTML a pak už můžete pracovat s DOM a XPath. Dále pro Javu existuje např. htmlparser, dobrou zkušenost mám s NekoHTML.
pele avatar 11.9.2006 10:43 pele | skóre: 28 | blog: Bleabr | UH
Rozbalit Rozbalit vše Re: HTML Parser
Jedna se o Javu. Stacilo by par prikladu nebo tutorial na problem popsany vyse. Ale musi to byt htmlParser.
Pravda má jednu velkou výhodu: člověk si nemusí pamatovat, co řekl.
11.9.2006 12:11 thingie
Rozbalit Rozbalit vše Re: HTML Parser
Ukázka jeho použití je třeba přímo ve zdrojácích ábíčka. Ale je to dost jednoduché.
11.9.2006 12:16 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: HTML Parser
Zatím vše zde v diskuzi uvedené jsou html parsery. Příklad na použití NekoHTML:
import org.cyberneko.html.parsers.SAXParser;
…
SAXParser parser = new SAXParser();
    parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
    parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
    parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
    parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
    parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
Nyní máte v parser klasický SAXParser, který implementuje org.xml.sax.Parser i org.xml.sax.XMLReader.
11.9.2006 20:31 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: HTML Parser
Ještě jeden: Jericho HTML Parser.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.