Portál AbcLinuxu, 30. října 2025 13:41
A ted vazne, fakt si myslim, ze radkovani podle odstavcu je hezci a elegantnejsi, nez davat BR za kazdy znak noveho radku. Vysledny text je pak naformatovan prirozeneji a IMHO vypada vyrazne lepe. Dale si dovolim tvrdit, ze negativnich reakci jsem zazil az prekvapive malo, jestli jich bylo za tech 5 let deset celkem, kdyz ted mame dle netmonitoru ctvrt milionu navstevniku mesicne ...
V cvsku se sice objevuji commity, ale nikdo nereaguje na dotazy. Kazdy rok se nekdo zepta, kdy vyjde nova verze a nikdo nereaguje.
import org.cyberneko.html.parsers.SAXParser;
import org.dom4j.Document;
import org.dom4j.io.SAXReader;
public class Main {
private final SAXReader htmlReader;
private final SAXParser parser = new SAXParser();
private Document document;
private Main() throws SAXNotRecognizedException, SAXNotSupportedException {
prepareParser();
htmlReader = new SAXReader(parser);
document = htmlReader.read(… stream s HTML…);
}
private void prepareParser() throws SAXNotRecognizedException, SAXNotSupportedException {
parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
}
}
Nedávno jsem narazil ještě na nový projekt HtmlCleaner, zatím jsem ho nezkoušel.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.