Portál AbcLinuxu, 1. května 2025 14:02

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
Věroš avatar 11.12.2006 21:54 Věroš | skóre: 24 | blog: Co není v hlavě | 49.29 s.š., 16.54. v.d.
Rozbalit Rozbalit vše Re: Opravy; Jak na opravy HTML
Odpovědět | Sbalit | Link | Blokovat | Admin
Já jsem pro podobnou akci použil Tidy, Javový port se jmenuje JTidy (ale ten jsem nezkoušel).
Školím Ansible
11.12.2006 23:38 Pavel Kysilka
Rozbalit Rozbalit vše Re: Opravy; Jak na opravy HTML
To Leos: Taktez. Nejaky hotovy kody tu mam. Tak dej vedet, zda ti to mam poslat. Jen teda JTidy zere pekelne vykon. Delal jsem i takovy ptakoviny, jako import a cisteni html uploadnuteho souboru z wordu a protoze [dopln x duvodu z ceske spolecnosti], tak to hnije nekde na disku. Takze autora pak neotravujes html, ale pouze chces obsah.

-Ten prazdny radek vyhod a udelej, pokud mozno roletu s vyberem formatu, protoze co web to __jiny__ zpusob zadavani. Silene. Uz odradkovavam ze zvyku jinde, kde to neni potreba. Vice nebudu komentovat. Cilize to asi resit tim, ze das nejaky element pre a potom to smazes, az to das znovu do formulare. Ne -li, prejit na xslt a lidi muzou delat sablony. A naucit se par zakladnich prvku neni problem, pokud lidi nejsou lini a neschopni. Staci mit par zakladnich hotovych sablon.

- Jedno z reseni je dat html jako interni format. Coz neni spatne, ale ma to i sve nevyhody. A chces -li z toho udelat cisty text, tak pred nejakou transformaci je to hracka na par radek + optimalizovane parsery a transformacni knihovny.

- nekde jsem videl nastroj xmldiff. Mozna, ze by to bylo pouzitelne. Nevim, jak javove knihovny. A pokud by to bylo xhtml, tak neni co resit. A mozna, to bych videl jako nejlepsi cestu. Zmeny ve znackach.

- Jinak cisteni nevadlinich znacek a html nezavidim. Uz jsem si to uzil na 2 linuxovych ezinech. Ale porad lepsi nez cisteni databasi.

bye gf
12.12.2006 20:40 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Opravy; Jak na opravy HTML
Vsude jinde to maji spatne, jenom ja mam formatovani spravne ;-)

A ted vazne, fakt si myslim, ze radkovani podle odstavcu je hezci a elegantnejsi, nez davat BR za kazdy znak noveho radku. Vysledny text je pak naformatovan prirozeneji a IMHO vypada vyrazne lepe. Dale si dovolim tvrdit, ze negativnich reakci jsem zazil az prekvapive malo, jestli jich bylo za tech 5 let deset celkem, kdyz ted mame dle netmonitoru ctvrt milionu navstevniku mesicne ...
Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow
12.12.2006 07:33 Leoš Literák | skóre: 74 | blog: LL | Praha
Rozbalit Rozbalit vše Re: Opravy; Jak na opravy HTML
Prvni a zaroven posledni verze vysla v roce 2001 :-( V cvsku se sice objevuji commity, ale nikdo nereaguje na dotazy. Kazdy rok se nekdo zepta, kdy vyjde nova verze a nikdo nereaguje.
Zakladatel tohoto portálu. Twitter, LinkedIn, blog, StackOverflow
12.12.2006 08:14 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Opravy; Jak na opravy HTML
JTidy je problematická, jednak se moc nevyvíjí, jednak má problémy s některými konstrukcemi HTML a s kódováním souborů. Sám jsem kdysi použil NekoHTML a byl jsem s ním spokojen (k použití je nutný jenom xercesImpl.jar, který má asi 1,2 MB, to není tak hrozné). Používám ho v následujícím kódu, na jedné straně dám stream s HTML a na druhé straně mi z toho vyleze dom4j dokument XML.
import org.cyberneko.html.parsers.SAXParser;
import org.dom4j.Document;
import org.dom4j.io.SAXReader;

public class Main {
  private final SAXReader htmlReader;
  private final SAXParser parser = new SAXParser();
  private Document document;

  private Main() throws SAXNotRecognizedException, SAXNotSupportedException {
    prepareParser();
    htmlReader = new SAXReader(parser);
    document = htmlReader.read(… stream s HTML…);
  }

  private void prepareParser() throws SAXNotRecognizedException, SAXNotSupportedException {
    parser.setFeature("http://cyberneko.org/html/features/scanner/script/strip-comment-delims", true);
    parser.setFeature("http://cyberneko.org/html/features/scanner/style/strip-comment-delims", true);
    parser.setProperty("http://cyberneko.org/html/properties/names/elems", "lower");
    parser.setProperty("http://cyberneko.org/html/properties/names/attrs", "lower");
    parser.setProperty("http://cyberneko.org/html/properties/default-encoding", "windows-1250");
  }

}

Nedávno jsem narazil ještě na nový projekt HtmlCleaner, zatím jsem ho nezkoušel.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.