Převod formátovaného textu na prostý text

18.10.2011 21:03 | Přečteno: 1983× | XML | poslední úprava: 18.10.2011 21:03

Nějak mi do toho nepasují ti uživatelé. Jaké XML to vyrábí? Nějaké manuály? Než řešit ty hrůzy, které vygenerují, raději nasadit nějaký editor, kde to nemůžou pokazit. Kdysi jsem četl o nějakém XML editoru, kde lze omezit použité značky a nic mimo uživatelé nezadají. Taky to nepovolí nevalidní XML.

19.10.2011 11:15 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

V současnosti to provozuji nad databází Drupalu, kam ty texty zadávají uživatelé buď přes WYSIWYG editor nebo ručně. Což o to, Drupal má nějaké svoje vlastní filtry a před vypsáním textu na stránku ho trochu učeše. Ale to moje řešení by mělo být obecné a mělo by být schopné vzít libovolný vstup alespoň vzdáleně připomínající HTML a nějak ho zobrazit. Jedním výstupem je XHTML (s omezenou množinou značek a atributů) a druhým ten prostý text.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

19.10.2011 13:55 lacik
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Zrovna po nějakém takovém editoru pátrám; ideálně takovém, který dokáže načíst DTD a v místě kurzoru povolí jen ty značky (s parametry), které DTD povolí. A wysiwyg nepotřebuji (nechci). Jakékoli tipy vítám.

20.10.2011 12:36 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

<!DOCTYPE html>

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

20.10.2011 16:49 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Co je to za editor?

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

20.10.2011 16:51 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Jaký proboha editor? To je platný začátek dokumentu nejnovější verze HTML, tak jak se píše ve standardu.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

20.10.2011 16:58 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Ale lacik se ptal na editoru, který by umožňoval vkládat jen značky/atributy na daném místě povolené. Myslel jsem, že to nějak souvisí, když jsi to vložil jako reakci na něj.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

20.10.2011 17:10 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Ale on psal o tom, že by podle DOCTYPE určoval, co tam přesně smí a nesmí být. Tak mě zajímá, kolik toho určí podle tohoto DOCTYPE, který se dává jenom kvůli zpětné kompatibilitě a buď zůstane stejný, nebo postupně vymizí. Vždyť tam není ani odkaz na DTD a navíc nebude ustálené v čase!

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

20.10.2011 18:16 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Ale on psal o tom, že by podle DOCTYPE určoval, co tam přesně smí a nesmí být.

Já tam tedy DOCTYPE nikde nevidím. Pochopil jsem ho tak, že by ten editor měl jako parametr cestu k DTD a podle něj nabízel uživateli značky (nebo aspoň zakazoval napsat ty nepovolené).

Tak mě zajímá, kolik toho určí podle tohoto DOCTYP

Podle toho, který jsi napsal ty, asi nijak, což mi přijde jako nevýhoda (té deklarace, ne toho editoru).

Vždyť tam není ani odkaz na DTD

Což je podle mého krok zpátky.

a navíc nebude ustálené v čase!

Zrovna svačím a ty mi píšeš takové věci, ze kterých se mi dělá špatně. Fuj! :-)

Fakt mi přijde jako dost důležitá a užitečná věc, vědět, v jaké verzi formátu je nějaký dokument vytvořený – i kdybych to nakonec riskl a pokusil se ho nějak zpracovat, přestože jde o novější formát, než můj software podporuje. Minimálně můžu aspoň uživatele varovat, že může dojít k chybám a jestli chce pokračovat.

Na světě se může současně používat různě starý software – ne všichni musí mít nejnovější verzi a podporovat nejnovější formát. A teď si představ, že na tom dokumentu pracuje třeba víc lidí a každý má jiný editor. Když bude verze uvedená přímo v dokumentu, dá se snadno předejít situaci, že někdo v dokumentu použije nové vlastnosti a ostatním to přestane fungovat. Když tam ta verze není, tak musíš např. všem napsat e-mail, které funkce/značky mohou používat a které ne. Ale přijde mi zbytečné a hloupé tu informaci o použité verzi šířit takhle bokem a nespolehlivě, když může být přímo v tom dokumentu. Naštěstí snad každý slušný formát takhle verzovaný je.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

20.10.2011 18:40 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Mně to přijde jako výhoda té deklarace, že se podle ní lidi nebudou snažit odvodit víc než jen že je to nějaké html.

HTML je taková sprasenina, XHTML (tak jak bylo vymyšleno se zpětnou kompatibilitou k HTML) je sprasenina velmi podobná, nehledě na to, že celý smysl XML je v rozšiřitelnosti a skládání různých typů značek, a DTD tuto rozšiřitelnost moc nezvládají.

Takže když už to musí být nutně XML, které jako formát není nic moc a doprovodné jazyky jako XSL apod taky nejsou kdejaké zázraky, tak aspoň ať je to postaveno tak, aby to fungovalo všechno dohromady.

Takže když identifikátor verze, tak třeba namespace, protože některé typy dokumentů můžou obsahovat kontejnery s libovolnými jinými vloženými dokumenty.

Ono vůbec celé XML bojuje s tím, že se do něj dávají jak strukturovaná data, tak strukturované dokumenty (tzn. včetně whitespace a mixed content), což jsou dva diametrálně odlišné účely, které vyžadují diametrálně odlišné postupy (zvlášť ohledně ubírání/přidávání whitespace), že fakt nevím, co komu muselo spadnout na hlavu.

Kdykoli můžu, tak na strukturovaná data používám třeba JSON (a třeba si v něm sám ošetřím namespaces), a světe div se, ani ty dokumenty obvyle nepíšu v XML, ale radši si napíšu konvertor z wiki-like jazyka, než abych to musel psát přímo.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

20.10.2011 20:18 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Mně to přijde jako výhoda té deklarace, že se podle ní lidi nebudou snažit odvodit víc než jen že je to nějaké html.

Že jde o HTML/XHTML zjistím podle MIME typu nebo třeba podle přípony – tedy ještě vně dokumentu. Uvnitř toho dokumentu bych pak ale čekal, že se někde dozvím, která verze formátu to je (jakýmkoli rozumným způsobem, nemusí to být DOCTYPE deklarace).

nehledě na to, že celý smysl XML je v rozšiřitelnosti a skládání různých typů značek, a DTD tuto rozšiřitelnost moc nezvládají.

Můžeš vkládat SVG, MathML, RDF… přímo do XHTML dokumentu a oddělené je to jmennými prostory. Řekl bych, že to tedy celkem zvládá (a DTDčka jsou modulární). Ale stejně bych místo DTD používal spíš XSD případně jiný novější jazyk pro popis dokumentů.

a doprovodné jazyky jako XSL apod taky nejsou kdejaké zázraky

No vidíš a mně ty šablony <xsl:template match="…"/> přijdou docela šikovné. Např. u toho převodníku, co jsem teď psal, si to moc nedovedu představit v něčem jiném tak, aby to bylo přehlednější a lépe se to psalo. A i ty další „doprovodné jazyky“ jako XPath nebo XQuery jsou dost dobré – skoro tak dobré jako SQL, možná v něčem i lepší :-)

Takže když identifikátor verze, tak třeba namespace, protože některé typy dokumentů můžou obsahovat kontejnery s libovolnými jinými vloženými dokumenty.

To můžou, ale přijde mi lepší dát tu verzi např. do atributu kořenového elementu, než pro každou verzi formátu zavádět nový jmenný prostor. Takže můžu mít třeba XHTML dokument a v něm dva SVG obrázky, každý v jiné verzi SVG, ale ve stejném jmenném prostoru – nevidím v tom problém.

Ono vůbec celé XML bojuje s tím, že se do něj dávají jak strukturovaná data, tak strukturované dokumenty (tzn. včetně whitespace a mixed content), což jsou dva diametrálně odlišné účely, které vyžadují diametrálně odlišné postupy (zvlášť ohledně ubírání/přidávání whitespace), že fakt nevím, co komu muselo spadnout na hlavu.

Ten „mixed content“ není až taková věda. Máme třeba dokument:

<kořen>
nějaký text
<značka>…</značka>
zase nějaký text
</kořen>

Kde kořen má tři uzly a z toho první a třetí jsou textové uzly. Nesmíš to prostě vnímat jako text, do kterého je vložená nějaká značka, ale jako tři uzly různých typů. A v XSL si pak můžeš udělat šablonu pro značka a šablonu pro text() – že je jedno obalené v ostrých závorkách a druhé je tam jen tak, je celkem jedno – na téhle úrovni se s tím pracuje stejně.

BTW: co ti konkrétně nešlo s tím „whitespace“?

radši si napíšu konvertor z wiki-like jazyka

Prosím, jen to ne! :-)

Těch už je až až. A každý si vymýšlí trochu jinou syntaxi, takže když člověk chce udělat třeba nadpis nebo odkaz, musí přemýšlet, jak se to zrovna v téhle syntaxi píše. Docela peklo, když píšeš na různá místa – třeba Wiki, Trac, nějaký web s Markdownem, jiný web s Texy atd. Standardizované a intuitivní jsou snad leda odrážky a číslování, to se dá jakž takž trefit od boku (i když i tam se to trochu různí – třeba jestli odražený řádek musí začínat mezerou nebo je - hned na začátku, nebo jestli je tam * místo - atd.)

než abych to musel psát přímo.

Pro hodně jednoduché věci budiž. Uznávám, že je jednodušší tam naflákat:

- první
- druhá
- třetí

než se psát s <ul/> a <li/>. To je daň za univerzálnost – zase ale nemusím řešit, jestli se odkaz píše jako "Nějaký odkaz":[http://example.com/] nebo [http://example.com/ Nějaký odkaz] či [Nějaký odkaz](http://example.com/ "Taky tu může být titulek") a místo toho zadám nejrozšířenější <a href="http://example.com/" title="Titulek">Nějaký odkaz</a> a nemusím vědět, že se URL píše do takových a takových závorek, text do jiných a titulek se dává do uvozovek do druhé závorky – a teď ještě nepoplést, jestli první byly hranaté a druhé kulaté nebo obráceně. Prostě stačí vědět, že to jsou atributy a jak se jmenují – ale zapisují se vždy stejně.

Někdy se ty odlehčené syntaxe hodí, ale vidím tam dva problémy: 1) spousta různých syntaxí, naučíš se jeden jazyk, přijdeš k jinému systému a musíš se učit trochu jinou syntaxi. Nebyla by od věci nějaká standardizace, aby se sjednotily třeba ty zápisy odkazů, nadpisů a dalších základních věcí – ale nevím, jestli by na to ti autoři jazyků/konvertorů přistoupili – vzdát se části svého díla a přizpůsobit se ostatním. Často se různí i syntaxe v rámci jednoho „wiki“ jazyka – např. některé značky můžeš „parametrizovat“ a jednou to děláš v takové závorce, jindy v jiné, nebo v uvozovkách, apostrofech… v XHTML/XML jsou maximálně dvě možnosti: atribut nebo vnořený element, většinou to jsou atributy a zápis je vždy stejný: klíč="hodnota" 2) Dříve či později narazíš na nějakou nejednoznačnost, něco ti nepůjde vložit nebo to formátovač pochopí jinak, než jsi to myslel. V XML máš jasně dané řídící znaky a jednotný způsob jejich escapování – a všechny ostatní můžeš v dokumentu volně používat, nemusíš váhat, jestli nějakou posloupnost znaků náhodou nepochopí program jako značku nebo příkaz.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

20.10.2011 21:10 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Ten „mixed content“ není až taková věda. Máme třeba dokument:
<kořen>
nějaký text
<značka>…</značka>
zase nějaký text
</kořen>
Kde kořen má tři uzly a z toho první a třetí jsou textové uzly

… které začínají a končí znakem konce řádku. Fujtajbl. Takový uzel

<uzel>
</uzel>

má taky jednoho textového potomka. A co teprv když do toho narvu komentář!

Nesmíš to prostě vnímat jako text, do kterého je vložená nějaká značka, ale jako tři uzly různých typů.

Jasněěě, uzlyyy. Hele, tímhle ale končí veškeré zbytky použitelnosti XML pro lidský zápis. Tohle je prostě pakárna.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

20.10.2011 21:13 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

má taky jednoho textového potomka. A co teprv když do toho narvu komentář!

Co, komentář. Entitu!

Ještě na tom nejsem tak špatně, abych četl Viewegha.

20.10.2011 21:55 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

které začínají a končí znakem konce řádku

Když je tam uděláš, tak tam jsou. Jak jinak by se to mělo chovat?

Jestli je tam nechceš (přestože ve zdrojovém dokumentu jsou), tak si dej normalize-space() nebo ořízni počáteční a koncové \s* Ale někdo naopak tu informaci (že je na začátku \n\n) potřebuje – např. já, když jsem dělal to dělení na odstavce (oddělené prázdnou řádkou).

má taky jednoho textového potomka

No však – třeba je to značka, kterou se zadává nějaký oddělovač – někdo odděluje mezerou, někdo středníkem a někdo koncem řádku. Pokud chceš bílá místa (\s*) považovat za prázdnou hodnotu, stačí ti jedno zavolání matches() – naopak ten, kdo to považuje za platnou hodnotu to může pomocí XML zapisovat a číst.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.10.2011 17:07 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

Normalizace mezer a odsazení není obecně pevně daná a může ovlivnit chování aplikací. Celá ta věc je očividně dělaná na koleni a postupně záplatovaná tak dlouho, že už je to spíš samá záplata.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

22.10.2011 17:05 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Převod formátovaného textu na prostý text

TL;DR, navíc mám pocit, že se snažíš vysvětlit věci, které jsou zcela jasné a nechce se mi v tom hledat to zajímavé.

Já už tu vlastně ani nejsem. Abclinuxu umřelo.

20.10.2011 18:35 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Jaxe

Zkus Jaxe: How to create an XML language and its XML editor in 5 minutes.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

Převod formátovaného textu na prostý text

Hodnocení: 86 %

Anketa

Anketa

Komentáře