Portál AbcLinuxu, 12. května 2025 06:26

Dotaz: Jak parsovat text podle formátování textu

20.3.2015 13:13 Michal
Jak parsovat text podle formátování textu
Přečteno: 286×
Odpovědět | Admin
Ahoj,

narazil jsem na potřebu parsovat text podle formátování. Tedy abych z něj dokázal zmizet například poznámky psané kurzívou. Vůbec netuším kde začít hledat řešení. Díky moc za tipy.
Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

Josef Kufner avatar 20.3.2015 13:19 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Pokud máš text označkovaný například v HTML, můžeš ho pomocí Tidy vyčistit a převést na XHTML, což je podmnožina XML. Pak můžeš použít XPath, XSLT a vůbec všechny tyto více či méně šílené nástroje.

Pokud text máš v ručně formátovaném plain textu nebo čemkoliv jiném, koukni na Pandoc. Umí kopec různých markupů a formátů. Tím to převedeš na XHTML a pak viz předchozí odstavec.
Hello world ! Segmentation fault (core dumped)
20.3.2015 19:56 Michal
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Dík za tipy. Omrknu je a kdyžtak sem napíšu jestli jsem něco našel. Pokud by se mi podařilo nějak rozložit text do toho XHTML, tak bych měl asi vyhráno.
pavlix avatar 20.3.2015 20:05 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Před časem jsem to dělal v pythonu a byla to otázka nějakého parametru, že to má umět číst i HTML. Nebudu psát, který modul, nejsem si už jistý.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.
pavlix avatar 20.3.2015 18:32 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Odpovědět | | Sbalit | Link | Blokovat | Admin
Co přesně máš namysli tím textem? Čistý text kurzívu nemá a formátovaný text se ukládá ve stovkách různých formátů.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.
20.3.2015 19:47 Michal
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Jedná se o text formátovaný v .doc souborech. Tedy jej lze uložit do čehokoli. Aktuální formát tedy není zajímavý.
pavlix avatar 20.3.2015 20:06 pavlix | skóre: 54 | blog: pavlix
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Pak bych šel buď do nějakého třeba pythoního modulu, co to umí přímo, nebo přes RTF, který bude docela blízký, generované HTML půjde, ale bude to asi strašný bordel.
Já už tu vlastně ani nejsem. Abclinuxu umřelo.
Josef Kufner avatar 20.3.2015 21:38 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
Bordel nevadí, s tím si Tidy poradí. Dokonce má přímo volbu na odstraňování bordelu z Wordu.
Hello world ! Segmentation fault (core dumped)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.