abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 14:33 | IT novinky

    Zástupci členských států EU se včera shodli na návrhu, který má bojovat proti šíření materiálů na internetu zobrazujících sexuální zneužívání dětí. Nařízení známé pod zkratkou CSAM a přezdívané chat control mělo množství kritiků a dlouho nebyla pro jeho schválení dostatečná podpora. Pro schválení byla potřeba kvalifikovaná většina a dánské předsednictví v Radě EU se snažilo dosáhnout kompromisu. Návrh nakonec po dlouhých týdnech

    … více »
    Ladislav Hagara | Komentářů: 0
    dnes 12:22 | Zajímavý software

    Britské herní studio Facepunch stojící za počítačovými hrami Garry's Mod a Rust uvolnilo svůj herní engine s&box (Wikipedie) jako open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT. Herní engine s&box je postavený nad proprietárním herním enginem Source 2 od společnosti Valve.

    Ladislav Hagara | Komentářů: 1
    dnes 04:55 | Komunita

    Vývoj programovacího jazyka Zig byl přesunut z GitHubu na Codeberg. Sponzoring na Every.

    Ladislav Hagara | Komentářů: 0
    dnes 04:44 | Komunita

    Stejně jako GNOME i KDE Plasma končí s X11. KDE Plasma 6.8 poběží už pouze nad Waylandem. Aplikace pro X11 budou využívat XWayland.

    Ladislav Hagara | Komentářů: 0
    včera 14:55 | IT novinky

    Poslanci Evropského parlamentu dnes vyzvali k výraznému zvýšení ochrany nezletilých na internetu, včetně zákazu vstupu na sociální sítě pro osoby mladší 16 let. Legislativně nezávazná zpráva, kterou dnes odsouhlasil Evropský parlament poměrem 493 hlasů pro ku 92 proti, kromě zavedení věkové hranice 16 let pro využívání sociálních sítí, platforem pro sdílení videí či společníků s umělou inteligencí (AI) vyzývá také k zákazu … více »

    Ladislav Hagara | Komentářů: 34
    včera 14:11 | Humor

    Doom v KiCadu nebo na osciloskopu? Žádný problém: KiDoom: Running DOOM on PCB Traces a ScopeDoom: DOOM on an Oscilloscope via Sound Card.

    Ladislav Hagara | Komentářů: 3
    včera 12:44 | Nová verze

    Po AlmaLinuxu byl v nové stabilní verzi 10.1 vydán také Rocky Linux. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    včera 04:00 | Zajímavý software

    Open source reimplementace počítačových her Tomb Raider I a Tomb Raider II spolu s dalšími vylepšeními a opravami chyb TRX byla vydána ve verzi 1.0. Jedná se o sloučení projektů / enginů TR1X a TR2X do jednoho TRX. Videoukázka na YouTube.

    Ladislav Hagara | Komentářů: 1
    25.11. 17:00 | IT novinky

    Společnost Seznam.cz spouští konverzační nástroj založený na umělé inteligenci Seznam Asistent. Asistent využívá vlastní jazykový model SeLLMa a dočasně i komerční modely od OpenAI provozované v evropských datacentrech prostřednictvím Microsoft Azure. Dlouhodobým cílem Seznamu je provozovat Asistenta výhradně na interních jazykových modelech a ve vlastních datových centrech.

    Ladislav Hagara | Komentářů: 8
    25.11. 11:55 | Zajímavý software

    Software LibrePods osvobozuje bezdrátová sluchátka AirPods z ekosystému Applu. Exkluzivní funkce AirPods umožňuje využívat na Androidu a Linuxu. Díky zdokumentování proprietárního protokolu AAP (Apple Accessory Protocol).

    Ladislav Hagara | Komentářů: 1
    Jaké řešení používáte k vývoji / práci?
     (34%)
     (46%)
     (19%)
     (18%)
     (22%)
     (15%)
     (23%)
     (16%)
     (18%)
    Celkem 409 hlasů
     Komentářů: 17, poslední 19.11. 21:57
    Rozcestník
    Štítky: není přiřazen žádný štítek

    Dotaz: Jak parsovat text podle formátování textu

    20.3.2015 13:13 Michal
    Jak parsovat text podle formátování textu
    Přečteno: 292×
    Ahoj,

    narazil jsem na potřebu parsovat text podle formátování. Tedy abych z něj dokázal zmizet například poznámky psané kurzívou. Vůbec netuším kde začít hledat řešení. Díky moc za tipy.

    Odpovědi

    Josef Kufner avatar 20.3.2015 13:19 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Pokud máš text označkovaný například v HTML, můžeš ho pomocí Tidy vyčistit a převést na XHTML, což je podmnožina XML. Pak můžeš použít XPath, XSLT a vůbec všechny tyto více či méně šílené nástroje.

    Pokud text máš v ručně formátovaném plain textu nebo čemkoliv jiném, koukni na Pandoc. Umí kopec různých markupů a formátů. Tím to převedeš na XHTML a pak viz předchozí odstavec.
    Hello world ! Segmentation fault (core dumped)
    20.3.2015 19:56 Michal
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Dík za tipy. Omrknu je a kdyžtak sem napíšu jestli jsem něco našel. Pokud by se mi podařilo nějak rozložit text do toho XHTML, tak bych měl asi vyhráno.
    pavlix avatar 20.3.2015 20:05 pavlix | skóre: 54 | blog: pavlix
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Před časem jsem to dělal v pythonu a byla to otázka nějakého parametru, že to má umět číst i HTML. Nebudu psát, který modul, nejsem si už jistý.
    Já už tu vlastně ani nejsem. Abclinuxu umřelo.
    pavlix avatar 20.3.2015 18:32 pavlix | skóre: 54 | blog: pavlix
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Co přesně máš namysli tím textem? Čistý text kurzívu nemá a formátovaný text se ukládá ve stovkách různých formátů.
    Já už tu vlastně ani nejsem. Abclinuxu umřelo.
    20.3.2015 19:47 Michal
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Jedná se o text formátovaný v .doc souborech. Tedy jej lze uložit do čehokoli. Aktuální formát tedy není zajímavý.
    pavlix avatar 20.3.2015 20:06 pavlix | skóre: 54 | blog: pavlix
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Pak bych šel buď do nějakého třeba pythoního modulu, co to umí přímo, nebo přes RTF, který bude docela blízký, generované HTML půjde, ale bude to asi strašný bordel.
    Já už tu vlastně ani nejsem. Abclinuxu umřelo.
    Josef Kufner avatar 20.3.2015 21:38 Josef Kufner | skóre: 70
    Rozbalit Rozbalit vše Re: Jak parsovat text podle formátování textu
    Bordel nevadí, s tím si Tidy poradí. Dokonce má přímo volbu na odstraňování bordelu z Wordu.
    Hello world ! Segmentation fault (core dumped)

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.