Portál AbcLinuxu, 30. dubna 2025 10:20
Pomocou regulárnych výrazov je pomerne jednoduché tokenizovať text na slová:Tohle nedoporučuji používat na nic složitějšího. Python k tomu má luxusní nltk knihovnu, která skutečně zná gramatická pravidla. Jinak pěkné.
Keby som mal trochu viacej času pohrať sa s nltk bola by celkom pecka rozanalyzovať jednotlivé vetné členy a skladať potom vety s reálnymi slovami so správnym slovosledom. Ako som spomínal nižšie ja používam generátor len pri vývoji ale ehm no viem si predstaviť že by som robil napr. inzertný portál, z nejakého už existujúceho portálu by som skopíroval pár inzerátov a podľa ich textu nechal vygenerovať pár tisíc a ukázal to zákazníkovi. Lenže momentálne už pekne dlho nerobím pre zákazníkov ale vlastné firemné projekty takže nič podobné momentálne nepotrebujem .
Nestacilo by vzit existujici texty od te slovenske ucitelky?Tam je výhoda, že by se ani nemusely upravovat. Byl by o ně zájem?
Ja to nemám určené na prezentáciu zákazníkovi. Keď generujem nejakú databázu s pár tisíc záznamami zaujíma ma pár vecí:
Pro češtinu se hodí například: Příliš žluťoučký kůň úpěl ďábelské ódy.Tak jestli všichni zkoušejí češtinu na tomto řetězci, tak to vysvětluje, proč se mi tak často špatně zobrazují pouze velká písmena s diakritikou.
Vďaka za ďalšiu hračku ;)
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.