Portál AbcLinuxu, 23. dubna 2024 08:42


Nástroje: Začni sledovat (3) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
kotyz avatar 9.6.2010 17:35 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
cuneiform (arch ma v repozitari) a yagf (arch ma v auru) uz mam nainstalovany od vcerejska, po precteni blogu o ocr v linuxu na rootovi ... ;-)

a zrovna sem se ho chystal dneska vyzkouset, zeby nahoda? :-D

Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
kotyz avatar 9.6.2010 17:40 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
koukam ze vyslo uz i pokracovani, nevim jestli je to koser, linkovat ke konkurenci, ale nekdo by v tom moh najit uzitecny informace ...

tady a tady a jeste tady

Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
9.6.2010 17:45 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
nevim jestli je to koser, linkovat ke konkurenci
Není! Smrt Rootu! :-) -- Ne, co se dá dělat, když to nevyšlo u nás? Od toho existuje HTML, že jo... Ale ty linky pro příště prosím pojmenuj jinak než "tady" - z toho nejde (bez bližšího zkoumání) poznat, kam to vede.
kotyz avatar 9.6.2010 17:53 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
sem tam prave nechtel psat root aby to nekoho nepodrazdilo. ale ted uz je stejne pozde ...
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
9.6.2010 18:06 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Nejlepší by bylo napsat tam název těch článků, to je podstatná informace.
kotyz avatar 9.6.2010 20:26 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
to je z blogu, jako clanek to tam nevyslo.
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
9.6.2010 18:05 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Jak - nevyšlo? Psal jsem tu na tohle téma už téměř před čtyřmi létu v blogpostu Linux, OCR a DjVu dokumenty, nač se tedy opakovat. Novinkou je pouze cuneiform. Možná jsem měl ještě do tohoto blogpostu také uvést, je jej využívá jako OCR engine linuxová utilita ocrodjvu od jakuba Wilka, který mimochodem dělá i na editoru djvu dokumentů, který doposud neexistuje ani pro MS.
Amarok avatar 9.6.2010 18:36 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
Koukam, ze to jeste nema zapis v abc databazi softwaru.
GNUniverse - May the source be with you...
Amarok avatar 9.6.2010 18:46 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Tak jsem to zalozil, chtelo by to ale, aby to upravil nekdo, kdo ten program zkousel (nevim totiz, jestli to ma GUI).
GNUniverse - May the source be with you...
9.6.2010 18:52 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
GUI je výše uvedený yagf, ale nezkoušel jsem. Samotný cuneiform je konzolová záležitost.
9.6.2010 18:54 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Jo a na fóru si bez znalosti ruštiny neškrtnete ;-)
kotyz avatar 9.6.2010 20:26 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
takze stejna situace jako s mnoha vecma kolem jabberu :-D tam taky bez znalosti azbuky clovek z tech for nic nevycte.
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
9.6.2010 21:08 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Já jsem tedy sice měl z ruštiny nejhorší prospěch z celé školy, maturitní písemku za 5 a maturitu za 4 z milosti, přesto si myslím, že po obeznámení s azbukou by neměl být se čtením až takový problém.
kotyz avatar 9.6.2010 22:23 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
tak ja rustinu na skole uz nezazil (maturoval sem z anglictiny), ale odkaz na stazeni jeste na takovy strance najdu. ale to je tak vsechno co z ni vyctu ...
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
9.6.2010 18:58 kolcon | skóre: 15 | blog: kolcon
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin

Program super, ale nejak nechapu, co ma spolecneho OCR s tim, ze pri grabovani DVD se ma ulozit

soubor s titulky?

9.6.2010 19:03 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Jen tolik, že jsem ho použil jako backend a nebýt toho skriptu co píšu, nenarazil bych na něj. Stávající zmíněné utility totiž produkovaly mnohem více chyb a já zase tak moc času na kontrolu nemám. Takhle je množství chyb při rozpoznávání textu mnohem menší a když na to pustím aspell, tak jsem s kontrolou hotov během několika minut.
9.6.2010 19:07 kolcon | skóre: 15 | blog: kolcon
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

a to to jako skenujes z ceho ty titulky? je mas nekde vytisteny na papire?

9.6.2010 19:13 chrono
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Na DVD sú titulky uložené ako obrázoky.
Limoto avatar 9.6.2010 19:14 Limoto | skóre: 32 | blog: Limotův blog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Na DVD nejsou titulky v textové podobě ale předem vyrenderovaný...
9.6.2010 20:14 disorder | blog: weblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
a mplayer ich vie prehrat
9.6.2010 20:49 chrono
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
A zaberajú viac miesta ako textové titulky + zmeniť veľkosť písma je asi dosť komplikované.
stativ avatar 9.6.2010 19:09 stativ | skóre: 54 | blog: SlaNé roury
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
Jo, cuneiform je asi zatím to nejlepší z OCR co ve free softu je, alespoň pro češtinu. I tak se ale těším na podporu češtiny v Tesseractu (snažil jsem se ji udělat sám, ale je to kurevsky velká práce).
Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk
9.6.2010 21:10 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Napiš zápisek o tom jak na to a třeba ti s tím někdo píchne.
10.6.2010 10:10 Filip
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Já jsem češtinu pro Tesseract zprovoznil, ale byl jsem zklamán tím, jak je kvalita rozeznávání textu závislá na fontu. Přesněji, jak je závislá na tom, zda se rozeznávaný font podobá tomu, na který jsem to učil. Možná jsem něco udělal špatně. Cuneiform se pro mne ukazuje být spolehlivější a pohodlnější.
27.6.2010 20:28 FrantaS | skóre: 12 | Hlučín
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Nemá se Tesseract naučit nejčastěji používané fonty? A jaká byla kvalita pokud byl zpracováván naučený font?
Ať se nám daří.
10.6.2010 09:27 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
Ja som na vobsub to srt skúšal použiť subtitleripper, ale jaksi posledná verzia je z 2005 a ani nefunguje poriadne. (proste zamrzne)

Trochu ma to trápilo takže som hľadal ďalej. A našiel som perfektnú záležitosť. A tou je avidemux. Síce s videom som u neho skoro vždy pohorel. Rozhodená zvuková stopa, neporozumel som filtrom, dlhé prekódovanie-preto som z .avi začal robiť .mkv s pridaním titulkov mkvtoolnixom.

No aby som sa vrátil k avidemuxu. Postup je dosť jednoduchý. Treba z DVD vytiahnuť súbory idx a ostatné časti titulkov. Vybrať v menu avidemuxu - tool - ocr_vobsub_to_srt. Potom vybrať súbor .idx vybrať výstupný súbor a je hotovo.

Počas OCR jednotlivých častí niekedy nenájde správne písmo. Vtedy treba ručne prepísať. Zároveň sa OCR učí a to naučené uloží do súboru glyph a zároveň používa pri pre OCR tých titulkov. Takže ak ďalšie video DVD bude mať podobný font tak stačí použiť znova ten glyph súbor o a preklad sa nebudeš musieť vôbec starať.

ps. na vytiahnutie titulkov som použil program dvdrip.
10.6.2010 09:38 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
S avidemuxem si na vzdálené konzoli ani neprdneš.. Nemám čas drbat se s nastavením jednotlivých DVD. Výhoda konzolových nástrojů je, že se dají krásně skriptovat.
10.6.2010 09:54 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Veď OK ja by som radšej si všetko naskriptoval pustil a bolo vymaľované. Ale jaksi na to neprišlo. Som len obyčajný mierne lepšie informovaný uživateľ a správca svojich PC. :-)

Avidemux má cli rozhranie, ale neviem ako je použiteľné a pri OCR ako som písal je potrebná interakcia.
10.6.2010 10:14 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Avidemux má cli rozhranie, ale neviem ako je použiteľné a pri OCR ako som písal je potrebná interakcia.
Také používám avidemux, ale už jen na úpravu hotového videa. Pokud jde o to OCR - to je právě výhoda cuneiform - není nutná interakce a výsledek je natolik kvalitní, že stačí zkontrolovat výsledek přes aspell (opět na konzoli).

Avidemux pro OCR nejspíš využívá (podobně jako to dělal pgm2srt) toho že se u titulků zase tak moc šumu neobjevuje, takže lze vzorky porovnávat poměrně jednoduše. Kdežto OCR engine který používá cuneiform má (pravděpodobně) zabudovanou i nějakou další logiku. Proto je výsledek dobrý i bez interakce.
10.6.2010 19:59 hanus
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
pgm2srt a potažmo jeho GUI varianta gpgm2srt (http://old.e-hanus.cz/linux/gpgm2srt.htm) je založena na exact match metodě (přesná shoda), nemá inteligenci, která by sama rozpoznávala znaky, tak daleko jsem se s OCR nedostal :-) tj. najde shluk pixelů (ideálně je to 1 znak) a zeptá se uživatele, co to je a příště (v rámci jednoho spuštění) už přiřadí znak automaticky. Naprogramoval jsem to speciálně pro převod DVD titulků do TXT, rozhodně je to na nic pokud jde o skenovaný text. GUI má pak i funkce pro úpravu časování titulků, pročištění a převod mezi SUB a SRT.
11.6.2010 10:16 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Hm vyzerá to luxusne. Už tomu chýba fakt len GTK 3 kabátik ako to máš v todo.

Dobrá práca.
11.6.2010 10:33 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Hanusův skriptík není špatný. Hlavním jeho plusem je že je schopen fungovat i na konzoli. Ale na můj vkus měl výsledek přeci jen víc chyb než bylo únosné. Defacto to znamenalo přepsat a opravit téměř polovinu titulků. Navíc vyžaduje interakci. Proto jsem sáhnul po jiném řešení, které v době kdy svůj skript psal nebylo k dispozici.
11.6.2010 10:25 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Zvládne vytiahnuť obrázkové titulky z mkv (pomocou transcode)? (jop aj také sú)

Presnejšie raz som sa s nimi stretol myslím v Kaze no tani no naushika a musel som vypreparovať tie obrázkové a prerobiť ich do srt.
11.6.2010 10:36 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Tyhle utilitky jsou k tomu určené. Kvalita převodu do značné míry závisí na kvalitě obrazové předlohy. Průser je, když jsou titulky integrované v obraze. Nicméně pomocí slušného OCR backendu se dá poradit i s tím.
10.6.2010 09:35 Zbynek
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
Původní článek najdete na: http://www.penguin.cz/novinky-view.php?id=1251 (Cuneiform a YAGF). Jen na to člověk upozorní, a už to skoro na každém linuxovém serveru :-).
10.6.2010 10:07 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
O tom že je článek se zmínkou o cuneiform na penguinovi jsem se dozvěděl až z příspěvku o kus výše. Ruská firma "Cognitive Technologies", která Cuneiform vyvinula, existuje od r.1993 a se svým produktem se orientovala na ruský trh. Používat ruský software však ve střední Evropě není zrovna in, zvláště pokud nemá ani anglickou prezentaci, že? (Tady narážím na link ve zdejším zápisku v sekci software).

Maně si vybavuji že jsem nějaký ruský OCR software před deseti lety zkoušel, ale oproti výsledkům z Recognity to byla dost bída. A nezapomínejme, že to byl proprietární produkt, který byl jako opensource uvolněn relativně nedávno - v únoru 2008. Instalační balík je v Debianu teprve rok.

Recognita byla mnohem známější. Původně maďarskou firmu, nakonec spolkla německá firma OCR Systeme GmbH, která vyvíjela konkurenční produkt Omnipage (Ten to totiž s češtinou také moc neuměl).

Tesseract, za jehož vývojem stálo HP byl sice uvolněn r. 2005 ovšem přes poměrně velkou publicitu které se mu dostalo, zájem o něj u nás poměrně rychle opadl. Z jednoduchého důvodu protože neměl (a dosud nemá) podporu češtiny.

Abby Finereader slibuje linuxovou variantu už leta. Jenže skutek utek. Ani linux, ani opensource.
kotyz avatar 10.6.2010 13:18 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Odpovědět | Sbalit | Link | Blokovat | Admin
Přílohy:
tak sem dneska konecne ten cuneiform a yagf vyzkousel, vysledek je docela pouzitelnej, ale nejaky ty musky to ma. treba mi to odmita kontrolu pravopisu, zeprej nemam nainstalovanej potrebnej balicek (pritom aspell i aspell-cs tam je a to by melo stacit). readiris pro co sem dostal k tiskarne mi teda pod windows podava lehce lepsi vysledky, ale zase rozchodit ho ve wine by bylo asi dost nerealny.

takze byste o tom meli minimalne uvazovat ;-)

Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
kotyz avatar 10.6.2010 13:25 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
to skenovani pres xsane fungovalo dobre. nastaveny sem to mel (jako vzdycky) na barevne a 300 dpi (mozna ze s lip naskenovanou predlohou by byla ta chybovost jeste mensi). ten aspell me ale trochu stve, dela to jeste nekomu? nemam nekde neco spatne nastaveny?
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!
10.6.2010 14:39 SAM: | skóre: 23 | blog: marsark_linux
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Pro OCR bych určitě skenoval do černobílého formátu.
Amarok avatar 11.6.2010 10:45 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Vzdyt to ani nedodrzelo zakladni postupnost? "Zakladni literatura" se v rozpoznanem textu objevuje naprosto na jinem miste, nebo tam neco chapu spatne? To by byl pro me uplne nepouzitelny vysledek, maximalne dobry tak pro jednotlive odstavce.
GNUniverse - May the source be with you...
11.6.2010 11:17 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Cuneiform má možnost nastavit různý typ výstupu (lze je vypsat parametrem -f). Každý z nich může produkovat trochu jiné výsledky(!).Těžko říct jak s nimi nakládá yagf.

Z mého subjektivního pohledu dával lepší výsledky pokud jde o rozvržení stránky filtr 'hocr' (ten obsahuje i souřadnice) a pokud jde o čistý text filtr 'text'. A co je zajímavé, tak lepší výsledky jsem měl s distribuční verzí aplikace 0.7.0 než s poslední stable verzí 0.9.0
11.6.2010 11:19 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
Na screenshotu si všimni že jako výstup je nastaveno html. Zobrazený výsledek tomu odpovídá.
kotyz avatar 11.6.2010 13:30 kotyz | skóre: 25 | blog: kotyzblog | Radnice
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform
je tam zmackly tlacitko "read as single column" a to by na to mohlo mit taky vliv (krome toho ze je jeste vystup nastavenej na html) ...
Mul-ti-pass! | Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.