OCR pod linuxem. Milé překvapení

Taky vás tak prudí, kolik místa zabírají DVD s filmy stažená na disk? Mě děsně. Protože však nemám dost času ani na to abych je vůbec stíhal zkouknout, natož zkonvertovat do únosnějšího objemu, píšu si na to skriptík, se kterým by šlo pracovat dávkově.

Na rozdíl od mých poloslepých žen preferuji u filmu originální znění s titulky, proto by měl skript produkovat dual avi + soubor s titulky a fungovat po spuštění pokud možno bez nějaké další asistence. Proto jsem potřeboval nějakou OCR utilitu, co by produkovala alespoň částečně použitelný výsledek.

Před nějakým časem jsem zkoušel extrahovat titulky pomocí dvdsub i pgm2srt, ale s výsledkem jsem moc spokojen nebyl. Druhý zmíněný na tom byl sice přeci jen o něco lépe než ten první, co používá jako backend gocr ale pořád nic moc. Proto jsem se kouknul v Synapticu co v oblasti OCR Debian aktuálně nabízí.

Název aplikace cuneiform mi nic moc neříkal, tak jsem ji vyzkoušel jako první. Předhodil jsem jí jeden starý sken stránky ze samizdatového časopisu, co se mi zrovna válel v domovském adresáři a nestačil se divit. Ve výsledném textu byly pouze dvě problémové věci. Nejčastější chybou byla záměna "í" (většinou za písmeno "f") a špatně byly rozpoznané pouze dvě slova, které byly v kurzívě. Podotýkám předem, že kvalita skenu byla spíš lepší než horší, ale na rozdíl od ostatních cuneiform nezmátla grafika na stránce.

Tesseract jsem zkoušel již dřív, a jelikož nemá podporu pro češtinu, tak jsem jej vynechal rovnou. Výsledek který vyprodukoval gocr a ocrad - škoda slov. Takže jednoznačným favoritem pro můj skript se stal cuneiform. O této aplikaci zde zatím jak se zdá zmínka nepadla, tak proto tento zápis.

Komentáře

cuneiform (arch ma v repozitari) a yagf (arch ma v auru) uz mam nainstalovany od vcerejska, po precteni blogu o ocr v linuxu na rootovi ... ;-)

a zrovna sem se ho chystal dneska vyzkouset, zeby nahoda? :-D

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

9.6.2010 17:40 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

koukam ze vyslo uz i pokracovani, nevim jestli je to koser, linkovat ke konkurenci, ale nekdo by v tom moh najit uzitecny informace ...

tady a tady a jeste tady

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

9.6.2010 17:45 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

nevim jestli je to koser, linkovat ke konkurenci

Není! Smrt Rootu! :-)

-- Ne, co se dá dělat, když to nevyšlo u nás? Od toho existuje HTML, že jo... Ale ty linky pro příště prosím pojmenuj jinak než "tady" - z toho nejde (bez bližšího zkoumání) poznat, kam to vede.

9.6.2010 17:53 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

sem tam prave nechtel psat root aby to nekoho nepodrazdilo. ale ted uz je stejne pozde ...

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

9.6.2010 18:06 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Nejlepší by bylo napsat tam název těch článků, to je podstatná informace.

9.6.2010 20:26 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

to je z blogu, jako clanek to tam nevyslo.

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

9.6.2010 18:05 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Jak - nevyšlo? Psal jsem tu na tohle téma už téměř před čtyřmi létu v blogpostu Linux, OCR a DjVu dokumenty, nač se tedy opakovat. Novinkou je pouze cuneiform. Možná jsem měl ještě do tohoto blogpostu také uvést, je jej využívá jako OCR engine linuxová utilita ocrodjvu od jakuba Wilka, který mimochodem dělá i na editoru djvu dokumentů, který doposud neexistuje ani pro MS.

Koukam, ze to jeste nema zapis v abc databazi softwaru.

GNUniverse - May the source be with you...

9.6.2010 18:46 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Tak jsem to zalozil, chtelo by to ale, aby to upravil nekdo, kdo ten program zkousel (nevim totiz, jestli to ma GUI).

GNUniverse - May the source be with you...

9.6.2010 18:52 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

GUI je výše uvedený yagf, ale nezkoušel jsem. Samotný cuneiform je konzolová záležitost.

9.6.2010 18:54 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Jo a na fóru si bez znalosti ruštiny neškrtnete ;-)

9.6.2010 20:26 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

takze stejna situace jako s mnoha vecma kolem jabberu :-D

tam taky bez znalosti azbuky clovek z tech for nic nevycte.

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

9.6.2010 21:08 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Já jsem tedy sice měl z ruštiny nejhorší prospěch z celé školy, maturitní písemku za 5 a maturitu za 4 z milosti, přesto si myslím, že po obeznámení s azbukou by neměl být se čtením až takový problém.

9.6.2010 22:23 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

tak ja rustinu na skole uz nezazil (maturoval sem z anglictiny), ale odkaz na stazeni jeste na takovy strance najdu. ale to je tak vsechno co z ni vyctu ...

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

Program super, ale nejak nechapu, co ma spolecneho OCR s tim, ze pri grabovani DVD se ma ulozit

soubor s titulky?

9.6.2010 19:03 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Jen tolik, že jsem ho použil jako backend a nebýt toho skriptu co píšu, nenarazil bych na něj. Stávající zmíněné utility totiž produkovaly mnohem více chyb a já zase tak moc času na kontrolu nemám. Takhle je množství chyb při rozpoznávání textu mnohem menší a když na to pustím aspell, tak jsem s kontrolou hotov během několika minut.

9.6.2010 19:07 kolcon | skóre: 15 | blog: kolcon
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

a to to jako skenujes z ceho ty titulky? je mas nekde vytisteny na papire?

9.6.2010 19:13 chrono
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Na DVD sú titulky uložené ako obrázoky.

9.6.2010 19:14 Limoto | skóre: 32 | blog: Limotův blog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Na DVD nejsou titulky v textové podobě ale předem vyrenderovaný...

9.6.2010 20:14 disorder | blog: weblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

a mplayer ich vie prehrat

9.6.2010 20:49 chrono
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

A zaberajú viac miesta ako textové titulky + zmeniť veľkosť písma je asi dosť komplikované.

Jo, cuneiform je asi zatím to nejlepší z OCR co ve free softu je, alespoň pro češtinu. I tak se ale těším na podporu češtiny v Tesseractu (snažil jsem se ji udělat sám, ale je to kurevsky velká práce).

Ať sežeru elfa i s chlupama!!! ljirkovsky.wordpress.com stativ.tk

9.6.2010 21:10 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Napiš zápisek o tom jak na to a třeba ti s tím někdo píchne.

10.6.2010 10:10 Filip
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Já jsem češtinu pro Tesseract zprovoznil, ale byl jsem zklamán tím, jak je kvalita rozeznávání textu závislá na fontu. Přesněji, jak je závislá na tom, zda se rozeznávaný font podobá tomu, na který jsem to učil. Možná jsem něco udělal špatně. Cuneiform se pro mne ukazuje být spolehlivější a pohodlnější.

27.6.2010 20:28 FrantaS | skóre: 12 | Hlučín
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Nemá se Tesseract naučit nejčastěji používané fonty? A jaká byla kvalita pokud byl zpracováván naučený font?

Ať se nám daří.

Ja som na vobsub to srt skúšal použiť subtitleripper, ale jaksi posledná verzia je z 2005 a ani nefunguje poriadne. (proste zamrzne)

Trochu ma to trápilo takže som hľadal ďalej. A našiel som perfektnú záležitosť. A tou je avidemux. Síce s videom som u neho skoro vždy pohorel. Rozhodená zvuková stopa, neporozumel som filtrom, dlhé prekódovanie-preto som z .avi začal robiť .mkv s pridaním titulkov mkvtoolnixom.

No aby som sa vrátil k avidemuxu. Postup je dosť jednoduchý. Treba z DVD vytiahnuť súbory idx a ostatné časti titulkov. Vybrať v menu avidemuxu - tool - ocr_vobsub_to_srt. Potom vybrať súbor .idx vybrať výstupný súbor a je hotovo.

Počas OCR jednotlivých častí niekedy nenájde správne písmo. Vtedy treba ručne prepísať. Zároveň sa OCR učí a to naučené uloží do súboru glyph a zároveň používa pri pre OCR tých titulkov. Takže ak ďalšie video DVD bude mať podobný font tak stačí použiť znova ten glyph súbor o a preklad sa nebudeš musieť vôbec starať.

ps. na vytiahnutie titulkov som použil program dvdrip.

10.6.2010 09:38 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

S avidemuxem si na vzdálené konzoli ani neprdneš.. Nemám čas drbat se s nastavením jednotlivých DVD. Výhoda konzolových nástrojů je, že se dají krásně skriptovat.

10.6.2010 09:54 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Veď OK ja by som radšej si všetko naskriptoval pustil a bolo vymaľované. Ale jaksi na to neprišlo. Som len obyčajný mierne lepšie informovaný uživateľ a správca svojich PC. :-)

Avidemux má cli rozhranie, ale neviem ako je použiteľné a pri OCR ako som písal je potrebná interakcia.

10.6.2010 10:14 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Avidemux má cli rozhranie, ale neviem ako je použiteľné a pri OCR ako som písal je potrebná interakcia.

Také používám avidemux, ale už jen na úpravu hotového videa. Pokud jde o to OCR - to je právě výhoda cuneiform - není nutná interakce a výsledek je natolik kvalitní, že stačí zkontrolovat výsledek přes aspell (opět na konzoli).

Avidemux pro OCR nejspíš využívá (podobně jako to dělal pgm2srt) toho že se u titulků zase tak moc šumu neobjevuje, takže lze vzorky porovnávat poměrně jednoduše. Kdežto OCR engine který používá cuneiform má (pravděpodobně) zabudovanou i nějakou další logiku. Proto je výsledek dobrý i bez interakce.

10.6.2010 19:59 hanus
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

pgm2srt a potažmo jeho GUI varianta gpgm2srt (http://old.e-hanus.cz/linux/gpgm2srt.htm) je založena na exact match metodě (přesná shoda), nemá inteligenci, která by sama rozpoznávala znaky, tak daleko jsem se s OCR nedostal :-)

tj. najde shluk pixelů (ideálně je to 1 znak) a zeptá se uživatele, co to je a příště (v rámci jednoho spuštění) už přiřadí znak automaticky. Naprogramoval jsem to speciálně pro převod DVD titulků do TXT, rozhodně je to na nic pokud jde o skenovaný text. GUI má pak i funkce pro úpravu časování titulků, pročištění a převod mezi SUB a SRT.

11.6.2010 10:16 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Hm vyzerá to luxusne. Už tomu chýba fakt len GTK 3 kabátik ako to máš v todo.

Dobrá práca.

11.6.2010 10:33 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Hanusův skriptík není špatný. Hlavním jeho plusem je že je schopen fungovat i na konzoli. Ale na můj vkus měl výsledek přeci jen víc chyb než bylo únosné. Defacto to znamenalo přepsat a opravit téměř polovinu titulků. Navíc vyžaduje interakci. Proto jsem sáhnul po jiném řešení, které v době kdy svůj skript psal nebylo k dispozici.

11.6.2010 10:25 Dusan | skóre: 23 | blog: Moje_trable_s_internetom
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Zvládne vytiahnuť obrázkové titulky z mkv (pomocou transcode)? (jop aj také sú)

Presnejšie raz som sa s nimi stretol myslím v Kaze no tani no naushika a musel som vypreparovať tie obrázkové a prerobiť ich do srt.

11.6.2010 10:36 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Tyhle utilitky jsou k tomu určené. Kvalita převodu do značné míry závisí na kvalitě obrazové předlohy. Průser je, když jsou titulky integrované v obraze. Nicméně pomocí slušného OCR backendu se dá poradit i s tím.

Původní článek najdete na: http://www.penguin.cz/novinky-view.php?id=1251 (Cuneiform a YAGF). Jen na to člověk upozorní, a už to skoro na každém linuxovém serveru :-)

10.6.2010 10:07 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

O tom že je článek se zmínkou o cuneiform na penguinovi jsem se dozvěděl až z příspěvku o kus výše. Ruská firma "Cognitive Technologies", která Cuneiform vyvinula, existuje od r.1993 a se svým produktem se orientovala na ruský trh. Používat ruský software však ve střední Evropě není zrovna in, zvláště pokud nemá ani anglickou prezentaci, že? (Tady narážím na link ve zdejším zápisku v sekci software).

Maně si vybavuji že jsem nějaký ruský OCR software před deseti lety zkoušel, ale oproti výsledkům z Recognity to byla dost bída. A nezapomínejme, že to byl proprietární produkt, který byl jako opensource uvolněn relativně nedávno - v únoru 2008. Instalační balík je v Debianu teprve rok.

Recognita byla mnohem známější. Původně maďarskou firmu, nakonec spolkla německá firma OCR Systeme GmbH, která vyvíjela konkurenční produkt Omnipage (Ten to totiž s češtinou také moc neuměl).

Tesseract, za jehož vývojem stálo HP byl sice uvolněn r. 2005 ovšem přes poměrně velkou publicitu které se mu dostalo, zájem o něj u nás poměrně rychle opadl. Z jednoduchého důvodu protože neměl (a dosud nemá) podporu češtiny.

Abby Finereader slibuje linuxovou variantu už leta. Jenže skutek utek. Ani linux, ani opensource.

tak sem dneska konecne ten cuneiform a yagf vyzkousel, vysledek je docela pouzitelnej, ale nejaky ty musky to ma. treba mi to odmita kontrolu pravopisu, zeprej nemam nainstalovanej potrebnej balicek (pritom aspell i aspell-cs tam je a to by melo stacit). readiris pro co sem dostal k tiskarne mi teda pod windows podava lehce lepsi vysledky, ale zase rozchodit ho ve wine by bylo asi dost nerealny.

takze byste o tom meli minimalne uvazovat ;-)

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

10.6.2010 13:25 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

to skenovani pres xsane fungovalo dobre. nastaveny sem to mel (jako vzdycky) na barevne a 300 dpi (mozna ze s lip naskenovanou predlohou by byla ta chybovost jeste mensi). ten aspell me ale trochu stve, dela to jeste nekomu? nemam nekde neco spatne nastaveny?

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

10.6.2010 14:39 SAM: | skóre: 23 | blog: marsark_linux
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Pro OCR bych určitě skenoval do černobílého formátu.

11.6.2010 10:45 Amarok | skóre: 33 | blog: blogoblog
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Vzdyt to ani nedodrzelo zakladni postupnost? "Zakladni literatura" se v rozpoznanem textu objevuje naprosto na jinem miste, nebo tam neco chapu spatne? To by byl pro me uplne nepouzitelny vysledek, maximalne dobry tak pro jednotlive odstavce.

GNUniverse - May the source be with you...

11.6.2010 11:17 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Cuneiform má možnost nastavit různý typ výstupu (lze je vypsat parametrem -f). Každý z nich může produkovat trochu jiné výsledky(!).Těžko říct jak s nimi nakládá yagf.

Z mého subjektivního pohledu dával lepší výsledky pokud jde o rozvržení stránky filtr 'hocr' (ten obsahuje i souřadnice) a pokud jde o čistý text filtr 'text'. A co je zajímavé, tak lepší výsledky jsem měl s distribuční verzí aplikace 0.7.0 než s poslední stable verzí 0.9.0

11.6.2010 11:19 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

Na screenshotu si všimni že jako výstup je nastaveno html. Zobrazený výsledek tomu odpovídá.

11.6.2010 13:30 kotyz | skóre: 25 | blog: kotyzblog | Plzeň
Rozbalit Rozbalit vše Re: OCR pod linuxem. Milé překvapení - cuneiform

je tam zmackly tlacitko "read as single column" a to by na to mohlo mit taky vliv (krome toho ze je jeste vystup nastavenej na html) ...

Hrdý člen KERNEL ULTRAS. | Furry/Brony/Otaku | Nemám čas ztrácet čas. | In 'pacman -Syu' we trust!

OCR pod linuxem. Milé překvapení - cuneiform

Hodnocení: 100 %

Komentáře