Portál AbcLinuxu, 13. května 2024 07:17


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
23.7.2009 18:37 #Tom | skóre: 32 | blog: Inspirace, aneb co jsem kde vyhrabal
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Odpovědět | Sbalit | Link | Blokovat | Admin
Neretušovat a nerozpoznávat. Při použití velkoformátového snímacího zařízení se snáze dosáhne toho, že jsou stránky nasnímány rovně, nebo téměř rovně. Potom stačí stránky vhodně ořezat a rozřezat na levou a pravou. Stačí mi k tomu jen netpbm, na zakódování pak DJVU. S programem unpaper jsem před několika lety příliš spokojen nebyl. Škoda, že teď nemám zrovna nic, na čem bych jej opět vyzkoušel, možná se už zlepšil. Samotné rozpoznávání pak zavrhuju proto, že jej nemám čím provádět, navíc by posloužilo jen jako text pro prohledávání DJVU. A to zvládne i on-line služba any2djvu.
23.7.2009 18:51 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Odpovědět | Sbalit | Link | Blokovat | Admin
Bylo by možné zveřejnit nějaké originály (300 nebo 600 DPI v odstínech šedi v TIFFu nebo PNG), a případně pak i upravené verze? Projel bych to OCRkem (OmniPage 16, což je poněkud méně preehistorický kousek), abychom mohli něco porovnat.
Jiří Poláček avatar 24.7.2009 12:47 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Originály jsou černobílé v rozlišení 200 dpi, a prakticky celý popisovaný postup je založen na tomto faktu. Pokud by primárním úmyslem naší digitalizace bylo OCR, pak bychom možná preferovali jiné parametry skenování.

Nějaké skenované obrázky samozřejmě mohu poskytnout k vyzkoušení (jen co se po dovolené dostanu k datům).
Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.
24.7.2009 15:14 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Originály jsou černobílé v rozlišení 200 dpi
Alespoň to, ať můžeme porovnat alespoň něco.
23.7.2009 19:35 Radovan Garabík
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Odpovědět | Sbalit | Link | Blokovat | Admin

Retušovať, potom rozpoznávať a rozpoznané uložiť ako vrstvu pod text - DJVU alebo PDF. My tak robíme, sprístupnili sme zopár oscannovaných kníh  a časopisov, tak som sa s tým kedysi dosť hral. Článok je na veľmi dobrej úrovni, škoda že nebol píaný pred pár rokmi, takto som si to všetko musel poobjavovať sám :-)

 

Rozpoznávanie a použiitie textu bez grafickej verzie je nanič - chybovosť je ta jeden-dva znaky na riadok (dosť, ak ide o publikáciu, kde na znakoch záleží), ale hlavne hrozí veľké riziko zblbnutia rovníc, tabuliek, schém apod. Pre beletriu to nie je až také podstatné, pre vedeckú literatúru veľmi.

24.7.2009 00:25 Semo | skóre: 45 | blog: Semo
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Suhlasim s tou beletriou. Cital som skenovaneho Maga od E.R.Feista a spojenie "princovi Borricovi" bolo obcas zapisane ako "princovi Romeovi". Po par stranach mi doslo, ze sa v deji neobjavila ziadna nova postava, iba OCR spolu so slovnikom uradovalo. Ale citat sa to dalo.
If you hold a Unix shell up to your ear, you can you hear the C.
Jiří Poláček avatar 24.7.2009 12:52 Jiří Poláček | skóre: 47 | blog: naopak | Sivice
Rozbalit Rozbalit vše Re: Polemika: text retušovat nebo raději rozpoznávat?
Škoda, že jste to před těmi pár lety nesepsal sám, mohl jste mi ušetřit práci :-)
Sudoku omrzelo? Zkuste bobblemaze! | Statistiky jsou jak bikiny. Napoví hodně, všechno ale neukážou.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.