Portál AbcLinuxu, 4. května 2025 15:17

Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Vložit další komentář
26.9.2023 13:54 Tom
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Odpovědět | Sbalit | Link | Blokovat | Admin
Pomerne zavazne info az to nekdo ma na starsim servru: Dropped support 32-bit Windows and Linux. You must use a 64-bit operating system.
26.9.2023 19:28 jowa868
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
On v dnešní době ještě někdo používá 32-bit Intel? :O
26.9.2023 20:43 Jin
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
A to jej mam vyhodit? Slape jak hodinky a po upgrade na SSD chytil druhy dech. IBM xSeries 305 s Pentium4 a frci tam skolni phpBB a nejaky apache :)
26.9.2023 21:03 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Ak má škola elektriku zdarma, ...
26.9.2023 22:33 Jin
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Ma to tusim 200W zdroj a povoleny sleep s WOL. A v tom racku je podobnych kousku mnohem vic, holt sme elekrotechnicka skola toz si muzem dovolit i muzeum :)
27.9.2023 07:01 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
A to s tým rackom vykurujete školu?
27.9.2023 18:31 Jin
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Mam dojem ze prumerna paranska masina s dvema GPU a 800W zdrojem zere vic nez ten rack. Navic kdyz do takove svatyne zavedes linuxacku tak se ji spusti prirozene reflexy, odhazuje podprdu a roztahuje nohy! :-)
27.9.2023 18:46 paráda
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Takový oslí můstek jak z OCR dojít k radodajné linuxačce, to najdete jen na abclinuxu.cz!
27.9.2023 19:00 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Obávam sa že 5 rokov starý firemný notebook má viac výpočtového výkonu ako celý rack naložený spomínanými servermi IBM xSeries 305 s Pentium4 a aj menšiu spotrebu ako jediný taký server. Predsa len 533 MHz FSB a 133 MHz DDR PC2100 sú 20 rokov staré vykopávky.

Čo ale nič nemení na tom, že OCRmyPDF je python nádstavba nad tesseract. Takže na vyjadrení o podpore OCRmyPDF len pre 64bit nezáleží ak python a tesseract ostanú fungovať na 32bit.
27.9.2023 12:03 B
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Ano, vyhodit.
27.9.2023 19:40 Kantor
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
A ty víš, že v školství v podstatě neexistuje amortizace nebo morálni zastaralost techniky? Dokud něco šlape tak se prostě nevyhodí dokud nechcípne*. A to takový Meotar chcípá dost neochotně...

* jo když je to nutný tak na to "náhodou" uklízečka vyleje kýbl a to se pak už musí odepsat z "bezpečnostních" důvodů...
27.9.2023 20:18 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Kedysi firmy zvykli darovať školstvu odpísanú výpočtovú techniku. Odpisy boli obvykle po cca 2 až 5 rokoch, podľa typu. Pre firmy to bolo lacnejšie ako to dať na "nútenú ekologickú recykláciu", a robili tak rady.

Bolo by to lepšie ako používať server starší ako sú študenti.
27.9.2023 22:00 Jin
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
A to myslis, ze nase skola mela prachy na rack s novym IBM? Jasne ze to byl dar a nam skvele slouzi - jako ucebni pomucka, tak jako servry.
28.9.2023 07:21 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Akože podľa teba školy odkupovali za peniaze darované odpisy z firiem? Z teba bude úspešný podnikateľ, ktorý bude spriaznený z vládou.
28.9.2023 07:49 Jin
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Cteni s porozumenim neni tvoje silna stranka ze?
28.9.2023 08:03 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Ale je. Kedysi dokonca existovala na Slovensku možnosť priameho sponzoringu (keď sa dar odpisoval školstvu z daní ktoré firma mala zaplatiť štátu).

To nič nebráni používať to vykurovacie teleso na zaťažovanie klimatizácie za cenu zvýšených nákladov na energie. Ale na prevod naskenovaných dokumentov je to nehospodárne. A to je dôvod môjho skepticizmu.

Stále sú 32bit distribúcie ktoré ostanú podporované ešte X rokov aj na prastarom HW. Keby si to spravoval, tak to vieš.
Max avatar 2.10.2023 10:26 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Eko likvidace je zdarma a bez většího papírování a námahy. Darování je papírování + námaha. Darování tedy sebou kupodivu nese overhead. Každopádně my jedeme dárcovství pro jednu školu a teď se rozjíždí pro druhou. Hlavně vyřazené tablety a počítače.
Zdar Max
Měl jsem sen ... :(
28.9.2023 16:55 bhy | skóre: 35 | blog: bhyblog | brno
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Odpovědět | Sbalit | Link | Blokovat | Admin
Používáte někdo aktivně Tesseract nebo obecně offline open source OCR na Linuxu? V mém okolí všichni používají více méně bezchybně fungující online webové služby. Myslel jsem, že ty služby používají jako backend to, co mám v distribuci, ale ani náhodou. Z PDF v dobré kvalitě, se kterým online služby neměly problém, jsem nedokázal dostat nic než prázdný výstup (GOCR, Tesseract - zkoušel jsem i 5.x z PPA), popř. trochu rozsypaného čaje (Cuneiform).

Jsou ty věci už mrtvé a všechno se dělá online, nebo jsem se jen málo snažil? Chápu, že může být potřeba nějaký pre-processing (zvýšení DPI apod.), ale prázdný výstup z PDF, které online služby převedou bez problémů, mi přijde jako dost kontrast.
PB
28.9.2023 18:32 Dan
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Online jsou dobre tak akorat na anglinu. Ja casto ocrkuji i exotictejsi jazyky a tesseract tam hraje prvni housle. Samozrejme je treba mu dat hint jaky jazyk a stahnout slovnik. No a pak je tu objem. Prohnat 300 megovou knihu online neni vubec jednoduchy a u free sluzeb v podstate nemozny.
28.9.2023 18:34 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Ja pouzivam tesseract na macos pres homebrew, mesicne tim proleze tak 10tis dokumentu a nejake problemy jsem s tim nepozoroval.
Jendа avatar 28.9.2023 19:24 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Já Tesseract párkrát použil a naprosto bez problémů. Prázdný výstup spíš zní jako že jsi to měl špatně nastavené. Osobně jsem teda nikdy nepouštěl Tesseract přímo na PDF, ale vyextrahoval jsem z něj bitmapy a pouštěl to na ty. Takhle.
28.9.2023 20:43 Pdfwarez
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
No a abys z toho nemusel mit navod na celou stranku tak vzniklo ocrmypdf a jednoduchy prikaz co udela vse:

ocrmypdf -l eng input.pdf output.pdf
xkucf03 avatar 28.9.2023 21:21 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0 - tesseract
Je to přibližně na tři řádky, viz můj příklad u nedávné zprávičky.

Důležitý je ten parametr -l ces (případně eng) tzn. je potřeba použít správný slovník. Funguje to poměrně dobře, i na skeny, takže jestli si chce někdo přidat textovou vrstvu do PDF pro vyhledávání nebo vykopírování částí textu, tak tohle v pohodě jde použít. A není potřeba posílat svoje data někam do cloudu a být závislý na nějakém poskytovateli.
Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
Max avatar 2.10.2023 10:30 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
Rozjel jsem on-prem web službu nad OCRMyPDF. Je to kvůli tomu, aby si zaměstnanci mohli nad naskenovanými PDF nahodit textovou vrstvu a mohli vykopírovat data.
Běží to na upravené verzi OCRmyPDF-web.
Veřejně dostupné aplikace mají různé politiky a nejsou pro firemní data důvěryhodné.
Zdar Max
Měl jsem sen ... :(
3.10.2023 12:06 bhy | skóre: 35 | blog: bhyblog | brno
Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
wow, díky, vyzkouším:)

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.