abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 22:22 | Komunita

    Na čem pracují vývojáři webového prohlížeče Ladybird (GitHub)? Byl publikován přehled vývoje za duben (YouTube).

    Ladislav Hagara | Komentářů: 1
    včera 19:11 | IT novinky

    Provozovatel čínské sociální sítě TikTok dostal v Evropské unii pokutu 530 milionů eur (13,2 miliardy Kč) za nedostatky při ochraně osobních údajů. Ve svém oznámení to dnes uvedla irská Komise pro ochranu údajů (DPC), která jedná jménem EU. Zároveň TikToku nařídila, že pokud správu dat neuvede do šesti měsíců do souladu s požadavky, musí přestat posílat data o unijních uživatelích do Číny. TikTok uvedl, že se proti rozhodnutí odvolá.

    Ladislav Hagara | Komentářů: 3
    včera 11:22 | Zajímavý projekt

    Společnost JetBrains uvolnila Mellum, tj. svůj velký jazykový model (LLM) pro vývojáře, jako open source. Mellum podporuje programovací jazyky Java, Kotlin, Python, Go, PHP, C, C++, C#, JavaScript, TypeScript, CSS, HTML, Rust a Ruby.

    Ladislav Hagara | Komentářů: 3
    včera 09:11 | Bezpečnostní upozornění

    Vývojáři Kali Linuxu upozorňují na nový klíč pro podepisování balíčků. K původnímu klíči ztratili přístup.

    Ladislav Hagara | Komentářů: 2
    1.5. 20:00 | Komunita

    V březnu loňského roku přestal být Redis svobodný. Společnost Redis Labs jej přelicencovala z licence BSD na nesvobodné licence Redis Source Available License (RSALv2) a Server Side Public License (SSPLv1). Hned o pár dní později vznikly svobodné forky Redisu s názvy Valkey a Redict. Dnes bylo oznámeno, že Redis je opět svobodný. S nejnovější verzí 8 je k dispozici také pod licencí AGPLv3.

    Ladislav Hagara | Komentářů: 2
    1.5. 19:22 | IT novinky

    Oficiální ceny Raspberry Pi Compute Modulů 4 klesly o 5 dolarů (4 GB varianty), respektive o 10 dolarů (8 GB varianty).

    Ladislav Hagara | Komentářů: 1
    30.4. 22:33 | Nová verze

    Byla vydána beta verze openSUSE Leap 16. Ve výchozím nastavení s novým instalátorem Agama.

    Ladislav Hagara | Komentářů: 0
    30.4. 17:44 | Zajímavý článek

    Devadesátková hra Brány Skeldalu prošla portací a je dostupná na platformě Steam. Vyšel i parádní blog autora o portaci na moderní systémy a platformy včetně Linuxu.

    karkar | Komentářů: 0
    30.4. 12:11 | Humor

    Lidi dělají divné věci. Například spouští Linux v Excelu. Využít je emulátor RISC-V mini-rv32ima sestavený jako knihovna DLL, která je volaná z makra VBA (Visual Basic for Applications).

    Ladislav Hagara | Komentářů: 7
    30.4. 10:44 | IT novinky

    Revolut nabídne neomezený mobilní tarif za 12,50 eur (312 Kč). Aktuálně startuje ve Velké Británii a Německu.

    Ladislav Hagara | Komentářů: 36
    Jaký filesystém primárně používáte?
     (58%)
     (1%)
     (9%)
     (21%)
     (4%)
     (1%)
     (2%)
     (0%)
     (1%)
     (3%)
    Celkem 507 hlasů
     Komentářů: 19, poslední 30.4. 11:32
    Rozcestník

    OCRmyPDF 15.0.0

    Byla vydána nová major verze 15.0.0 softwaru OCRmyPDF pro přidávání textové vrstvy k naskenovaným PDF dokumentům (PDF/A). Přehled novinek v poznámkách k vydání. OCRmyPDF využívá pro optické rozpoznávání znaků (OCR) engine Tesseract.

    26.9.2023 12:55 | Ladislav Hagara | Nová verze


    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    26.9.2023 13:54 Tom
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Pomerne zavazne info az to nekdo ma na starsim servru: Dropped support 32-bit Windows and Linux. You must use a 64-bit operating system.
    26.9.2023 19:28 jowa868
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    On v dnešní době ještě někdo používá 32-bit Intel? :O
    26.9.2023 20:43 Jin
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    A to jej mam vyhodit? Slape jak hodinky a po upgrade na SSD chytil druhy dech. IBM xSeries 305 s Pentium4 a frci tam skolni phpBB a nejaky apache :)
    26.9.2023 21:03 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Ak má škola elektriku zdarma, ...
    26.9.2023 22:33 Jin
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Ma to tusim 200W zdroj a povoleny sleep s WOL. A v tom racku je podobnych kousku mnohem vic, holt sme elekrotechnicka skola toz si muzem dovolit i muzeum :)
    27.9.2023 07:01 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    A to s tým rackom vykurujete školu?
    27.9.2023 18:31 Jin
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Mam dojem ze prumerna paranska masina s dvema GPU a 800W zdrojem zere vic nez ten rack. Navic kdyz do takove svatyne zavedes linuxacku tak se ji spusti prirozene reflexy, odhazuje podprdu a roztahuje nohy! :-)
    27.9.2023 18:46 paráda
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Takový oslí můstek jak z OCR dojít k radodajné linuxačce, to najdete jen na abclinuxu.cz!
    27.9.2023 19:00 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Obávam sa že 5 rokov starý firemný notebook má viac výpočtového výkonu ako celý rack naložený spomínanými servermi IBM xSeries 305 s Pentium4 a aj menšiu spotrebu ako jediný taký server. Predsa len 533 MHz FSB a 133 MHz DDR PC2100 sú 20 rokov staré vykopávky.

    Čo ale nič nemení na tom, že OCRmyPDF je python nádstavba nad tesseract. Takže na vyjadrení o podpore OCRmyPDF len pre 64bit nezáleží ak python a tesseract ostanú fungovať na 32bit.
    27.9.2023 12:03 B
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Ano, vyhodit.
    27.9.2023 19:40 Kantor
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    A ty víš, že v školství v podstatě neexistuje amortizace nebo morálni zastaralost techniky? Dokud něco šlape tak se prostě nevyhodí dokud nechcípne*. A to takový Meotar chcípá dost neochotně...

    * jo když je to nutný tak na to "náhodou" uklízečka vyleje kýbl a to se pak už musí odepsat z "bezpečnostních" důvodů...
    27.9.2023 20:18 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Kedysi firmy zvykli darovať školstvu odpísanú výpočtovú techniku. Odpisy boli obvykle po cca 2 až 5 rokoch, podľa typu. Pre firmy to bolo lacnejšie ako to dať na "nútenú ekologickú recykláciu", a robili tak rady.

    Bolo by to lepšie ako používať server starší ako sú študenti.
    27.9.2023 22:00 Jin
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    A to myslis, ze nase skola mela prachy na rack s novym IBM? Jasne ze to byl dar a nam skvele slouzi - jako ucebni pomucka, tak jako servry.
    28.9.2023 07:21 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Akože podľa teba školy odkupovali za peniaze darované odpisy z firiem? Z teba bude úspešný podnikateľ, ktorý bude spriaznený z vládou.
    28.9.2023 07:49 Jin
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Cteni s porozumenim neni tvoje silna stranka ze?
    28.9.2023 08:03 Peter Golis | skóre: 64 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Ale je. Kedysi dokonca existovala na Slovensku možnosť priameho sponzoringu (keď sa dar odpisoval školstvu z daní ktoré firma mala zaplatiť štátu).

    To nič nebráni používať to vykurovacie teleso na zaťažovanie klimatizácie za cenu zvýšených nákladov na energie. Ale na prevod naskenovaných dokumentov je to nehospodárne. A to je dôvod môjho skepticizmu.

    Stále sú 32bit distribúcie ktoré ostanú podporované ešte X rokov aj na prastarom HW. Keby si to spravoval, tak to vieš.
    Max avatar 2.10.2023 10:26 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Eko likvidace je zdarma a bez většího papírování a námahy. Darování je papírování + námaha. Darování tedy sebou kupodivu nese overhead. Každopádně my jedeme dárcovství pro jednu školu a teď se rozjíždí pro druhou. Hlavně vyřazené tablety a počítače.
    Zdar Max
    Měl jsem sen ... :(
    28.9.2023 16:55 bhy | skóre: 35 | blog: bhyblog | brno
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Používáte někdo aktivně Tesseract nebo obecně offline open source OCR na Linuxu? V mém okolí všichni používají více méně bezchybně fungující online webové služby. Myslel jsem, že ty služby používají jako backend to, co mám v distribuci, ale ani náhodou. Z PDF v dobré kvalitě, se kterým online služby neměly problém, jsem nedokázal dostat nic než prázdný výstup (GOCR, Tesseract - zkoušel jsem i 5.x z PPA), popř. trochu rozsypaného čaje (Cuneiform).

    Jsou ty věci už mrtvé a všechno se dělá online, nebo jsem se jen málo snažil? Chápu, že může být potřeba nějaký pre-processing (zvýšení DPI apod.), ale prázdný výstup z PDF, které online služby převedou bez problémů, mi přijde jako dost kontrast.
    28.9.2023 18:32 Dan
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Online jsou dobre tak akorat na anglinu. Ja casto ocrkuji i exotictejsi jazyky a tesseract tam hraje prvni housle. Samozrejme je treba mu dat hint jaky jazyk a stahnout slovnik. No a pak je tu objem. Prohnat 300 megovou knihu online neni vubec jednoduchy a u free sluzeb v podstate nemozny.
    28.9.2023 18:34 RealJ | skóre: 8
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Ja pouzivam tesseract na macos pres homebrew, mesicne tim proleze tak 10tis dokumentu a nejake problemy jsem s tim nepozoroval.
    Jendа avatar 28.9.2023 19:24 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Já Tesseract párkrát použil a naprosto bez problémů. Prázdný výstup spíš zní jako že jsi to měl špatně nastavené. Osobně jsem teda nikdy nepouštěl Tesseract přímo na PDF, ale vyextrahoval jsem z něj bitmapy a pouštěl to na ty. Takhle.
    28.9.2023 20:43 Pdfwarez
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    No a abys z toho nemusel mit navod na celou stranku tak vzniklo ocrmypdf a jednoduchy prikaz co udela vse:

    ocrmypdf -l eng input.pdf output.pdf
    xkucf03 avatar 28.9.2023 21:21 xkucf03 | skóre: 49 | blog: xkucf03
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0 - tesseract
    Je to přibližně na tři řádky, viz můj příklad u nedávné zprávičky.

    Důležitý je ten parametr -l ces (případně eng) tzn. je potřeba použít správný slovník. Funguje to poměrně dobře, i na skeny, takže jestli si chce někdo přidat textovou vrstvu do PDF pro vyhledávání nebo vykopírování částí textu, tak tohle v pohodě jde použít. A není potřeba posílat svoje data někam do cloudu a být závislý na nějakém poskytovateli.
    Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes
    Max avatar 2.10.2023 10:30 Max | skóre: 72 | blog: Max_Devaine
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    Rozjel jsem on-prem web službu nad OCRMyPDF. Je to kvůli tomu, aby si zaměstnanci mohli nad naskenovanými PDF nahodit textovou vrstvu a mohli vykopírovat data.
    Běží to na upravené verzi OCRmyPDF-web.
    Veřejně dostupné aplikace mají různé politiky a nejsou pro firemní data důvěryhodné.
    Zdar Max
    Měl jsem sen ... :(
    3.10.2023 12:06 bhy | skóre: 35 | blog: bhyblog | brno
    Rozbalit Rozbalit vše Re: OCRmyPDF 15.0.0
    wow, díky, vyzkouším:)

    Založit nové vláknoNahoru


    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.