abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 12:55 | IT novinky

    EU chce (pořád) skenovat soukromé zprávy a fotografie. Návrh "Chat Control" by nařídil skenování všech soukromých digitálních komunikací, včetně šifrovaných zpráv a fotografií.

    Ladislav Hagara | Komentářů: 4
    dnes 12:11 | Nová verze

    Byly publikovány fotografie a všechny videozáznamy z Python konference PyCon US 2025 proběhlé v květnu.

    Ladislav Hagara | Komentářů: 0
    dnes 11:55 | IT novinky

    Společnost xAI a sociální síť X amerického miliardáře Elona Muska zažalovaly firmy Apple a OpenAI. Viní je z nezákonné konspirace s cílem potlačit konkurenci v oblasti umělé inteligence (AI).

    Ladislav Hagara | Komentářů: 0
    dnes 05:44 | Nová verze

    Byla vydána nová verze 9.16 z Debianu vycházející linuxové distribuce DietPi pro (nejenom) jednodeskové počítače. Přehled novinek v poznámkách k vydání.

    Ladislav Hagara | Komentářů: 0
    dnes 01:33 | IT novinky

    Americká vláda se po převzetí zhruba desetiprocentního podílu ve výrobci čipů Intel chystá na další investice do vybraných firem. Na sociální síti Truth Social to napsal prezident Donald Trump. Jeho ekonomický poradce Kevin Hassett v rozhovoru v televizi CNBC řekl, že nemusí jít pouze o firmy z technologického sektoru, ale i z jiných odvětví.

    Ladislav Hagara | Komentářů: 11
    včera 13:55 | Komunita

    V Amsterdamu probíhá Open Source Summit Europe. Organizace Linux Foundation představuje novinky. Pod svá křídla převzala open source dokumentovou databázi DocumentDB.

    Ladislav Hagara | Komentářů: 0
    včera 02:22 | Komunita

    Přesně před 34 lety, 25. srpna 1991, oznámil Linus Benedict Torvalds v diskusní skupině comp.os.minix, že vyvíjí (svobodný) operační systém (jako koníček, nebude tak velký a profesionální jako GNU) pro klony 386 (486), že začal v dubnu a během několika měsíců by mohl mít něco použitelného.

    Ladislav Hagara | Komentářů: 26
    včera 01:55 | Nová verze

    86Box, tj. emulátor retro počítačů založených na x86, byl vydán ve verzi 5.0. S integrovaným správcem VM. Na GitHubu jsou vedle zdrojových kódů ke stažení také připravené balíčky ve formátu AppImage.

    Ladislav Hagara | Komentářů: 1
    23.8. 17:44 | IT novinky

    Vláda Spojených států získala desetiprocentní podíl v americkém výrobci čipů Intel. Oznámili to podle agentur americký prezident Donald Trump a ministr obchodu Howard Lutnick. Společnost Intel uvedla, že výměnou za desetiprocentní podíl obdrží státní dotace v hodnotě 8,9 miliardy dolarů (zhruba 186 miliard Kč). Částka podle Intelu zahrnuje dříve přislíbené subvence 5,7 miliardy dolarů z programu CHIPS na podporu výroby čipů v USA,

    … více »
    Ladislav Hagara | Komentářů: 39
    23.8. 17:33 | Nová verze

    Organizace Apache Software Foundation (ASF) vydala verzi 27 integrovaného vývojového prostředí a vývojové platformy napsané v Javě NetBeans (Wikipedie). Přehled novinek na GitHubu. Instalovat lze také ze Snapcraftu a Flathubu.

    Ladislav Hagara | Komentářů: 0
    Pro otevření více webových stránek ve webovém prohlížečí používám
     (78%)
     (7%)
     (4%)
     (5%)
     (5%)
     (1%)
    Celkem 82 hlasů
     Komentářů: 8, poslední dnes 08:38
    Rozcestník

    Dotaz: OCR a PDF s textovou vrstvou

    27.6.2019 07:37 jsk | skóre: 10
    OCR a PDF s textovou vrstvou
    Přečteno: 686×
    Zdravím,
    potřebuji protáhnout jednotky tisíc stran nafoceného textu (anj, welšina gaelština) přes OCR. Ve výsledku potřebuji PDF s textovou vrstvou. ABBYY FineReader je fakt skvělý, ale cena pro jednorázové použití je fakt značná.
    Nevíte o finančně přístupnějším řešení, děkuji.
    Pepa

    Odpovědi

    27.6.2019 08:13 Monika Kokešová | skóre: 4 | blog: Kokeshka
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    Nedávno tu o tom byla zprávička: Full-textové prohledávání komiksů a jiných obrázků. Tzn. OCR Tesseract.
    27.6.2019 11:53 mpx
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    .... mozno usetrim cas na hladanie

    tu sa da "odrazit" na tesseract

    https://github.com/tesseract-ocr/tesseract/wiki/User-Projects-%E2%80%93-3rdParty

    pouzil som "Linux-Intelligent-OCR-Solution(lios" na Manjaro

    ja som spokojny
    27.6.2019 11:56 mhepp
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    scantailor na „vyčištění“ skenovaných obrázků a ocrmypdf na doplnění textové vrstvy.
    27.6.2019 12:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    Ve výsledku potřebuji PDF s textovou vrstvou.
    Fujtajxl.

    Já to dělám takhle. Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
    27.6.2019 13:00 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    Protože si tu vrstvu pak můžu poeditovat, vyházet nesmysly a opravit špatně rozeznané texty.
    Jo, protoze to v Acrobatu nejde...
    27.6.2019 17:38 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    Closed source mě nezajímá.
    28.6.2019 02:30 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    PDF specifikace je otevrena a hromada OSS nastroju take existuje.
    28.6.2019 07:12 Want
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    O těch jsi ale nepsal. PDF s textovou vrstvou je bastl. Bohužel se pod tou zkratkou skrývá několik různých typů dokumentů, které většina uživatelů není schopna rozlišovat, jako v dobách modemů.

    Jenže tady nejde o data. DjVu je pro zpracování přes OCR vhodnější, protože je-li dokument udělaný správně, má odseparovanou vrstvu vrstvu popředí, ve které je většinou text, což výrazně zvyšuje úspěšnost OCR.

    Navíc jeho textová vrstva je navržena tak, že může obsahovat nejenom originální text, ale i jeho překlady. A textovou vrstvu lze doplnit i u dokumentů, které přes OCR nikdy nezvládne, jako jsou např. rukopisy atp.
    28.6.2019 07:17 Want
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    Naopak udělat PDF s textovou vrstvou, jak to chce tazatel, je z DjVu dokumentu brnkačka. DjVu totiž může mít i vrstvu ve které je originální sken v JPEG-2000. Takže je technicky možné udělat takový dokument i bez ztráty kvality obrazu.
    Jendа avatar 27.6.2019 16:39 Jendа | skóre: 78 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    27.6.2019 17:05 Filip Jirsák | skóre: 67 | blog: Fa & Bi
    Rozbalit Rozbalit vše Re: OCR a PDF s textovou vrstvou
    ABBYY FineReader má i online řešení, ale v porovnání s verzí Standard moc neušetříte. Ale služeb „online OCR“ je spousta.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.