Domáce AI OCRko...

Přihlášení | Registrace

napište » Zprávičky

Zork I, Zork II a Zork III oficiálně open source

dnes 06:11 | Komunita

Microsoft v příspěvku na svém blogu věnovaném open source oznámil, že textové adventury Zork I, Zork II a Zork III (Wikipedie) jsou oficiálně open source pod licencí MIT.

Ladislav Hagara | Komentářů: 0

SUSE Hack Week 25

dnes 05:55 | Komunita

První prosincový týden proběhne SUSE Hack Week 25. Zaměstnanci SUSE mohou věnovat svůj pracovní čas libovolným open source projektům, například přidání AI agenta do Bugzilly, implementaci SSH v programovacím jazyce Zig nebo portaci klasických her na Linux. Připojit se může kdokoli.

Ladislav Hagara | Komentářů: 0

Quick Share na Androidu funguje s AirDropem na iOS

včera 22:00 | IT novinky

Google oznámil, že Quick Share na Androidu funguje s AirDropem na iOS. Zatím na telefonech Pixel 10. Uživatelé tak mohou snadno přenášet soubory z telefonů s Androidem na iPhony a obráceně.

Ladislav Hagara | Komentářů: 0

PHP 8.5

včera 21:22 | Nová verze

Byla vydána nová verze 8.5 (8.5.0) skriptovacího jazyka PHP používaného zejména k vývoji dynamických webových stránek. Přináší řadu novinek a vylepšení (URI Extension, Pipe Operator, Clone With, …). Vydána byla také příručka pro přechod z předchozích verzí.

Ladislav Hagara | Komentářů: 0

EK zahájila vyšetřování cloudových platforem Amazonu a Microsoftu

včera 12:44 | IT novinky

Evropská komise zahájila tři vyšetřování týkající se cloudových platforem Amazon Web Services (AWS) a Microsoft Azure. Evropská exekutiva, která plní také funkci unijního antimonopolního orgánu, chce mimo jiné určit, zda jsou americké společnosti Microsoft a Amazon v cloudových službách takzvanými gatekeepery, tedy hráči, kteří významně ovlivňují provoz internetu a musí dle nařízení o digitálních trzích (DMA) na společném trhu

… více »

Ladislav Hagara | Komentářů: 4

Meta vyhrála soudní spor o převzetí služeb Instagram a WhatsApp

včera 12:33 | IT novinky

Společnost Meta Platforms vyhrála ostře sledovaný spor o akvizici sítě pro sdílení fotografií Instagram a komunikační aplikace WhatsApp. Podle amerického soudu firma jejich převzetím neporušila antimonopolní zákon, protože si tak nemonopolizovala trh sociálních sítí. Žalobu na Metu podala před pěti lety americká Federální obchodní komise (FTC). FTC argumentovala, že Meta, tehdy známá jako Facebook, koupila tyto dvě společnosti v letech 2012 a 2014 proto, aby s nimi nemusela soutěžit.

Ladislav Hagara | Komentářů: 0

Home Assistant Connect ZBT-2

včera 05:11 | IT novinky

Home Assistant včera představil svůj nejnovější oficiální hardware: Home Assistant Connect ZBT-2 pro připojení zařízení na sítích Zigbee nebo Thread.

Ladislav Hagara | Komentářů: 5

Proxmox Virtual Environment 9.1

19.11. 19:44 | Nová verze

Byla vydána verze 9.1 open source virtualizační platformy Proxmox VE (Proxmox Virtual Environment, Wikipedie) založené na Debianu. Přehled novinek v poznámkách k vydání a informačním videu.

Ladislav Hagara | Komentářů: 1

Superpočítač El Capitan zůstává nejvýkonnějším superpočítačem na světě (TOP500 11/2025)

19.11. 17:44 | IT novinky

Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem zůstává El Capitan od HPE (Cray) s výkonem 1,809 exaFLOPS. Druhý Frontier má výkon 1,353 exaFLOPS. Třetí Aurora má výkon 1,012 exaFLOPS. Nejvýkonnější superpočítač v Evropě JUPITER Booster s výkonem 1,000 exaFLOPS je na čtvrtém místě. Nejvýkonnější český superpočítač C24 klesl na 192. místo. Karolina, GPU partition klesla na 224. místo a Karolina, CPU partition na 450. místo. Další přehledy a statistiky na stránkách projektu.

Ladislav Hagara | Komentářů: 17

Azure Cobalt 200

19.11. 17:22 | IT novinky

Microsoft představil Azure Cobalt 200, tj. svůj vlastní SoC (System-on-Chip) postavený na ARM a optimalizovaný pro cloud.

Ladislav Hagara | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (35%)

Gitlab (46%)

Atlassian (19%)

Bitbucket (18%)

Gitea (23%)

Mercurial (15%)

jen git (23%)

jen svn (15%)

Jiné (uvedu v diskusi) (17%)

Celkem 373 hlasů

Komentářů: 17, poslední 19.11. 21:57

Rozcestník

AbcLinuxu

HDmag.cz

cbrpnk - bl0gium

Aktuální zápisy

? Archív

? Současný desktop

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / bl0gium / Domáce AI OCRko...

Štítky: cd, cURL, For, Git, import, Internet, obrázky, OCR, pip, prohlížeče, skript, Streamlit, tracking, Version Control System

Domáce AI OCRko...

15.3. 11:25 | Přečteno: 1623× | c0mput3rs

Čo budeme potrebovať na domáce AI OCRko?

pip install ollama-ocr

Ak nemáme, nainštalujeme ollamu

curl -fsSL https://ollama.com/install.sh | sh

a stiahneme príslušné modely.

ollama pull llama3.2-vision:11b
ollama pull granite3.2-vision
ollama pull moondream

Batch OCR všetkých obrázkov zo zadaného adresára napr batch_ocr.py:

from ollama_ocr import OCRProcessor

# Initialize OCR processor
ocr = OCRProcessor(model_name='granite3.2-vision', max_workers=4)  

# Process multiple images with progress tracking
batch_results = ocr.process_batch(
    input_path="/home/user/ocr",  
    format_type="markdown",
    recursive=True, 
    preprocess=True, 
    custom_prompt="Extract all text, focusing on dates and names.", 
    language="English" 
)

# Create and write OCR text results to individual text files
for file_path, text in batch_results['results'].items():
    text_file_path = f"{file_path}.txt"  
    with open(text_file_path, "w", encoding="utf-8") as text_file:
        text_file.write(text)
    
    print(f"\nFile: {file_path}")
    print(f"Extracted Text: {text}")


print("\nProcessing Statistics:")
print(f"Total images: {batch_results['statistics']['total']}")
print(f"Successfully processed: {batch_results['statistics']['successful']}")
print(f"Failed: {batch_results['statistics']['failed']}")

Nahádžeme obrázky do adresára /home/user/ocr. Spustíme skript

python3 batch_ocr.py

a v adresári /home/user/ocr nájdeme txt súbory s OCR informáciou.

Ak potrebujeme aj webové rozhranie

git clone https://github.com/imanoop7/Ollama-OCR.git
cd Ollama-OCR
pip install -r requirements.txt
cd src/ollama_ocr      
streamlit run app.py

Hodnocení: 50 %

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

15.3. 11:42 Want
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

Takhle nějaký vzoreček na ukázku by nebyl? Abychom měli představu z čeho co vykouzlí a kolik dalšího sraní to pak ještě bude vyžadovat.

15.3. 19:04
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Náš administrátor shledal tento komentář závadným.

provokatér

Zobrazit komentář

15.3. 23:05 Want
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tupče, nemáš ani páru co takový postprocesing obnáší. Už jenom dvouslopcova sazba, případný perex či poznámky pod čarou s indexy, repetitivni název v záhlaví, čísla stránek v patě. Scan je tak 10% práce, úprava scanu 20%, OCR 30% ale pak dočistit bordel po OCR je zbytek, idiote!

16.3. 04:10
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Náš administrátor shledal tento komentář závadným.

provokatér

Zobrazit komentář

16.3. 07:01 Want
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tak jsi přišel na svět možná tak ty na slovači. Ten předchozí příspěvek sice místo mne vložil někdo jiný, ale to nic nemění na tom, že to tak je.

15.3. 13:03 Miki
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

HW poziadavky a nejaky benchmark voci Tesseractu by nebol?

16.3. 21:21 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

Používám OCRmyPDF s OCRmyPDF-web jako web iface pro uživatele. Vesměs spokojenost. Mám to tak hafec let. Každopádně by mně zajímalo, zda má smysl přechod z ocrmypdf (tedy tesseract) na něco jiného.
Nicméně koukám, že Ollama dostala podporu pro pdf před osmi dny. A je to postavené na Llama 3.2-Vision. Vypadá to na mnohem vyšší hw nároky a na mnohem menší podporu jazyků, něco jao 100 vs 8.
Z toho tedy usuzuji, že nasazení zatím nemá smysl.
Zdar Max

Měl jsem sen ... :(

16.3. 21:49 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Příloha:

1647_Hedvika_Kapica_svatba.jpg (119349 bytů)

Ale je to AI, tak to musí být určitě lepší, ne? ;-)

Pro mne to začne být zajímavé, až to zvládne i texty, jako je kupř. ten v příloze.

17.3. 09:12 jejda | skóre: 26 | blog: jejda
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Jsem si až doteď myslel že jakžtakž umím číst. No nic. Zajímalo by mě, jestli za 500 let budou lidi z naší latinky stejně paf jak teď já z toho obrázku. Tipl bych si že nejspíš jo, protože to už se budou používat místo písma nějaké neuro-elektrické impulzy generované centrálním galaktickým supermozkem lidem přímo do hlav. Generování a šíření vlastních impulzů bude podléhat mučivým schvalovacím procesem, kterým nakonec projde jenom hrstka vyvolených. Autoři a distributoři myšlének které supermozek neschválí budou tvrdě stíháni. Vznikne podzemní rebelské hnutí, které bude používat ke komunikaci písmo podobné tomu z tvojeho obrázku. To bude pro supermozek nečitelné :-)

17.3. 12:11 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Běžný matriční záznam ze 17. století: 10. Junnius 1674 Joan Kurkowűts von [Li]ewiera, ein Wittiber mit Hedwig Capiczowna Won [J]omzowűtz beӳ Tarnowitz ein Wittib. Testis. Blaczech Kaluza. – link na originál.

Moje interpretace: 10.6.1674 [se oženil] Jan Kurkovic, z ?, vdovec (ein Wittiber) s (mit) Hedvikou, dcerou Kapicy (použití přípony -owna dokládá polský původ) z ? poblíž (bei) Tarnovic, vdovou (ein Wittib). Svědci (Testis) Plaček Kaluža.

Problém tohoto záznamu: Nejsem schopen blíže identifikovat obce ze kterých pocházeli. Tarnovice, od dob Jana Lucemburského patřící mezi země české koruny, jsou dnešní Tarnowskie Góry. V roce 1674 ještě pod legitimní vládou korunovaného (1656) českého krále Leopolda I. Habsburského. V oblasti, kterou si o 66 let později přivlastnilo Prusko (1740) a kterou roku 1922 rada Společnosti národů (takový předchůdce NATO, kde hrála prim Francie a Velká Británie) přiklepla obnovenému vazalskému Polsku, přestože si na ni brousilo zuby vazalské Československo (které by si tak interně vylepšilo poměr slovanů vůči germánům). Ale to je celkem fuk, protože dál do minulosti se už přes matriky stejně nedostanu. Starší záznamy (v češtině) (1654) jsou ještě stručnější. Který čech by se obtěžoval takovým detailem, jakým bylo jméno ženy 8-P, hlavně že to má datum.

17.3. 07:16
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

Náš administrátor shledal tento komentář závadným.

provokatér

Zobrazit komentář

17.3. 09:29 Slovenský prejav
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

My vám veď robíme láskavosť. Každý Pepík si musí denne zapindať a tak nemusí hľadať, rovno to má v diskusii. Také ABClinuxu by potrebovalo slovenského šéfredaktora, čo by tu nastolil poriadky a zmenil UI. To by ste blahom pindali od rána do noci.

17.3. 09:56 pwd123456
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

:D díky!

17.3. 11:11 _
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

nojo, to je skvělé - a jaké pořádky by tady měl nastolit? Máš nějakou představu co ti tady vadí, nebo chybí?

17.3. 12:14 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tak to si zřejmě ucvrnkneš štěstím, až tu po volbách zavládnou pořádky slovenského premiéra, když už ne tedy rovnou šéfredaktora. O přísloví „poturčenec horší turka” jsi slyšel?

17.3. 13:12 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

mne by spis zajimalo, jak by si to poradilo se sepsanim seznamu knih na polici. treba: https://knihovna.utb.cz/wp-content/uploads/2020/10/knih_aktualita_rijen_2020.jpg

dostal jsem za ukol sepsat knizky, co ma doma nase babicka - je to nekolik set knizek, je docela sectela a cely zivot kupovala knizky. sepisovat je rucne je andlodsky vykon. tak jsem zkousel par OCR, ale byla to spis bida, nez uzitek, rucne prepisovat bylo rychlejsi.

17.3. 15:20 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

No. Bez ruční práce to nepůjde, ale zefektivnit asi jo.

Každá slušná kniha obsahuje tiráž. Pokud máš mobil, který alespoň trochu slušně fotí, tak ber jednu po druhé na nacvakej si do něj ty tiráže. ALE JEN TIRÁŽ – tzn. že na té fotce bude jen tisk a bílé pozadí.

Ber polici po polici, ale systematicky.

Až s tím budeš hotov, přesuň ty fotky do kompu a můžeš na to poštvat netpbm. Abys neřekl, tady máš kolonu, kterou na to můžeš použít:

~# ${JPEGTOPNM} ${SOURCE} | \
   ${PAMCUT} -left 150 -width 1 | \
   ${PAMTOPNM} | \
   ${PPMTOPGM} | \
   ${PGMTOPBM} -threshold -value 0.5 > /tmp/strip.pbm

A na ten hotový soubor /tmp/strip.pbm poštvi tesseract a výstup ulož do souboru, pojmenovaného stejně jako ten snímek tiráže, akorát s příponou .txt. Výchozí soubor (snímek) ti poskytne přes exif čas pořízení snímku, který pak můžeš do těch souborů přidat.

A máš v podstatě k dispozici vše k tomu, abys mohl vygenerovat katalog a k němu adekvátní štítky s QR kódy, kterýma pak olepíš hřbety, ev. titulní listy těch knih.

Jak jsem napsal hned úvodem. Bez ruční práce se to neobejde a každou z těch knih budeš muset vzít minimálně jednou do ruky. Ale pak, až to budeš mít v těch textových souborech, už půjde hodně věcí automatizovat.

17.3. 23:11 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ale ten tesseract (na prvni pohled) nevypada spatne. oznaceni hrbetu jednotlivych knih na fotce je sice taky vopruz, ale urcite mensi effort, nez je vytahovat a fotit jednotlive. diky za tip

17.3. 15:25 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Ten čas je důležitý – pomůže ti setřídit ty soubory podle umístění knihy. Na konci police si cvakni třeba její číslo, nebo alespoň prázdný list. Pomůže ti to detekovat začátky a konce číselných řad.

A polepením je dobré pověřit nějakou pečlivou osobu, co nesere na to co dělá. Nemusí být moc chytrá ani zručná. Jenom by měla průběžně kontrolovat jestli lepí správný štítek do správné knihy.

17.3. 16:00 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

diky za odpoved, ale to je presne ten postup, kteremu jsem se chtel vyvarovat: po jednom vytahovat knihy z policky, dokonce je otevirat!

moje predstava je spis takova, ze z jedne fotky jedne police se pomoci OCR precte nazev/autor (pokud tam je) a zanese do nejakeho csv, kery je pak pozdeji zpracovan scriptem, co vyhleda prislusne info ke knize z webu. tech polic je (okometricky) kolem 50, v kazde 20-40 knih (nekde dokonce ve dvou radach - no, tam se to vytahovat bude muset).

jsem odhadoval, ze jenom to foceni polic zabere jeden cely den, ne-li vikend (foceni, kontrola citelnosti, kontrastni upravy, doostrovani ... pripadne znovufoceni). a do toho nervozni babicka, ktera desne lpi na tech knizkach - jako pujcit pujci, s tim nema problem, ale prehrabavat se v nich, vytahovat, nebo dokonce riskovat, ze se vrati na jine misto, to fakt ne. (ja ji chapu - nektere knizky jsou pekne stare - i pres 100 let)

proto jsem byl zvedav na to AI, jak to eventualne zvlada precist ruzne fonty, ruzne orientovane.

takze ano, s tim naprosto souhlasim: ten cas je dulezity :-D

17.3. 16:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tak to si počkej až cbrpnk natrénuje tu Ollamu. Obávám se však, že do té doby zemřeš úderem do hlavy o ten regál, když si přišlápneš vous, co ti za tu dobu vyraší 8-D

17.3. 17:54 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ta tva predstava je stejne detinska jako kdyz muj 8 lety syn ma predstavu ze bude bydlet s nama i kdyz mu bude 30 let... prvni vec, ktera me napadne je ze muzes narazit na stejny nazev knizky u ruznych autoru nebo na knizky ktere maji na hrbetu uplny kulovy... dalsi vec - vyhleda si na webu prislusne info ke knize? Uz to mas naprogramovane, odladene? Nejsnadnejsi reseni je dat random studentovi brigadu za 500/1000 at ti nafoti kazdou knizku zepredu a k tomu stranku s isbn/informacemi o vydani... pak z tech fotek vyctes isbn a od toho uz najdes informace bez problemu. Nebo dej studentovi dalsi litr at ti to napise a doda vysledny csv s nejakym domluvenym % chyb. No a pokud jses kolenovrt...

17.3. 21:06 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

koukam, ze hodne lidi ma problem s chapanim psaneho textu. bez urazky.

ale co je nepochopitelneho na tom, kdyz napisu, ze neni mozne travit dlouhy cas sbiranim dat a dalsi blocking je nemoznost (ve velkem) manipulace s knizkama?

mam uz odlazdenych (z jinych projektu) podobne scripty, jako vyhledavani duplicit v zaznamech, nejednoznacne zaznamy odlozit bokem na manualni zpracovani, vyhledavani informaci k zaznamu na webu (filmy, hudebni alba, ...)

jsem chtel jenom vedet (puvodni post), jak si stoji AI se ctenim textu atypickeho vzhledu a orientace. a tady, jak koukam, jsem narazil na hromadu lidi s kladivama (pro ktere je kazdy problem hrebikem) :-D

18.3. 04:07 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

takze vse mas hotove a zajima te jenom srovnani AI s tesseractem? Protoze ten text ti precte i tesseract...

18.3. 16:47 podlesh
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ta tva predstava je stejne detinska jako kdyz muj 8 lety syn ma predstavu ze bude bydlet s nama i kdyz mu bude 30 let...

Aby ses nedivil, zrovna mama-hotel ve třiceti je dnes celkem běžná věc.

22.3. 20:07 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Ano, u neschopnych lidi je to bezne… u idiotu je to trvale… normalni clovek u studia vs pracuje a vydela si na sve bydleni…

22.3. 22:16 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Jaké si ty děti vychováš, takové je máš. Můj syn s nataženou tlapkou nechodí.

23.3. 00:50 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tvuj syn chape ze mu zanechas leda navod k diskless sendvicum…

23.3. 11:30 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

A pár nemovitostí k tomu Žako.

17.3. 16:10 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

BTW: to uz radsi si sednout a nahlas cist nazvy knih do mobilu azvukove soubory pak prehnat pres nejaky text2speech tool.

akorat to by potrebovala nejakeho cloveka, co se mluvenim zivy, protoze cele hodiny cist (artikulovane, s durazem na cistotu vyslovovani), to by normalniho cloveka taky polozilo na lopatky (odrovnalo hlasivky).

17.3. 17:05 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Ochraptíš u prvního regálu. Nehledě na to, že ten "text2speech tool" si také schroustne nějaký ten čas a výpočetní výkon. Já na taková nástroj čekal přes 20 let, protože nebyl kdo by to za nějaký obolus překepal na stroji. A ta kvalita stejně není nic moc a vyžaduje korekci.

Chceš knížecí radu?

Zapomeň na rychlá řešení a začni něco dělat. Půjde to pomalu, ale jistě. Když počítáš na jednu knihu optimistických 30 sekund, tak s tím zabiješ 7 člověkodní při počtu 20 tis. publikací, a tolik jich tvá babi za svůj život nenastřádala. To se vsadím. Sám jich vlastním odhadem něco do tisícovky, včetně knihovny co jsem zdědil po bratranci, co byl podobný knihomol jako já.

17.3. 20:19 iSteve
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Koukate na to moc linuxove.

Proste iPhonem pofotit hrbety knih na policce a pres airdrop hodit do Macu. Tam to (pripadne vyrotovat) a Preview dokaze selectnout text i z obrazku, neni treba nejaky ocr ci olamu, je to zapeceny v macOS primo.

Pak to jen pastuj do nejakyho dokumentu a pripadne nejakou chybku oprav pres spelling and grammar (zapeceny primo v macOS). Za hodinku to das.

ukazka

17.3. 21:29 Want
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Nedostatky tohoto řešení zmínil už Žako. Krom toho, tituly na hřbetu knih nejsou ani zdaleka samozřejmostí. Polovina knih co vlastním je nemá a mnoho jich ani nemá tiráž - samizdaty, archiválie, či hodně jeté rarity ulovené z antikvariátů.

Vím, že se opakuji, ale jsou oblasti na které AI nemá a nikdy mít nebude. Těžko ti najde knihu na základě pocitu a jen velice vágní vzpomínky na to co jsi kdysi dávno četl. Neví nic o tom, jak ra kniha byla velká, ani kde se přibližně ta pasáž nalézá. Takový Techický slovník Teyslerra Kotyšky má přes metr, ale také index. Ovšem mraky jiných knih nic takového nemají a přesto vím kde najdu založeno to co hledám.

17.3. 22:28 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

reknu jednoduseji - mne nezajima, jak to nejde a proc to nejde.

svoji odpoved jsem jinak uz formuloval o neco drive (o par vstupu mahoru). ptal jsem se na konkretni vec. a o te, podle odpovedi, nikdo nema informace. to je tak tezke sam sobe priznat, ze neco nevite? to je fakt potreba svou neznalost maskovat mnozstvim vseobecne znamych plku? a nikomu to neprijde divne? jako fakt? (pro vysvetleni: basnicke otazky - nevyzadujici odpoved tazateli)

18.3. 00:32 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

reknu jednoduseji - mne nezajima, jak to nejde a proc to nejde.

Ale mělo by, příteli. Mělo by. Marně se neříká „dvakrát měř a jednou řež”. To máme u nás také jednoho takového, kterého to nezajímá, a pak se hrozně diví, kam až klesá priorita jeho požadavků.

18.3. 04:08 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Je to vul, oskenuje polovinu knizek, vycuca mu to z niceho vsechny metadata z internetu ale vsichni tady jsou idioti...

18.3. 08:04 Rad
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ano, ten vul se zepta jaky je rozdil v chuti mezi staropramenem a starobrnem a "experti" se zacnou predhanet o vykladu procesu vyroby vrchne a spodne kvaseneho piva ...

teseract jsem neznal - kouknu se na to. jsem se ptal, jak zvlada to AI cteni ruznych fontu a ruzne stranove orientace. na to mi nikdo neodpovedel. hlavne, ze ja jsem vul.

18.3. 09:10 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

No jsi vul, protoze neumis pouzit ani google a seznam ti evidentne nic nenasel. Kdyby jsi pouzil google tak najdes okamzite tesseract a vymluvy o starobrne si nech, to pivo stoji stejne za hovno jako tvuj pruzkum… hlavne ze mas pry skripty na vsechno… pohadky stareho Izaka…

18.3. 09:15 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Nemusíš se hnedka čertit. Tesseract není žádná AI, pracuje s hotovými modely které si musíš stáhnout, podle toho o jaký jazyk půjde. Umí zpracovat i frakturu, pokud máš ten správný model (tesseract-ocr-frk). Ale jsou prostě texty pro které žádný model není a nebude. Jako ten, který jsem uvedl.

K jejich vyluštění je totiž potřeba mraky jiných, zdánlivě nesouvisejících informací i jistou dávku intuice, kterou AI nemá.

18.3. 12:31 karkar | skóre: 12 | blog: Kartrolling
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ehm, tak já jako expert na pivo tvrdim, že staropramen jsou jen o něco lepší chcanky než starobrno. U těhle se nemá cenu bavit o chuti ani o kvašení.

22.3. 20:05 RealJ | skóre: 8
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Ja ti nevim, rict o staropramenu ze je lepsi nez starobrno je stejne jako rict ze vcerejsi prujem mel lepsi konzistenci nez prujem pred tydnem… furt to stoji za hovno… chcanky proste nechlastat.

18.3. 09:35 hmmmw | skóre: 3 | blog: hmmmw
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Já jen přispěji: https://xkcd.com/1319/

Aneb, kdybys hned začal sepisovat ručně. Už bys to dávno měl :D

18.3. 09:41 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Dovolím si nesouhlasit. Vývoj vedl k tomu, že vzniknul whisker a bez toho bych dál a dál marně čekal na osobu, která by ty staré audio nahrávky překlepala do počítače.

19.3. 09:36 hmmmw | skóre: 3 | blog: hmmmw
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Sám jsi to výše počítal, kolik to zabere času. Očividně to je problém, který už nějakou dobu odkládá. Kdyby neodkládal a ručně to sepsal, měl by hotovo, a nemusel by čekat, až vznikne nástroj, který to udělá sám...

Nechápu, proč se vždy stavíš proti všem do opozice.

19.3. 10:53 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Nechápu, proč se vždy stavíš proti všem do opozice.

To se ti jen zdá. Já jsem spočítal, kolik by mu asi tak zabralo zpracování tiráží. A když jsem odpovídal, šlo primárně o bezprostřední reakci na ten jeho šílený nápad – „to uz radsi si sednout a nahlas cist nazvy knih do mobilu azvukove soubory pak prehnat pres nejaky text2speech tool. akorat to by potrebovala nejakeho cloveka, co se mluvenim zivy, protoze cele hodiny cist (artikulovane, s durazem na cistotu vyslovovani), to by normalniho cloveka taky polozilo na lopatky (odrovnalo hlasivky).”

Text → Oko → Mozek → Prsty

vs.

Text → Oko → Mozek → Huba → audio záznam. a následně, audio záznam → Ucho → Mozek → Prsty

Kterážto realizace je (nejenom) časově mnohem náročnější. Je to stejně praštěné řešení, jako nahrávání dění na terminálu ve formátu mp4.

18.3. 15:00 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

ChatGPT 4.5 ti to dá i z téhle fotky focené na bramboru:

Na obrázku jsou viditelné následující knihy (některé názvy jsou částečně čitelné):

Farmakologie

Farmakoterapie vnitřních nemocí

Barevný atlas farmakologie

Mechanika zemin

Úvod do informatiky

Medicína

Psychoterapeutické směry

No vnímání umění

Moderní fyziologie

Společenský rozvoj

Základy psychologie

Klinická propedeutika

Základy pediatrie

Lékařská péče o dítě

Anatomie člověka

Chirurgie pro studenty medicíny

Další knihy nejsou kvůli úhlu či rozlišení jasně čitelné. Pokud potřebuješ informace o nějaké konkrétní knize, dej mi vědět!

API call stojí pár korun.

blog.rfox.eu | DREAMLAND

18.3. 17:10 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Jako obvykle polopravda. A to, že se některé tituly nejspíš opakují, ani jejich se nedozvíš. Ale když jsem se na ti fotku kouknul zblízka, je vidět že ty knihy nějaké kódy mají. Co se takhle podívat, jestli se někde neválí kartotéka?

22.3. 15:11 jose17 | skóre: 44 | blog: Joseho_blog | Bratislava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

pip bez virtualneho environmentu? curl pipovany do shellu? ale no fuj!

Ja vim, on vi, ty nano!

23.3. 08:59 Tom.š Ze.le.in | skóre: 21 | blog: tz
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Odpovědět | Sbalit | Link | Blokovat | Admin

Když tady jsou rady k OCR, máte někdo radu jak zOCRkovat do latinky (slušně nafocené) těsnopisné deníky ze začátku minulého století? Česká soustava těsnopisu.

23.3. 11:37 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Tady doporučují: „Řešením může být Tesseract který si ale musíš natrénovat.” Víc ti bohužel neporadím, protože tak do hloubky jsem s ním nikdy nedělal.

23.3. 14:02 Tom.š Ze.le.in | skóre: 21 | blog: tz
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Dík, ale sám natrénovat má drobný problém, nemám trénovací data, natož rozsáhlá (a jak tam píší, This is a big project).

Jinak stenografie a steganografie jsou něco trochu jiného. A česká a Duployer jsou taky jiné.

23.3. 18:02 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Domáce AI OCRko...

Já vím. Však jsem to nenabízel jako hotové řešení. Na té odkazované stránce píšou kde je kámen úrazu. Máš jenomdvě možnosti. Buď to zkusit. Nebo vyhledat někoho kdo to za patřičný obnos přepíše do počítače.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje