abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
dnes 17:00 | Nová verze

Byla vydána vývojová verze 2.99.6 svobodné aplikace pro úpravu a vytváření rastrové grafiky GIMP. Jedná se o další krok směrem k verzi 3 postavené na GTK 3. Přehled novinek i s náhledy v oznámení o vydání a v souboru NEWS na GitLabu. Stabilní verze je 2.10.24.

Ladislav Hagara | Komentářů: 0
dnes 09:00 | Zajímavý projekt

Stephen Holdaway představil svůj projekt Výběr operačního systému při bootování pomocí hardwarového přepínače. Nechtělo se mu čekat na zobrazení GRUBu a následně hledat a vybírat Windows, tak si pomohl pomocí desky s mikrokontrolérem STM32 a páčkového přepínače. Deska se tváří jako USB disk na kterém je umístěn soubor obsahující 0 nebo 1 podle polohy přepínače. GRUB při bootování tento soubor načte a podle obsahu vybere Linux nebo

… více »
Ladislav Hagara | Komentářů: 9
včera 23:55 | Komunita

Blender Foundation zveřejnila dvaatřicetistránkovou Výroční zprávu za rok 2020 (pdf).

Ladislav Hagara | Komentářů: 1
včera 20:11 | Nová verze

Byla vydána nová major verze 5, přesněji 5.0.0, webového frameworku Bootstrap (Wikipedie). Přehled novinek v příspěvku na blogu.

Ladislav Hagara | Komentářů: 5
včera 14:55 | IT novinky

Správce české národní domény, sdružení CZ.NIC, zaevidovalo včera po 21. hodině doménové jméno s pořadovým číslem 1 400 000. Od začátku roku vzrostl počet domén s českou národní koncovkou o 28 434.

Ladislav Hagara | Komentářů: 9
včera 10:00 | Nová verze

Byla vydána nová verze 1.56 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a animovanými gify v poznámkách k vydání. Ve verzi 1.56 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 13
včera 09:00 | Komunita

Na YouTube byl zveřejněn záznam z Fedora 34 Release Party konané v sobotu 1. května.

Ladislav Hagara | Komentářů: 6
včera 08:00 | Nová verze

Framework Qt byl vydán ve verzi 6.1. Ta přidává nové funkce a doplňuje další moduly, které chyběly ve vydání 6.0. Více v seznamu nových vlastností nebo poznámkách k vydání.

Fluttershy, yay! | Komentářů: 1
včera 07:00 | Nová verze

Byla vydána verze 1.52.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

Ladislav Hagara | Komentářů: 0
6.5. 22:00 | Zajímavý software

Implementace Pythonu a forky CPythonu: Pyston a Cinder. Pyston byl vydán ve verzi 2.2. Nově zcela open source. Vychází ze stejnojmenného ukončeného projektu Dropboxu. Cinder je pro změnu open source projekt Facebooku. Interně jej používá Instagram.

Ladislav Hagara | Komentářů: 0
Transakční aktualizace
 (10%)
 (5%)
 (8%)
 (4%)
 (10%)
 (64%)
Celkem 105 hlasů
 Komentářů: 0
Rozcestník

Dotaz: ocr titluků z filmu

18.8.2020 21:28 jejda | skóre: 13 | blog: jejda
ocr titluků z filmu
Přečteno: 2817×
Ahojte! Jak přečíst z titulky z filmu který je má natvrdo vypálené do obrazu? Našel jsem na netu program videocr no nedaří se mi to rozchodit. Tesseract nainstalovaný mám. Podle návodu jsem vytvořil soubor example.py
from videocr import get_subtitles

if __name__ == '__main__':  # This check is mandatory for Windows.
    print(get_subtitles('video.mp4', lang='chi_sim+eng', sim_threshold=70, conf_threshold=65))
Přijde mi trochu ujeté že ten název souboru a jazyk, v tom musí být natvrdo zadrátovaní. Takto když to spustím vyhodí to pochopitelně error že "video.mp4" neexistuje. Bylo potřeba to upravit na
from videocr import get_subtitles

if __name__ == '__main__':  # This check is mandatory for Windows.
    print(get_subtitles('/tmp/video', lang='slk+eng', sim_threshold=70, conf_threshold=65))
Kde soubor /tmp/video je symlink na soubor s filmem a jazyk titulků je slovenský, proto slk+eng. Když se to pustí tak CPU jede naplno a v tempu to vytváří soubory jako například:
/tmp/tess_w45fo6y7
/tmp/tess_w45fo6y7.PNG
/tmp/tess_w45fo6y7.tsv
/tmp/tess_2dz6zzki
/tmp/tess_2dz6zzki.PNG
/tmp/tess_2dz6zzki.tsv
Takže se asi něco děje, ale bohužel ten program nedává žádný výstup ani po hodině. Není tu nějaký pythonista co by pomohl? Nebo neexistuje nějaký jinačí způsob jak vygrabovat z takto zmršeného hardsubed filmu obyčejné srt textové titulky?

Řešení dotazu:


Odpovědi

Jendа avatar 18.8.2020 21:41 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ocr titluků z filmu
1) import sys; get_subtitles(sys.argv[1], lang=sys.argv[2])

2) ten zdroják není dlouhý, to bys mohl zvládnout oddebugovat… Pro začátek bych si přidal debug print do funkce _image_to_data.
18.8.2020 22:30 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
To asi nezvládnu. Já nejsu programátor. Dokážu tak maximálne sesmolit nějaký jednoduchý shell skript v bashi. Python vůbec. Nepředpokládám že by v tom programu měli nějakou zásadní chybu, jenom v tom readme chybí návod pro blbce jako jsem já, jak to vůbec spustit. Jsem to nainstaloval pomocí
pip install videocr
a snažím se to spustit jako:
python example.py
Řešení 1× (Вheгzet)
18.8.2020 23:37 NN
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Co takto example.py:
from videocr import get_subtitles

save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
Podivej se do ~/tessdata zda se stahnula slovenstina..
19.8.2020 00:37 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
To vyhodí chybu
python example.py
Traceback (most recent call last):
  File "example.py", line 3, in module
    save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
NameError: name 'save_subtitles_to_file' is not defined
Zkoušel jsem "video.mp4" nahradit "/tmp/video", ale chyba je stejná. Nevím jestli to chápu dobře ale to save_subtitles_to_file je funkce ta by se potom ale měla nějak zavolat ne? A v těch kulatých závorkách se velice nic neděje, akorát se tam definujou proměnné? A soubor ~/tessdata/slk.traineddata tu je. Má asi 14MB.
19.8.2020 10:51 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Pokud tomu dobře rozumím, máš soubory s příponou .tsv, což je nějaký kontejner s videem, který má v sobě titulky.

Jelikož je to jeden soubor, domníváš se, že jsou natvrdo vypálené v obraze. Ale tak to není! Natvrdo to měly některá starší videa. Tohle bylo evidentně ripnuté z nějakého DVD (napovídá tomu suffix – přípona). Proto musíš v prvé řadě zjistit co to je. A možností je několik:
ffprobe -i cesta/k/souboru_videa
nebo můžeš použít nejprve příkaz:
file -s cesta/k/souboru
…který ti vykecá co to je.

Taky bys měl vědět, že nejsou titulky jako titulky. V kontejneru mohou být titulky buď jako TEXT, nebo jako OBRÁZKY.

Pokud jsou uloženy jako obrázky, je třeba stopu s titulkama vyexportovat (soubory .sub a .idx) a teprve na tyto vyexportované soubory lze použít utilitu vobsub2srt, která ty obrázky postupně kuchá, dělá OCR a výsledek zapisuje do .srt souboru.
19.8.2020 10:56 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
A pokud by to byl ten případ, kdy jsou titulky skutečně vypálené v obraze, existuje také řešení, ale není jednoduché.

Nejprve bys musel všechny snímky z videa vyexportovat jako PNG obrázky, ty potom přežvýkat skriptem tak, aby vše co má jinou barvu než je bílá barva titulků černé a pak ponechat vždy první a poslední (jejich čísla pak použiješ pro nastavení časování), prohnat přes tesseract do TXT souboru a dořešit přes textový editor.
19.8.2020 11:12 LarryL | skóre: 21
Rozbalit Rozbalit vše Re: ocr titluků z filmu
vyexportovat jako PNG obrázky
To se mi nezdá, že by v 21. století se to muselo dělat takto manuálně. Videocr má v popisu napsáno "Extract hardcoded (burned-in) subtitles" a pokud by videocr nefungoval, tak fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?
19.8.2020 11:55 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
… fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?
KAŽDÝ to exportuje do PNG, jenom se ty soubory průběžně při zpracování zahazují. Takže je docela dobře možné, že videocr má v sobě zadrátované přesně to co jsem popsal. Tj. že vytahuje z původního snímku jen to co je bílé do nového, na který pak pustí OCR engine.
19.8.2020 11:54 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Nene ty soubory v /tmp s příponou tsv a png vytváří právě až ten spuštěný videocr. Soubor s videem je obyčejný avi, ten titulky jako samostatnou stopu v kontejneru myslím vůbec neumí. Jsou natvrdo vypálené v obraze.

A ten videocr se spouští pythoním skriptem který si musí sám uživatel nějak dodělat. A to bohužel vůbec nedávám.

Řešení 1× (Вheгzet)
19.8.2020 11:56 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
A co takhle sem nakopírovat výstup těch dvou příkazů co jsem ti napsal?
19.8.2020 13:12 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Může být, ale nic užitečného tam není
$ file -s /mnt/disk2/temp/video.avi
/mnt/disk2/temp/video.avi: RIFF (little-endian) data, AVI, 1280 x 720, >30 fps, video:, audio: (stereo, 44100 Hz)

$ ffprobe -i /mnt/disk2/temp/video.avi
Input #0, avi, from '/mnt/disk2/temp/video.avi':
  Metadata:
    encoder         : Lavf58.45.100
  Duration: 01:08:28.10, start: 0.000000, bitrate: 1428 kb/s
    Stream #0:0: Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1282 kb/s, 48 fps, 24 tbr, 48 tbn, 48 tbc
    Stream #0:1: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 44100 Hz, stereo, fltp, 128 kb/s
19.8.2020 13:24 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Užitečného je v tom to, že jsme se z toho dozvěděli že TOHLE video (video.avi) žádnou stopu s titulkama nemá. Takže pokud to má titulky, jsou skutečně součástí těch snímků a musíš postupovat jak jsem napsal. Teda pokud to ten videocr nemá nějak implementované.
19.8.2020 11:51 kol-ouch | skóre: 7 | blog: Co_to_je
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Kdysi to nějak uměl avidemux - ale je to asi 1000 let co jsem to zkoušel
19.8.2020 11:57 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Uměl, ale už neumí. Zrovna v pondělí jsem řešil něco podobného, proto jsem se do toho vložil.
19.8.2020 13:01 LarryL | skóre: 21
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Do téhle diskuze jsem mrkl, že by se mi to taky někdy mohlo hodit a jak se dívám tak třeba na AURu i Ubuntu je SW Subtitle Ripper for Linux který používá GOCR. Vypadá to, že se nic doprogramovávat nemusí, ale jestli je to lepší než videocr nevím.

Pokud na Linuxu nic dobrého nebude, tak jestli není jednodušší použít nějaký program pro Windows (ve Wine nebo VM Win). Zdá se že třeba SubRip je jen klikačka, kde pomáháš rozpoznávat nečitelné znaky.
19.8.2020 13:21 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Jo. Jenomže to všechno počítá s tím, že jsou titulky uvedené jako samostatná stopa, nikoliv jako integrální součást obrazu. Teda, alespoň si to myslím.
19.8.2020 14:43 LarryL | skóre: 21
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Minimálně u těch pro Win je uvedeno "hardcoded subtitles from videos" což podle mne není myšleno jako samostatný soubor v kontejneru.
19.8.2020 13:25 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Přílohy:
Tak jsem zjistil, že mám nějak nemocný tesseract. Udělal jsem png screenshot (v příloze) a tesseract ho nepřečte.
$ tesseract /tmp/ss2.png stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 481








F 'rĺ"d/
isom.sa jej všetko
a pĺqg%čo ÉAČT eh

k

tu bude asi zakopaný pes.
19.8.2020 13:29 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Není nemocný. Musíš udělat to co jsem ti napsal - ponechat jenom bílou barvu a všechny ostatní zahodit (změnit na černou)
19.8.2020 13:52 Peter Golis | skóre: 61 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Myslím že v tomto prípade bude pre neprogramátora lacnejšie a rýchlejšie ten film zakúpiť na médiu kde dané titulky nebudú súčasřou obrazovej stopy.

Ostatne už aj prastaré DVD Video malo samostatné stopy s titulkami, i keď obrázkovými. A na tie sa dal v pohode poštvať vobsub2srt ktorý zavolal tesseract pre správnu jazykovú voľbu (diakritiku).
19.8.2020 13:59 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Google + "Replacing Multiple specific color to the specified color" a pár sekund?

Napsat skript s jednoduchou smyčkou, která zkombinuje export obrázku, konverzi a ocr není zas takový problém. Alespoň se při tom něco naučí.
19.8.2020 14:07 Peter Golis | skóre: 61 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Mať ten film v trafike za 3€, tak si to kúpim. Ostatne podľa rozlíšenia 1280 x 720 to vyzerá že niekto pred nedávnom grabol DVD do AVI (h264) a zle zaklikol titulky. A na DVD máš samostatnú stopu pre titulky, takže ju človek vie skonvertovať na text aj bez použitia Big Brother (Google).
31.3. 15:31 ajtacka
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Ak chceš pracovať u Google alebo iných služieb alebo televízií, kde to majú v popise práce takéto niečo robiť a sú za priamo platení, aby to robili, keďže sú tu rôzne znevýhodnení indisponibilní zákazníci...

Titulky sú síce dôležité pri prvom kontakte s daným jazykom, cieľ by však mal byť ovládať jazyk bez daných titulkov. Navyše sú tu však aj rôzne dialekty, kde nemusia pomôcť ani takéto titulky a chce to prácu profesionálneho tlmočníka a domorodca, keďže ten istý význam, ako napríklad nejaké príslovie, sa môže líšiť dokonca aj vnútri jednej krajiny.

Filmové štúdiá, ale najmä televízie si dávajú Sakramentský pozor na to, čo môžu vysielať, keďže sa stalo že bolo niečo nepovolené v priamom vysielaní a teraz to riešia všelijako. A nie je to len prudérnymi Američanmi. Aj tu kedysi a je tomu aj myslím si že dnes, bolo treba mať schválené scenáre. Lenže ono je to aj kvôli tomu, že televízie chcú mať úspech u divákov a to ich stojí aj veľa peňazí, aby to dosiahli a nechcú ohroziť svoj úspech.

Takže tu možno chýba komerčná služba, aby človek mohol sledovať na normálnom televízore(aby sa to oplatilo) napríklad maďarské alebo nemecké stanice, keď tu môžu byť šírené. A nemusia to byť len titulky, keďže niektorí ľudia titulky neradi sledujú(a preto možno ani neradi chodia do kina, keď to nie je nadabované).

Kedysi niektoré nemenované stanice(nebudem radšej menovať) mali celý film nadabovaný jedným alebo dvomi dabingovými hercami a tam to tak fungovalo, aj keď človek si nemohol ten film potom tak vychutnať. Dabing by mal mať ambíciu byť lepším pre domácí trh ako pôvodné znenie, keďže by mal rešpektovať špecifické vlastnosti jazyka a možno aj zabrániť neželaným javom(nebudem radšej menovať...). Ono je do toho zapletená veľká časť filmového priemyslu... A filmový priemysel má mnoGo problémov.

Na príklade napríklad Youtube možno vidno, že Google príliš neuvažuje ako zaplniť túžbu užívateľov po obsahu. To čo dnes niekedy posielajú ľudia ako videá, v Amerike sú z toho normálne komerčné programy a dokonca z toho vedia urobiť aj šou(show must go on?) a má to u divákov úspech a to nielen v USA, ale potom takéto programy niektoré komerčné stanice importujú za ťažké prachy aj na Slovensko. A tieto show potom platia výrobcom týchto videí, pretože si to môžu dovoliť a je to aj chcené, aby to takto bolo.

Google síce platí za zobrazenú reklamu tvorcom videí, lenže tieto videá musia byť originálne a nepoužívať chránené diela, lenže nie je tam spôsob ako urobiť dielo založené na viacerých chránených dielach alebo časti diela a mať možnosť zarábať na tom. Chýba tam jednoducho mechanizmus poslať takéto dielo na schválenie držiteľom autorských práv alebo filmovým štúdiám.

V aplikačnej praxi niečo takéto spôsobuje problémy napríklad pri politických mítingoch, keď sa ide zahrať nejaká pesnička a tí hudobníci s tým vrcholne nesúhlasia, ale prakticky ako to funguje neviem. Proste chyba je aj u Google a YouTube, že nedávajú možnosť ako sa tým živiť a úspech je niekedy náhodný. Ich platenie za reklamu dosiahlo bodu, keď musí byť video mimoriadne(nielen na Slovenské pomery) úspešné, aby človek nemusel pravidelne pracovať a tvoriť plno brakov, ale mohol doslova dýchať a žiť tou hudbou a tvoriť novú.

Ale už aj tu sú ľudia, čo ich živí YouTube. Možno nemajú inú možnosť, aj keď televízie v rámci rôznych talentových šou na to čiastočne reagovali. Len tí menej úspešní(a tých je teda dosť) majú problém presadiť sa na domácom trhu, ktorý si neváži ich prácu. Niekde je chyba. Možno v nich, možno v trhu a priemysle, možno inde. Neviem.
31.3. 16:16 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Tady asi někdo něco nepochopil.

Pointa sdělení byla v tom, že má použít google k tomu, aby si vyhledal jak má řešit problém. Ne že to má nechat, až to za něj udělá Google.
19.8.2020 14:05 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Příloha:
HM to taky nebude ono
$ convert /tmp/ss2.png -threshold 90% - | tesseract stdin stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.

zkoušel jsem různě měnit --dpi ale bez úspěchu.
19.8.2020 14:40 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Ha mám to!
$ convert /tmp/ss2.png -threshold 90% -channel RGB -negate - | tesseract stdin stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 362
Snažil som sa jej všetko
vysvetliť a pozri, čo sa stalo.

takže tesseract funguje! Ale je to docela magie a nevím jestli s tím ten program videocr počítá.
20.8.2020 12:11 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
To vypadá, že nikde nic hotovýho funkčního neexistuje. Tak jsem se do toho pustil sám. Zatím z toho sice nelezou bezchybné srt titulky, ale už se jim to trochu začíná podobat :-). Ten výstup se musí nějak přeparsovat. Občas je tam bordýlek. Zatím jsem nevymyslel jak na to. Taky jsem zjistil, že tesseract má docela potíže číst světlé písmo na tmavém pozadí. Proto se mu ty barvy musí převrátit. S bílýma titulkama je to v pohodě, se žlutýma už je to horší. Docela fajn vychytávka je ustřihnout pryč vrchní polovinu obrazu, tesseract se potom nesnaží číst loga televizních stanic a hodně se mu to čtení zlepší.
#!/bin/bash
video="$1"
jazyk=ces
if not [ -s "$1" ]; then exit 1; fi
delka=$(ffprobe -i "$video" -v error -select_streams v:0 \
    -show_entries stream=duration -of default=noprint_wrappers=1:nokey=1 | \
    cut -d. -f1)

pocitadlo() {
hh=$(echo "$f/3600" | bc)
mm=$(echo "($f-$hh*3600)/60" | bc)
ss=$(echo "$f-$hh*3600-$mm*60" | bc)
if [ $hh -lt 10 ]; then hh=0$hh; fi
if [ $mm -lt 10 ]; then mm=0$mm; fi
if [ $ss -lt 10 ]; then ss=0$ss; fi
cas="$hh:$mm:$ss"
}

f=0
while [ $f -lt $delka ]; do
pocitadlo
f=$((f+1))
#echo $cas
titulek=$(ffmpeg -ss $cas -i "$video" -an -sn -vf "crop=iw:ih/2:0:ih" \
       -vframes 1 -f image2pipe - 2> /dev/null |
       convert - -threshold 90% -channel RGB -negate - |
       tesseract stdin stdout -l $jazyk 2> /dev/null |
       grep [[:graph:]])
if [ -n "$titulek" ]; then printf "%s\n%s\n\n" "$cas" "$titulek"; fi
done
20.8.2020 13:13 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Šikula!
Jendа avatar 20.8.2020 13:14 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Taky pomáhá nastavit správně DPI.

Žlutá/whatever se dá opravit pomocí convert -level 5,50%, to udělá ze všeho nad polovinu intenzity bílou.
20.8.2020 17:37 jarek163
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Toto téma mě velice zajímá. Ale jako BFU z toho moc nepobírám. Nemohl by jsi prosím na toto téma zpracovat malý článek - tutoriál? Děkuji předem...
20.8.2020 18:24 Aleš Kapica | skóre: 50 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu
To máš těžké. Pokud jsi nepobral tuhle diskuzi, tak by ti byl zřejmě houby platný.
20.8.2020 20:05 LarryL | skóre: 21
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Ze zvědavosti jsem zkusil SubRip z výše uvedeného odkazu. Funguje ve Wine, pouze jsem musel doinstalovat K-Lite_Codec_Pack, AviSynth a podstrčit dgdecode.dll a vyzkoušel jsem na souboru Avi. Vypadá to, že to něco dělá, ale je to jako v tom videu výše co jsem odkazoval - uživatel musí pořád doplňovat znaky, takže by možná bylo rychlejší to přepsat ručně :-). Problém je v tom, že vycuclé písmo je kostrbaté a OCR má problém s rozpoznáváním jednotlivých znaků. Zkoušel jsem měnit různě nastavení, ale bez valného výsledku. ABBYY FineReader, který by v tom asi měl být lepší se mi ve Wine rozjet nepodařilo a do VM se mi to instalovat nechtělo. Takže pokud nemáš odpor k win programům ve Wine nebo VM, tak můžeš zkoušet další prográmky z toho odkazu výše.

Otázka je jestli se jejdovi s videocr a tesseracte podaří dosáhnout lepšího výsledku aniž by musel každé 5. slovo opravovat.
21.8.2020 12:06 gvwww
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Hele co se týče hardsubu, skvělý je VideoSubFinder: https://sourceforge.net/projects/videosubfinder/files/
21.8.2020 12:08 LarryL | skóre: 21
Rozbalit Rozbalit vše Re: ocr titluků z filmu
JJ, ten je v tom odkazu taky zmiňovaný.
23.8.2020 15:17 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Jen dodám, že aby to ve wine fungovalo, je třeba nainstalovat (nejjednodušeji skrze winetricks ) součást windows jméněm "vcrun2017" - a pak jsem teda ještě skrze winecfg nastavil jako nativní dll knihovny msvcp140 vcruntime140 a nastavil windows na win 10, ale nejsme si jist, zda ty poslední kroky josu nutné, protože jsem je vyzkoušel předtím, než jsem nainstalovat ten vcrun2017, po němž to začalo běžet (A teď to spokojeně dešifruje). Celé to zkouším na ubuntu 18.04.
23.10.2020 23:43 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Hlavně je tedy asi dobré použít 32bit verzi programu, 64bit mi pořád padala.
20.8.2020 19:27 jejda | skóre: 13 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Příloha:
Trochu si s tím zkouším hrát, ale proměnit žlutou na bílou se mi moc nedaří. Takový typický obrázek se kterým jsou potíže jsem dal do přílohy. Pro lidské oko je to krásně čitelné, no tesseract si hraje na slepýho.
Jendа avatar 20.8.2020 19:44 Jendа | skóre: 77 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ocr titluků z filmu
Jo, máš pravdu, zachovává si to saturaci.

Jedna možnost je nahradit to jako barvu
convert 245077-ss3-7829814832695538012.png -fuzz 15% -fill white -opaque "#edd341" out.png
(nalezeno zadáním imagemagick convert replace color do gůglu), druhá je to udělat na černobílém obrázku
convert 245077-ss3-7829814832695538012.png -grayscale Rec709Luminance -level 5,50% out.png

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.