ocr titluků z filmu (vyřešeno)

Ahojte! Jak přečíst z titulky z filmu který je má natvrdo vypálené do obrazu? Našel jsem na netu program videocr no nedaří se mi to rozchodit. Tesseract nainstalovaný mám. Podle návodu jsem vytvořil soubor example.py

from videocr import get_subtitles

if __name__ == '__main__':  # This check is mandatory for Windows.
    print(get_subtitles('video.mp4', lang='chi_sim+eng', sim_threshold=70, conf_threshold=65))

Přijde mi trochu ujeté že ten název souboru a jazyk, v tom musí být natvrdo zadrátovaní. Takto když to spustím vyhodí to pochopitelně error že "video.mp4" neexistuje. Bylo potřeba to upravit na

from videocr import get_subtitles

if __name__ == '__main__':  # This check is mandatory for Windows.
    print(get_subtitles('/tmp/video', lang='slk+eng', sim_threshold=70, conf_threshold=65))

Kde soubor /tmp/video je symlink na soubor s filmem a jazyk titulků je slovenský, proto slk+eng. Když se to pustí tak CPU jede naplno a v tempu to vytváří soubory jako například:

/tmp/tess_w45fo6y7
/tmp/tess_w45fo6y7.PNG
/tmp/tess_w45fo6y7.tsv
/tmp/tess_2dz6zzki
/tmp/tess_2dz6zzki.PNG
/tmp/tess_2dz6zzki.tsv

Takže se asi něco děje, ale bohužel ten program nedává žádný výstup ani po hodině. Není tu nějaký pythonista co by pomohl? Nebo neexistuje nějaký jinačí způsob jak vygrabovat z takto zmršeného hardsubed filmu obyčejné srt textové titulky?

Odpovědi

1) import sys; get_subtitles(sys.argv[1], lang=sys.argv[2])

2) ten zdroják není dlouhý, to bys mohl zvládnout oddebugovat… Pro začátek bych si přidal debug print do funkce _image_to_data.

18.8.2020 22:30 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

To asi nezvládnu. Já nejsu programátor. Dokážu tak maximálne sesmolit nějaký jednoduchý shell skript v bashi. Python vůbec. Nepředpokládám že by v tom programu měli nějakou zásadní chybu, jenom v tom readme chybí návod pro blbce jako jsem já, jak to vůbec spustit. Jsem to nainstaloval pomocí

pip install videocr

a snažím se to spustit jako:

python example.py

Řešení 1× (Вheгzet)

18.8.2020 23:37 NN
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Co takto example.py:

from videocr import get_subtitles

save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')

Podivej se do ~/tessdata zda se stahnula slovenstina..

19.8.2020 00:37 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

To vyhodí chybu

python example.py
Traceback (most recent call last):
  File "example.py", line 3, in module
    save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
NameError: name 'save_subtitles_to_file' is not defined

Zkoušel jsem "video.mp4" nahradit "/tmp/video", ale chyba je stejná. Nevím jestli to chápu dobře ale to save_subtitles_to_file je funkce ta by se potom ale měla nějak zavolat ne? A v těch kulatých závorkách se velice nic neděje, akorát se tam definujou proměnné? A soubor ~/tessdata/slk.traineddata tu je. Má asi 14MB.

19.8.2020 10:51 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Pokud tomu dobře rozumím, máš soubory s příponou .tsv, což je nějaký kontejner s videem, který má v sobě titulky.

Jelikož je to jeden soubor, domníváš se, že jsou natvrdo vypálené v obraze. Ale tak to není! Natvrdo to měly některá starší videa. Tohle bylo evidentně ripnuté z nějakého DVD (napovídá tomu suffix – přípona). Proto musíš v prvé řadě zjistit co to je. A možností je několik:

ffprobe -i cesta/k/souboru_videa

nebo můžeš použít nejprve příkaz:

file -s cesta/k/souboru

…který ti vykecá co to je.

Taky bys měl vědět, že nejsou titulky jako titulky. V kontejneru mohou být titulky buď jako TEXT, nebo jako OBRÁZKY.

Pokud jsou uloženy jako obrázky, je třeba stopu s titulkama vyexportovat (soubory .sub a .idx) a teprve na tyto vyexportované soubory lze použít utilitu vobsub2srt, která ty obrázky postupně kuchá, dělá OCR a výsledek zapisuje do .srt souboru.

19.8.2020 10:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

A pokud by to byl ten případ, kdy jsou titulky skutečně vypálené v obraze, existuje také řešení, ale není jednoduché.

Nejprve bys musel všechny snímky z videa vyexportovat jako PNG obrázky, ty potom přežvýkat skriptem tak, aby vše co má jinou barvu než je bílá barva titulků černé a pak ponechat vždy první a poslední (jejich čísla pak použiješ pro nastavení časování), prohnat přes tesseract do TXT souboru a dořešit přes textový editor.

19.8.2020 11:12 LarryL | skóre: 27
Rozbalit Rozbalit vše Re: ocr titluků z filmu

vyexportovat jako PNG obrázky

To se mi nezdá, že by v 21. století se to muselo dělat takto manuálně. Videocr má v popisu napsáno "Extract hardcoded (burned-in) subtitles" a pokud by videocr nefungoval, tak fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?

19.8.2020 11:55 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

… fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?

KAŽDÝ to exportuje do PNG, jenom se ty soubory průběžně při zpracování zahazují. Takže je docela dobře možné, že videocr má v sobě zadrátované přesně to co jsem popsal. Tj. že vytahuje z původního snímku jen to co je bílé do nového, na který pak pustí OCR engine.

19.8.2020 11:54 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Nene ty soubory v /tmp s příponou tsv a png vytváří právě až ten spuštěný videocr. Soubor s videem je obyčejný avi, ten titulky jako samostatnou stopu v kontejneru myslím vůbec neumí. Jsou natvrdo vypálené v obraze.

A ten videocr se spouští pythoním skriptem který si musí sám uživatel nějak dodělat. A to bohužel vůbec nedávám.

Řešení 1× (Вheгzet)

19.8.2020 11:56 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

A co takhle sem nakopírovat výstup těch dvou příkazů co jsem ti napsal?

19.8.2020 13:12 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Může být, ale nic užitečného tam není

$ file -s /mnt/disk2/temp/video.avi
/mnt/disk2/temp/video.avi: RIFF (little-endian) data, AVI, 1280 x 720, >30 fps, video:, audio: (stereo, 44100 Hz)

$ ffprobe -i /mnt/disk2/temp/video.avi
Input #0, avi, from '/mnt/disk2/temp/video.avi':
  Metadata:
    encoder         : Lavf58.45.100
  Duration: 01:08:28.10, start: 0.000000, bitrate: 1428 kb/s
    Stream #0:0: Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1282 kb/s, 48 fps, 24 tbr, 48 tbn, 48 tbc
    Stream #0:1: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 44100 Hz, stereo, fltp, 128 kb/s

19.8.2020 13:24 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Užitečného je v tom to, že jsme se z toho dozvěděli že TOHLE video (video.avi) žádnou stopu s titulkama nemá. Takže pokud to má titulky, jsou skutečně součástí těch snímků a musíš postupovat jak jsem napsal. Teda pokud to ten videocr nemá nějak implementované.

Tak jsem zjistil, že mám nějak nemocný tesseract. Udělal jsem png screenshot (v příloze) a tesseract ho nepřečte.

$ tesseract /tmp/ss2.png stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 481








F 'rĺ"d/
isom.sa jej všetko
a pĺqg%čo ÉAČT eh

k

tu bude asi zakopaný pes.

19.8.2020 13:29 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Není nemocný. Musíš udělat to co jsem ti napsal - ponechat jenom bílou barvu a všechny ostatní zahodit (změnit na černou)

19.8.2020 13:52 Peter Golis | skóre: 65 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Myslím že v tomto prípade bude pre neprogramátora lacnejšie a rýchlejšie ten film zakúpiť na médiu kde dané titulky nebudú súčasřou obrazovej stopy.

Ostatne už aj prastaré DVD Video malo samostatné stopy s titulkami, i keď obrázkovými. A na tie sa dal v pohode poštvať vobsub2srt ktorý zavolal tesseract pre správnu jazykovú voľbu (diakritiku).

19.8.2020 13:59 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Google + "Replacing Multiple specific color to the specified color" a pár sekund?

Napsat skript s jednoduchou smyčkou, která zkombinuje export obrázku, konverzi a ocr není zas takový problém. Alespoň se při tom něco naučí.

19.8.2020 14:07 Peter Golis | skóre: 65 | blog: Bežné záležitosti | Bratislava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Mať ten film v trafike za 3€, tak si to kúpim. Ostatne podľa rozlíšenia 1280 x 720 to vyzerá že niekto pred nedávnom grabol DVD do AVI (h264) a zle zaklikol titulky. A na DVD máš samostatnú stopu pre titulky, takže ju človek vie skonvertovať na text aj bez použitia Big Brother (Google).

31.3.2021 15:31 ajtacka
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Ak chceš pracovať u Google alebo iných služieb alebo televízií, kde to majú v popise práce takéto niečo robiť a sú za priamo platení, aby to robili, keďže sú tu rôzne znevýhodnení indisponibilní zákazníci...

Titulky sú síce dôležité pri prvom kontakte s daným jazykom, cieľ by však mal byť ovládať jazyk bez daných titulkov. Navyše sú tu však aj rôzne dialekty, kde nemusia pomôcť ani takéto titulky a chce to prácu profesionálneho tlmočníka a domorodca, keďže ten istý význam, ako napríklad nejaké príslovie, sa môže líšiť dokonca aj vnútri jednej krajiny.

Filmové štúdiá, ale najmä televízie si dávajú Sakramentský pozor na to, čo môžu vysielať, keďže sa stalo že bolo niečo nepovolené v priamom vysielaní a teraz to riešia všelijako. A nie je to len prudérnymi Američanmi. Aj tu kedysi a je tomu aj myslím si že dnes, bolo treba mať schválené scenáre. Lenže ono je to aj kvôli tomu, že televízie chcú mať úspech u divákov a to ich stojí aj veľa peňazí, aby to dosiahli a nechcú ohroziť svoj úspech.

Takže tu možno chýba komerčná služba, aby človek mohol sledovať na normálnom televízore(aby sa to oplatilo) napríklad maďarské alebo nemecké stanice, keď tu môžu byť šírené. A nemusia to byť len titulky, keďže niektorí ľudia titulky neradi sledujú(a preto možno ani neradi chodia do kina, keď to nie je nadabované).

Kedysi niektoré nemenované stanice(nebudem radšej menovať) mali celý film nadabovaný jedným alebo dvomi dabingovými hercami a tam to tak fungovalo, aj keď človek si nemohol ten film potom tak vychutnať. Dabing by mal mať ambíciu byť lepším pre domácí trh ako pôvodné znenie, keďže by mal rešpektovať špecifické vlastnosti jazyka a možno aj zabrániť neželaným javom(nebudem radšej menovať...). Ono je do toho zapletená veľká časť filmového priemyslu... A filmový priemysel má mnoGo problémov.

Na príklade napríklad Youtube možno vidno, že Google príliš neuvažuje ako zaplniť túžbu užívateľov po obsahu. To čo dnes niekedy posielajú ľudia ako videá, v Amerike sú z toho normálne komerčné programy a dokonca z toho vedia urobiť aj šou(show must go on?) a má to u divákov úspech a to nielen v USA, ale potom takéto programy niektoré komerčné stanice importujú za ťažké prachy aj na Slovensko. A tieto show potom platia výrobcom týchto videí, pretože si to môžu dovoliť a je to aj chcené, aby to takto bolo.

Google síce platí za zobrazenú reklamu tvorcom videí, lenže tieto videá musia byť originálne a nepoužívať chránené diela, lenže nie je tam spôsob ako urobiť dielo založené na viacerých chránených dielach alebo časti diela a mať možnosť zarábať na tom. Chýba tam jednoducho mechanizmus poslať takéto dielo na schválenie držiteľom autorských práv alebo filmovým štúdiám.

V aplikačnej praxi niečo takéto spôsobuje problémy napríklad pri politických mítingoch, keď sa ide zahrať nejaká pesnička a tí hudobníci s tým vrcholne nesúhlasia, ale prakticky ako to funguje neviem. Proste chyba je aj u Google a YouTube, že nedávajú možnosť ako sa tým živiť a úspech je niekedy náhodný. Ich platenie za reklamu dosiahlo bodu, keď musí byť video mimoriadne(nielen na Slovenské pomery) úspešné, aby človek nemusel pravidelne pracovať a tvoriť plno brakov, ale mohol doslova dýchať a žiť tou hudbou a tvoriť novú.

Ale už aj tu sú ľudia, čo ich živí YouTube. Možno nemajú inú možnosť, aj keď televízie v rámci rôznych talentových šou na to čiastočne reagovali. Len tí menej úspešní(a tých je teda dosť) majú problém presadiť sa na domácom trhu, ktorý si neváži ich prácu. Niekde je chyba. Možno v nich, možno v trhu a priemysle, možno inde. Neviem.

31.3.2021 16:16 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Tady asi někdo něco nepochopil.

Pointa sdělení byla v tom, že má použít google k tomu, aby si vyhledal jak má řešit problém. Ne že to má nechat, až to za něj udělá Google.

19.8.2020 14:05 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Příloha:

ss2bw.png (2958 bytů)

HM to taky nebude ono

$ convert /tmp/ss2.png -threshold 90% - | tesseract stdin stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.

zkoušel jsem různě měnit --dpi ale bez úspěchu.

19.8.2020 14:40 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Ha mám to!

$ convert /tmp/ss2.png -threshold 90% -channel RGB -negate - | tesseract stdin stdout -l slk
Warning: Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 362
Snažil som sa jej všetko
vysvetliť a pozri, čo sa stalo.

takže tesseract funguje! Ale je to docela magie a nevím jestli s tím ten program videocr počítá.

To vypadá, že nikde nic hotovýho funkčního neexistuje. Tak jsem se do toho pustil sám. Zatím z toho sice nelezou bezchybné srt titulky, ale už se jim to trochu začíná podobat :-)

. Ten výstup se musí nějak přeparsovat. Občas je tam bordýlek. Zatím jsem nevymyslel jak na to. Taky jsem zjistil, že tesseract má docela potíže číst světlé písmo na tmavém pozadí. Proto se mu ty barvy musí převrátit. S bílýma titulkama je to v pohodě, se žlutýma už je to horší. Docela fajn vychytávka je ustřihnout pryč vrchní polovinu obrazu, tesseract se potom nesnaží číst loga televizních stanic a hodně se mu to čtení zlepší.

#!/bin/bash
video="$1"
jazyk=ces
if not [ -s "$1" ]; then exit 1; fi
delka=$(ffprobe -i "$video" -v error -select_streams v:0 \
    -show_entries stream=duration -of default=noprint_wrappers=1:nokey=1 | \
    cut -d. -f1)

pocitadlo() {
hh=$(echo "$f/3600" | bc)
mm=$(echo "($f-$hh*3600)/60" | bc)
ss=$(echo "$f-$hh*3600-$mm*60" | bc)
if [ $hh -lt 10 ]; then hh=0$hh; fi
if [ $mm -lt 10 ]; then mm=0$mm; fi
if [ $ss -lt 10 ]; then ss=0$ss; fi
cas="$hh:$mm:$ss"
}

f=0
while [ $f -lt $delka ]; do
pocitadlo
f=$((f+1))
#echo $cas
titulek=$(ffmpeg -ss $cas -i "$video" -an -sn -vf "crop=iw:ih/2:0:ih" \
       -vframes 1 -f image2pipe - 2> /dev/null |
       convert - -threshold 90% -channel RGB -negate - |
       tesseract stdin stdout -l $jazyk 2> /dev/null |
       grep [[:graph:]])
if [ -n "$titulek" ]; then printf "%s\n%s\n\n" "$cas" "$titulek"; fi
done

20.8.2020 13:13 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Šikula!

20.8.2020 13:14 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Taky pomáhá nastavit správně DPI.

Žlutá/whatever se dá opravit pomocí convert -level 5,50%, to udělá ze všeho nad polovinu intenzity bílou.

20.8.2020 17:37 jarek163
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Toto téma mě velice zajímá. Ale jako BFU z toho moc nepobírám. Nemohl by jsi prosím na toto téma zpracovat malý článek - tutoriál? Děkuji předem...

20.8.2020 18:24 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: ocr titluků z filmu

To máš těžké. Pokud jsi nepobral tuhle diskuzi, tak by ti byl zřejmě houby platný.

20.8.2020 20:05 LarryL | skóre: 27
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Ze zvědavosti jsem zkusil SubRip z výše uvedeného odkazu. Funguje ve Wine, pouze jsem musel doinstalovat K-Lite_Codec_Pack, AviSynth a podstrčit dgdecode.dll a vyzkoušel jsem na souboru Avi. Vypadá to, že to něco dělá, ale je to jako v tom videu výše co jsem odkazoval - uživatel musí pořád doplňovat znaky, takže by možná bylo rychlejší to přepsat ručně :-)

. Problém je v tom, že vycuclé písmo je kostrbaté a OCR má problém s rozpoznáváním jednotlivých znaků. Zkoušel jsem měnit různě nastavení, ale bez valného výsledku. ABBYY FineReader, který by v tom asi měl být lepší se mi ve Wine rozjet nepodařilo a do VM se mi to instalovat nechtělo. Takže pokud nemáš odpor k win programům ve Wine nebo VM, tak můžeš zkoušet další prográmky z toho odkazu výše.

Otázka je jestli se jejdovi s videocr a tesseracte podaří dosáhnout lepšího výsledku aniž by musel každé 5. slovo opravovat.

21.8.2020 12:06 gvwww
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Hele co se týče hardsubu, skvělý je VideoSubFinder: https://sourceforge.net/projects/videosubfinder/files/

21.8.2020 12:08 LarryL | skóre: 27
Rozbalit Rozbalit vše Re: ocr titluků z filmu

JJ, ten je v tom odkazu taky zmiňovaný.

23.8.2020 15:17 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Jen dodám, že aby to ve wine fungovalo, je třeba nainstalovat (nejjednodušeji skrze winetricks ) součást windows jméněm "vcrun2017" - a pak jsem teda ještě skrze winecfg nastavil jako nativní dll knihovny msvcp140 vcruntime140 a nastavil windows na win 10, ale nejsme si jist, zda ty poslední kroky josu nutné, protože jsem je vyzkoušel předtím, než jsem nainstalovat ten vcrun2017, po němž to začalo běžet (A teď to spokojeně dešifruje). Celé to zkouším na ubuntu 18.04.

23.10.2020 23:43 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Hlavně je tedy asi dobré použít 32bit verzi programu, 64bit mi pořád padala.

20.8.2020 19:27 jejda | skóre: 27 | blog: jejda
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Příloha:

ss3.png (353444 bytů)

Trochu si s tím zkouším hrát, ale proměnit žlutou na bílou se mi moc nedaří. Takový typický obrázek se kterým jsou potíže jsem dal do přílohy. Pro lidské oko je to krásně čitelné, no tesseract si hraje na slepýho.

20.8.2020 19:44 Jendа | skóre: 78 | blog: Jenda | JO70FB
Rozbalit Rozbalit vše Re: ocr titluků z filmu

Jo, máš pravdu, zachovává si to saturaci.

Jedna možnost je nahradit to jako barvu

convert 245077-ss3-7829814832695538012.png -fuzz 15% -fill white -opaque "#edd341" out.png

(nalezeno zadáním imagemagick convert replace color do gůglu), druhá je to udělat na černobílém obrázku

convert 245077-ss3-7829814832695538012.png -grayscale Rec709Luminance -level 5,50% out.png

Dotaz: ocr titluků z filmu

Odpovědi