abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 08:00 | Komunita

    Microsoft Fluent Emoji jsou nově k dispozici na GitHubu pod licencí MIT. Více v článku na Medium.

    Ladislav Hagara | Komentářů: 0
    dnes 00:22 | IT novinky

    O víkendu proběhla v Kolíně nad Rýnem demopárty Evoke 2022. Publikována byla prezentovaná dema. Upozornit lze na Area 5150 (YouTube) běžící na IBM PC s procesorem Intel 8088 běžícím na 4,77 MHz a CGA.

    Ladislav Hagara | Komentářů: 1
    včera 19:55 | Zajímavý software

    smenu, nástroj pro příkazový řádek pro generování možností a potvrzení výběru, dospěl do verze 1.0.0.

    Ladislav Hagara | Komentářů: 0
    včera 19:11 | Bezpečnostní upozornění

    Byla potvrzena zranitelnost CVE-2021-46778 aneb SQUIP (Scheduler Queue Usage via Interference Probing) v procesorech AMD s mikroarchitekturou Zen 1, Zen 2 a Zen 3. Detaily v publikovaném paperu.

    Ladislav Hagara | Komentářů: 0
    včera 13:33 | Nová verze

    Turris OS, operační systém pro síťová zařízení Turris postavený na OpenWrt, byl vydán v nové verzi 5.4. Přehled novinek a diskuse v diskusním fóru.

    Ladislav Hagara | Komentářů: 0
    včera 13:11 | Nová verze

    Byla vydána nová stabilní verze 5.4 (aktuálně 5.4.2753.28) webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 104.0.5112.83. Přehled novinek v příspěvku na blogu. Vivaldi Mail byl povýšen na verzi 1.1.

    Ladislav Hagara | Komentářů: 0
    9.8. 23:33 | Bezpečnostní upozornění

    Intel vydal 27 upozornění na bezpečnostní chyby ve svých produktech. Současně vydal verzi 20220809 mikrokódů pro své procesory. Ta řeší INTEL-SA-00657. Jedná se o bezpečnostní chybu ÆPIC Leak aneb CVE-2022-21233.

    Ladislav Hagara | Komentářů: 2
    9.8. 20:22 | Nová verze

    Byla vydána nová verze 2022.3 průběžně aktualizované linuxové distribuce navržené pro digitální forenzní analýzu a penetrační testování Kali Linux (Wikipedie). Přehled novinek se seznamem nových nástrojů v oficiálním oznámení.

    Ladislav Hagara | Komentářů: 0
    9.8. 18:11 | Nová verze

    Byla vydána nová major verze 4.0 programovacího jazyka a vývojového prostředí Processing. Ke stažení na GitHubu. Přehled novinek na wiki.

    Ladislav Hagara | Komentářů: 0
    9.8. 09:00 | Komunita

    Konference OpenAlt 2022 proběhne o víkendu 17. a 18. září na FIT VUT v Brně. Přednášky lze přihlásit do 15. srpna.

    Ladislav Hagara | Komentářů: 0
    Audioknihy ve srovnání s knihami tištěnými (papírovými nebo elektronickými) poslouchám
     (32%)
     (2%)
     (6%)
     (60%)
    Celkem 164 hlasů
     Komentářů: 1, poslední 8.8. 21:17
    Rozcestník


    Dotaz: ocr titluků z filmu

    18.8.2020 21:28 jejda | skóre: 18 | blog: jejda
    ocr titluků z filmu
    Přečteno: 2922×
    Ahojte! Jak přečíst z titulky z filmu který je má natvrdo vypálené do obrazu? Našel jsem na netu program videocr no nedaří se mi to rozchodit. Tesseract nainstalovaný mám. Podle návodu jsem vytvořil soubor example.py
    from videocr import get_subtitles
    
    if __name__ == '__main__':  # This check is mandatory for Windows.
        print(get_subtitles('video.mp4', lang='chi_sim+eng', sim_threshold=70, conf_threshold=65))
    Přijde mi trochu ujeté že ten název souboru a jazyk, v tom musí být natvrdo zadrátovaní. Takto když to spustím vyhodí to pochopitelně error že "video.mp4" neexistuje. Bylo potřeba to upravit na
    from videocr import get_subtitles
    
    if __name__ == '__main__':  # This check is mandatory for Windows.
        print(get_subtitles('/tmp/video', lang='slk+eng', sim_threshold=70, conf_threshold=65))
    Kde soubor /tmp/video je symlink na soubor s filmem a jazyk titulků je slovenský, proto slk+eng. Když se to pustí tak CPU jede naplno a v tempu to vytváří soubory jako například:
    /tmp/tess_w45fo6y7
    /tmp/tess_w45fo6y7.PNG
    /tmp/tess_w45fo6y7.tsv
    /tmp/tess_2dz6zzki
    /tmp/tess_2dz6zzki.PNG
    /tmp/tess_2dz6zzki.tsv
    Takže se asi něco děje, ale bohužel ten program nedává žádný výstup ani po hodině. Není tu nějaký pythonista co by pomohl? Nebo neexistuje nějaký jinačí způsob jak vygrabovat z takto zmršeného hardsubed filmu obyčejné srt textové titulky?

    Řešení dotazu:


    Odpovědi

    Jendа avatar 18.8.2020 21:41 Jendа | skóre: 77 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    1) import sys; get_subtitles(sys.argv[1], lang=sys.argv[2])

    2) ten zdroják není dlouhý, to bys mohl zvládnout oddebugovat… Pro začátek bych si přidal debug print do funkce _image_to_data.
    Analýzou popisků na schránkách zjistil, že nejčastější české jméno je "Nevhazujte Letáky" a rozhodl se ho přijmout.
    18.8.2020 22:30 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    To asi nezvládnu. Já nejsu programátor. Dokážu tak maximálne sesmolit nějaký jednoduchý shell skript v bashi. Python vůbec. Nepředpokládám že by v tom programu měli nějakou zásadní chybu, jenom v tom readme chybí návod pro blbce jako jsem já, jak to vůbec spustit. Jsem to nainstaloval pomocí
    pip install videocr
    a snažím se to spustit jako:
    python example.py
    Řešení 1× (Вheгzet)
    18.8.2020 23:37 NN
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Co takto example.py:
    from videocr import get_subtitles
    
    save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
    
    Podivej se do ~/tessdata zda se stahnula slovenstina..
    19.8.2020 00:37 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    To vyhodí chybu
    python example.py
    Traceback (most recent call last):
      File "example.py", line 3, in module
        save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
    NameError: name 'save_subtitles_to_file' is not defined
    
    Zkoušel jsem "video.mp4" nahradit "/tmp/video", ale chyba je stejná. Nevím jestli to chápu dobře ale to save_subtitles_to_file je funkce ta by se potom ale měla nějak zavolat ne? A v těch kulatých závorkách se velice nic neděje, akorát se tam definujou proměnné? A soubor ~/tessdata/slk.traineddata tu je. Má asi 14MB.
    19.8.2020 10:51 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Pokud tomu dobře rozumím, máš soubory s příponou .tsv, což je nějaký kontejner s videem, který má v sobě titulky.

    Jelikož je to jeden soubor, domníváš se, že jsou natvrdo vypálené v obraze. Ale tak to není! Natvrdo to měly některá starší videa. Tohle bylo evidentně ripnuté z nějakého DVD (napovídá tomu suffix – přípona). Proto musíš v prvé řadě zjistit co to je. A možností je několik:
    ffprobe -i cesta/k/souboru_videa
    nebo můžeš použít nejprve příkaz:
    file -s cesta/k/souboru
    …který ti vykecá co to je.

    Taky bys měl vědět, že nejsou titulky jako titulky. V kontejneru mohou být titulky buď jako TEXT, nebo jako OBRÁZKY.

    Pokud jsou uloženy jako obrázky, je třeba stopu s titulkama vyexportovat (soubory .sub a .idx) a teprve na tyto vyexportované soubory lze použít utilitu vobsub2srt, která ty obrázky postupně kuchá, dělá OCR a výsledek zapisuje do .srt souboru.
    19.8.2020 10:56 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    A pokud by to byl ten případ, kdy jsou titulky skutečně vypálené v obraze, existuje také řešení, ale není jednoduché.

    Nejprve bys musel všechny snímky z videa vyexportovat jako PNG obrázky, ty potom přežvýkat skriptem tak, aby vše co má jinou barvu než je bílá barva titulků černé a pak ponechat vždy první a poslední (jejich čísla pak použiješ pro nastavení časování), prohnat přes tesseract do TXT souboru a dořešit přes textový editor.
    19.8.2020 11:12 LarryL | skóre: 25
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    vyexportovat jako PNG obrázky
    To se mi nezdá, že by v 21. století se to muselo dělat takto manuálně. Videocr má v popisu napsáno "Extract hardcoded (burned-in) subtitles" a pokud by videocr nefungoval, tak fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?
    19.8.2020 11:55 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    … fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?
    KAŽDÝ to exportuje do PNG, jenom se ty soubory průběžně při zpracování zahazují. Takže je docela dobře možné, že videocr má v sobě zadrátované přesně to co jsem popsal. Tj. že vytahuje z původního snímku jen to co je bílé do nového, na který pak pustí OCR engine.
    19.8.2020 11:54 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Nene ty soubory v /tmp s příponou tsv a png vytváří právě až ten spuštěný videocr. Soubor s videem je obyčejný avi, ten titulky jako samostatnou stopu v kontejneru myslím vůbec neumí. Jsou natvrdo vypálené v obraze.

    A ten videocr se spouští pythoním skriptem který si musí sám uživatel nějak dodělat. A to bohužel vůbec nedávám.

    Řešení 1× (Вheгzet)
    19.8.2020 11:56 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    A co takhle sem nakopírovat výstup těch dvou příkazů co jsem ti napsal?
    19.8.2020 13:12 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Může být, ale nic užitečného tam není
    $ file -s /mnt/disk2/temp/video.avi
    /mnt/disk2/temp/video.avi: RIFF (little-endian) data, AVI, 1280 x 720, >30 fps, video:, audio: (stereo, 44100 Hz)
    
    $ ffprobe -i /mnt/disk2/temp/video.avi
    Input #0, avi, from '/mnt/disk2/temp/video.avi':
      Metadata:
        encoder         : Lavf58.45.100
      Duration: 01:08:28.10, start: 0.000000, bitrate: 1428 kb/s
        Stream #0:0: Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1282 kb/s, 48 fps, 24 tbr, 48 tbn, 48 tbc
        Stream #0:1: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 44100 Hz, stereo, fltp, 128 kb/s
    19.8.2020 13:24 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Užitečného je v tom to, že jsme se z toho dozvěděli že TOHLE video (video.avi) žádnou stopu s titulkama nemá. Takže pokud to má titulky, jsou skutečně součástí těch snímků a musíš postupovat jak jsem napsal. Teda pokud to ten videocr nemá nějak implementované.
    19.8.2020 11:51 kol-ouch | skóre: 8 | blog: Co_to_je
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Kdysi to nějak uměl avidemux - ale je to asi 1000 let co jsem to zkoušel
    19.8.2020 11:57 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Uměl, ale už neumí. Zrovna v pondělí jsem řešil něco podobného, proto jsem se do toho vložil.
    19.8.2020 13:01 LarryL | skóre: 25
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Do téhle diskuze jsem mrkl, že by se mi to taky někdy mohlo hodit a jak se dívám tak třeba na AURu i Ubuntu je SW Subtitle Ripper for Linux který používá GOCR. Vypadá to, že se nic doprogramovávat nemusí, ale jestli je to lepší než videocr nevím.

    Pokud na Linuxu nic dobrého nebude, tak jestli není jednodušší použít nějaký program pro Windows (ve Wine nebo VM Win). Zdá se že třeba SubRip je jen klikačka, kde pomáháš rozpoznávat nečitelné znaky.
    19.8.2020 13:21 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Jo. Jenomže to všechno počítá s tím, že jsou titulky uvedené jako samostatná stopa, nikoliv jako integrální součást obrazu. Teda, alespoň si to myslím.
    19.8.2020 14:43 LarryL | skóre: 25
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Minimálně u těch pro Win je uvedeno "hardcoded subtitles from videos" což podle mne není myšleno jako samostatný soubor v kontejneru.
    19.8.2020 13:25 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Přílohy:
    Tak jsem zjistil, že mám nějak nemocný tesseract. Udělal jsem png screenshot (v příloze) a tesseract ho nepřečte.
    $ tesseract /tmp/ss2.png stdout -l slk
    Warning: Invalid resolution 0 dpi. Using 70 instead.
    Estimating resolution as 481
    
    
    
    
    
    
    
    
    F 'rĺ"d/
    isom.sa jej všetko
    a pĺqg%čo ÉAČT eh
    
    k
    
    
    tu bude asi zakopaný pes.
    19.8.2020 13:29 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Není nemocný. Musíš udělat to co jsem ti napsal - ponechat jenom bílou barvu a všechny ostatní zahodit (změnit na černou)
    19.8.2020 13:52 Peter Golis | skóre: 63 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Myslím že v tomto prípade bude pre neprogramátora lacnejšie a rýchlejšie ten film zakúpiť na médiu kde dané titulky nebudú súčasřou obrazovej stopy.

    Ostatne už aj prastaré DVD Video malo samostatné stopy s titulkami, i keď obrázkovými. A na tie sa dal v pohode poštvať vobsub2srt ktorý zavolal tesseract pre správnu jazykovú voľbu (diakritiku).
    19.8.2020 13:59 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Google + "Replacing Multiple specific color to the specified color" a pár sekund?

    Napsat skript s jednoduchou smyčkou, která zkombinuje export obrázku, konverzi a ocr není zas takový problém. Alespoň se při tom něco naučí.
    19.8.2020 14:07 Peter Golis | skóre: 63 | blog: Bežné záležitosti | Bratislava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Mať ten film v trafike za 3€, tak si to kúpim. Ostatne podľa rozlíšenia 1280 x 720 to vyzerá že niekto pred nedávnom grabol DVD do AVI (h264) a zle zaklikol titulky. A na DVD máš samostatnú stopu pre titulky, takže ju človek vie skonvertovať na text aj bez použitia Big Brother (Google).
    31.3.2021 15:31 ajtacka
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Ak chceš pracovať u Google alebo iných služieb alebo televízií, kde to majú v popise práce takéto niečo robiť a sú za priamo platení, aby to robili, keďže sú tu rôzne znevýhodnení indisponibilní zákazníci...

    Titulky sú síce dôležité pri prvom kontakte s daným jazykom, cieľ by však mal byť ovládať jazyk bez daných titulkov. Navyše sú tu však aj rôzne dialekty, kde nemusia pomôcť ani takéto titulky a chce to prácu profesionálneho tlmočníka a domorodca, keďže ten istý význam, ako napríklad nejaké príslovie, sa môže líšiť dokonca aj vnútri jednej krajiny.

    Filmové štúdiá, ale najmä televízie si dávajú Sakramentský pozor na to, čo môžu vysielať, keďže sa stalo že bolo niečo nepovolené v priamom vysielaní a teraz to riešia všelijako. A nie je to len prudérnymi Američanmi. Aj tu kedysi a je tomu aj myslím si že dnes, bolo treba mať schválené scenáre. Lenže ono je to aj kvôli tomu, že televízie chcú mať úspech u divákov a to ich stojí aj veľa peňazí, aby to dosiahli a nechcú ohroziť svoj úspech.

    Takže tu možno chýba komerčná služba, aby človek mohol sledovať na normálnom televízore(aby sa to oplatilo) napríklad maďarské alebo nemecké stanice, keď tu môžu byť šírené. A nemusia to byť len titulky, keďže niektorí ľudia titulky neradi sledujú(a preto možno ani neradi chodia do kina, keď to nie je nadabované).

    Kedysi niektoré nemenované stanice(nebudem radšej menovať) mali celý film nadabovaný jedným alebo dvomi dabingovými hercami a tam to tak fungovalo, aj keď človek si nemohol ten film potom tak vychutnať. Dabing by mal mať ambíciu byť lepším pre domácí trh ako pôvodné znenie, keďže by mal rešpektovať špecifické vlastnosti jazyka a možno aj zabrániť neželaným javom(nebudem radšej menovať...). Ono je do toho zapletená veľká časť filmového priemyslu... A filmový priemysel má mnoGo problémov.

    Na príklade napríklad Youtube možno vidno, že Google príliš neuvažuje ako zaplniť túžbu užívateľov po obsahu. To čo dnes niekedy posielajú ľudia ako videá, v Amerike sú z toho normálne komerčné programy a dokonca z toho vedia urobiť aj šou(show must go on?) a má to u divákov úspech a to nielen v USA, ale potom takéto programy niektoré komerčné stanice importujú za ťažké prachy aj na Slovensko. A tieto show potom platia výrobcom týchto videí, pretože si to môžu dovoliť a je to aj chcené, aby to takto bolo.

    Google síce platí za zobrazenú reklamu tvorcom videí, lenže tieto videá musia byť originálne a nepoužívať chránené diela, lenže nie je tam spôsob ako urobiť dielo založené na viacerých chránených dielach alebo časti diela a mať možnosť zarábať na tom. Chýba tam jednoducho mechanizmus poslať takéto dielo na schválenie držiteľom autorských práv alebo filmovým štúdiám.

    V aplikačnej praxi niečo takéto spôsobuje problémy napríklad pri politických mítingoch, keď sa ide zahrať nejaká pesnička a tí hudobníci s tým vrcholne nesúhlasia, ale prakticky ako to funguje neviem. Proste chyba je aj u Google a YouTube, že nedávajú možnosť ako sa tým živiť a úspech je niekedy náhodný. Ich platenie za reklamu dosiahlo bodu, keď musí byť video mimoriadne(nielen na Slovenské pomery) úspešné, aby človek nemusel pravidelne pracovať a tvoriť plno brakov, ale mohol doslova dýchať a žiť tou hudbou a tvoriť novú.

    Ale už aj tu sú ľudia, čo ich živí YouTube. Možno nemajú inú možnosť, aj keď televízie v rámci rôznych talentových šou na to čiastočne reagovali. Len tí menej úspešní(a tých je teda dosť) majú problém presadiť sa na domácom trhu, ktorý si neváži ich prácu. Niekde je chyba. Možno v nich, možno v trhu a priemysle, možno inde. Neviem.
    31.3.2021 16:16 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Tady asi někdo něco nepochopil.

    Pointa sdělení byla v tom, že má použít google k tomu, aby si vyhledal jak má řešit problém. Ne že to má nechat, až to za něj udělá Google.
    19.8.2020 14:05 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Příloha:
    HM to taky nebude ono
    $ convert /tmp/ss2.png -threshold 90% - | tesseract stdin stdout -l slk
    Warning: Invalid resolution 0 dpi. Using 70 instead.
    
    
    zkoušel jsem různě měnit --dpi ale bez úspěchu.
    19.8.2020 14:40 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Ha mám to!
    $ convert /tmp/ss2.png -threshold 90% -channel RGB -negate - | tesseract stdin stdout -l slk
    Warning: Invalid resolution 0 dpi. Using 70 instead.
    Estimating resolution as 362
    Snažil som sa jej všetko
    vysvetliť a pozri, čo sa stalo.
    
    
    takže tesseract funguje! Ale je to docela magie a nevím jestli s tím ten program videocr počítá.
    20.8.2020 12:11 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    To vypadá, že nikde nic hotovýho funkčního neexistuje. Tak jsem se do toho pustil sám. Zatím z toho sice nelezou bezchybné srt titulky, ale už se jim to trochu začíná podobat :-). Ten výstup se musí nějak přeparsovat. Občas je tam bordýlek. Zatím jsem nevymyslel jak na to. Taky jsem zjistil, že tesseract má docela potíže číst světlé písmo na tmavém pozadí. Proto se mu ty barvy musí převrátit. S bílýma titulkama je to v pohodě, se žlutýma už je to horší. Docela fajn vychytávka je ustřihnout pryč vrchní polovinu obrazu, tesseract se potom nesnaží číst loga televizních stanic a hodně se mu to čtení zlepší.
    #!/bin/bash
    video="$1"
    jazyk=ces
    if not [ -s "$1" ]; then exit 1; fi
    delka=$(ffprobe -i "$video" -v error -select_streams v:0 \
        -show_entries stream=duration -of default=noprint_wrappers=1:nokey=1 | \
        cut -d. -f1)
    
    pocitadlo() {
    hh=$(echo "$f/3600" | bc)
    mm=$(echo "($f-$hh*3600)/60" | bc)
    ss=$(echo "$f-$hh*3600-$mm*60" | bc)
    if [ $hh -lt 10 ]; then hh=0$hh; fi
    if [ $mm -lt 10 ]; then mm=0$mm; fi
    if [ $ss -lt 10 ]; then ss=0$ss; fi
    cas="$hh:$mm:$ss"
    }
    
    f=0
    while [ $f -lt $delka ]; do
    pocitadlo
    f=$((f+1))
    #echo $cas
    titulek=$(ffmpeg -ss $cas -i "$video" -an -sn -vf "crop=iw:ih/2:0:ih" \
           -vframes 1 -f image2pipe - 2> /dev/null |
           convert - -threshold 90% -channel RGB -negate - |
           tesseract stdin stdout -l $jazyk 2> /dev/null |
           grep [[:graph:]])
    if [ -n "$titulek" ]; then printf "%s\n%s\n\n" "$cas" "$titulek"; fi
    done
    20.8.2020 13:13 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Šikula!
    Jendа avatar 20.8.2020 13:14 Jendа | skóre: 77 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Taky pomáhá nastavit správně DPI.

    Žlutá/whatever se dá opravit pomocí convert -level 5,50%, to udělá ze všeho nad polovinu intenzity bílou.
    Analýzou popisků na schránkách zjistil, že nejčastější české jméno je "Nevhazujte Letáky" a rozhodl se ho přijmout.
    20.8.2020 17:37 jarek163
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Toto téma mě velice zajímá. Ale jako BFU z toho moc nepobírám. Nemohl by jsi prosím na toto téma zpracovat malý článek - tutoriál? Děkuji předem...
    20.8.2020 18:24 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    To máš těžké. Pokud jsi nepobral tuhle diskuzi, tak by ti byl zřejmě houby platný.
    20.8.2020 20:05 LarryL | skóre: 25
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Ze zvědavosti jsem zkusil SubRip z výše uvedeného odkazu. Funguje ve Wine, pouze jsem musel doinstalovat K-Lite_Codec_Pack, AviSynth a podstrčit dgdecode.dll a vyzkoušel jsem na souboru Avi. Vypadá to, že to něco dělá, ale je to jako v tom videu výše co jsem odkazoval - uživatel musí pořád doplňovat znaky, takže by možná bylo rychlejší to přepsat ručně :-). Problém je v tom, že vycuclé písmo je kostrbaté a OCR má problém s rozpoznáváním jednotlivých znaků. Zkoušel jsem měnit různě nastavení, ale bez valného výsledku. ABBYY FineReader, který by v tom asi měl být lepší se mi ve Wine rozjet nepodařilo a do VM se mi to instalovat nechtělo. Takže pokud nemáš odpor k win programům ve Wine nebo VM, tak můžeš zkoušet další prográmky z toho odkazu výše.

    Otázka je jestli se jejdovi s videocr a tesseracte podaří dosáhnout lepšího výsledku aniž by musel každé 5. slovo opravovat.
    21.8.2020 12:06 gvwww
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Hele co se týče hardsubu, skvělý je VideoSubFinder: https://sourceforge.net/projects/videosubfinder/files/
    21.8.2020 12:08 LarryL | skóre: 25
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    JJ, ten je v tom odkazu taky zmiňovaný.
    23.8.2020 15:17 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Jen dodám, že aby to ve wine fungovalo, je třeba nainstalovat (nejjednodušeji skrze winetricks ) součást windows jméněm "vcrun2017" - a pak jsem teda ještě skrze winecfg nastavil jako nativní dll knihovny msvcp140 vcruntime140 a nastavil windows na win 10, ale nejsme si jist, zda ty poslední kroky josu nutné, protože jsem je vyzkoušel předtím, než jsem nainstalovat ten vcrun2017, po němž to začalo běžet (A teď to spokojeně dešifruje). Celé to zkouším na ubuntu 18.04.
    23.10.2020 23:43 Drew | skóre: 15 | blog: Supi_hnizdo | Praha
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Hlavně je tedy asi dobré použít 32bit verzi programu, 64bit mi pořád padala.
    20.8.2020 19:27 jejda | skóre: 18 | blog: jejda
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Příloha:
    Trochu si s tím zkouším hrát, ale proměnit žlutou na bílou se mi moc nedaří. Takový typický obrázek se kterým jsou potíže jsem dal do přílohy. Pro lidské oko je to krásně čitelné, no tesseract si hraje na slepýho.
    Jendа avatar 20.8.2020 19:44 Jendа | skóre: 77 | blog: Jenda | JO70FB
    Rozbalit Rozbalit vše Re: ocr titluků z filmu
    Jo, máš pravdu, zachovává si to saturaci.

    Jedna možnost je nahradit to jako barvu
    convert 245077-ss3-7829814832695538012.png -fuzz 15% -fill white -opaque "#edd341" out.png
    (nalezeno zadáním imagemagick convert replace color do gůglu), druhá je to udělat na černobílém obrázku
    convert 245077-ss3-7829814832695538012.png -grayscale Rec709Luminance -level 5,50% out.png
    Analýzou popisků na schránkách zjistil, že nejčastější české jméno je "Nevhazujte Letáky" a rozhodl se ho přijmout.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.