Český telekomunikační úřad zahajuje novou etapu využívání vysokofrekvenčního rádiového spektra v pásmu 26 GHz. Toto pásmo bude od 1. 7. 2026 otevřeno pro provoz moderních bezdrátových sítí, zejména sítí páté generace (5G), pevných bezdrátových přístupových sítí (FWA) a lokálních či průmyslových sítí určených například pro výrobní areály, logistická centra nebo technologické kampusy. Současně s otevřením pásma 26 GHz přistoupil ČTÚ ke zpřístupnění informací o využívání rádiových kmitočtů v tomto pásmu.
Logitech představil myš Signature Comfort Plus M850 L s polstrovanou opěrkou dlaně pro větší pohodlí a sadu s touto myší a klávesnicí s integrovanou opěrkou dlaní Signature Comfort Plus Combo MK880.
Gaël Duval se rozepsal o novinkách a plánech Murena a /e/OS. Počet uživatelů telefonů Murena a mobilního operačního systému /e/OS bez aplikací a služeb od Googlu se blíží 100 000. Ambicí je, aby se /e/OS stal třetí mobilní platformou v Evropě i na světě, s potenciálem dostat se i na PC. Blíží se vydání nové verze 4 s funkcemi zálohování a obnova, import e-mailů z Gmailu a rozpoznávání hlasu. Murena Workspace přinese videohovory, elektronický podpis a správu zařízení (MDM).
Dnes a zítra probíhá Ubuntu Summit 26.04. Na programu je řada zajímavých přednášek. Sledovat je lze na YouTube. Úvodní slovo měli Mark Shuttleworth a Jon Seager.
Lazygit byl vydán ve verzi 0.62.0. Jedná se o TUI (Text User Interface) nadstavbu nad gitem.
Jiří Eischmann se v příspěvku na svém blogu o rozepsal o tom, kam se vyhledávání v jeho očích posledních 10 let posunulo, jaké má zkušenosti s AI vyhledáváním, proč na něm nechce záviset a jaké vyhledávací služby ho v poslední době zaujaly.
Wayland kompozitor Labwc byl vydán ve verzi 0.20.0. Labwc je inspirován správcem oken Openbox. Postavený je na wlroots.
AlmaLinux OS byl vydán ve verzích 9.8 s kódovým jménem Olive Jaguar a 10.2 s kódovým jménem Lavender Lion. Podrobnosti v poznámkách k vydání (9.8 a 10.2). Opraveny byly zranitelnosti Copy Fail (CVE-2026-31431), Dirty FRAG, Fragnesia (CVE-2026-46300), nginx Rift (CVE-2026-42945) a SSH Keysign Pwn (CVE-2026-46333).
Seznam.cz vykázal za rok 2025 tržby v celkové hodnotě 6,454 miliardy korun. Oproti roku 2024 nárůst o 3,68 %. Zisk před zdaněním oproti předcházejícímu roku poklesl, a to o 11,21 % na 1,330 miliardy korun. Vlastní velké jazykové modely SeLLMa najdou dnes uživatelé téměř na všech seznamáckých službách. Na všechny obsahové služby byla zavedena technologie text-to-speech, díky níž si mohou uživatelé přehrát články v audio verzi namluvené
… více »Vláda představila strategické digitalizační projekty. Roadmapa zahrnuje celkem 55 projektů napříč státní správou, z toho 22 prioritních projektů vycházejících přímo z programového prohlášení vlády a 33 projektů založených na platné legislativě. Portfolio pokrývá oblasti financí, zdravotnictví, digitální identity, dat, registrů, dopravy, krizového řízení, sociálních agend i kybernetické bezpečnosti.
from videocr import get_subtitles
if __name__ == '__main__': # This check is mandatory for Windows.
print(get_subtitles('video.mp4', lang='chi_sim+eng', sim_threshold=70, conf_threshold=65))
Přijde mi trochu ujeté že ten název souboru a jazyk, v tom musí být natvrdo zadrátovaní. Takto když to spustím vyhodí to pochopitelně error že "video.mp4" neexistuje. Bylo potřeba to upravit nafrom videocr import get_subtitles
if __name__ == '__main__': # This check is mandatory for Windows.
print(get_subtitles('/tmp/video', lang='slk+eng', sim_threshold=70, conf_threshold=65))
Kde soubor /tmp/video je symlink na soubor s filmem a jazyk titulků je slovenský, proto slk+eng.
Když se to pustí tak CPU jede naplno a v tempu to vytváří soubory jako například:
/tmp/tess_w45fo6y7 /tmp/tess_w45fo6y7.PNG /tmp/tess_w45fo6y7.tsv /tmp/tess_2dz6zzki /tmp/tess_2dz6zzki.PNG /tmp/tess_2dz6zzki.tsvTakže se asi něco děje, ale bohužel ten program nedává žádný výstup ani po hodině. Není tu nějaký pythonista co by pomohl? Nebo neexistuje nějaký jinačí způsob jak vygrabovat z takto zmršeného hardsubed filmu obyčejné srt textové titulky?
Řešení dotazu:
import sys; get_subtitles(sys.argv[1], lang=sys.argv[2])
2) ten zdroják není dlouhý, to bys mohl zvládnout oddebugovat… Pro začátek bych si přidal debug print do funkce _image_to_data.
pip install videocra snažím se to spustit jako:
python example.py
from videocr import get_subtitles
save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
Podivej se do ~/tessdata zda se stahnula slovenstina..
python example.py
Traceback (most recent call last):
File "example.py", line 3, in module
save_subtitles_to_file('video.mp4', file_path='subtitle.srt', lang='slk', time_start='0:00', time_end='')
NameError: name 'save_subtitles_to_file' is not defined
Zkoušel jsem "video.mp4" nahradit "/tmp/video", ale chyba je stejná.
Nevím jestli to chápu dobře ale to save_subtitles_to_file je funkce ta by se potom ale měla nějak zavolat ne? A v těch kulatých závorkách se velice nic neděje, akorát se tam definujou proměnné?
A soubor ~/tessdata/slk.traineddata tu je. Má asi 14MB.
.tsv, což je nějaký kontejner s videem, který má v sobě titulky.
Jelikož je to jeden soubor, domníváš se, že jsou natvrdo vypálené v obraze. Ale tak to není! Natvrdo to měly některá starší videa. Tohle bylo evidentně ripnuté z nějakého DVD (napovídá tomu suffix – přípona). Proto musíš v prvé řadě zjistit co to je. A možností je několik:
ffprobe -i cesta/k/souboru_videanebo můžeš použít nejprve příkaz:
file -s cesta/k/souboru…který ti vykecá co to je. Taky bys měl vědět, že nejsou titulky jako titulky. V kontejneru mohou být titulky buď jako TEXT, nebo jako OBRÁZKY. Pokud jsou uloženy jako obrázky, je třeba stopu s titulkama vyexportovat (soubory
.sub a .idx) a teprve na tyto vyexportované soubory lze použít utilitu vobsub2srt, která ty obrázky postupně kuchá, dělá OCR a výsledek zapisuje do .srt souboru.
vyexportovat jako PNG obrázkyTo se mi nezdá, že by v 21. století se to muselo dělat takto manuálně. Videocr má v popisu napsáno "Extract hardcoded (burned-in) subtitles" a pokud by videocr nefungoval, tak fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?
… fakt není žádný jiný OCR, který to umí automaticky bez nějakého exportování PNG?KAŽDÝ to exportuje do PNG, jenom se ty soubory průběžně při zpracování zahazují. Takže je docela dobře možné, že videocr má v sobě zadrátované přesně to co jsem popsal. Tj. že vytahuje z původního snímku jen to co je bílé do nového, na který pak pustí OCR engine.
A ten videocr se spouští pythoním skriptem který si musí sám uživatel nějak dodělat. A to bohužel vůbec nedávám.
$ file -s /mnt/disk2/temp/video.avi
/mnt/disk2/temp/video.avi: RIFF (little-endian) data, AVI, 1280 x 720, >30 fps, video:, audio: (stereo, 44100 Hz)
$ ffprobe -i /mnt/disk2/temp/video.avi
Input #0, avi, from '/mnt/disk2/temp/video.avi':
Metadata:
encoder : Lavf58.45.100
Duration: 01:08:28.10, start: 0.000000, bitrate: 1428 kb/s
Stream #0:0: Video: h264 (High) (avc1 / 0x31637661), yuv420p(progressive), 1280x720 [SAR 1:1 DAR 16:9], 1282 kb/s, 48 fps, 24 tbr, 48 tbn, 48 tbc
Stream #0:1: Audio: aac (LC) ([255][0][0][0] / 0x00FF), 44100 Hz, stereo, fltp, 128 kb/s
$ tesseract /tmp/ss2.png stdout -l slk Warning: Invalid resolution 0 dpi. Using 70 instead. Estimating resolution as 481 F 'rĺ"d/ isom.sa jej všetko a pĺqg%čo ÉAČT eh ktu bude asi zakopaný pes.
$ convert /tmp/ss2.png -threshold 90% - | tesseract stdin stdout -l slk Warning: Invalid resolution 0 dpi. Using 70 instead.zkoušel jsem různě měnit --dpi ale bez úspěchu.
$ convert /tmp/ss2.png -threshold 90% -channel RGB -negate - | tesseract stdin stdout -l slk Warning: Invalid resolution 0 dpi. Using 70 instead. Estimating resolution as 362 Snažil som sa jej všetko vysvetliť a pozri, čo sa stalo.takže tesseract funguje! Ale je to docela magie a nevím jestli s tím ten program videocr počítá.
. Ten výstup se musí nějak přeparsovat. Občas je tam bordýlek. Zatím jsem nevymyslel jak na to. Taky jsem zjistil, že tesseract má docela potíže číst světlé písmo na tmavém pozadí. Proto se mu ty barvy musí převrátit. S bílýma titulkama je to v pohodě, se žlutýma už je to horší. Docela fajn vychytávka je ustřihnout pryč vrchní polovinu obrazu, tesseract se potom nesnaží číst loga televizních stanic a hodně se mu to čtení zlepší.
#!/bin/bash
video="$1"
jazyk=ces
if not [ -s "$1" ]; then exit 1; fi
delka=$(ffprobe -i "$video" -v error -select_streams v:0 \
-show_entries stream=duration -of default=noprint_wrappers=1:nokey=1 | \
cut -d. -f1)
pocitadlo() {
hh=$(echo "$f/3600" | bc)
mm=$(echo "($f-$hh*3600)/60" | bc)
ss=$(echo "$f-$hh*3600-$mm*60" | bc)
if [ $hh -lt 10 ]; then hh=0$hh; fi
if [ $mm -lt 10 ]; then mm=0$mm; fi
if [ $ss -lt 10 ]; then ss=0$ss; fi
cas="$hh:$mm:$ss"
}
f=0
while [ $f -lt $delka ]; do
pocitadlo
f=$((f+1))
#echo $cas
titulek=$(ffmpeg -ss $cas -i "$video" -an -sn -vf "crop=iw:ih/2:0:ih" \
-vframes 1 -f image2pipe - 2> /dev/null |
convert - -threshold 90% -channel RGB -negate - |
tesseract stdin stdout -l $jazyk 2> /dev/null |
grep [[:graph:]])
if [ -n "$titulek" ]; then printf "%s\n%s\n\n" "$cas" "$titulek"; fi
done
convert -level 5,50%, to udělá ze všeho nad polovinu intenzity bílou.
. Problém je v tom, že vycuclé písmo je kostrbaté a OCR má problém s rozpoznáváním jednotlivých znaků. Zkoušel jsem měnit různě nastavení, ale bez valného výsledku. ABBYY FineReader, který by v tom asi měl být lepší se mi ve Wine rozjet nepodařilo a do VM se mi to instalovat nechtělo. Takže pokud nemáš odpor k win programům ve Wine nebo VM, tak můžeš zkoušet další prográmky z toho odkazu výše.
Otázka je jestli se jejdovi s videocr a tesseracte podaří dosáhnout lepšího výsledku aniž by musel každé 5. slovo opravovat.
convert 245077-ss3-7829814832695538012.png -fuzz 15% -fill white -opaque "#edd341" out.png(nalezeno zadáním imagemagick convert replace color do gůglu), druhá je to udělat na černobílém obrázku
convert 245077-ss3-7829814832695538012.png -grayscale Rec709Luminance -level 5,50% out.png
Tiskni
Sdílej: