abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
eParkomat, startup z ČR, postoupil mezi finalisty evropského akcelerátoru ChallengeUp!
Robot na pivo mu otevřel dveře k opravdovému byznysu
Internet věcí: Propojený svět? Už se to blíží...
dnes 16:24 | Nová verze

Byla vydána Mageia 5.1. Jedná se o první opravné vydání verze 5, jež vyšla v červnu loňského roku (zprávička). Uživatelům verze 5 nepřináší opravné vydání nic nového, samozřejmě pokud pravidelně aktualizují. Vydání obsahuje všechny aktualizace za posledního téměř půldruhého roku. Mageia 5.1 obsahuje LibreOffice 4.4.7, Linux 4.4.32, KDE4 4.14.5 nebo GNOME 3.14.3.

Ladislav Hagara | Komentářů: 0
dnes 13:42 | Pozvánky

V Praze probíhá konference Internet a Technologie 16.2, volné pokračování jarní konference sdružení CZ.NIC. Konferenci lze sledovat online na YouTube. K dispozici je také archiv předchozích konferencí.

Ladislav Hagara | Komentářů: 0
včera 22:44 | Komunita

Joinup informuje, že Mnichov používá open source groupware Kolab. V srpnu byl dokončen dvouletý přechod na toto řešení. V provozu je asi 60 000 poštovních schránek. Nejenom Kolabu se věnoval Georg Greve ve své přednášce Open Source: the future for the European institutions (SlideShare) na konferenci DIGITEC 2016, jež proběhla v úterý 29. listopadu v Bruselu. Videozáznam přednášek z hlavního sálu je ke zhlédnutí na Livestreamu.

Ladislav Hagara | Komentářů: 12
včera 15:30 | Zajímavý projekt

Společnost Jolla oznámila v příspěvku Case study: Sailfish Watch na svém blogu, že naportovala Sailfish OS na chytré hodinky. Využila a inspirovala se otevřeným operačním systémem pro chytré hodinky AsteroidOS. Použita je knihovna libhybris. Ukázka ovládání hodinek na YouTube.

Ladislav Hagara | Komentářů: 8
včera 14:15 | Nová verze

Byla vydána verze 7.1.0 skriptovacího jazyka PHP používaného zejména k vývoji dynamických webových stránek. Jedná se o první stabilní verzi nejnovější větvě 7.1. Přehled novinek v dokumentaci. Podrobnosti v ChangeLogu. K dispozici je také příručka pro přechod z PHP 7.0.x na PHP 7.1.x.

Ladislav Hagara | Komentářů: 2
včera 12:55 | Nová verze

Google Chrome 55 byl prohlášen za stabilní. Nejnovější stabilní verze 55.0.2883.75 tohoto webového prohlížeče přináší řadu oprav a vylepšení (YouTube). Opraveno bylo také 36 bezpečnostních chyb. Mariusz Mlynski si například vydělal 22 500 dolarů za 3 nahlášené chyby (Universal XSS in Blink).

Ladislav Hagara | Komentářů: 4
včera 11:55 | Pozvánky

Máte rádi svobodný software a hardware nebo se o nich chcete něco dozvědět? Přijďte na 135. sraz spolku OpenAlt, který se bude konat ve čtvrtek 8. prosince od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Sraz bude tentokrát tématický. Bude retro! K vidění budou přístroje jako Psion 5mx nebo Palm Z22. Ze svobodného hardwaru pak Openmoko nebo čtečka WikiReader. Přijďte se i vy pochlubit svými legendami, nebo alespoň na pivo. Moderní hardware má vstup samozřejmě také povolen.

xkucf03 | Komentářů: 0
včera 00:10 | Nová verze

Byla vydána verze 3.2 svobodného systému pro detekci a prevenci průniků a monitorování bezpečnosti počítačových sítí Suricata. Z novinek lze zmínit například podporu protokolů DNP3 a CIP/ENIP, vylepšenou podporu TLS a samozřejmě také aktualizovanou dokumentaci.

Ladislav Hagara | Komentářů: 0
1.12. 21:00 | Nová verze

Byla vydána beta verze Linux Mintu 18.1 s kódovým jménem Serena. Na blogu Linux Mintu jsou hned dvě oznámení. První o vydání Linux Mintu s prostředím MATE a druhé o vydání Linux Mintu s prostředím Cinnamon. Stejným způsobem jsou rozděleny také poznámky k vydání (MATE, Cinnamon) a přehled novinek s náhledy (MATE, Cinnamon). Linux Mint 18.1 bude podporován až do roku 2021.

Ladislav Hagara | Komentářů: 0
1.12. 16:42 | Nová verze

Byl vydán Devuan Jessie 1.0 Beta 2. Jedná se o druhou beta verzi forku Debianu bez systemd představeného v listopadu 2014 (zprávička). První beta verze byla vydána v dubnu letošního roku (zprávička). Jedna z posledních přednášek věnovaných Devuanu proběhla v listopadu na konferenci FSCONS 2016 (YouTube, pdf).

Ladislav Hagara | Komentářů: 0
Kolik máte dat ve svém domovském adresáři na svém primárním osobním počítači?
 (32%)
 (24%)
 (29%)
 (7%)
 (5%)
 (3%)
Celkem 764 hlasů
 Komentářů: 50, poslední 29.11. 15:50
Rozcestník
Reklama

Dotaz: Titulky do Matrosky

21.3.2015 22:28 Vtipnéř | skóre: 33 | blog: Vtipnéřův blog | Brno
Titulky do Matrosky
Přečteno: 558×
Všechny zdravím.

Zkoušel jsem do kontejneru Matroska vložit pomocí ffmpeg titulky v kódování CP1250. Titulky se vložily, ale čeština byla v háji. Přitom když titulky načítám z externího soubory, je to bez problémů. Když jsem použil UTF-8, tak to taky fungovalo, takže bych tipnul, že ffmpeg fonty nějak překódoval.

Na internetu jsem našel volbu pro ffmepg -sub_charenc, kterou by se mělo nastavit kódování, ale moje verze ffmpeg ji nezná. (Mám Debian stable.)

Díval jsem se do dokumentace avconv, ale tam jsem tuhle volbu taky nenašel. Věděl by někdo, co by pomohlo?

Jirka
Opening Windows is better than washing them. Clearing Windows (e.g. erasing or deleting) is much more better.

Řešení dotazu:


Odpovědi

21.3.2015 23:58 MadCatX
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Tipnul bych si, že při přidání titulků přes ffmpeg se nastaví jejich kódování na UTF-8 a přehrávač pak předpokládá, že v něm ty titulky jsou. Pro správu MKV souborů používám "mkvmerge" ze sady nástrojů "mkvtoolnix". Má to CLI i GUI rozhraní. CLI jsem nezkoušel, v GUI lze obsah MKV kontejneru jednoduše naklikat; kódování i jazyk titulků se tam dá nastavit.
24.3.2015 13:12 Kazatel
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Potvrzuji chování. Když stáhnu titulky a přibalím do kontejneru, je čeština v háji. Proto před mkvmerge dělám iconv -f CP1250 -t UTF8 -o out.txt input.txt

Pak přibalím input a je to OK. Jestli má mkvmerge přepínač na kódování, tím líp. Zatím sem to nestudoval.
24.3.2015 15:07 MadCatX
Rozbalit Rozbalit vše Re: Titulky do Matrosky
V GUI mkvmerge (mmg) je na kartě "Format Specific Options" nabídka "Charset", kde lze kódování titulků nastavit. Nemám to teď na čem vyzkoušel, ale vzpomínám si, že to fungovalo. Možná bude záležet na přehrávači, zda příslušné pole přečte a zařídí se podle něj.
25.3.2015 08:47 Kazatel
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Problém je v tom, že já to dělám z cli rozhranní :)) Tam klikadlo nemám a ani nechci... :) (typicky si stáhnu titulky v archivu na headless serveru a potřebuju je kovertovat + přibalit do kontejneru)
25.3.2015 08:52 Kazatel
Rozbalit Rozbalit vše Re: Titulky do Matrosky
I když mohl bych ozkoušet sub-charset podle webu by to mohlo být to, co hledám a ušetřil bych si tím jeden krok...
22.3.2015 12:48 kulich
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Taky používám mkvmerge GUI a bez problémů.
22.3.2015 17:56 Vtipnéř | skóre: 33 | blog: Vtipnéřův blog | Brno
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Díky za tipy, vyzkouším.

Jirka
Opening Windows is better than washing them. Clearing Windows (e.g. erasing or deleting) is much more better.
22.3.2015 19:28 kulich
Rozbalit Rozbalit vše Re: Titulky do Matrosky
jinak když mám problém s kodováním použiji enca -c titukly.sub překonvertuje do znakove sady na pc
23.3.2015 08:11 Vtipnéř | skóre: 33 | blog: Vtipnéřův blog | Brno
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Překonvertovat titulky do libovolné znakové sady není problém. Ale v XBMC na RaspberryPi mám nastaveno kování CP1250, protože v něm je převážná většina titulků.
Opening Windows is better than washing them. Clearing Windows (e.g. erasing or deleting) is much more better.
Řešení 1× (Vtipnéř (tazatel))
25.3.2015 15:17 trubicoid
Rozbalit Rozbalit vše Re: Titulky do Matrosky
v xbmc by melo byt enca, to uhadne kodovani a zobrazi to spravne

v mplayeru to taky mam

jinak v mkv by vzdy mely byt titule utf8 a prehravac uz si to sam nejak prekonvertuje
25.3.2015 23:25 Vtipnéř | skóre: 33 | blog: Vtipnéřův blog | Brno
Rozbalit Rozbalit vše Re: Titulky do Matrosky
jinak v mkv by vzdy mely byt titule utf8 a prehravac uz si to sam nejak prekonvertuje
Aha, myslím, že tohle je ta zásadní informace. V XBMC mám nastaveno, že titulky jsou v CP1250, ale podle toho, co píšete, se to týká jen titulků v externím souboru. Tím by byl problém vyřešen. Ještě to otestuju.

Jirka
Opening Windows is better than washing them. Clearing Windows (e.g. erasing or deleting) is much more better.
6.4.2015 20:30 Vtipnéř | skóre: 33 | blog: Vtipnéřův blog | Brno
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Testování dopadlo úspěšně, i např. mplayer zobrazuje titulky správně, když má nastaveno, že titulky jsou v CP1250, a v mkv jsou uloženy v UTF8.

Jirka
Opening Windows is better than washing them. Clearing Windows (e.g. erasing or deleting) is much more better.
7.4.2015 11:49 trubicoid
Rozbalit Rozbalit vše Re: Titulky do Matrosky
ano, presne tak to ma byt, kodovani vybiras jen pro externi titule napr. v srt, v mkv vzdy utf8

a kdyz jeste pouzijes enca, tak se kodovani v srt samo uhadne
pavlix avatar 7.4.2015 12:02 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
a kdyz jeste pouzijes enca, tak se kodovani v srt samo uhadne

Jak moc spolehlivé to vlastně je? Kdysi jsem si na to psal vlastní tool jen tak cvičně a pro čtení se to chytalo docela dobře. Cokoli co lze číst jako utf-8 bylo většinou skutečně utf-8 nebo jeho podmnožina. Trochu horší byla osmibitová kódování, kde nebylo moc možné určit kódování bez odhadování jazyka, i když pro čtení taky celkem v pohodě. Trochu horší je odhadovat skutečné kódování, pokud by člověk chctěl zapisovat a zachovat ho, tam je to často nemožné a jinak dost obtížné.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.
7.4.2015 14:04 trubicoid
Rozbalit Rozbalit vše Re: Titulky do Matrosky
ja titule moc nepouzivam, ale kdyz, tak to vzdy samo uhadlo kodovani; no mozna se najde nejakej specialni pripad, kdy to nefunguje

enca vyzaduje, abys rekl, co to je za jazyk (-L ), to si ulozis do nastaveni

enca --list languages

belarussian: CP1251 IBM866 ISO-8859-5 KOI8-UNI maccyr IBM855 KOI8-U

bulgarian: CP1251 ISO-8859-5 IBM855 maccyr ECMA-113

czech: ISO-8859-2 CP1250 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK

estonian: ISO-8859-4 CP1257 IBM775 ISO-8859-13 macce baltic

croatian: CP1250 ISO-8859-2 IBM852 macce CORK

hungarian: ISO-8859-2 CP1250 IBM852 macce CORK

lithuanian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic

latvian: CP1257 ISO-8859-4 IBM775 ISO-8859-13 macce baltic

polish: ISO-8859-2 CP1250 IBM852 macce ISO-8859-13 ISO-8859-16 baltic CORK

russian: KOI8-R CP1251 ISO-8859-5 IBM866 maccyr

slovak: CP1250 ISO-8859-2 IBM852 KEYBCS2 macce KOI-8_CS_2 CORK

slovene: ISO-8859-2 CP1250 IBM852 macce CORK

ukrainian: CP1251 IBM855 ISO-8859-5 CP1125 KOI8-U maccyr

chinese: GBK BIG5 HZ

none:
pavlix avatar 7.4.2015 15:10 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
enca vyzaduje, abys rekl, co to je za jazyk
Tak to je dost na hovno a stálo by za vylepšení. Moje ročníkovka na střední na pár řádků už nevím v jakém jazyce zvládala detekovat kódování společně s jazykem za pomoci podobné tabulky, kdy záleželo na pořadí kódování pro daný jazyk a při podmnožině několika známých kódování se použilo to, které bylo na seznamu pro daný jazyk dříve.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.
7.4.2015 15:32 trubicoid
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Enca is an Extremely Naive Charset Analyser

tak muzes to vylepsit :)

http://cihar.com/software/enca

https://github.com/nijel/enca
pavlix avatar 7.4.2015 18:49 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Budu o tom uvažovat, akorát toho mám na TODO list trochu víc a z oblastí, co mě více zajímají, případně jsou to věci, které jdou obhájit jako součást mojí práce, u tohoto bych si nebyl úplně jistý.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.
7.4.2015 18:14 j
Rozbalit Rozbalit vše Re: Titulky do Matrosky
UTF-8 poznas snadno, soubor by mel mit na zacatku hlavicku. Zbytek je prevazne o tom, ze se hledaji konkretni znaky, v idealnim pripade se dela neco jako frekvencni analyza(= vemes nejakej dostatecne velkej vzorek pro danej jazyk, znej si zjistis jak casto se vyskytuje ten kterej znak a pak zjistujes neznamej text), kde je uspesnost prakticky 100%. Dokonce se da vpohode takhle rozlustit i kodovani zcela neznamy (treba prehazeni znaku podle nejaky kodovaci tabulky).
pavlix avatar 7.4.2015 19:07 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
UTF-8 poznas snadno
S tím bych ještě souhlasil, stačí se pokusit daný bajtový řetězec jako utf-8 interpretovat a v případě úspěchu ho za utf-8 prohlásit.
soubor by mel mit na zacatku hlavicku.
Ovšem toto se nebojím prohlásit za čirou idiocii. Kódování utf-8 žádnou (povinnou) hlavičku nemá, navíc hovořit o detekci kódování v kontextu toho, že jinak čistě textový soubor opatřím hlavičkou s informací o kódování, to jaksi nedává smysl. Já osobně jsem se do kódování utf-8 bez jakýchkoli hlaviček zamiloval kvůli jeho výtečným znalostem především v kontextu ASCII světa, mezi něž patří, že nad utf-8 řetězci a soubory fungují prakticky všechny operace stejně jako nad ascii souborem. Snad jedinou výjimkou jsou operace vyžadující práci s počtem znaků. Ovšem pro utf-8 opatřené nesmyslnou značkou pořadí bajtů v kódové jednotce, kterou je jediný bajt, už touto vlastností neoplývá a osobně ho tak považuju za podobný odpad jako utf-16.

TL;DR verze: Nikoliv, u textových souborů v osmibitových kódováních včetně utf-8 se minimálně na unixových systémech nevyžaduje hlavička označující kódování. A můj osobní názor je, že systémy, které jen a pouze u tohoto konkrétního osmibitového kódování vyžadují speciální hlavičky v textových souborech, jsou idiotsky navržené.
Zbytek je prevazne o tom, ze se hledaji konkretni znaky, v idealnim pripade se dela neco jako frekvencni analyza(= vemes nejakej dostatecne velkej vzorek pro danej jazyk, znej si zjistis jak casto se vyskytuje ten kterej znak a pak zjistujes neznamej text)
Analýza frekvence jednotlivých znaků je sice super věc na hraní, ale u detekce jazyka/kódování krátkých textů (v řádu jednotlivých vět) se mi vůbec neosvědčila, což by u detekce jazyka/kódování obecných souborů mohl být docela problém, ale pravda je, že na titulky by to stačit mohlo.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.
Josef Kufner avatar 7.4.2015 19:19 Josef Kufner | skóre: 66
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Druhý případ je řazení podle abecedy. Tam také řadící program musí rozumět použitému kódování.

A UTF-8 BOM (ta hlavička) byl naprosto debilní nápad, který rozbíjí snad úplně vše. Ta hlavička má v UTF-8 tři byty a je zcela na nic, neboť Byte-Order-Mark u kódování, kde pořadí bytů (little/big endian) je pevně dáno (slova jsou jednobytová), ani nemá smysl.
Hello world ! Segmentation fault (core dumped)
pavlix avatar 7.4.2015 19:28 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Druhý případ je řazení podle abecedy. Tam také řadící program musí rozumět použitému kódování.
Pravda, akorát že nějaké řazení vznikne i z toho utf-8 a na cokoli lepšího by stejně člověk potřeboval aplikovat národní pravidla a občas i jejich úpravu pro specifické využití.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.
Josef Kufner avatar 7.4.2015 19:31 Josef Kufner | skóre: 66
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Nějaké řazení je i náhodné ;-) Ale jinak jo, pokud zrovna člověk nemá písmenka s diakritikou na začátcích slov, tak je to v pohodě.
Hello world ! Segmentation fault (core dumped)
pavlix avatar 7.4.2015 19:43 pavlix | skóre: 53 | blog: pavlix
Rozbalit Rozbalit vše Re: Titulky do Matrosky
Tak toto řazení ani není náhodné. Jednak je kompatibilní s výchozím řazením ASCII, jednak řadí dvoubajtové znaky podle unicode code pointu, akorát že je jako celek řadí za ty jednobajtové. Takže ani člověku (většinou programátorovi) nedělá problémy si to řazení velmi rychle osvojit. Ideální pro případ, že skutečně držíš data v UTF, nemáš k dispozici informace o národním řazení a víš, že by ti takovéto univerzální mezinárodní řazení unicode nic kromě zatížení procesoru nepřineslo. Ale je fakt, že to už vedeme takové teoretické plky.
GentooFedoraSCRAM – Jsem open source vývojář, nikoli markeťák ⇒ názory zde uvedené jsou jen mé vlastní.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.