Portál AbcLinuxu, 4. května 2025 12:37
Google na svém blogu věnovaném AI představil nový hlasový kodek Lyra. Kvalitou je kodek Lyra s datovým tokem 3 kbps srovnatelný s kodekem Opus s datovým tokem 8 kbps.
Tiskni
Sdílej:
MP3 není navržené pro 32 kb/s. Jeho použitelnost začíná na 96 kb/s. Že ho výrobci používali i jinde, bylo neexistencí jiného komerčního kodeku. Opus je ve skutečnosti obálka pro SILK v nízkých tocích (6 až 40 kb/s) a CELT ve vyšších tocích. Lyra míří ještě níže. Nejbližší srovnání tudíž nabízí AMR (7 kb/s) či GSM-HR (6 kb/s) nebo Speex (teoreticky od 2 kb/s).
Nicméně Lyra funguje v principu jinak: aplikace si sebou nese rozsáhlý slovník, který vznikl trénováním neuronové sítě na určité množině hlasů. Tudíž logicky bude v porovnání s algoritmickými kodeky značně paměťově (a možná i výpočetně) náročnější a především bude dávat věrohodné výsledky jen pro hlasy zahrnuté do tréningu. V ostatních případech uslyšíte slova (pokud se podaří kódování), ale hlas bude patřit cizímu člověku. A pokud rezignujeme na složitost a na autorství hlasu, kvalitnějších výsledků v poměru k datovému toku by mohla dosahovat analýza/syntéza řeči s přenosem textu a intonace. Ale asi za cenu značného zpoždění.
Deje se to, Hangouts to dela a funguje to dobre kdyz jde o pokles bandwidthu kvuli saturaci uplinku nebo shapingu. Tam ti konektivita zustane a daji se s tim delat "chytristiky".
Naopak kdyz jde o vypadky na sitove vrstve, treba kdyz prsi nebo se hybe antena, tak tam tohle nepomuze.
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.