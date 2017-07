×

Byla vydána verze 2.4.0 analyzátoru síťového provozu Wireshark . Jedná se o první stabilní verzi nové řady 2.4. Podrobný přehled novinek v poznámkách k vydání . V červnu proběhla konference SharkFest’17 US věnovaná Wiresharku. Záznamy přednášek jsou k dispozici na YouTube .

Nadace The Document Foundation ( TDF ) zastřešující vývoj svobodného kancelářského balíku LibreOffice zveřejnila čtyřiačtyřicetistránkovou výroční zprávu za rok 2016. K dispozici je ve formátu pdf ve vysokém (21,68 MB) a nízkém (7,1 MB) rozlišení. Zpráva byla vytvořena ve Scribusu .

Ideální datový formát

Převážně diskusní/dotazovací zápisek na téma návrhu datových formátů.

Při návrhu datového formátu můžeme optimalizovat podle různých kritérií a priorit – a ty jdou často proti sobě. Možná proto existuje tolik formátů…

Předesílám, že teď mluvím primárně o formátech pro strojovou komunikaci tzn. formáty, pomocí kterých budou programy ukládat strukturovaná data do souboru nebo kterými budou programy komunikovat po síti (formát zpráv nějakého protokolu). Nechci zde tedy zabředávat do problematiky formátů pro lidi (tzn. dokumenty, konfigurace, zdrojové kódy…) a hádat se, zda je lepší XML, YAML, INI, JSON atd. tato diskuse probíhá minimálně na dvou místech vedle.

Jaká jsou tedy hlediska, na která se můžeme zaměřit? Napadá mne:

Datová náročnost – Kolik zaberou data na disku nebo při přenosu po síti?

Výpočetní náročnost – Kolik cyklů/instrukcí je potřeba k zakódování a dekódování zprávy či atributu?

Paměťová náročnost – Kolik se při kódování a dekódování spotřebuje RAM?

Náhodný přístup, indexovanost – Musím celou zprávu (nebo celý začátek) dekódovat, abych získal jeden konkrétní atribut? Nebo můžu jít najisto na nějakou pozici a tam přečíst data? Lze formát použít jako paměťový objektový model? Lze dokonce data v paměti upravovat, aniž by se musela následující data posunout? (např. vložit odkaz na nová data připsaná na konec)

Implementační náročnost – Jak moc mi budou nadávat programátoři, kteří dostanou za úkol naprogramovat kodér/dekodér formátu podle specifikace? Kolik kódu bude potřeba napsat? Jak moc schopný bude muset být ten programátor? Bude formát svádět k implementačním chybám (např. přetečení)? Kolik místa zabere zkompilovaný kódér/dekodér? Půjde nahrát třeba do nějakého jednočipu?

Samopopisnost – Budou data samopopisná nebo bude k jejich dekódování potřeba znát schéma/slovník?

Specifičnost – Primárně mi jde o meta-formát, nad kterým si ostatní mohou postavit vlastní formát. Co tím myslím – např. XML, YAML, INI, JSON atd. jsou meta-formáty, neobsahují nic aplikačně/doménově specifického – to si nad nimi postaví až každý sám. Máme tedy dvě úrovně: syntaxi a sémantiku. Tak to podle mého má být. Má podle vás smysl někdy dělat aplikačně specifický formát, který toto rozdělení ignoruje a je nepoužitelný mimo danou aplikaci/doménu?

Jednoznačnost – Půjdou jedna data zapsat právě jedním způsobem? Nebo tam bude variabilita? Pokud by šlo o textový formát: můžu boolean zapsat jako true/false/yes/no/1/0/Y/N/ případně true je nějak definováno a cokoli jiného se považuje za false; nebo půjde použít jen jeden způsob zápisu např. true/false a cokoli ostatního je chyba a čtení končí? Toto je důležité pro kryptografii, aby se snížilo riziko, že někdo zprávu vycpe takovými daty, že se dopočítá kolize hashovací funkce. Půjde do zprávy vložit nějaká data, která se v tichosti odignorují, ale do případného hashe by se započítala?

Funkcionalita a flexibilita – Jaké datové typy (různé formáty čísel, textů, výčtové typy, booleany, null atd.) a jaké struktury (seznam, mapa atd.) bude formát podporovat? Půjde si navrhovat další typy? (tzn. rozšiřitelnost) Bude podporovat jmenné prostory? (aby název atributu byl globálně jedinečný a nedocházelo ke kolizím) Bude podporovat transparentní šifrování, podepisování, kompresi či třeba kontrolní součty nebo toto bude potřeba řešit na aplikační úrovni?

Čitelnost člověkem – Formát je sice určen primárně pro stroje, ale přesto může být i trochu čitelný nebo naopak kryptický. Znám např. lidi, kteří si čtou hexadecimálně ASN.1 nebo Diametří AVPčka. Má smysl tohle brát v úvahu nebo počítat s tím, že každý použije vhodný nástroj k dekódování? Nebo naopak udělat formát čistě textový nebo Base64 i za cenu jiných nevýhod? Trochu s tím i souvisí možnost udělat diff nějakým univerzálním nástrojem (třeba příkaz diff nebo verzovací systém). Např. jsem se setkal s formátem, který byl sice textový, ale na začátku každého řádku bylo číslo řádku (a na konci byl ještě součet), takže při přidání či smazání řádku ukazoval diff změny v celém souboru. Napsat si perlový skript, který to přečísluje, je sice triviální, ale je tohle vůbec nutné?

Jaká další kritéria vás napadají?

Už z těch uvedených výše je zřejmé, že ideální formát neexistuje – nezle se zavděčit všem a některá kritéria jdou přímo proti sobě (např. implementační náročnost vs. funkcionalita nebo datová vs. výpočetní náročnost). Jak velké rozpětí tedy lze ještě pokrýt jedním formátem a kdy už je lepší na to rezignovat a mít radši formáty dva… tři, deset, padesát…? Výhody jednoho formátu jsou snad zřejmé: sdílení kódu a znalostí, vyspělejší nástroje (stačí je napsat jednou), lépe otestovaný software (používá ho víc lidí)…

Zajímá mě primárně dnešní pohled a budoucnost – tzn. z hlediska dnešního hardwaru, dnešní situace na trhu, dnešních jazyků, platforem… Řada současných formátů je zatížena minulostí a optimalizují pro něco, co už dneska třeba není aktuální. Nebo obsahují návrhové chyby (což je podle mého mj. aplikační/doménová specifičnost).

-- DDP

