Ideální datový formát (diskuse)

Takova diskuse se tu uz nedavno vedla a ja tam napsal vsechno, co bych k tomu mohl rict.

Ale jinak k tem formatum - zajimave jsou take "succinct data structures", viz treba. Urcite jedno kriterium by mohlo byt, co to znamena nacist ten format do pameti, aby se s nim dalo rozumne pracovat. Je potreba vytvaret nejakou paralelni strukturu (pointeru a objektu), nebo to lze delat primo?

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

21.7.2017 23:45 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Takova diskuse se tu uz nedavno vedla

No vidíš, na tu už jsem pomalu zapomněl :-) Ale to byl spíš odstrašující příklad, jak to nedělat.

a ja tam napsal vsechno, co bych k tomu mohl rict.

Ten CBOR a MsgPack?

Na stránkách CBORu mě děsí odstavec:

One of the major practical wins of JSON is that successful data interchange is possible without casting a schema in concrete. This works much better in a world where both ends of a communication relationship may be evolving at high speed.

To mi přijde jako zásadní nepochopení toho, jak funguje nebo by měla fungovat volná vazba.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2017 06:09 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Ideální datový formát

Ale to byl spíš odstrašující příklad, jak to nedělat.

Odstrasujici priklad je XML a JSON. :-)

To mi přijde jako zásadní nepochopení toho, jak funguje nebo by měla fungovat volná vazba.

Nechapu, co se tim snazis rict. Co ti konkretne na CBORu vadi?

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

22.7.2017 08:29 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Odstrasujici priklad je XML a JSON.

Takže bys místo nich radši používal nový formát uSX 1.0? A že jsi to tehdy Dumblobovi nenapsal, měl by radost.

Nechapu, co se tim snazis rict. Co ti konkretne na CBORu vadi?

Na CBORu jako takovém asi nic – vypadá to na celkem jednoduchý formát, který cílí na implementační nenáročnost a datovou úspornost – což má jistě svoje využití a není nic špatného na tom zvolit si tyto priority (a obětovat jiné).

Co mě zarazilo, byl ale ten odstavec:

No Schema needed: One of the major practical wins of JSON is that successful data interchange is possible without casting a schema in concrete. This works much better in a world where both ends of a communication relationship may be evolving at high speed.

Pokud si někdo myslí, že odstraněním schématu si nějak pomůže, tak se strašlivě mýlí.¹ A to zvlášť v prostředí „where both ends of a communication relationship may be evolving at high speed“. To pak není volná vazba, ale jen náhodná shoda, když na sebe ty dvě strany pasují. A funkčního celku lze dosáhnout jen s vysokými náklady na (ruční) testování a úpravy/kontroly kódu. Navíc pokud tam má komunikovat M:N stran a ty je ani předem neznáš², tak to ani pořádně otestovat nemůžeš.

Je to hloupý přístup, který stojí spoustu lidské práce – práce, kterou za nás mohly dělat stroje (generátory datového modelu, parserů, generátorů, validátory, konvertory…).

Dobrý meta-formát by podle mého měl podporovat schéma, verzování a rozšiřitelnost – a pak není problém, aby se formát nad ním postavený dynamicky rozvíjel, klidně i „at high speed“ a zároveň implementace budou spolehlivě fungovat – nebude se to chovat náhodně, ale předvídatelným a způsobem (ať už jde o pád/ohlášení chyby či třeba řízené ignorování neznámého atributu/struktury³ – typicky u nové verze schématu). Jmenné prostory pak řeší mj.⁴ to, aby se spolu omylem nespojily dvě strany, které implementují každá něco jiného, ale náhodou se tam nějaké atributy jmenují stejně.

Znovu říkám, to nutně neznamená, že ten CBOR musí být špatný formát a neměl by se používat – jen bych si ho před použitím důkladně prostudoval, protože tenhle odstavec nepůsobí zrovna kompetentně.

_{[1] dokonce i webaři na to už přišli – viz OpenAPI (Swagger), kde – zdá se – konečně po letech dohánějí XML, XSD, WSDL a píší strojově čitelnou specifikaci rozhraní, místo aby na web jen vyblili nějaké příklady a útržky komunikace (jak ale bývá mnohde zvykem dodnes) a čekali, že podle nich někdo dobře naimplementuje klienta nebo server; BTW: s tím OpenAPI se pracuje docela dobře – že to ale trvalo :-)

[2] kdokoli si může napsat implementaci, aniž by se tě ptal, a připojit se

[3] některé (meta)formáty k atributům umožňují připojit příznak, zda lze daný (pro druhou stranu neznámý) atribut ignorovat nebo ne

[4] dále pak třeba to, že když někde najdeš nějaký kus dat, tak z toho poznáš, co je to za formát a máš šanci se dopátrat jeho autora/specifikace}

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2017 09:37 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ideální datový formát

Absence schema je velmi užitečná v ranném stádiu vývoje. Umožňuje to rychle spíchnout prototyp (bez neustálého přepisován schema) a ověřit si, že to vůbec nějak funguje a jaká data jsou vlastně potřeba. JSON Schema je pak dobré napsat spolu s dokumentací a testy (nechat testy ať validují podle schema), než se to pustí do světa.

Hello world ! Segmentation fault (core dumped)

22.7.2017 10:18 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Ideální datový formát

Vidím to podobně, proto mi debata pod mým předposledním blogpostem přijde zcela nesmyslná.

23.7.2017 17:39 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Viz #41.

Pro dynamický vývoj a ladění API za chodu je schéma ještě důležitější než při implementaci pevně dané (neměnné) specifikace/standardu.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.7.2017 11:46 Martin Mareš
Rozbalit Rozbalit vše Re: Ideální datový formát

Přijde mi, že schémata jsou často přeceňována. Ohlídají pouze syntaxi zpráv, což je často ta jednodušší část problému, ve které se dělá málo chyb. Oproti tomu sémantika zpráv bývá složitější, formálně popsatelná mnohem hůře, a proto logicky častěji špatně. Takže spíš než schémata mi přijde důležité napsat ke každému protokolu kompletní specifikaci včetně sémantiky (typicky lidsky čitelnou, protože strojově čitelný použitelný popis sémantiky zatím neumíme) a sadu testů.

Verzování protokolu může fungovat, pokud má protokol lineární historii. Pokud je to protokol, do nějž si různé implementace mohou přidávat svá rozšíření, už s číslováním verzí neuspějete. Spíš se specifikací toho, z jakých subprotokolů se protokol skládá. Což se pěkně kombinuje s definicí namespaců. Včera o implementaci něčeho takového nad CBORem dopsal David Čepelík svou bakalářskou práci :) Brzy bude zveřejněna včetně docela hezké knihovny.

22.7.2017 21:29 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ideální datový formát

Na druhou stranu schema pomůže s takovýma těma otravnýma malýma chybama na kterých se propálí hromada času. Dále to pak je možné schema použít jako základ pro dokumentaci, takže ve výsledku bude dokumentace čitelná strojem i člověkem, něco jako ze zdrojáků generovaná dokumentace (jen trochu naopak).

Hello world ! Segmentation fault (core dumped)

23.7.2017 06:13 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Ideální datový formát

Na tom neco je. Trochu mi to pripomnelo muj soucasny pocit, ze co by se melo ve skutecnosti v programovani testovat spis nez kod (kod by se mel IMHO hlavne assertovat a automaticky odvozovat/dokazovat) jsou (vstupni) data a skryte predpoklady, ktere na ne kladl puvodni autor kodu. Ty totiz, zda se mi, casto abdukujeme na zaklade nejakych typickych prikladu. (Trochu me zajimala automaticka synteza kodu a rychle jsem zjistil, ze je to v podstate uloha na strojove uceni.)

Nekdo z Haskell komunity (ze Standard Chartered) tohle zminoval, ze casto pouzivaji QuickCheck na testovani ruznych API, s kterymi interaguji, a casto objevi mnoho skrytych predpokladu, ktere autori API "zapomneli" zdokumentovat.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

23.7.2017 10:17 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Ideální datový formát

Jestli tě chápu správně, tohle přesně dělá American Fuzzy Lop, ne?

SPD vůbec není proruská

24.7.2017 10:03 podlesh | skóre: 38 | Freiburg im Breisgau
Rozbalit Rozbalit vše Re: Ideální datový formát

Na tom neco je. Trochu mi to pripomnelo muj soucasny pocit, ze co by se melo ve skutecnosti v programovani testovat spis nez kod (kod by se mel IMHO hlavne assertovat a automaticky odvozovat/dokazovat) jsou (vstupni) data a skryte predpoklady, ktere na ne kladl puvodni autor kodu.

Ano, takhle se poznají dobré testy (a dobrá dokumentace, ale to je asi samozřejmé). A také je to jeden z hlavních znaků dobrých vývojářů.

23.7.2017 09:26 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Ideální datový formát

Jinak tu bakalarku bych si rad prohledl.. Nemas nejaky blog nebo neco podobneho, kde by ses dal sledovat? Moc lidi nesleduji ale zrovna tebe bych i jo.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

23.7.2017 18:16 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ideální datový formát

Má ho v profilu: http://mj.ucw.cz/

blog.rfox.eu | Lessons learned from games

23.7.2017 17:36 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Schéma, specifikace

Přijde mi, že schémata jsou často přeceňována. Ohlídají pouze syntaxi zpráv, což je často ta jednodušší část problému, ve které se dělá málo chyb.

Mám odlišnou zkušenost. Např. jsem pozoroval lidi, kteří seděli metr od sebe, jejich aplikace spolu měly komunikovat a oni se v tom patlali, dělalo jim problém si domluvit API. Resp. napoprvé si ho nějak domluvili, ale pak bylo největší neštěstí v tom dělat změny a synchronizovat se na obou stranách. Jak se nějaký atribut jmenuje, jaký má datový typ, na kterém místě ve struktuře se nachází, jestli je povinný…˙to byly každodenní problémy. O nějakém verzování API ani nemluvě.

Takhle to jde dělat leda, když máš pevně daný standard/specifikaci a už se to měnit nebude (nebo až za pár let). V takovém případě si to můžeš opsat z textové specifikace a uzavřít to. Ovšem i tam by ti existence strojově čitelného schématu práci ušetřila.

Ale pokud se rozhraní ladí za chodu a během vývoje se mění/rozšiřuje API, tak je strojově čitelné schéma k nezaplacení.

Oproti tomu sémantika zpráv bývá složitější, formálně popsatelná mnohem hůře, a proto logicky častěji špatně.

Přijde mi, jako kdybychom se bavili o nakupování a „odpůrce schématu“ pořád zdůrazňoval, že pro úspěšný nákup je důležité dobře vybrat zboží na regálu. Ano, to sice důležité je, ale předně musíš vlézt do správného obchodu a najít ten správný regál. Schéma (strojově čitelná specifikace) je něco jako teleport, který tě dopraví do správného obchodu ke správnému regálu – a ty si tam už jen uděláš, co potřebuješ. Dobré schéma kromě toho teleportování vedle tebe ještě postaví počítač nebo knihovnu, ve které najdeš vše potřebné k výběru zboží.

Jistě, mohl bys postupně obcházet všechny obchody a v nich regály jeden po druhém. Nebo by ses mohl zeptat někoho na ulici. Nebo bys mohl mít ručně nakreslenou mapu… Ale proč bys to proboha dělal, když se můžeš teleportovat? Proč bys měl trávit čas něčím, co za tebe dokáže vyřešit stroj, a ještě riskovat, že v tom uděláš chybu? Proč muset vždy hledat popis atributu ručně v textové specifikaci, když to může být třeba komentář ve třídě vygenerované ze schématu?

Absence schématu je k ničemu a rozhodně nepodporuje volnou vazbu. (že se něco v prvním kroku podaří načíst a nespadne to hned, ale až o krok později – to opravdu nelze považovat za volnou vazbu)

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.7.2017 20:21 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Schéma, specifikace

Záleží na tom, jak je ten protokol postaven a kolik na tom dělá lidí. Pokud jeden člověk dává dohromady prototyp, tak mu schema spíš překáží. Když mu ale prototyp začne fungovat, měl by schema doplnit spolu s dokumentací, aby v tom jeho uživatelé (ostatní programátoři) neměli guláš.

Pokud se dva vývojáři nemohou dohodnout, tak by se jednomu z nich měl dát protokol na starost celý a druhý by mu jen říkal, co mu ještě kde chybí, ale bylo by na tom prvním, jak přesně by to implementoval.

Hello world ! Segmentation fault (core dumped)

24.7.2017 10:08 podlesh | skóre: 38 | Freiburg im Breisgau
Rozbalit Rozbalit vše Re: Schéma, specifikace

Pokud se dva vývojáři nemohou dohodnout, tak by se jednomu z nich měl dát protokol na starost celý a druhý by mu jen říkal, co mu ještě kde chybí, ale bylo by na tom prvním, jak přesně by to implementoval.

Raději někomu úplně jinému. Jinak to pravděpodobně dopadne tak, že vznikne "API" kde se obě strany spoléhají na naprosto nezdokumentované chování té druhé strany. Pokud se někdo pokusí vytvořit alternativní implementaci jedné z nich, rychle zjistí že je to prakticky nemožné.

Samozřejmě, je možné že v tom uvedeném příkladě (dva vývojáři se nedokáží zasynchronizovat) je vina zcela na straně jednoho z nich a ten druhý vy to zvládl pěkně.

24.7.2017 22:49 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Schéma, specifikace

Kdyby to celé vyvíjel jeden člověk, tak si spíš zapamatuje, co kam přidal a že to má udělat odpovídající změnu i na druhé straně (i když i ten jeden člověk může udělat chybu a neuhlídat všechno). Ale pokud má spolupracovat víc lidí, tak je schéma dobrý způsob, jak se předat tu informaci.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.7.2017 06:18 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Ideální datový formát

A že jsi to tehdy Dumblobovi nenapsal, měl by radost.

Napsali mu to jini, tak proc se opakovat? :-)

Znovu říkám, to nutně neznamená, že ten CBOR musí být špatný formát a neměl by se používat – jen bych si ho před použitím důkladně prostudoval, protože tenhle odstavec nepůsobí zrovna kompetentně.

Tak si ho prostuduj. :-)

Ja myslim, ze hlavni myslenka je, ze CBOR muzes parsovat i bez znalosti schematu, nebo jenom s castecnou znalosti. Muzes treba ignorovat tagy.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

23.7.2017 16:32 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Napsali mu to jini, tak proc se opakovat?

Nevšiml jsem si. Naopak mu většina lidí psala, jakou to vymyslel blbost a jaké má ten formát vady.

Ja myslim, ze hlavni myslenka je, ze CBOR muzes parsovat i bez znalosti schematu, nebo jenom s castecnou znalosti. Muzes treba ignorovat tagy.

Jestli je to hlavní myšlenka, tak mi to přijde trochu málo.

Ono ty formáty bychom mohli rozdělit na tři skupiny, ne dvě:

nepodporují schéma (např. CBOR)
podporují schéma, ale i bez něj lze data přečíst a sestavit z nich nějaký strom (např. XML nebo DER, BER, CER kódování ASN.1)
podporují schéma a bez jeho znalosti ani nic nepřečtu, protože např. nevím, jakých datových typů jednotlivé atributy jsou a tudíž nevím, kolik bajtů ještě patří tomuto atributu a kde už začíná další (např. PER kódování ASN.1)

Podpora schématu tedy sama o sobě neznamená žádnou nevýhodu – i bez jeho znalosti si většinou můžeš dekódovat zprávu.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.7.2017 20:36 dumblob | skóre: 10 | blog: dumblog
Rozbalit Rozbalit vše Re: Ideální datový formát

Takže bys místo nich radši používal nový formát uSX 1.0? A že jsi to tehdy Dumblobovi nenapsal, měl by radost.

Nu, to by byla hodně povrchní radost (pořádnou radost bych měl, kdyby mnozí diskutující lépe četli a přemýšleli a hlavně i něco dělali, aby nezůstalo pouze u planých slov).

Na tu diskuzi se již přes tři měsíce těším - naneštěstí jsem od chvíle zveřejnění toho blogu prakticky bez internetu (a když na internetu, tak cca 16 Kbit/s, takže většina spojení vytimeoutuje před stažením nějaké smysluplné části dat). Ale žádný strach, mám to v TODO a do konce roku nejpozději se k té diskuzi dostanu.

Dobrý meta-formát by podle mého měl podporovat schéma, verzování a rozšiřitelnost ...

No vida, tak to si konečně budeme rozumět. Přesně tohle podporuje do posledního puntíku uSX 1.0 již od prvního veřejného draftu. Chce se mi znovu postesknout, že diskutující nečtou a málo přemýšlí a nic moc nedělají (např. zkusit diskutovaný formát implementovat v rozličných prostředích a tím nejprve alespoň částečně ověřit různé šílené teorie jak je něco nepoužitelné apod. - on svět nebývá tak černobílý :-)

23.7.2017 23:15 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Ideální datový formát

pořádnou radost bych měl, kdyby mnozí diskutující lépe četli a přemýšleli a hlavně i něco dělali, aby nezůstalo pouze u planých slov

Tady jsi na abclinuxu. Šance, že z téhle diskuse pojde nějaký kód nebo praktický výsledek, je asi tak 0.1%...

SPD vůbec není proruská

24.7.2017 10:42 snajpa | skóre: 20 | blog: snajpuv_blocek | Brno
Rozbalit Rozbalit vše Re: Ideální datový formát

hlavně i něco dělali, aby nezůstalo pouze u planých slov

O co min ochotni tu lide jsou neco udelat, o to vic budou ty svoje "nazory" branit. A tak budou vymyslet racionalizacni konstrukce hajici jejich nazor a proc jsou vsichni ostatni strasne tupi idioti. Zajimavy fenomen, pro vetsinu je proste jednodussi vylozit mnohem vic mentalni energie na kecani okolo, vymlouvani se, overengineering a obecne vsechny mozne cinnosti, ktere se daji delat do nekonecna bez toho, aby bylo sahnuto na realnou vec.

Pritom staci jit a udelat, coz je prave to, co urcuje smer a krok. Dalsi se budto chytnou, nebo jdou svym smerem, ale wastovat cas s chytrolinama, od kterych pak clovek vidi sotva jeden commit... skoda si ubirat motivaci. V diskuzi mne vetsinou zajimaji nazory dalsich 'stakeholders', tj. lidi, co na te diskuzi maji realny zajem, jsou v projektu nejak zapojeni a aktivni. Komentare nahodnych kolemjdoucich a obecne tluchubu discarduju vetsinou do kanalu.

--- vpsFree.cz --- Virtuální servery svobodně

24.7.2017 23:02 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Kódu už byly napsány miliardy řádků. A spousta z toho je odpad, šum nebo duplicita…

Analýza a návrh jsou nedílnou součástí vývoje softwaru a pokud se podcení, tak z toho nic dobrého nevzejde. Proto nemám úplně rád, když někdo hned sedne a začne kódovat. Opačný extrém: navrhnout něco jen tak od stolu taky není ideální a všechno se předvídat nedá – proto se dělá iterativní vývoj a zadání/návrh se dolaďuje průběžně. Nicméně nějakou hrubou představu a požadavky by měl mít člověk předem. Jinak má smysl si zkoušet leda nějaké dílčí prototypy, ale těžko můžeš začít vyvíjet.

Co se týče Ábíčka a asi i obecně diskusí – čím odbornější téma a čím větší úsilí je potřeba vynaložit, tím menší zpětnou vazbu dostaneš. Když sem hodím odkaz na nějaký zdroják, tak si ho stáhne jen zlomek lidí a jen zlomek z toho zlomku k tomu napíše něco přínosného (většinou nikdo – v poradnách to bývá lepší, ale tam bývá zdroják jen na pár řádků a je hned v příspěvku). Oproti tomu v nějaké lehčí diskusi (kde diskutující nemusí stahovat a studovat zdrojový kód) je šance, že se tam objeví aspoň nějaké nápady nebo požadavky, které má smysl vzít do úvahy.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

25.7.2017 18:25 snajpa | skóre: 20 | blog: snajpuv_blocek | Brno
Rozbalit Rozbalit vše Re: Ideální datový formát

Kódu už byly napsány miliardy řádků. A spousta z toho je odpad, šum nebo duplicita…

Na to mam protiargument prikladem, ktery mne v posledni dobe hodne netesi - kde je Slack, vs. kde je XMPP... Slacku sice vzdoruju, ale pres XMPP s nikym uz taky moc slov nevymenim ("downgradoval" jsem na IRC).

čím odbornější téma a čím větší úsilí je potřeba vynaložit, tím menší zpětnou vazbu dostaneš

To sice jo, ale tu jsme na Abicku, cekal bych z prvni ze tu to odborny publikum bude. Otazka je, kolik z nich jeste zustalo v takovem tom "furt cumim do monitoru", vs. kolik z nas uz to nekde dela za penice a potom chce mit pokoj a pri cteni Abicka si o tom maximalne potrolit.

--- vpsFree.cz --- Virtuální servery svobodně

25.7.2017 18:26 snajpa | skóre: 20 | blog: snajpuv_blocek | Brno
Rozbalit Rozbalit vše Re: Ideální datový formát

*penize

--- vpsFree.cz --- Virtuální servery svobodně

25.7.2017 19:26 Bystroushaak | skóre: 36 | blog: Bystroushaakův blog | Praha
Rozbalit Rozbalit vše Re: Ideální datový formát

Slacku sice vzdoruju, ale pres XMPP s nikym uz taky moc slov nevymenim ("downgradoval" jsem na IRC).

+1, to samé.

blog.rfox.eu | Lessons learned from games

25.7.2017 21:26 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Na to mam protiargument prikladem, ktery mne v posledni dobe hodne netesi - kde je Slack, vs. kde je XMPP... Slacku sice vzdoruju, ale pres XMPP s nikym uz taky moc slov nevymenim ("downgradoval" jsem na IRC).

Asi úplně nechápu, jak tohle souvisí. Chtěl jsem tím říct, že kódu je spousta, není vzácný, sám o sobě nemá valnou hodnotu. Osobně vnímám velký objem kódu spíš jako potenciální průšvih než něco, na co bych měl být hrdý, protože vím, kolik stojí jeho údržba.

Co se týče toho IM, tak já jsem to omezil obecně, protože mne to rozptylovalo od práce – nezměnil jsem technologii, primární/jediná volba je pro mne pořád XMPP a SIP, jen tam nejsem pořád, spíš jen na vyžádání.

To sice jo, ale tu jsme na Abicku, cekal bych z prvni ze tu to odborny publikum bude.

Tak je to pořád o několik řádů lepší než jinde na českém webu, to je pravda. Nicméně už jsem sem víckrát dával odkaz na nějaký zdroják a lidi to moc nečtou nebo si aspoň nenajdou čas na to, něco konstruktivního napsat, to je spíš výjimka.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

idelani format existuje a zminil ho uz pred 40 lety Dennis Ritchie. Mike Gancarz to pak upresnil s tim, ze vse je text. Jsou to proste telegramy, kde partneri vedi, co se na kterem miste datoveho proudu nachazi. Splnuje to veskera kriteria (lidsky citelny, nezavisly na architekture, sestaveni a parsovani je primitivni, apod.).

23.7.2017 15:36 smazáno | skóre: 18 | blog: smazáno
Rozbalit Rozbalit vše Re: Ideální datový formát

dokud v tom textu neni mezera :P

23.7.2017 16:41 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

To je sice hezké, že „vše je text“ – ale ten text má většinou nějakou vnitřní strukturu – a to je právě ten formát!

kde partneri vedi, co se na kterem miste datoveho proudu nachazi

Pokud např. nevíš, že ten text máš rozsekat na jednotlivé řádky (\n nebo \r\n, na to se ještě dá přijít) a ty řádky na jednotlivé sloupce podle třeba středníků (i na to by se dalo přijít), tak ta data stejně nedekóduješ, protože neznáš formát – nevíš na kterém místě datového proudu se nachází který atribut (např. ve čtvrtém sloupečku). K tomu si připočti, že musíš mít nějak definované escapování speciálních znaků – např. co když nějaká hodnota bude obsahovat středník, který se používá jako oddělovač?

Příkazy jako grep, cut, sed dobře slouží pro ad-hoc práci, kde má člověk věci pod dohledem a ručně si zkontroluje výsledek – nebo když pracuješ s velmi jednoduchými daty, kde nemusíš řešit třeba to escapování nebo víceřádkové hodnoty. Ale pokud to má běžet bez dozoru a má to být 100% spolehlivé, tak to většinou chce jiný formát a jiné nástroje.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.7.2017 22:32 Kalašnikov
Rozbalit Rozbalit vše Re: Ideální datový formát

Vždyť tam uvádí, že je potřeba znát co se na kterem miste datoveho proudu nachazi, to je ten tvůj formát! Třeba konstatní šířka sloupce. Pro oddělovače si pak lze vymyslet nějaká atypická slova jako < tagmag>. Krom toho znak \0 se často používá jako oddělovač místo \n a seznam tak může obsahovat i víceřádkové texty. Nějaké to zabezpečení je pak další věc.

23.7.2017 23:32 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

\0 některé věci řeší (byť tedy nemůžeš uvnitř hodnoty míst \0), ale problém je v tom, že tím nepředáš žádnou složitější strukturu – maximálně seznam/pole. Ještě se dá udělat tabulka – jako první hodnotu dáš počet sloupců a pak sázíš jednotlivé sloupce postupně ze všech řádků. Ale to už si nad tím stavíš svůj vlastní formát.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

24.7.2017 08:51 Kalašnikov
Rozbalit Rozbalit vše Re: Ideální datový formát

problém je v tom, že tím nepředáš žádnou složitější strukturu

Pokud už bych to potřeboval, pak samozřejmě použiji vhodný formát nebo jazyk a nebudu vymýšlet nic na bázi CSV.

maximálně seznam/pole

Proč? Slovník je také v pohodě a jednoduché objekty - dejme tomu max hloubky 3 - také. Jen stačí použít jako separátory slova, která budou obsahovat odkaz na předka, případně dát druhé straně vědět, podle jakého klíče byl strom procházen.

24.7.2017 23:05 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Pravda, slovník/mapa se tím dá napsat taky. Ale stejně jako ta tabulka (matice) je to už nějaký formát postavený nad tím, který má svoji specifickou syntaxi spočívající v tom, jak jednotlivé tokeny skládáš dohromady. Stejně tak bys tam mohl dát třeba JSON nebo XML – když je rozsekáš podle mezer, tak z toho máš zase jen posloupnost textových tokenů a můžeš je předat jako parametry na příkazové řádce.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

24.7.2017 09:29 Kalašnikov
Rozbalit Rozbalit vše Re: Ideální datový formát

Jinak mam pocit, že nehledáte ideální datový formát, ale univerzální. O tom ale to vlákno není.

24.7.2017 13:35 JS1 | skóre: 2 | blog: intuition_pump
Rozbalit Rozbalit vše Re: Ideální datový formát

Ono tech ridicich znaku existuje vic. Specificky, jsou tam i oddelovace poli, zaznamu, atd.

Akorat holt dnesni uzus veli nepouzivat je.

Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!

24.7.2017 22:35 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

O tom vím, ale neviděl jsem je nikde používat a když na ně přijde řeč, tak se na ně lidi tváří dost negativně.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

25.7.2017 09:41 podlesh | skóre: 38 | Freiburg im Breisgau
Rozbalit Rozbalit vše Re: Ideální datový formát

Protože v mnoha (především grafických) prostředích se nezobrazují a zmizí při použití copy&paste

26.7.2017 07:33 RM
Rozbalit Rozbalit vše Re: Ideální datový formát

A co je špatného na takovém formátu (konfiguráku) a následné serializaci?:

% nějaký komentář
$var = TEST;
@TEST = (OBJNAME BUDDY);

#TESTHASH = ([OBJNAME]="first simple object" [BUDDY]="more realistic object")

.OBJNAME:
	name = something
	translate:
		1  = first
		2  = second
	something = xxx

Mám tedy k dispozici skalár/pole/hash/ a objekt s podobnou syntaxí jakou používá Bash (což byl záměr). Jako oddělovače se používají znaky \n případně ; (pokud nechci použít jako oddělovač prázdný řádek). Pro odsazení v objektech se používá \t. Takový formát snadno převedu na CSV s oddělovačem \0 takto:

sed '/^[ \t]*%/d ; /^\t/{:a;s/\t/\n/;ta} ; s/;[ \t]*\([$@#.]\)/\n\1/g ; s/;[ \t]*$/\n/' | tr '\n' '\0'  file.txt

K obnově a konverzi do potřebného formátu mi stačí program AWK přibližně o čtyřiceti řádcích kódu, který strean převede sestaví tak, aby byl použitelný třeba pro inklůdnutí do skriptu bashe nebo perlu.

26.7.2017 07:37 RM
Rozbalit Rozbalit vše Re: Ideální datový formát

Já jen, že stačí i ten jeden znak \0, pokud se na to někdo netváří ;).

27.7.2017 08:54 Kalašnikov
Rozbalit Rozbalit vše Re: Ideální datový formát

Tak to by mne tedy také zajímalo, jak nám to autor vysvětlí. Je tedy možné i pomocí jediného \0 přenášet objekty libovolné hloubky a z takového formátu pak objekt (strom) znovu sestavit. Krom toho by mne zajímalo, co je v tomto případě ten formát, když, podle autora, je formát až něco nad tím, pokud jsem ho správně pochopil.

27.7.2017 21:06 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

\0 ti umožní spolehlivě oddělit prvky seznamu¹ – ale pořád je to jen seznam. Pokud chceš místo seznamu mapu, tabulku, strom, nějakou složitější strukturu atd. tak si musíš definovat svůj vlastní jazyk a někde ho popsat. Např. pokud je první prvek T, tak jde o tabulku, druhý prvek určuje počet prvků a následující prvky jsou jednotlivé hodnoty tabulky v pořadí od prvního sloupce prvního řádku po poslední sloupec posledního řádku.

Bez této definice jazyka/formátu nemáš nic víc než pouhý seznam prvků. A i to, že \0 odděluje prvky seznamu, musíš někde popsat.

_{[1] pokud tedy samy neobsahují \0, ale to je celkem málo časté}

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

23.7.2017 23:19 Kalašnikov
Rozbalit Rozbalit vše Re: Ideální datový formát

Příkazy jako grep, cut, sed dobře slouží pro ad-hoc práci...

Tak nepoužiju grep, cut, sed, které se pro to nehodí ale použiji gawk, který umí jako oddělovač třeba i ten <tagmag>. Otázka je, jestli by zrovna gnu utility někdo chtěl používat pro programování parseru nějaké důležité aplikace. Já bych to třeba dělal určitě v něčem jiném.

Zalezi, na co to chces. Mel jsem zakaznika, kterej chtel naprogramovat sitove transparentni message exchange s routovanim pro neSSI cluster a ocekavali ~5000000zprav/s. V tom pripade vzdycky skoncis u pouzivani Cckovejch struktur, protoze vic nez konverzi mezi endianama nestihnes a to se jeste budes koukat, jestli nahodou komunikace nebezi mezi dvema little endian systemy, aby sis to urychlil.

Pokud chces nejakou praci offloadovat na HW, tak se v dobrym pripade muzes spolehnout na to, ze HW bude koukat na prvnich 64bytu, takze urcite nechces, aby na zacatku zpravy byla nejaka xml sracka, ktera je ve vsech zpravach stejna.

24.7.2017 16:38 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ideální datový formát

Pak tu jsou nástroje jako například Protocol Buffers.

Hello world ! Segmentation fault (core dumped)

24.7.2017 21:02 fi
Rozbalit Rozbalit vše Re: Ideální datový formát

Na protobuf jsem koukal, ale v te dobe (krome toho, ze nebyl kompilator pro C), nebylo mozne snadno pracovat s hlavickou s daty na fixnich pozicich, takze hlavicku by musel cist SW. CPU se sitovym akceleratorem umoznuji optimalizovat doruceni a misto prijmani zpravy do RAM, muzete zpravu cist rovnou do cache jadra, kde bezi thread prijemce. Jak presne se todle v HW configuruje zalezi na vyrobci, ale vetsinou je to nejaka kombinace masek a lookup tabulka, cimz protobuf nematchnete. U protocolbuffers se IMO predpoklada, ze je clovek pouzije uvnitr UDP/TCP a pod to jeste IP, coz ma zbytecne overhead, pokud pouzivate sbernici, ktera todle umi sama, treba RIO nebo IB.

24.7.2017 21:36 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Ideální datový formát

treba RIO nebo IB

Neznám ani jedno z toho, ale zní to zajímavě. Byl by odkaz?

Jinak to, co popisuješ, zní opravdu specializovaně, na to opravdu asi běžně rozšířené formáty nepůjdou. Krom protobuffers vím ještě o Cap'n Proto, kde se bijí v prsa, že jsou bez overheadu, ale neznám to natolik, abych mohl říct, jestli by to šlo použít pro tvůj usecase...

SPD vůbec není proruská

24.7.2017 22:21 fi
Rozbalit Rozbalit vše Re: Ideální datový formát

RapidIO a InfiniBand. Na rozdil od ethernetu zarucuji doruceni zpravy (a nebo oznameni chyby) a poradi doruceni, takze je zbytecne nad tim jeste pouzivat TCP/IP.

Vetsina dokumentace k chipum neni volne k dispozici, vyjimkou jsou veci od texas instruments, kde najdete dokumentaci na jejich webu, ale co vim, tak TI dela s RIO jen DSPcka (sitovej stack mizernej, ale porad lepsi, nez co si Intel koupil z Indie), ale maji podporu ve vanilla jadre.

Hezke CPU pro sitovani ma Cavium a Spark S7 ma mit IB v chipu, ale s novejma Sparkama jsem jeste nedelal.

24.7.2017 23:48 kralyk z abclinuxu | skóre: 29 | blog:
Rozbalit Rozbalit vše Re: Ideální datový formát

Aha, jasý, nedošlo mi, že IB se myslí InfiniBand. Ale RapidIO jsem neznal, díky.

Mám shodou okolností přístup na jeden S7 server, ale InfiniBand nemá a beztak nemám možnost si tam moc hrát se sítí...

SPD vůbec není proruská

24.7.2017 22:47 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

~5000000zprav/s

Pěkné číslo :-)

Co se s těmi zprávami dělá? Rozparsování je jen první krok (a většinou poměrně nenáročný oproti tomu, co přijde potom). Pak je nějaké rozhodování/směrování na základě atributů v té zprávě?

K tomu by stačilo, aby ten meta-formát umožnil napsat schéma tak, že atributy budou mít fixní délky, budou začínat na pevně daných pozicích. A dovedu si představit i to, že by šlo napsat schéma tak, aby zprávu šlo napasovat na céčkovou strukturu (pokud je tedy napsaná jako portabilní, jinak bys musel mít na každé platformě jiné struktury, na které to budeš mapovat).

IMHO by to šlo a je to zajímavý příklad. Nicméně trochu extrémní – tohle je možná případ užití, který je při návrhu formátu pro široké použití lepší raději škrtnout, pokud by to mělo nějaké výrazné nevýhody v obvyklejších případech užití.

aby na zacatku zpravy byla nejaka xml sracka, ktera je ve vsech zpravach stejna

Ne tady opravdu není řeč o XML, ale o nějakém hypotetickém a (zřejmě) binárním formátu. Maximálně by to mohla být binární serializace XML, ale to není věc, kterou bych měl primárně na mysli v tomhle zápisku.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

24.7.2017 23:46 fi
Rozbalit Rozbalit vše Re: Ideální datový formát

~5000000zprav/s

Pěkné číslo :-)

Co se s těmi zprávami dělá? Rozparsování je jen první krok (a většinou poměrně nenáročný oproti tomu, co přijde potom). Pak je nějaké rozhodování/směrování na základě atributů v té zprávě?

Dela se tim vpodstate vsechno, IPC pro aplikace, semafory, casovace, logovani, konfigurace, externi komunikace... Diky tomu se aplikace mohou vicemene volne presouvat mezi uzly klastru, takze aplikace, co napriklad posila ven logy syslog protokolem, nemusi bezet na uzlu, kde je ethernet (a vedet na jake IP posilat).

K tomu by stačilo, aby ten meta-formát umožnil napsat schéma tak, že atributy budou mít fixní délky, budou začínat na pevně daných pozicích. A dovedu si představit i to, že by šlo napsat schéma tak, aby zprávu šlo napasovat na céčkovou strukturu (pokud je tedy napsaná jako portabilní, jinak bys musel mít na každé platformě jiné struktury, na které to budeš mapovat).

jj, presne tak. Jeste pak je limitnim faktorem delka hlavicky, protoze kdyz mi prijde zprava a chci ji preposlat pres UDP na ethernetu a dokazu to poznat podle prvnich X bytu (zavisi na CPU), tak muze stacit prehazet par pointeru a zbytek udela HW, takze zpracovani jedne zpravy je jen par desitek instrukci.

IMHO by to šlo a je to zajímavý příklad. Nicméně trochu extrémní – tohle je možná případ užití, který je při návrhu formátu pro široké použití lepší raději škrtnout, pokud by to mělo nějaké výrazné nevýhody v obvyklejších případech užití.

V kazdem formatu je dobre zjistit co nejdrive, co se s danou zpravou bude delat. Kdybych chtel genericky userspace format, tak na zacatek zpravy dam hash schematu (coz mi prijde lepsi nez pochybna kombinace ID/verze, nemusi byt ani moc dlouhy, protoze se stejne musi vse overovat) a strukturu udelam tak, abych pri cteni nemusel parsovat vsechno - aby offset jednotlivejch polozek sel snadno spocitat. Rovnou by to pak i mohlo generovat BPF filtry aby si uzivatel mohl sam rozhodnout, jak si rozdeli praci mezi vlakna a nemusel na to mit dispatcher.

aby na zacatku zpravy byla nejaka xml sracka, ktera je ve vsech zpravach stejna

Ne tady opravdu není řeč o XML, ale o nějakém hypotetickém a (zřejmě) binárním formátu. Maximálně by to mohla být binární serializace XML, ale to není věc, kterou bych měl primárně na mysli v tomhle zápisku.

To byl spis obecnej povzdech nad tim, ze spousta formatu cpe uzitecny informace moc daleko od zacatku ;-)

25.7.2017 00:29 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Ideální datový formát

Co je konkrétně moc dlouhá hlavička? Abych měl představu.

Např. Private Enterprise Number (přiděluje IANA) jsou čtyři bajty. K tomu stačí přidat třeba čtyři bajty pro označení typu zprávy/protokolu v rámci dané organizace + nějaké magické číslo nebo oddělovač a jsme cca na 10 bajtech a máme globálně jedinečnou identifikaci protokolu/zprávy, jmenný prostor. Je to moc nebo ne?

Pokud by se ten jmenný prostor odvozoval od doménového jména textově, tak to bude trochu víc, ale u krátkých jmen to nebude o moc horší.

Další věc je, že by šlo v rámci jedné komunikace poslat tyhle věci jen jednou a pak už se jen odkazovat na nějaké ID relace. I když pak zpráva sama o sobě neobsahuje vše potřebné a druhá strana si musí pamatovat stav.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes