Klient–server sycnhronizace – konečné řešení (diskuse)

Jak to tak čtu, tak mám pocit že jsi vyrobil verzovací systém :) Pokud bys nepotřeboval nějaký rychlý přístup, nebo tak něco, tak klidně můžeš použít třeba git a data reprezentovat jako soubory.

21.1.2014 10:46 backinabag | blog: backinabag
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Jediny problem je ze nad gitem se blbe delaji dotazy ;)

21.1.2014 11:14 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Musel bys vymyslet nějakou databázi, která ukládá data i indexy nějakým způsobem přátelským k verzovacímu systému. Je otázka, jestli dá méně práce napsat databázi nebo verzovací systém – IMHO bude snazší udělat to verzování nad nějakým existujícím DBMS.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

22.1.2014 02:56 Kvakor
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Jenže data a indexy přátelské verzovacímu systému by nejspíš nebyly moc přátelské databázi, třeba u MySQL existuje CSV storage engine, ale neumí indexy, transakce a NULL sloupce (tj. všechno musí být NUT NULL) a je dost pomalý. Ale třeba MariaDB umí typ tabulek CONNECT, kde jsou podobpované různé "obyčejné" soubory jako třeba CSV, XML, INI a textové soubory s pevným formátem, dokonce nad některýmy funguje i indexace (tedy podle dokumentace, osobně s novými vlastnosmi MariaDB žádné skušenosti nemám).

Jako alternativa mně napadá místo verzování použít prostou replikaci (server by hyl master, klient slave) a nechat synchronizaci čistě na databázi. Jediná nevýhoda by bylo nutnost na straně aplikace zajistit, že dva klienti nikdy nebudou mít stejný primární index, aby si během synchronizace nepřepisovaly data navzájem.

Zdravím, přesně tenhle problém teď řešíme taky, resp. tedy doufám, že už jsme ho konceptuálně vyřešili. Šli jsme na to podobným způsobem, jako píšeš, tedy přes verzování entit. A jak píše kolega, skutečně se to čím dál více podobá verzovacímu systému.

Plánuješ použít relační databázi nebo něco exotičtějšího?

My používáme relační (Oracle na serveru + SQLite na Androidu) a příznak změny ukládáme přímo do tabulek, nemáme tedy frontu požadavků. Jaké problémy jsi myslel, že to může přinést?

Kdyby někdo znal nějakou knihovnu / framework pro synchronizaci, určitě by to stálo za úvahu. Inspiraci jsem hledal třeba v CouchDB (či Couchbase, kdo se v tom má vyznat :D), ta má i mobilní verzi pro Androidy a iOS. Kdyby jen existoval nějaký adaptér pro relační db na serveru...

Jsem zvědavý, jak se k tomu postavíte vy, dej vědět.

21.1.2014 11:56 backinabag | blog: backinabag
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Zdravim, bud relacni nebo kombinaci relacni a schema-less – v jednom sloupci bude JSON (stejne jako v schema-less databazich) a v dalsich muzou byt pripadne indexovane pole. Tenhle pristup se mi celkem libi, ma to vyhody obojiho a mam nad tim 100% kontrolu, inspiroval jsem se tady.

CouchDB jsem zkousel, ale v te dobe (pred asi pul rokem, od te doby nevim) nebyla Android verze uplne pouzitelna. Taky mi to prislo oproti relacnim v par smerech omezujici, spatne se tam delaji transakce a psat dotazy je slozitejsi.

Chtel jsem pouzit jejich synchronizacni algoritmus, ale ten funguje jenom na jednodussi databaze, neporadi si s transakcemi a relacemi. (Coz naznacuje, jak je problem obousmerne synchronizace relacni databaze slozity, protoze ten couchdb algoritmus, ktery neumi transakce ani relace neni uplne trivialni.)

Ukladani primo do tabulek se asi da pouzit pro nejake konkretni problemy, ale ne obecne (resp. ne jednoduse). Je potreba nejak ohlidat vztahy mezi entitami, napriklad pridam bod na mape do nejake kategorie, ale mezitim nekdo tu kategorii smazal. Dalsi problem jsou zmeny v databazi ve forme diffu – napriklad "upvote this comment", "reorder this todo-list", "increase score of this user by 100".

21.1.2014 14:52 RRR
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Vztahy vyřešit jdou, ale máš pravdu, že s diffy, jak je popisuješ, potřebuji i frontu.

Je ale potřeba si ujasnit, jestli má vůbec jít modifikovat neaktuální entitu. Pokud je má uložená entita aktuální, pak je jedno, jestli ukládám původní stav + diff nebo konečný stav.

Určitě záleží na konkrétním případu: upvote by asi projít měl (ale jak už tu zaznělo, není to spíš přidání nové položky?), ale zvýšení skóre už je z mého pohledu sporné a změna pořadí v todo (diff si představuji jako "vyměn první a třetí") nedává smysl vůbec - kdyby se potkalo víc takových diffů, vznikl by solidní guláš.

24.1.2014 16:59 backinabag | blog: backinabag
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Určitě záleží na konkrétním případu: upvote by asi projít měl (ale jak už tu zaznělo, není to spíš přidání nové položky?)

Zalezi na konkretni situaci, nekdy muze mit smysl si ukladat soucet, aby slo napriklad rychle seradit clanky podle poctu upvotu.

Uvažoval jsem i o variantě, že místo do fronty se změny ukládají jako nové řádky přímo do databáze, kde se jenom nějak označí. S tím je ale spojeno spousta různých problémů, pokud to vůbec nějak řešit jde, tak určitě ne jednoduše.

Mně to naopak přijde vhodnější, než do toho zatahovat JSON (resp. obecně nějaké denormalizované struktury uvnitř záznamů databáze). Při dotazování tě nezajímá, jestli jsou data ještě ve frontě nebo ne – prostě uděláš dotaz nad celou množinou. A při synchronizaci tě to zajímá, tak si vyfiltruješ záznamy podle toho příznaku a synchronizuješ je se serverem (odebereš příznak a naopak přidáš číslo verze ze serveru).

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

21.1.2014 12:02 backinabag | blog: backinabag
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Nekdy se to ale muze zkomplikovat, viz: http://www.abclinuxu.cz/blog/backinabag/2014/1/klientserver-sycnhronizace-konecne-reseni#6.

21.1.2014 12:53 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Ty konflikty musíš řešit tak jako tak – např. u UPDATů si potřebuješ pamatovat verzi, kterou jsi aktualizoval, abys nepřepsal cizí změny (např. jsi chtěl zvýšit hodnotu o 100, ale na serveru ji mezi tím někdo zvýšil o 200 a ty bys ji tak vlastně snížil, kdyby sis neohlídal verzi záznamu). INSERTy jsou jednodušší.

Co se týče cizích klíčů[tou relací myslíš relationship ne relation? Protože relace v relační DB je tabulka, ne vztah mezi záznamy 1:n, m:n, je jasné, že v nerelačních databázích nebudou relace :-)

] tak ty se dají kontrolovat až při dokončení transakce, nebo je prostě můžeš provádět ve stejném pořadí jako na klientovi[tam bys měl mít stejná integritní omezení, takže i tam budeš muset vytvořit nejdřív odkazovaný záznam a pak teprve odkazující].

Ukládat stejná data dvěma nekompatibilními způsoby (jednou v normálních tabulkách a jednou v nějakých jiných strukturách) jen kvůli tomu, že některé jsou synchronizované a jiné ještě ne, mi přijde jako zbytečný opruz – hlavně kvůli tomu vyhledávání a slučování výsledků.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

21.1.2014 13:19 backinabag | blog: backinabag
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Ty konflikty musíš řešit tak jako tak – např. u UPDATů si potřebuješ pamatovat verzi, kterou jsi aktualizoval, abys nepřepsal cizí změny (např. jsi chtěl zvýšit hodnotu o 100, ale na serveru ji mezi tím někdo zvýšil o 200 a ty bys ji tak vlastně snížil, kdyby sis neohlídal verzi záznamu). INSERTy jsou jednodušší.

Tady by to prave nebyl klasicky UPDATE, ale obecne jakakoliv zmena databaze – operace, ktera dostane na vstup databazi a na vystup da novou verzi databaze. Takze napriklad operace "upvote" by znamenala "vem pocet upvotu a pridej 1". (Samozrejme se da namitnout ze je lepsi si ukladat kazdy upvote jako novy radek, ale muze mit smysl si nekde navic ukladat jejich soucet pro rychlejsi dotazy.)

Co se týče cizích klíčů[tou relací myslíš relationship ne relation? Protože relace v relační DB je tabulka, ne vztah mezi záznamy 1:n, m:n, je jasné, že v nerelačních databázích nebudou relace ] tak ty se dají kontrolovat až při dokončení transakce, nebo je prostě můžeš provádět ve stejném pořadí jako na klientovi[tam bys měl mít stejná integritní omezení, takže i tam budeš muset vytvořit nejdřív odkazovaný záznam a pak teprve odkazující].

Mas pravdu, myslel jsem relationship :) Mozna by to nejak takhle resit slo, ale musely by se opatrne nastavit pravidla, jako ze pri smazani rodice se kaskadovite smazou deti atd. Ale taky by byly potreba transakce, coz znamena dalsi zesloziteni. Napriklad kdyz klient udela tri transakce a ta druha na serveru selze, klient by asi mel tu treti vratit zpet.

Ukládat stejná data dvěma nekompatibilními způsoby (jednou v normálních tabulkách a jednou v nějakých jiných strukturách) jen kvůli tomu, že některé jsou synchronizované a jiné ještě ne, mi přijde jako zbytečný opruz – hlavně kvůli tomu vyhledávání a slučování výsledků.

Celkem dlouho jsem se snazil na to jit presne takhle, ale pokud chci aby to fungovalo na 100% ve vsech moznych podminkach, tak jsem presvedcen ze ta fronta nakonec vyjde jako jednodussi reseni.

21.1.2014 13:41 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

Tady by to prave nebyl klasicky UPDATE, ale obecne jakakoliv zmena databaze – operace, ktera dostane na vstup databazi a na vystup da novou verzi databaze. Takze napriklad operace "upvote" by znamenala "vem pocet upvotu a pridej 1".

Tenhle problém se vlastně řeší v každé víceuživatelské databázové aplikaci – je celkem jedno, jestli se klient odpojuje a je půl dne offline, nebo jestli si v 10:05 otevře v aplikaci formulář, načtou se mu tam aktuální data, on do toho chvíli kouká, něco tam změní a v 10:15 to dá uložit.

Buď se použijí transakce (s daty nemůže nikdo jiný manipulovat – což je problém, protože klient může klidně odejít na oběd a nechat to celou dobu zamčené) nebo se použije optimističtější přístup – uložíš si číslo verze, takže víš, jestli data mezi tím někdo jiný neupravil, abys mu nepřepsal změny – při ukládání to zkontroluješ a buď změny nějak sloučíš nebo uživateli ohlásíš chybu.

Samozrejme se da namitnout ze je lepsi si ukladat kazdy upvote jako novy radek, ale muze mit smysl si nekde navic ukladat jejich soucet pro rychlejsi dotazy.

Tohle by šlo řešit přes materializované pohledy – součty by se při každém zápisu samy přepočítaly.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

21.1.2014 13:31 xkucf03 | skóre: 50 | blog: xkucf03
Rozbalit Rozbalit vše Re: Klient-server synchronizace – konečné řešení

P.S. Přidal jsem do poradny otázku, která mě v této souvislosti napadla: Protokol/formát pro přírůstkové aktualizace databází

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

Ahoj, neviem, ako si na tom aktualne pri rieseni problemu, ale my sme riesili dva roky dozadu nieco podobne. Popisem postup, ako to funguje. V pripade zaujmu staci kontaktovat a riesenie spravime opensource/free (to je v plane i bez kontaktovania, len nie je cas spravit tutorialy a podobne).

Na klientovi i na serveri sa predpoklada postgresql (ale moze byt lahko modifikovane pre ine DB) a vpodstate identicke tabulky (sem tam nejaky ten stlpec navyse pre potreby synku). Pre úplnosť dodám, že to voláme syncguru a je to vec v jave a buildujeme a testujeme to cez maven/jenkisn a používame to cca dva roky na linuxových strojoch k našej spokojnosti.

"jednosmerna synchronizacia":

klient uklada do svojej tabulky
monotonne rastuce ID
synchronizacia na server (viacero klientov), posiela sa vsetko okrem ID stlpcu a na serveri sa vsetky zaznamy vsetkych klientov stretnu v jednej tabulke
pri ukonceni posielania lokalnych novych riadkov na server sa do t_tabulka_sync ulozi/updatne riadok s ID klienta a s ID LOKALNEHO zaznamu, ktory bol v tejto transakcii poslany na server
funguje genialne pri cca 40 klientoch a jednom serveri (viac klientov sme neskusali)

"obojsmerna synchronizacia":

propaguju sa zmeny a pridavania (update/insert)
delete sa nepropaguje! (jedine simulaciou stlpcekom "som zmazany" a ignorovanim v app)
na klientskej i serverovej tabulke je stlpec "las modified timestamp" (ano, predpoklad sa, ze klienti i server pouzivaju ntp)
last modified stlpec je monotonne rastuci pre kazdeho klienta zvlast
synchronizuje sa z klientskej aplikacie tak, že sa selektnú všetky lokálne neodoslané zmeny (podľa last modified stĺpcu a hodnoty v sync tabuľke na servery) a odošlú sa. Opačným smerom to ide symetricky, ale je treba selektovať pre každého klienta nesynchronizované veci zvlášť
t_tabulka_sync je na server i na klientovi a uchovava hodnotu last modified stlpca posledne nakopirovanej/updatnutej veci zo serveru, pre kazdeho klienta
potencionalny problem pri vysokom pocte klientov, kedy sa robi viac a viac selektov
aktualne mame cca 240 klientov na par tabulkach a bezi to OK

Myslím, že by Vám vyhovoval obojsmerný synk s nejakým tým drobným tunovaním vecí tak, aby to pasovalo i bez vymazávania, alebo aby vymazánie bolo možné.