Být databázovým strojem, nemám ORM rád

Jeden můj známý v jakési internetové konferenci kdysi popisoval sen, že byl že byl kus kódu v assembleru a kopíroval řetězec. Z nějakého důvodu skončil v nekonečném cyklu. Nejděsivější ale bylo, že procesor měl zakázána přerušení, takže nebylo nic, co by jeho trápení ukončilo.

Já nejsem takový geek-extrémista, ale kdyby se mi zdávalo o SQL, skoro bych se i bál chodit spát. Podařilo se mi totiž nepěkně potrápit jednoho chudáka Postgresa.

Programuji teď weby v Pythonu, používám framework Django. Obojí můžu doporučit. Potřeboval jsem nějakou správu obsahu, takže jsem sáhl po django-cms, což je malý a jednoduchý systém, který ale umí vše víceméně vše, co potřebuji.

Nenarazil jsem na žádný zásadní problém, vše fungovalo a bylo přiměřeně rychlé. Pak jsem ale v podstatě ze zvědavosti nainstaloval svůj oblíbený middleware (plugin do vnitřností Djanga), který vypisuje použité SQL dotazy. Dost jsem se podivil, když na odbavení jedné stránky spotřebovala má aplikace až 100 SQL dotazů.

To mi přišlo skutečně neúměrně mnoho. Ty dotazy byly sice opravdu jednoduché, většinou vracely jen jeden záznam který byl ještě k tomu identifikován primárním klíčem. Přesto jsem začal zkoumat, v čem je zakopaný pes.

Chyba je v tom, že jsem zapomněl, s čím pracuji. Pracuji s objektově-relačním mapováním (ORM), které je v Djangu opravdu velmi jednoduché. Představte si jednoduchý příklad, máme tabulku se zbožím a ke každému zboží máme popisky v různých jazycích. Jedná se tedy o vazbu 1:N. To se v Djangu provede například takto:

No a teď si představte, že máte nějakou popisku a k ní chcete zobrazit počet příslušného zboží na skladě. Potom někde v šabloně následující kód

vygeneruje jeden dotaz do databáze. Ještě vtipnější bude, pokud se pokusíte seřadit popisky podle počtu zboží na skladě. Například tento komparátor a jeho použití v řazení

Jak z toho ven?

Příslušná optimalizace může mít dvě podoby. Za prvé je dobré se snažit nechat co nejvíce práce na samotné databázi, pokud použijete metody jako filter nebo order_by, Django vygeneruje jeden příčetný dotaz. Za druhé je dobré na vhodných místech zkonvertovat objekty z djangoidního ORM na obyčejné slovníky, aby každý přístup k atributu nevyvolával select do databáze.

Závěr

Vůbec takové jednoduché ORM nezatracuji. V Djangu se s tím pracuje příjemně a ve většině případů by ručně sestavený SQL dotaz přinesl akorát chyby. Nicméně je potřeba nezapomínat, co je doopravdy pod povrchem.

Komentáře

The Vietnam of Computer Science, co na to říct víc.

Ještě na tom nejsem tak špatně, abych četl Viewegha.

22.12.2008 13:53 paskma | skóre: 13 | blog: Paskmův blog
Rozbalit Rozbalit vše Re: Být databázovým strojem, nemám ORM rád

Tenhle post je o budu čtyři ze závěru zmiňovaného článku:

Acceptance of O/R-M limitations

22.12.2008 18:58 JS
Rozbalit Rozbalit vše Re: Být databázovým strojem, nemám ORM rád

Podle me je "Vietnamem CS" samotna myslenka, ze datove struktury lze reprezentovat jako sit samostatnych nezavislych objektu. Nechci zcela shazovat prinos OOP, ale myslim, ze casto vede na tento druh programovani.

23.12.2008 09:47 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Být databázovým strojem, nemám ORM rád

samotna myslenka, ze datove struktury lze reprezentovat jako sit samostatnych nezavislych objektu

Což lze, že jo. Stačí mít persistentní heap, ne nějakou přiblblou SQL databázi :-D

Ještě na tom nejsem tak špatně, abych četl Viewegha.

23.12.2008 14:49 Ivan
Rozbalit Rozbalit vše Re: Být databázovým strojem, nemám ORM rád

Takovymhle systemum asi patri budoucnost. Ty priblble SQL databaze jeste porad vedou v parametrech jako: kapacita, zalohovani, performance a replikace. Objektove databaze maji jedinou vyhodu, ktera se jim neda uprit, setri cas programatoru.

23.12.2008 18:58 Ladicek | skóre: 28 | blog: variace | Havlíčkův brod
Rozbalit Rozbalit vše Re: Být databázovým strojem, nemám ORM rád

Když na to přijde, to jsou všechno řešitelné problémy. V diskusích tady na Ábíčku by se daly dohledat Kyosukeho zmínky o "velkých" objektových databázích nad Lispem; já osobně o tom nic nevím, ale nevidím důvod, proč by to nemělo jít. Výhody relačních databází jsou asi spíš implementační. A vezměte třeba "sloupcové" databáze (BigTable a spol.), tak úžasně vám relační databáze neškálujou ani náhodou :-)

Ještě na tom nejsem tak špatně, abych četl Viewegha.

Tento clanek je pomerne zcestny. Uz v dobe kdy byl psan byl nepresny az nepravdivy.

Django umoznuje v jedinem SQL dotazu pomoci metody select_related() instance tridy QuerySet ziskat pozadovane objekty i s objekty vztazenymi (tj. PopiskaZbozi i prislusne Zbozi). Staci zapsat:

popisky = PopiskaZbozi.objects.filter(<vyhledavaci_podminky>).select_related('zbozi')

Pote kod v sablone {{ nějaká_popiska.zboží.počet_na_skladu }} i zvoleny zpusob razeni nevyvolaji dalsi SQL dotazy.

Popripade lze zapsat select_related(), nebo select_related(depth=1). Viz dokumentace QuerySet API reference. (dalsi reseni by bylo pouziti metod values() nebo values_list() instance QuerySet)

Dale autor operuje s nevyslovenym predpokladem, ze jeden velky dotaz do SQL databaze je vzdy rychlejsi, nez mnoho malych. Tento predpoklad nemusi vzdy platit (obvzlast u MySQL) a je ho treba podlozit merenim (ostatne jako kazdou spravnou optimalizaci)

Dale popsane razeni:

def porovnej_popisky(a, b):
    return cmp(a.zboží.počet_na_skladu, b.zboží.počet_na_skladu)

seznam_popisek.sort(porovnej_popisky)

bych pouzil jen v opravdu jenkrajsim pripade (napriklad - chci ziskat prvnich 10 objektu PopiskaZbozi serazenych abecedne podle popis, ale vysledek chci nakonec seradit podle pocet_na_sklade).

Django pro serazeni na urovni SQL pouziva metodu order_by() instance QuerySet.

Vysledny kod by mohl vypadat takto:

popisky = PopiskaZbozi.objects.filter(<vyhledavaci_podminky>).select_related('zbozi').order_by('zbozi__pocet_na_sklade')

Vysledkem je jediny SQL dotaz (i kdyz pritupuji ke zbozi) a objekty jsou jiz z SQL serveru poslany serazeny.