Portál AbcLinuxu, 21. května 2025 05:16
Jeden můj známý v jakési internetové konferenci kdysi popisoval sen, že byl že byl kus kódu v assembleru a kopíroval řetězec. Z nějakého důvodu skončil v nekonečném cyklu. Nejděsivější ale bylo, že procesor měl zakázána přerušení, takže nebylo nic, co by jeho trápení ukončilo.
Já nejsem takový geek-extrémista, ale kdyby se mi zdávalo o SQL, skoro bych se i bál chodit spát. Podařilo se mi totiž nepěkně potrápit jednoho chudáka Postgresa.
Programuji teď weby v Pythonu, používám framework Django. Obojí můžu doporučit. Potřeboval jsem nějakou správu obsahu, takže jsem sáhl po django-cms, což je malý a jednoduchý systém, který ale umí vše víceméně vše, co potřebuji.
Nenarazil jsem na žádný zásadní problém, vše fungovalo a bylo přiměřeně rychlé. Pak jsem ale v podstatě ze zvědavosti nainstaloval svůj oblíbený middleware (plugin do vnitřností Djanga), který vypisuje použité SQL dotazy. Dost jsem se podivil, když na odbavení jedné stránky spotřebovala má aplikace až 100 SQL dotazů.
To mi přišlo skutečně neúměrně mnoho. Ty dotazy byly sice opravdu jednoduché, většinou vracely jen jeden záznam který byl ještě k tomu identifikován primárním klíčem. Přesto jsem začal zkoumat, v čem je zakopaný pes.
Chyba je v tom, že jsem zapomněl, s čím pracuji. Pracuji s objektově-relačním mapováním (ORM), které je v Djangu opravdu velmi jednoduché. Představte si jednoduchý příklad, máme tabulku se zbožím a ke každému zboží máme popisky v různých jazycích. Jedná se tedy o vazbu 1:N. To se v Djangu provede například takto:
class Zboží(Model): počet_na_skladu = IntegerField() class PopiskaZboží(Model): jazyk = CharField(max_length=2) popis = TextField() zboží = ForeignKey(Zboží)
No a teď si představte, že máte nějakou popisku a k ní chcete zobrazit počet příslušného zboží na skladě. Potom někde v šabloně následující kód
{{ nějaká_popiska.zboží.počet_na_skladu }}
vygeneruje jeden dotaz do databáze. Ještě vtipnější bude, pokud se pokusíte seřadit popisky podle počtu zboží na skladě. Například tento komparátor a jeho použití v řazení
def porovnej_popisky(a, b): return cmp(a.zboží.počet_na_skladu, b.zboží.počet_na_skladu) seznam_popisek.sort(porovnej_popisky)
vygeneruje dva dotazy pro každé porovnání.
Příslušná optimalizace může mít dvě podoby. Za prvé je dobré se snažit nechat co nejvíce práce na samotné databázi, pokud použijete metody jako filter nebo order_by, Django vygeneruje jeden příčetný dotaz. Za druhé je dobré na vhodných místech zkonvertovat objekty z djangoidního ORM na obyčejné slovníky, aby každý přístup k atributu nevyvolával select do databáze.
Vůbec takové jednoduché ORM nezatracuji. V Djangu se s tím pracuje příjemně a ve většině případů by ručně sestavený SQL dotaz přinesl akorát chyby. Nicméně je potřeba nezapomínat, co je doopravdy pod povrchem.
Tiskni
Sdílej:
Tenhle post je o budu čtyři ze závěru zmiňovaného článku:
Acceptance of O/R-M limitations
Podle me je "Vietnamem CS" samotna myslenka, ze datove struktury lze reprezentovat jako sit samostatnych nezavislych objektu. Nechci zcela shazovat prinos OOP, ale myslim, ze casto vede na tento druh programovani.
samotna myslenka, ze datove struktury lze reprezentovat jako sit samostatnych nezavislych objektuCož lze, že jo. Stačí mít persistentní heap, ne nějakou přiblblou SQL databázi
Takovymhle systemum asi patri budoucnost. Ty priblble SQL databaze jeste porad vedou v parametrech jako: kapacita, zalohovani, performance a replikace. Objektove databaze maji jedinou vyhodu, ktera se jim neda uprit, setri cas programatoru.
Vždyť ten převod na hashmapu vlastně takovým cachováním je.
Pořádné cachování by se muselo domastit přímo do djanga.
Tento clanek je pomerne zcestny. Uz v dobe kdy byl psan byl nepresny az nepravdivy.
Django umoznuje v jedinem SQL dotazu pomoci metody select_related()
instance tridy QuerySet
ziskat pozadovane objekty i s objekty vztazenymi (tj. PopiskaZbozi i prislusne Zbozi). Staci zapsat:
popisky = PopiskaZbozi.objects.filter(<vyhledavaci_podminky>).select_related('zbozi')
Pote kod v sablone {{ nějaká_popiska.zboží.počet_na_skladu }}
i zvoleny zpusob razeni nevyvolaji dalsi SQL dotazy.
Popripade lze zapsat select_related()
, nebo select_related(depth=1)
. Viz dokumentace QuerySet API reference. (dalsi reseni by bylo pouziti metod values()
nebo values_list()
instance QuerySet
)
Dale autor operuje s nevyslovenym predpokladem, ze jeden velky dotaz do SQL databaze je vzdy rychlejsi, nez mnoho malych. Tento predpoklad nemusi vzdy platit (obvzlast u MySQL) a je ho treba podlozit merenim (ostatne jako kazdou spravnou optimalizaci)
Dale popsane razeni:
def porovnej_popisky(a, b): return cmp(a.zboží.počet_na_skladu, b.zboží.počet_na_skladu) seznam_popisek.sort(porovnej_popisky)
bych pouzil jen v opravdu jenkrajsim pripade (napriklad - chci ziskat prvnich 10 objektu PopiskaZbozi serazenych abecedne podle popis
, ale vysledek chci nakonec seradit podle pocet_na_sklade
).
Django pro serazeni na urovni SQL pouziva metodu order_by()
instance QuerySet
.
Vysledny kod by mohl vypadat takto:
popisky = PopiskaZbozi.objects.filter(<vyhledavaci_podminky>).select_related('zbozi').order_by('zbozi__pocet_na_sklade')
Vysledkem je jediny SQL dotaz (i kdyz pritupuji ke zbozi
) a objekty jsou jiz z SQL serveru poslany serazeny.
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.