Portál AbcLinuxu, 8. května 2025 03:09
Jak řešíte situace, kdy máte v databázi číselníkové tabulky (obsahující číselné ID, jedinečný textový kód a případně další atributy), další tabulky, které se na ně odkazují přes ta číselná ID a chcete nad tím psát SELECTy (neprocedurální, čisté SQL), ve kterých potřebujete hodnoty z těch číselníků?
Jsem zvyklý dělat JOIN s číselníkovou tabulkou a v SELECTu používat ty textové kódy. Dávat tam magické konstanty v podobě těch číselných ID považuji za prasárnu a předčasnou optimalizaci – bude se to špatně číst a bude to příliš křehké – takové programy mají tendenci se rozbíjet a chovat se divně, nepředvídatelně.
Pokud byste přeci jen došli k tomu, že JOIN je nepřijatelně pomalý, jak byste to řešili jinak?
Konstanty asi na většině systémů v SQL (neprocedurálním) použít nepůjdou. Dá se udělat funkce (IMMUTABLE
), která vrací číselné ID, a v rámci SELECTu ji zavolat.
Taky by k těm magickým konstantám šlo psát komentáře. To by trochu pomohlo, ale ne moc – program by byl stále moc křehký a nespolehlivý.
Kdyby ty komentáře měly nějakou pevnou strukturu a byly strojově čitelné, šlo by si k tomu napsat skripty, které by zkontrolovaly, že jsou tam správné magické konstanty, případně by aspoň usnadnily nalezení míst, kde je potřeba hodnotu změnit. Příklad:
SELECT * FROM tabulka WHERE stav = 384 -- xxx:tabulka_stavů:kód_stavu
Napadlo mě, že by na to šlo jít i opačně a SQL skript před provedením prohnat nějakým preprocesorem (buď v době kompilace nebo při prvním načtení v době běhu), což by umožňovalo v něm používat konstanty případně i další makra.
Zkusil jsem si, jak to vypadá v m4 a cpp.
CPP – soubor s makry:
#define KONSTANTA_1 1337
CPP – dotaz:
#include "makra.sql" SELECT * FROM tabulka WHERE stav = KONSTANTA_1 -- tohle chceme nahradit AND popis <> 'KONSTANTA_1' -- tohle se nemá nahradit AND popis NOT LIKE '%KONSTANTA_1%' -- dtto
CPP – výsledek:
# 1 "dotaz.sql" # 1 "<built-in>" # 1 "<command-line>" # 1 "/usr/include/stdc-predef.h" 1 3 4 # 1 "<command-line>" 2 # 1 "dotaz.sql" # 1 "makra.sql" 1 # 2 "dotaz.sql" 2 SELECT * FROM tabulka WHERE stav = 1337 AND popis <> 'KONSTANTA_1' AND popis NOT LIKE '%KONSTANTA_1%'
M4 – soubor s makry:
define(KONSTANTA_1, 1337)
M4 – dotaz:
include(`makra.m4') SELECT * FROM tabulka WHERE stav = KONSTANTA_1 -- tohle chceme nahradit AND popis <> '`KONSTANTA_1'' -- tohle se nemá nahradit AND popis NOT LIKE '%`KONSTANTA_1'%' - dtto
M4 – výstup:
SELECT * FROM tabulka WHERE stav = 1337 AND popis <> 'KONSTANTA_1' AND popis NOT LIKE '%KONSTANTA_1%'
Ale není to úplně ono. CPP je určené pro jazyk C a tady funguje spíš náhodou. A hlavně by to chtělo nějaká neinvazivní makra, která nenarušují syntaxi SQL – aby fungovalo zvýraznění syntaxe a případně další nástroje i nad zdrojovým souborem.
Použili byste CPP nebo M4? Případně jak? Nebo jiný preprocesor? Nebo ty funkce? Nebo byste zůstali u JOINů? (mnou preferovaná varianta – i když ty preprocesory mne trochu lákají, protože to skýtá i jiné možnosti…)
Řešili byste tuhle otázku jinak v různých DBMS? (PostgreSQL, MariaDB/MySQL, Oracle)
$result = $flupdo->select('*')->from('tabulka') ->whereZCiselniku('stav =', 'KONSTANTA_1') ->where('popis <> ?', 'KONSTANTA_1') ->where('popis NOT LIKE CONCAT("%", ?, "%")', 'KONSTANTA_1');Výsledný SQL dotaz by pak byl:
SELECT * FROM tabulka WHERE stav = (SELECT id FROM cislenik WHERE popis = ? LIMIT 1) AND popis <> ? AND popis NOT LIKE CONCAT("%", ?, "%")(A samozřejmě také odpovídající pole s parametry.)
Na tyto věci používám program sed ( případně Perl nebo Ruby jako stream filter přepínač -p). Zejména operátor s///. Používal jsem to jako mockovací systém pro SQL, kdy jsem potřeboval nahradit jméno tabulky jinou - mockem. S trochou formátovací kultury se s tím dala napsat pravidla i pro kontextové nahrazení. Například čtení bude z tabulky původní, ale zápis jde do jiné tabulky (syntaxe regexp ala perl pro zvýšení čitelnosti):
s/my_table/for_writing/g s/((from)|(join)\s+)for_writing/my_table/g
Předpokadem byla formátovací kultura používat explicitně join klíčové slovo a nepoužívat join skrytý v klausuli where. Je potřeba tomu preprocesingu trošku pomoci. Kompletní generické parsování SQL by nebyl vůbec triviální úkol. A rozhodně bych se nesnažil o validaci SQL vlastním kódem.
Otázka zda zabránit substituci v řetězcích je spíše otázkou: "Co když takovou substituci budete chtít?" Pokud si matně pamatuji, řešil jsem problém potlačení substituce explicitně:
where X.x = 'my_table' -- @no_substitute@ opravdu zde nechci substituci
/@no_substitute@/ b # přeskočí řádky označené @no_substitute@
Pokud budete chtít zamezit kolizi vyberte si dostatečně divoké jméno proměnné tak aby nekolidovala. Např:
stav = @@KONSTANTA_1@@
Tak divoký řetězec snad nikde mít nikdy nebudete. Ale pamatuji si že se mi substituce v řetězcích hodila. Myslím, že to bylo nějaké SQL s tabulkovými metadaty.
Pokud má být transparentní nahrazení hodnotou z číselníku tak pro Oracle by mohlo zafungovat něco takového:
s/@(\w+).(\w+)/(select ID from $1 where txt_id='$2')/g # @ = označení substituce
V perlu/ruby by se dalo i případně zkontrolovat zda dotyčná tabulka a záznam existuje a že se do skriptu neinjektujeme nesmyslný kód.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.