Andrew S. Tanenbaum byl oceněn 2023 ACM Software System Award (Wikipedie) za operační systém MINIX.
Celkový počet stažení aplikací z Flathubu překročil 2 miliardy. Aktuální Statistiky Flathubu: Celkový počet stažení 2 002 793 783. Celkem desktopových aplikací 2 636.
Byla vydána nová verze 4.8.0 programu na úpravu digitálních fotografií darktable (Wikipedie).
Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 142 (pdf) a HackSpace 79 (pdf).
Qtractor (Wikipedie) dospěl do verze 1.0.0. Jedná se o Audio/MIDI vícestopý sekvencer.
Byl vydán svobodný kancelářský balík OnlyOffice Docs 8.1. Vedle četných oprav přináší několik funkcí včetně podpory editace textu v PDF a vytváření formulářů v PDF.
Daniel Stenberg, autor nástroje curl, z databáze SteamDB zjistil, že aktuálně 22 734 her na Steamu používá curl.
Společnost Anthropic vydala Claude 3.5 Sonnet, tj. novou verzi své umělé inteligence Claude (Wikipedie). Videoukázky na YouTube. S Claude 3, stejně jak s GPT-3.5, Llama 3 a Mixtral, si lze pokecat bez přihlašování na DuckDuckGo AI Chat.
Byla vydána nová stabilní verze 6.8 webového prohlížeče Vivaldi (Wikipedie). Postavena je na Chromiu 126. Přehled novinek i s náhledy v příspěvku na blogu a na YouTube. Vypíchnuta jsou vylepšení v integrovaném poštovním klientu.
Příspěvek Aukce domén – měsíc po spuštění na blogu CZ.NIC shrnuje první měsíc provozu Aukce domén .CZ. Aukcemi prošlo celkem 18 174 domén, z toho na 742 z nich byl učiněn alespoň 1 příhoz. Nejdražší aukcí byla na doménu virtualnisidlo.cz s cenou 95 001 Kč, která však nebyla včas uhrazena. Nejdražší aukcí, která byla vydražena i zaplacena je praguecityline.cz s cenovkou 55 600 Kč.
Ahoj, toto mi připadá poněkud zvláštní:
db_pokus=> create table dummy( number int primary key ); CREATE TABLE db_pokus=> set enable_seqscan = false; SET db_pokus=> explain select number from dummy where number = 5; QUERY PLAN ------------------------------------------------------------------------ Index Scan using dummy_pkey on dummy (cost=0.00..8.27 rows=1 width=4) Index Cond: (number = 5) (2 rows) db_pokus=> explain select 5 in ( select number from dummy ); QUERY PLAN -------------------------------------------------------------------------------- Result (cost=100000040.00..100000040.01 rows=1 width=0) SubPlan -> Seq Scan on dummy (cost=100000000.00..100000034.00 rows=2400 width=4) (3 rows)
Fakt nechápu, proč se u druhého dotazu taky nepoužije index. Abych řekl pravdu, myslel jsem, že ten optimalizátor bude o něco chytřejší. Netušíte někdo, jak by tohle řešil například Oracle? Když se zeptám, zda existuje primární klíč dané hodnoty, je přece jasné, že se k tomu dá použít index. Nebo mi něco podstatného uniká?
aby výstup z explainu byl co k čemu, je potřeba aktualizovat statistiky. Příkaz EXPLAIN.
Na tomto případě statistiky nic nezmění. Pokud zakážu seqscan a optimalizátor ho i přesto použije, znamená to, že nenašel žádnou jinou možnost provedení dotazu. Tady ovšem jiná možnost zjevně existuje...
Optimalizátor má hlavně problém s tím, že konstanta je na levé straně oparátoru IN. To je hodně netypické - osobně jsem nikdy podobný dotaz neviděl v praxi ani nic tomu podobného. V tomto kontextu se operátor IN nepoužívá. Mnohem typičtější zápis je:
SELECT EXISTS(SELECT number FROM dummy WHERE number = 5)
Ano, tohle používá index a je to bez problémů. Jen mi to připadá divné. Včem je (z pohledu optimalizátoru) tak nepřekonatelný rozdíl mezi IN
a EXISTS
?
Jasně, to s EXISTS
je prostě vyhodnocení poddotazu, který naprosto zjevně používá index. Následuje test, zda se něco našlo. Zato verze s IN
tak nějak naznačuje „napřed vem úplně všechno a pak něco porovnej“. Ale v takto triviálním případě by přece měl optimalizáotr vědět, co z vnořeného dotazu vlastně potřebuje.
Důležitým faktem je, že když SELECT
uvnitř EXISTS
upravím tak, aby zahrnoval úplně všechny položky tabulky, dotaz je pořád stejně rychlý a zjevně se nikde neprochází celá tabulka. Ten případ s IN
je nějaký zakletý.
enable_seqscan
je len odporucanie pre optimalizator, presne ako je napisane v dokumentacii.
Ne, to není doporučení a dokumentace nic takového neříká. To je podmíněný zákaz. Použití seqscan je tím zakázáno v takových případech, kdy existuje jakýkoliv jiný možný plán.
Plánovač tedy vyhodnotil situaci (nesprávně) tak, že není jiná možnost než průchod celou tabulkou. Přitom je naprosto zjevné, že jiná možnost tu existuje.
U automaticky generovaného SQL kódu se takové věci často nedají ovlivnit.
Proto je také automatické generování kódu pitomost na n-tou.
Možná, ale já o tom bohužel nerozhoduji.
Ano, zejméně v případech, kdy člověk programuje například SQL terminál, že ano.
No dobře, já sice nedělám SQL terminál, ale tou poznámkou jsem chtěl naznačit, že v některých situacích prostě není zbytí. Jinými slovy, dostanu nějaký SQL kód zvenčí a něco s ním mám dělat.
No, když tu optimalizaci nezvládli autoři databáze, kteří tu problematiku znají stokrát lépe než já, pak asi není šance, že bych dokázal vytvořit nějaký optimalizátor. (Upřímně řečeno, měl bych vážný problém i s parserem.)
Enables or disables the query planner's use of sequential scan plan types. It's not possible to suppress sequential scans entirely, but turning this variable off discourages the planner from using one if there are other methods available. The default is on.Takze tato volba odradza planovac od volby planu s full scan-om, ale nezakazuje ho bezpodmienecne. Takze na spravani planovaca nie je nic, co by odporovalo dokumentacii. Navyse, na full scan-e nie je nic zle.
Tak prosím, tohle je další průšvih:
db_pokus=> explain select * from dummy where number <= all ( select number from dummy ); QUERY PLAN ---------------------------------------------------------------------------------------- Seq Scan on dummy (cost=200006967.93..1265785714.93 rows=180224 width=8) Filter: (subplan) SubPlan -> Materialize (cost=100006967.93..100011980.41 rows=360448 width=8) -> Seq Scan on dummy (cost=100000000.00..100005199.48 rows=360448 width=8) (5 rows)
S indexem by něco takového byla prostě hračka, otázka zlomku vteřiny. Vložil jsem do tabluky dummy cca 360000 záznamů a pak jsem spustil ten dotaz. To bylo před deseti minutami a dotaz stále běží. Tedy se opravdu jedná o závažný problém plánovače.
Tohle je ale zklamání na celé čáře. K čemu je vlastně dobrý DBMS, který není schopen získat minimální prvek z indexu v logaritmickém čase??? Jasně, není tak zle, select min( number ) from dummy;
je to, co ve skutečnosti chci. To funguje správně a efektivně.
Ale jak už jsem tu jednou psal: U automaticky generovaného SQL kódu prostě někdy vznikne ta výše uvedená ošklivá věc, která v podstatě pošle celou aplikaci do háje už na relativně malých datech.
Čím to může být?
Tohle je ale fakt divné. Nemáte náhodou někdo přístup k Oracle? Zajímalo by mě, jak by EXPLAIN
dopadl tam.
Aha, tak teď jsem se pěkně sekl, protože ta agregační funkce vůbec nedělá totéž. Ten správný a efektivně fungující dotaz vypadá takto:
select * from dummy where number = ( select min( number ) from dummy );
A dotaz, který vede k apokalypse, vypadá takto:
select * from dummy where number <= all ( select number from dummy );
To první si optimalizátor přebere správně a funguje to efektivně, přestože je tam poddotaz. To druhé dělá (aspoň dofám) totéž, ale ještě nikdy jsem neměl trpělivost čekat, až to doběhne do konce. Tak se zdá, že PostgreSQL má problém s operacemi typu in
, not in
, all
a any
.
Ten první dotaz postgres dokáže optimalizovat - optimalizuje se min nebo max. Ten druhý nikoliv - prostě dělá, to co mu přikazujete - porovnává záznam s každou řádkou. Bohužel pg nepoužívá informaci o tom, že sloupec je nebo není PK. Tudíž bez znalosti faktu, že number nesmí být NULL tyto dotazy nejsou totožné.
<=
).
Čím to může být?Pravděpodobně nemáte zapnutou funkci „převod blbých SQL dotazů na takové, které se normálně používají“. Nejspíš si pletete optimalizátor prováděcího plánu dotazu s optimalizátorem dotazu. To druhé asi budete muset napsat sám do toho kódu, který tyhle podivné dotazy generuje.
Tiskni
Sdílej: