abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 17:11 | Komunita

Na konferenci herních vývojářů GDC 2019 (Game Developers Conference) měla svůj stánek i společnost Red Hat. Návštěvníci si mohli zahrát počítačové hry na Fedoře 29 s Cinnamonem a Lutrisem.

Ladislav Hagara | Komentářů: 0
včera 15:33 | Komunita

O víkendu probíhá v Cambridgi (MA) konference LibrePlanet 2019 organizovaná Nadací pro svobodný software (FSF). Na programu je řada zajímavých přednášek. Sledovat je lze také online.

Ladislav Hagara | Komentářů: 1
22.3. 21:33 | Humor

Richard M. Stallman v článku Install Fests: What to Do about the Deal with the Devil navrhuje, jak se vypořádat s morálním dilematem, zda na „installfestech“ (akcích, kde zkušení uživatelé pomáhají nováčkům nainstalovat GNU/Linux na přinesený hardware) instalovat také nesvobodný software, typicky ovladače. Vzdělávací přístup je „škola hrou“, kdy instalace právě nesvobodného softwaru provádí postava „Ďábla“.

Fluttershy, yay! | Komentářů: 11
22.3. 14:44 | Komunita

Dalších sedm produktů od společnosti ThinkPenguin získalo certifikaci RYF (Respects Your Freedom, Respektuje vaši svobodu) udělovanou Nadací pro svobodný software (FSF). Poprvé získal certifikaci USB mikrofon, konkrétně TPE-USBMIC. Certifikace RYF byla představena v říjnu 2012.

Ladislav Hagara | Komentářů: 0
22.3. 13:33 | Komunita

Na Humble Bundle lze získat počítačovou hru Tacoma (YouTube, Wikipedie) běžící také v Linuxu zdarma. Speciální akce končí v neděli v 18:00.

Ladislav Hagara | Komentářů: 0
22.3. 11:11 | Zajímavý projekt

Na Kickstarteru byla spuštěna kampaň na podporu zařízení NexDock 2. Jedná se o přenosnou dokovací stanici aneb notebook bez procesoru a paměti. Stačí připojit podporovaný telefon s Androidem nebo Raspberry Pi.

Ladislav Hagara | Komentářů: 0
22.3. 09:55 | Zajímavý článek

Před týdnem byly vydány nové verze 4.2.11.1, 5.0.7.2, 5.1.6.2, 5.2.2.1 a 6.0.0.beta3 frameworku pro vývoj webových aplikací Ruby on Rails (Wikipedie). Opraveny byly 3 bezpečnostní chyby: CVE-2019-5418, CVE-2019-5419 a CVE-2019-5420. Analýza CVE-2019-5418 (zobrazit si lze libovolný soubor na serveru, například /etc/passwd) na blogu Chybeta.

Ladislav Hagara | Komentářů: 1
21.3. 23:33 | Zajímavý projekt

Na Humble Bundle byla spuštěna akce Humble Book Bundle: Web Programming by O'Reilly. Za 1 dolar a více lze koupit 5 elektronických knih, za 8 dolarů a více lze koupit 11 elektronických knih a za 15 dolarů a více lze koupit 17 elektronických knih věnovaných webovému programování od nakladatelství O'Reilly Media. Část ceny lze určit charitě.

Ladislav Hagara | Komentářů: 0
21.3. 23:00 | Pozvánky

Spolek OpenAlt zve příznivce otevřených řešení a přístupu na 162. brněnský sraz, který proběhne v pátek 22. března od 18:00 v restauraci Slatinský šenk na adrese Zlínská 12.

Ladislav Hagara | Komentářů: 2
21.3. 16:22 | Nová verze

Jonathan Thomas oznámil vydání nové verze 2.4.4 video editoru OpenShot (Wikipedie). Přehled novinek na YouTube. Zdrojové kódy OpenShotu jsou k dispozici na GitHubu. Ke stažení je také balíček ve formátu AppImage. Stačí jej stáhnout, nastavit právo na spouštění a spustit.

Ladislav Hagara | Komentářů: 0
Kolik balíčků (v tisících) máte nainstalovaných na svém systému?
 (4%)
 (14%)
 (33%)
 (30%)
 (19%)
 (3%)
 (2%)
 (1%)
 (3%)
Celkem 232 hlasů
 Komentářů: 22, poslední 22.3. 12:39
Rozcestník

Dotaz: postgres optimalizace dotazu

12.3. 10:26 marek
postgres optimalizace dotazu
Přečteno: 427×

Dobry den

Prosim o nasmerovani, jak zrychlit dotaz:

explain analyze select max(rodatum),server,vanview  from van group by server,vanview;
                                                       QUERY PLAN                                                        
-------------------------------------------------------------------------------------------------------------------------
 HashAggregate  (cost=299861.68..299861.92 rows=24 width=16) (actual time=4396.250..4396.256 rows=24 loops=1)
   ->  Seq Scan on van  (cost=0.00..238237.96 rows=8216496 width=16) (actual time=10.354..1658.701 rows=8216067 loops=1)
 Total runtime: 4396.330 ms
(3 rows)

pro tabulku:


\d van
                          Table "public.van"
           Column            |            Type             | Modifiers 
-----------------------------+-----------------------------+-----------
 datum                       | timestamp without time zone | not null
 rodatum                     | timestamp without time zone | 
 server                      | integer                     | not null
 vanview                     | integer                     | not null
 queries                     | bigint                      | 
 lookups                     | bigint                      | 
 proactive-lookups           | bigint                      | 
 ignored-referral-lookups    | bigint                      | 
 cache-misses                | bigint                      | 
 id-spoofing-defense-queries | bigint                      | 
 requests-sent               | bigint                      | 
 tcp-requests-sent           | bigint                      | 
 rate-limited-requests       | bigint                      | 
 noerror                     | bigint                      | 
 servfail                    | bigint                      | 
 nxdomain                    | bigint                      | 
 notimp                      | bigint                      | 
Indexes:
    "van_pkey" PRIMARY KEY, btree (datum, server, vanview)
    "van_datum_idx" btree (datum)
    "van_datum_server_idx" btree (datum, server)
    "van_rodatum_idx" btree (rodatum)
    "van_server_idx" btree (server)
    "van_server_vanview_idx" btree (server, vanview)
    "van_vanview_idx" btree (vanview)
Foreign-key constraints:
    "van_server_fkey" FOREIGN KEY (server) REFERENCES server(id)
    "van_vanview_fkey" FOREIGN KEY (vanview) REFERENCES vanview(id)

postupne jsem pridaval indexy, spoustel VACUUM FULL ANALYZE; ....

Stale mi to prijde priserne pomale.

dekuji

marek

Odpovědi

12.3. 13:26 EtDirloth | skóre: 10
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu
Velmi pekna uloha!

Postgresql zial nevie efektivne pouzit index pre group by - pouzije index only scan iba ked sa mu zakaze seq. scan.

Najprv definica tabulky, a simulacia tvojich dat: (testovane na pg11)
--DROP TABLE IF EXISTS van;
CREATE TABLE van (
   rodatum timestamp
 , server  integer NOT NULL
 , vanview integer NOT NULL
);
-- populate with 10M of records with 25 distinct combinations of server & vanview
INSERT INTO van (server, vanview, rodatum)
   SELECT (random() * 4)::int
        , (random() * 4+5)::int
        , ts + ((random() * 5000)::int || 'seconds')::interval
      FROM generate_series('2000-01-01'::timestamp, now(), '1minute') AS x(ts)
;

SELECT count(*) FROM van;
-- 10095150
SELECT count(*) FROM van GROUP BY (server, vanview);
-- (25 rows)
Jednotlive stlpce vo viacstlpcovych indexoch je potrebne radit v poradi selektivity a znovupouzitelnosti. Ak query filtruje len podla niektorych stlpcov indexu zlava, vie ho pouzit. A preto sa pouzije index ix_van_server_vanview_rodatum na SELECT min(server), ale uz nie na SELECT min(vanview).
 -- used by min(server), max(rodatum) per server&vanview
CREATE INDEX ix_van_server_vanview_rodatum ON van (server, vanview, rodatum DESC NULLS LAST);
 -- used by min(vanview)
CREATE INDEX ix_van_vanview ON van (vanview);
Test tvojej query pre porovnanie casov:
EXPLAIN (BUFFERS, ANALYZE) select max(rodatum), server, vanview  FROM van GROUP BY server, vanview;
-- actual time=1791.880..1791.936
-- Parallel Seq Scan on van
Pouzil sa Seq scan, napriek tomu, ze existuje ix_van_server_vanview_rodatum, skusim ho zakazat:
SET enable_seqscan = OFF;
EXPLAIN (BUFFERS, ANALYZE) select max(rodatum), server, vanview  FROM van GROUP BY server, vanview;
-- actual time=218.738..3580.570
-- Parallel Index Only Scan using ix_van_server_vanview_rodatum
...este pomalsie - zda sa, ze planner funguje spravne

Kedze mame pomerne male mnozstvo kombinacii ((count(server)*count(vanview))==25), napadlo ma pouzit index ix_van_server_vanview_rodatum tak, ze mu podsuniem 25 roznych hodnot, co by bezalo so zlozitostou O(25 log 10^7). Takze potrebujem ziskat 25 unikatnych hodnot. Lenze SELECT DISTINCT je este pomalsi, nez SELECT server, vanview GROUP BY server, vanview:
SELECT DISTINCT server, vanview FROM van
-- Time: 1878,862 ms (00:01,879)
SELECT server, vanview FROM van GROUP BY server,vanview
-- Time: 980,318 ms
Korelovana subquery je potom obmedzena pomalostou DISTINCT/GROUP-BY:
SELECT max(rodatum), server, vanview
   FROM van
   WHERE (server,vanview) IN (SELECT DISTINCT server, vanview FROM van)
   GROUP BY server,vanview
;
-- Time: 5028,114 ms (00:05,028)

SELECT (
   SELECT max(v.rodatum)
      FROM van AS v
      WHERE (v.server, v.vanview) = (vv.server, vv.vanview)
   ), server, vanview
   FROM (SELECT server, vanview FROM van GROUP BY server,vanview) AS vv
   GROUP BY server, vanview
;
--Time: 984,181 ms
...je vidiet mierne zrychlenie, ale stale sme v radoch sekund.

A tu prichadza trik s rekurzivnou CTE pre indexovany DISTINCT v kombinacii s horeuvedenou korelovanou subquery:
--EXPLAIN (BUFFERS, ANALYZE) 
WITH RECURSIVE t AS (
   SELECT min(server) AS s FROM van
   UNION ALL
   SELECT (SELECT min(server) FROM van WHERE server > t.s)
   FROM t WHERE t.s IS NOT NULL
)
, tt AS (
   SELECT min(vanview) AS v FROM van
   UNION ALL
   SELECT (SELECT min(vanview) FROM van WHERE vanview > tt.v)
   FROM tt WHERE tt.v IS NOT NULL
)
SELECT (
   SELECT max(rodatum)
      FROM van
      WHERE server = s
        AND vanview = v
   ), s, v
   FROM t, tt
   WHERE s IS NOT NULL
     AND v IS NOT NULL
;
-- Time: 1,679 ms
Pre vysvetlenie vid https://wiki.postgresql.org/wiki/Loose_indexscan
12.3. 14:24 marek
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu

Tedy smekam.

Nebudu zastirat, ze vubec postupu nerozumim.

Na mych datech to dela 373.236 ms, coz je vyrazne zlepseni.

Ale uvazoval jsem:

graphs=# EXPLAIN (BUFFERS, ANALYZE)select server.id as ser,vanview.id as van from server,vanview where label like 'nom%' ;
                                                 QUERY PLAN                                                  
-------------------------------------------------------------------------------------------------------------
 Nested Loop  (cost=0.00..2.49 rows=24 width=8) (actual time=0.018..0.031 rows=24 loops=1)
   Buffers: shared hit=2
   ->  Seq Scan on server  (cost=0.00..1.15 rows=8 width=4) (actual time=0.010..0.011 rows=8 loops=1)
         Filter: (label ~~ 'nom%'::text)
         Rows Removed by Filter: 4
         Buffers: shared hit=1
   ->  Materialize  (cost=0.00..1.04 rows=3 width=4) (actual time=0.001..0.001 rows=3 loops=8)
         Buffers: shared hit=1
         ->  Seq Scan on vanview  (cost=0.00..1.03 rows=3 width=4) (actual time=0.003..0.006 rows=3 loops=1)
               Buffers: shared hit=1
 Total runtime: 0.063 ms
(11 rows)

graphs=# EXPLAIN (BUFFERS, ANALYZE)SELECT max(datum),1,1 FROM van WHERE server=1 AND vanview=1;
                                                                     QUERY PLAN                                                                      
-----------------------------------------------------------------------------------------------------------------------------------------------------
 Result  (cost=4.15..4.16 rows=1 width=0) (actual time=4.946..4.946 rows=1 loops=1)
   Buffers: shared hit=559
   InitPlan 1 (returns $0)
     ->  Limit  (cost=0.00..4.15 rows=1 width=8) (actual time=4.941..4.942 rows=1 loops=1)
           Buffers: shared hit=559
           ->  Index Only Scan Backward using van_pkey on van  (cost=0.00..1854269.90 rows=447277 width=8) (actual time=4.939..4.939 rows=1 loops=1)
                 Index Cond: ((datum IS NOT NULL) AND (server = 1) AND (vanview = 1))
                 Heap Fetches: 1
                 Buffers: shared hit=559
 Total runtime: 4.985 ms
(10 rows)

graphs=#

4.985*24+0.063=119.703 ms, takze kdybych to spustil v hloupem loopu z aplikace, jsem na tom lepe.

tak jsem napsal:

CREATE OR REPLACE FUNCTION max1 ()
RETURNS TABLE ( max timestamp,
s integer,
v integer)
AS $$
DECLARE row record;
BEGIN
FOR row IN SELECT server.id AS ser,vanview.id AS van FROM server,vanview WHERE label LIKE 'nom%' LOOP

 RETURN QUERY SELECT
         max(datum),row.ser,row.van FROM van WHERE server=row.ser AND vanview=row.van;
END LOOP;



END; $$
LANGUAGE 'plpgsql';

to kdyz spustim:

EXPLAIN (BUFFERS, ANALYZE)select * from max1();
                                                QUERY PLAN                                                 
-----------------------------------------------------------------------------------------------------------
 Function Scan on max1  (cost=0.25..10.25 rows=1000 width=16) (actual time=27.605..27.606 rows=24 loops=1)
   Buffers: shared hit=3422
 Total runtime: 27.625 ms
(3 rows)

Tato rychlost je pro mne dostatecna.

Ted si projdu jeste nekolikrat Vase reseni, snad to nakonec pochopim.

dekuji za inspiraci

marek

ps: stejne je skoda, ze si to postgres nenaplanuje podobne, jako ta funkce...

12.3. 14:53 OldFrog {Ondra Nemecek} | skóre: 30 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu
Jakou máte verzi Postgres?
-- OldFrog
12.3. 15:18 marek
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu

postgres (PostgreSQL) 9.2.24

CentOS Linux release 7.6.1810 (Core)

marek

12.3. 15:30 OldFrog {Ondra Nemecek} | skóre: 30 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu
Hmm, na 10 to funguje stejně pomalu a 11 ještě není v repositáři. Takže to spíš vypadá že novější verze by to neřešila.
-- OldFrog
12.3. 15:55 EtDirloth | skóre: 10
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu
Jasne, nevsimol som si tie foreign keys. Takze potom nepotrebujeme tu rekurzivnu query a bude stacit korelovana subquery - co je ekvivalentne tomu foreach:
EXPLAIN (BUFFERS, ANALYZE)
SELECT (
   SELECT max(rodatum)
      FROM van
      WHERE server  = server.id
        AND vanview = vanview.id
   ), server.id, vanview.id
   FROM server, vanview
   WHERE label LIKE 'nom%'
;
-- actual time=0.058..0.321
-- Index Only Scan using px_server_id_label_nom
-- Index Only Scan using ix_van_server_vanview_rodatum
...ten cas + index px_server_id_label_nom som nameral s pouzitim kodu nizsie.

Asi v tabulke servers nebude vela zaznamov, ale ak nahodou ano, ta WHERE (label LIKE 'nom%') sa da podporit parcialnym indexom px_server_id_label_nom:
CREATE TABLE server (
   id    int  NOT NULL
 , label text NOT NULL
);
CREATE INDEX px_server_id_label_nom ON server (id) WHERE (label LIKE 'nom%');

WITH RECURSIVE t AS (
   SELECT min(server) AS s FROM van
   UNION ALL
   SELECT (SELECT min(server) FROM van WHERE server > t.s)
   FROM t WHERE t.s IS NOT NULL
)
INSERT INTO server
   SELECT s, 'nomnom' AS label FROM t WHERE s IS NOT NULL
;
INSERT INTO server
   SELECT s, 'omnom' AS label FROM generate_series(1,11111,1) AS x(s)
;
Tu je vidno, ze sa pouzije parcialny index px_server_id_label_nom:
EXPLAIN (BUFFERS, ANALYZE)
SELECT id FROM server WHERE label LIKE 'nom%';
-- actual time=0.019..0.020
-- Index Only Scan using px_server_id_label_nom
EXPLAIN (BUFFERS, ANALYZE)
SELECT id FROM server WHERE label LIKE 'nomn%';
-- actual time=0.008..1.060
-- Seq Scan on server
...rozdiel oproti seq scanu nad takto malou tabulkou je sice v niekolkych radoch, ale aj ta milisekunda pre seq scan je nepatrna, takze sa to oplati hlavne pre vacsie tabulky (co do poctu riadkov aj stlpcov).

Pre uplnost prikladam aj moj CREATE TABLE mock tabulky vanview:
CREATE TABLE vanview (
   id    int  NOT NULL
);
INSERT INTO vanview
   SELECT v AS label FROM generate_series(5,9,1) AS x(v)
;
12.3. 16:21 marek
Rozbalit Rozbalit vše Re: postgres optimalizace dotazu

Jeste jednou dekuji.

Sice je u mne stale rychlejsi ta funkce, ale mnohe jsem si z Vasich prispevku odnesl.

marek

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.