pgsql - rozdělit update kličkou na menší dávky

Eště aby ti to fungovalo, když tam máš kartézák jak kráva:

update tb1 
set cosi = neco_jinyho
from
(
  select
  tb1.id,  
  agregacni_fce(kousicky) neco jinyho
  from tI join tII
  on tb1.id = tII.id
  group by tb1.id

)dta
where tb1.id = dta.id

Zkus tohle:

UPDATE tb1
SET
    tb1.cosi = (SELECT
                AGG(...) AS neco_jinyho
            FROM
                tii INNER JOIN ti ON (tii.id = ti.ref_id) -- uprav si Join Condition
            WHERE
                tii.id = tb1.id
            GROUP BY
                tii.id)
WHERE
    EXISTS (SELECT
                1
            FROM
                tii INNER JOIN ti ON (tii.id = ti.ref_id) -- viz výše
            WHERE
                tii.id = tb1.id)
/

Tohle prostě musí fungovat. Takovýhle dotazy pouštím obden nad miliony záznamy.

Ta GROUP BY klauzule tam vpodstatě být nemusí, protože v SELECT klauzuli je jen ta agregačka.

Dotaz zupdatuje sloupek COSI výpočtem nějaký agregačky pro všechny záznamy tabulky TB1, pro které existují odpovídající záznamy ve spojení tabulek TI a TII.

Rozdělení na více dotazů moc nedoporučuji. Dělá to jen problémy.

Podle toho, co jsem z tvého příkladu pochopil, omezuješ množinu TII množinou TI. Jinými slovy, v tabulce TII máš víc záznamů, které nechceš zahrnout do agregačky. V tom případě doporučuji udělat dočasnou tabulku:

CREATE TABLE tmp_data AS
SELECT
    tii.id AS tii_id,
    "další",
    "sloupce",
    "pro",
    "agregačku"
FROM
    tii INNER JOIN ti ON (tii.id = ti.ref_id) -- uprav si Join Condition
/

CREATE INDEX idx_tmpdata ON tmp_data (tii_id)
/

a vypočítat tuto agregačku z této tabule. V případě, že tabulka TII obsahuje více nerelevantních záznamů než tabulka TB1, můžeš tyto záznamy též odstranit například dalším INNER JOINem. Ten index může být klidně složený. Databázi pak bude stačit probrousit index a s přístupem do vlastní tabule nebude ztrácet čas.

Když i tohle bude málo, pak si z týhle tabule předpočítej i tu agregačku a to už musí fungovat i kdybys nechtěl. :-)

Když sem nahraješ nějaký rozumný demo na hraní, možná ti i někdo pomůže. Takhle nevíme, jestli je ten tvůj dotaz špatně v reálu, nebo si jen nezvládnul obfuskaci. :-D

19.11.2010 11:44 jeleniste
Rozbalit Rozbalit vše Re: pgsql - rozdělit update kličkou na menší dávky

Díky, no ten dotaz přesně, kterej jsem pouštěl je trochu jinej, nemam to tady, lovil jsem z paměti. V podstatě jde o to, mám dvě tabulky, tabulku body a spojení, (ježkovy voči, teď mi to došlo, jsem teda blbej - je tam ještě třetí tabulka hrany, já blbec updatoval spojení, jsem teda pitomej) a já mam u bodů geometrii, u spojení ne, tady sem vynechal tabulku a skonil jsem to -ouvej
takže mam tři tabulky, body (včetně geometrie), spojení a hrany, přičemž spojení spojuje 1:1 body a n:1 hrany, chci u hran updatovat geometrii, přičemž ve spojení je popsaný pořadí bodů


update hrany
set geometrie = geom from
(select id_hrany, aggrfce(geom_body)
from spojeni, body
where 
spojeni.id_hrany = body.id_hrany
order by id_hrany, id_bodu
group by id_hrany
)hrgm
on id_hrany = id_hrany

19.11.2010 20:37 default | skóre: 22 | Madrid
Rozbalit Rozbalit vše Re: pgsql - rozdělit update kličkou na menší dávky

OKi, this changes everything again. :-D

Až budeš u toho, tak sem pastni DDL statementy relevantních tabulek a indexů a exekuční plán toho dotazu, co tak falíruje. Nejlépe ještě odhady množství dat v té které tabuli. A když ještě přihodíš sample data demostrující povahu produkčních dat, bude to skvělý.

A hlavně sem pastni ten dotaz neobfusknutej. Agregačních funkcí je spousta a spousta z nich jde nahradit jinými popřípadě nahradit úplně jiným způsobem. Taky si polož otázku, proč potřebuješ updatovat skoro všechno naráz. Třeba jen drobná změna v aplikaci tě zbaví této potřeby… Nebo to je noční dávka zpracovávající nějaké inkrementy? V tom případě by mohl pomoci refaktor schématu. Ale to už jsem se nechal unést mou denní realitou. :-D

Jakou verzi DB používáš?

21.11.2010 22:12 jeleniste
Rozbalit Rozbalit vše Re: pgsql - rozdělit update kličkou na menší dávky

Ne, je to věc, kterou potřebuju provýst právě jednou a to při importu dat. Myslim si, že to chcípá anžto jedna lomená čára má fakt enormní počet bodů a na tom mě to zdechne. Chroustá to cca 30 min a pak finito. ODhad dat dodam, teď mi to chroustá, ale vzorek bohužel dát nemůžu, nejsou to moje dta. Ale jsou tak středně velký jedná se o update asi 600 tisích záznamů - takže zase tak velký to neni.
Hází to něco jako memory fail, 27 (přesný znění teď nemám, pustil jsem ten explain a neuložil jsem si to před tim. Kdyžtak dodám posléze.

update hranice_parcel
set geometry = geom.geometry
from
  (
   select
   hp_id,
   ST_MakeLine(geometry) geometry
   from
    (
      select 
       hp_id, sour.geometry
      from
       spojeni_b_poloh spojeni,
       souradnice_obrazu sour
      where
        sour.id = spojeni.bp_id
      order by poradove_cislo_bodu
      offset 0
    ) body
    where hp_id is not null
    group by  hp_id
    having count(*)>1 --pridano 
    offset 0
  ) geom
where hp_id = hranice_parcel.id;

"Update  (cost=730850.00..732569.06 rows=200 width=173)"
"  ->  Nested Loop  (cost=730850.00..732569.06 rows=200 width=173)"
"        ->  Subquery Scan on geom  (cost=730850.00..730855.50 rows=200 width=87)"
"              ->  Limit  (cost=730850.00..730853.50 rows=200 width=55)"
"                    ->  HashAggregate  (cost=730850.00..730853.50 rows=200 width=55)"
"                          Filter: (count(*) > 1)"
"                          ->  Subquery Scan on body  (cost=685441.55..713875.14 rows=2263314 width=55)"
"                                Filter: (body.hp_id IS NOT NULL)"
"                                ->  Limit  (cost=685441.55..691128.27 rows=2274687 width=49)"
"                                      ->  Sort  (cost=685441.55..691128.27 rows=2274687 width=49)"
"                                            Sort Key: spojeni.poradove_cislo_bodu"
"                                            ->  Hash Join  (cost=56887.43..212019.03 rows=2274687 width=49)"
"                                                  Hash Cond: (spojeni.bp_id = sour.id)"
"                                                  ->  Seq Scan on spojeni_b_poloh spojeni  (cost=0.00..72125.87 rows=2274687 width=28)"
"                                                  ->  Hash  (cost=41356.30..41356.30 rows=729530 width=43)"
"                                                        ->  Seq Scan on souradnice_obrazu sour  (cost=0.00..41356.30 rows=729530 width=43)"
"        ->  Index Scan using ih_hp_id on hranice_parcel  (cost=0.00..8.56 rows=1 width=109)"
"              Index Cond: (hranice_parcel.id = geom.hp_id)"

21.11.2010 22:31 jeleniste
Rozbalit Rozbalit vše Re: pgsql - rozdělit update kličkou na menší dávky

ERROR:  out of memory
DETAIL:  Failed on request of size 27.


********** Chyba **********

ERROR: out of memory
Stav SQL: 53200
Podrobnosti:Failed on request of size 27.

21.11.2010 22:39 jeleniste
Rozbalit Rozbalit vše Re: pgsql - rozdělit update kličkou na menší dávky

729530 bodu
2274687 spojeni (ale ne všechna jsou hranice parcel - tady bych mohl nějak ušetřit - ale když jsem dal where hp%id is not null, tak to nepomohlo)
669749 hranic parcel
přičemž všechny ty spojovací položky jsou indexovaný using hash

Dotaz: pgsql - rozdělit update kličkou na menší dávky

Odpovědi