Přihlášení | Registrace

napište » Zprávičky

Reportáž z ceremonie podpisu kořenové zóny DNS

dnes 15:44 | Zajímavý článek

Ondřej Filip publikoval reportáž z ceremonie podpisu kořenové zóny DNS. Zhlédnout lze také jeho nedávnou přednášku Jak se podepisuje kořenová zóna Internetu v rámci cyklu Fyzikální čtvrtky FEL ČVUT.

Ladislav Hagara | Komentářů: 0

Monitory určené pro programátory?

dnes 14:22 | IT novinky

Společnost BenQ uvádí na trh novou řadu monitorů RD určenou pro programátory. První z nich je RD240Q.

Ladislav Hagara | Komentářů: 3

Superpočítač Frontier nadále zůstává nejvýkonnějším superpočítačem na světě (TOP500 06/2024)

dnes 13:00 | IT novinky

Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem nadále zůstává Frontier od HPE (Cray) s výkonem 1,206 exaFLOPS. Druhá Aurora má oproti loňsku přibližně dvojnásobný počet jader a dvojnásobný výkon: 1,012 exaFLOPS. Novým počítačem v první desítce je na 6. místě Alps. Novým českým počítačem v TOP500 je na 112. místě C24 ve Škoda Auto v Mladé Boleslavi. Ostravská Karolina, GPU

… více »

Ladislav Hagara | Komentářů: 0

GHC (Glasgow Haskell Compiler) 9.10.1

dnes 10:11 | Nová verze

GHC (Glasgow Haskell Compiler, Wikipedie), tj. překladač funkcionálního programovacího jazyka Haskell (Wikipedie), byl vydán ve verzi 9.10.1. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Linux 6.9

dnes 09:22 | Nová verze

Po 9 týdnech vývoje od vydání Linuxu 6.8 oznámil Linus Torvalds vydání Linuxu 6.9. Přehled novinek a vylepšení na LWN.net: první a druhá polovina začleňovacího okna. Později také na Linux Kernel Newbies.

Ladislav Hagara | Komentářů: 0

Pingora 0.2.0

11.5. 18:22 | Nová verze

Byla vydána verze 0.2.0 v Rustu napsaného frameworku Pingora pro vytváření rychlých, spolehlivých a programovatelných síťových systémů. Společnost Cloudflare jej letos v únoru uvolnila pod licencí Apache 2.0.

Ladislav Hagara | Komentářů: 0

xrdp 0.10.0

10.5. 19:11 | Nová verze

Open source RDP (Remote Desktop Protocol) server xrdp (Wikipedie) byl vydán ve verzi 0.10.0. Z novinek je vypíchnuta podpora GFX (Graphic Pipeline Extension). Nová větev řeší také několik bezpečnostních chyb.

Ladislav Hagara | Komentářů: 15

Rocky Linux 9.4

10.5. 04:11 | Nová verze

Rocky Linux byl vydán v nové stabilní verzi 9.4. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Dellu byla odcizena databáze zákazníků

9.5. 22:22 | Bezpečnostní upozornění

Dellu byla odcizena databáze zákazníků (jméno, adresa, seznam zakoupených produktů) [Customer Care, Bleeping Computer].

Ladislav Hagara | Komentářů: 22

Kdy Zed na Linuxu?

9.5. 21:11 | Zajímavý článek

V lednu byl otevřen editor kódů Zed od autorů editoru Atom a Tree-sitter. Tenkrát běžel pouze na macOS. Byl napevno svázán s Metalem. Situace se ale postupně mění. V aktuálním příspěvku Kdy Zed na Linuxu? na blogu Zedu vývojáři popisují aktuální stav. Blíží se alfa verze.

Ladislav Hagara | Komentářů: 61

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (70%)

Jsem člověk. (7%)

Opravdu jsem člověk! (11%)

Jsem něco jiného. (12%)

Celkem 205 hlasů

Komentářů: 14, poslední dnes 15:03

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Databázová poradna / Deduplikace hodnot v relační databázi

Štítky: ATD, data, databáze, chyba, modul, NAS, pole, práce, uložení, vyhledávání

Dotaz: Deduplikace hodnot v relační databázi

21.1.2014 13:28 xkucf03 | skóre: 49 | blog: xkucf03
Deduplikace hodnot v relační databázi

Přečteno: 662×

Odpovědět | Admin

K deduplikaci (odstranění redundance) nás vedou už normální formy, nicméně nejde jen o dodržování nějakých teoretických pouček, ale i o čistě praktické dopady – menší velikost databáze, rychlejší vyhledávání atd.

Jednu informaci bychom měli mít v databázi uloženou jen jednou a z ostatních míst se na ni odkazovat pomocí cizích klíčů.

Co ale dělat v případě, kdy na vstupu máme data v denormalizované podobě (dost běžný jev)?

Dejme tomu, že do databáze budeme ukládat logy (nemusí to být vůbec logy, je to jen příklad). A máme dokonce to štěstí, že máme zvlášť logovací hlášku a zvlášť její parametry a čas – hláška je např.

Chyba v komponentě XY, při parametrech a = {0}, b = {1}

a k tomu máme dvouprvkové pole parametrů a časové razítko vzniku události.

Hláška je konstantní zatímco parametry a čas se mohou měnit. Hlášek v jedné aplikaci budou třeba desítky nebo stovky, ale počty instancí logovaných událostí budou řádově mnohem vyšší.

Můžeme si tedy v databázi vytvořit číselník hlášek a na něj se odkazovat z tabulky událostí.

Tohle jsem si už vyzkoušel v malém a funguje to dobře – do tabulky „událostí“ (nejde o události, ale princip je stejný) neukládám hlášku jako text, ale v tom INSERTu zavolám funkci, která prohledá číselník, v případě potřeby přidá záznam a vrátí ID – tzn.

INSERT INTO udalost VALUES (:čas, moje_funkce(:hláška), …)

místo

INSERT INTO udalost VALUES (:čas, :hláška, …)

Nedochází k duplikacím, databáze je menší, vyhledávání rychlejší… ale při zápisu je potřeba projet číselník a případně do něj přidat nový záznam.

Na základě čeho byste se rozhodovali, zda zvolit tohle řešení (lepší uložení a čtení, ale horší zápis) nebo zda radši rezignovat na normalizaci a připustit duplicity?

Další možnost je přidávat nové záznamy do nějaké fronty (dočasné tabulky) a asynchronně dohledávat hodnoty v číselníku (resp. je tam přidávat) a přesouvat data do trvalé tabulky. Zápis tak může být rychlý a potřebná práce se udělá, až bude čas – ale zase nepůjde vyhledávat v úplně nejnovějších hodnotách.

Existuje k tomu nějaká abstrakce, aby člověk prostě volal INSERTy a SELECTy a nemusel se o nic víc starat? Třeba nějaká sada triggerů nebo modul do databáze? Nebo je potřeba si takovou věc napsat na míru?

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

Nástroje: Začni sledovat (1) ?

Odpovědi

21.1.2014 15:46 Kit | skóre: 45 | Brno
Rozbalit Rozbalit vše Re: Deduplikace hodnot v relační databázi

Podle mne je nejpoužívanější abstrakcí

CALL pridej_udalost(:čas, :hláška, …);

Zkoušel jsem i triggery, také to není špatné.

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

21.1.2014 16:45 xkucf03 | skóre: 49 | blog: xkucf03
Rozbalit Rozbalit vše Re: Deduplikace hodnot v relační databázi

To je více méně formalita, jestli to celé zabalíš do funkce/procedury nebo jestli je funkce jen ten kousek který pracuje s číselníkem a zbytek je standardní INSERT. Ale tak jako tak, tu funkci/proceduru musíš napsat na míru – což tedy v současnosti používám, ale šlo mi o to, zda nevynalézám znovu kolo a neexistuje třeba už něco hotového.

Mám rád, když se lidé přou, znamená to, že vědí, co dělají, a že mají směr. Frantovo.cz, SQL-DK, Relational pipes

21.1.2014 17:19 Filip Jirsák
Rozbalit Rozbalit vše Re: Deduplikace hodnot v relační databázi

Pokud sháníš sadu triggerů nebo modul, je potřeba napsat, pro jakou databázi. Pokud by pro ni náhodou něco takového existovalo – spíš bych ale řekl, že si to musíš napsat sám.

Rozhoduju se hlavně podle množství ukládaných dat – kolik se deduplikací ušetří. Řešil jsem to tak, že tabulka s deduplikovanými daty měla sloupeček hash, který sloužil jako primární klíč. Tím pádem procházení číselníku při zápisu nebylo nijak náročné. V případě zápisu velkých dat jsem zvažoval i variantu nejprve se databáze zeptat, zda daný hash zná, a teprve v případě záporné odpovědi poslat data s hashem. Ušetří se tím zbytečný přenos velkého objemu dat mezi aplikací a databází v případě, že by byl záznam duplicitní.

21.1.2014 17:54 jekub
Rozbalit Rozbalit vše Re: Deduplikace hodnot v relační databázi

Použil bych pohled, který odpovídá vstupním datům. K tomu trigger instead of insert, který to rozháže do skutečných tabulek (nebo cokoli jiného).

Při insertu nemusíte vědět jaké máte volat funkce, prostě tam sypete hodnoty. To může být výhodné při použití obecných nástrojů pro import.

Nebo data dodává třetí strana, které se zpřístupní takový pohled pro insert a nemusím se starat o vlastní nahrávání. Přitom skutečná struktura zůstává skryta.

Abych to shrnul - db klientovi stačí umět prostý insert, o nic dalšího se nemusí starat.

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje