Ukládání mailů do databáze

Dle mého názoru to nemá smysl, akorát si do budoucna zaděláš na problémy.

Co očekáváš od toho, že budeš mít emaily v databázi? Jak velký objem dat očekáváš?

-- Nezdar není hanbou, hanbou je strach z pokusu.

11.6.2006 15:31 (*.*)
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

No zatím maily ukládám do maildiru, což mi přijde přehlednější, ale při větším počtu uživatelů a jejich zpráv by to mohlo dělat problémy. Od databáze očekávám hlavně rychlost, přehlednost a snadnost při spravování ´´učtů.

11.6.2006 16:04 Martin Hudec
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Predstav si tri polgigove mailboxy v databaze.. Okej, to este ide :).. ale aku databazu chces vyuzit? A kolko RAM bude mat spominany server?

11.6.2006 19:55 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Email není od toho, aby se do něj ukládali GB data. Průměrný email má pár kB.

Heron

11.6.2006 16:24 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Jaké problémy u Maildiru očekáváš? :-)

S tou snadností spravování účtů si polepšíš, pokud budeš mít například konfiguraci uživatelů (účty, hesla, antivir, antispam...) v databázi (provozuju to tak a mám i docela dost instalací za sebou), ale data nechávej klidně na disku v Maildiru.

-- Nezdar není hanbou, hanbou je strach z pokusu.

11.6.2006 16:35 (*.*)
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Tady na abclinuxu i na jiných diskuzích jsem se dočetl, že filesystem takové množství souborů nesnese. Snad jen xfs a to jestli.

11.6.2006 16:37 Luboš Doležel (Doli) | skóre: 98 | blog: Doliho blog | Kladensko
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Kolik těch mailů plánujete? Teď mám na svém Reiseru skoro 700 000 souborů a problém s tím není.

11.6.2006 17:18 (*.*)
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Tolik asi ne. Tak je to asi vyřešeno. Jen bych se chtěl zeptat, když budu mít uživatele uloženy v mysql, se spamassassinem je to jasný, spamy se budou ukládat do user/Maildir/.Spam ,ale po projití amavisem by se ukladáli do /var/virusmail, to už asi nejde uložit jo do třeba user/Maildir/.Virus ?

11.6.2006 17:27 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Uživatelům se viry nedávaj. Pošle se jim upozornění že email obsahoval virus a komentář ve smyslu "jestli fakt chceš toho vira, tak mi napiš, tvůj admin" a je to.

-- Nezdar není hanbou, hanbou je strach z pokusu.

11.6.2006 19:51 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Já udělal test s 3mil soubory a to rozumně nezvládal žádný FS. Naproti tomu 5mil záznamů v DB není žádný problém.

Heron

11.6.2006 19:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Pořebuješ souborový systém, který je efektivně databáze. :-D

ReiserFS, by měl mít stejnou asymptotickou rychlost přístupu k položce jako databáze s B-Tree secondary access method, ne? Přinejmenším je to strom. Přiznávám ale, že jsem se v jeho vnitřnostech zatím nevrtal.

Jinak řečeno, principielně přeci není důvod, proč by to nešlo ve filesystému. Nejvyšší čas, aby se kvalitní FS začaly používat. :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 20:06 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

No nenašel jsem ho. Zkoušel jsem reiser, ext3, jfs, xfs. Žádný nefungoval tak efektivně jako DB, která je na vysoký počet záznamů a co nejrychlejší select stavěná (na rozdíl od FS, který má za hlavní úkol jiné věci, než efektivně prohledat miliony souborů).

Nevím, ukládání mailů do DB mi přijde naprosto logické. Naopak mi přijde nelogické mít 3GB textový soubor (MBOX) se statisíci emaily.

Heron

11.6.2006 20:30 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Myslím, že je celkem jedno, jestli ten soubor má 300 MB nebo 3000 MB. Jestli je archivační, vůbec na tom nesejde, mazání bude zřídkavé a compacting se dá udělat celkem snadno. Na hledání může být index stejně jako k databázi - a měl by být! Mám pocit, že třeba Evolution si ho dělá, dokonce fulltextový.

To neříkám na obhajobu MBOXu, jen mi přijde, že většina problémů je spíš s implementací než s konceptem.

Ve světle OS/400 a VMS RDB nevidím jediný důvod, proč by databází nemohl být souborový systém...problémem je snad jen fakt, že Unix je na takové věci příliš nechápavý... :-D

Ale iniciativy typu Reiser4 tomu snad učiní přítrž. Přeci jen v mezích zákona by k nějakému mírnému pokroku dojít mohlo, ne? ;-)

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 21:21 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Myslím, že je celkem jedno, jestli ten soubor má 300 MB nebo 3000 MB. Jestli je archivační, vůbec na tom nesejde, mazání bude zřídkavé a compacting se dá udělat celkem snadno. Na hledání může být index stejně jako k databázi - a měl by být! Mám pocit, že třeba Evolution si ho dělá, dokonce fulltextový.

Aby mohl server pracovat s e-maily efektivně, musí si k mboxu nebo maildiru vytvořit metadata, která popisují jednotlivé části e-mailu (aby se nemusel pokaždé znovu parsovat) a zaindexovat. Pak se takové poštovní schránky chopí Evolution nebo Thunderbird, který je zaměřen hlavně na POP3 a IMAP používá jen tak "bokem", všechny e-maily (nebo aspoň většinu) si stáhne do offline cache a zaindexuje si je. Uživatel se samozřejmě ke své poštovní schránce nepřipojuje jen z jednoho počítače, ale putuje po celé síti. Takže, v lepším případě, má e-maily na specializovaném poštovním serveru, ale přistupuje k nim skrze kopii e-mailů na souborovém serveru. V horším případě (cestovní profily Windows) má e-maily na serveru, a kopii celé schránky i s indexy si při každém přihlášení stahuje po síti a při odhlášení odesílá zpět. Mně to teda připadá padlé nahlavu.

Mimochodem, to ukládání e-mailů do mailboxů/maildirů jde proti koncepci Unixu, kdy každý program dělá jen jednu věc. Protože na hledání může být index stejně jako k databázi - a měl by být, a tak si poštovní server naimplementuje svou malou databázi…

11.6.2006 21:31 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Mimochodem, to ukládání e-mailů do mailboxů/maildirů jde proti koncepci Unixu, kdy každý program dělá jen jednu věc. Protože na hledání může být index stejně jako k databázi - a měl by být, a tak si poštovní server naimplementuje svou malou databázi…

Přesně tohle mě napadlo, když jsem si vybíral (a nevybral) emailovýho klienta :-D

Heron

11.6.2006 20:29 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Jenže ResiserFS ten strom používá nejspíš pro hledání sektoru začátku souboru dle čísla inode. Souborový systém může ještě tak maximálně strom používat k hledání názvu souboru. Obsah souboru ale IMHO žádný souborový systém neindexuje (tedy s výjimkou WinFS, nebo jak se má jmenovat ten zázrak, co měl být ve Windows Vista a bude až později). Databáze oproti tomu může strom používat k vhledávání v libovolném sloupci tabulky.

Navíc i kdyby filesystémové stromy mohly něco urychlit, nemá k nim aplikace přístup. Když potřebuje (třeba IMAP) otevřít třetí soubor v pořadí, nemůže zavolat žádnou funkci open(3rd), ale musí si načíst seznam všech souborů, seřadit je a najít třetí a n a ten pak dát open(file_name). Pro tu nejkritičtejší operaci (najít 3. prvek) by se sice strom FS dal použít, ale aplikace ho nemá k dispozici.

11.6.2006 20:36 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

"Jenže ResiserFS ten strom používá nejspíš pro hledání sektoru začátku souboru dle čísla inode"

A není tohle nesmysl? Operace nalezení prvního sektoru podle inode je snad otázkou jednoho diskového fetche, alespoň v tradičním unixovém FS. Problémem je hledání čísla inode u velikých adresářů ve filesystémech, které adresář implementují jako prostý lineární vektor dvojic (název, inode).

Jestliže bude v adresáři třetí soubor mít název "0000003", aplikace ho otevře pod tímto názvem. Následně FS musí najít inode, což je u tradičního unixového FS obecně O(N) operace, pokud hledám náhodný soubor v adresáři s N soubory, ale pokud FS udržuje mapování z názvů na inody ve stromu (Reiser, tuším...), pak je to O(log N). Takže aplikace má ten strom k dipozici, poněvadž adresuje soubory podle názvů.

Nebo mi něco uniklo?

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 20:40 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Hmm, jestli jsem to pochopil správně, tak Reiser bude mít pomalejší hledání inode podle čísla, ale i tak, 2xO(log N) by mělo být rychlejší než O(1)+O(N), alespoň tedy u toho velkého adresáře...

Že já blb si ještě nenašel čas si ty papery projít... :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 20:44 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Tohle je sice pravda a je dobré, že moderní filesystémy jdou touto cestou, ale FS si neporadí a z principu ani nemůže poradit např. s vyhledáním všech emailů od autora X ne starší než Y dnů. Tohle je na jeden SELECT do DB.

Heron

11.6.2006 20:55 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

"moderní filesystémy"

Jsou různé dimenze modernosti... :-D

Podle některých z nich není z linuxových FS moderní ani jeden. ;-)

Pro některé dnes již bohužel zapomenuté (nebo nepříliš běžně používané) by totiž tahle indexace zřejmě nebyla problém. Ach jo, jak já se těším na Reiser4.

Zrovna to řeší kamarád, co vyvíjí über-programovací jazyk, že tradiční FS je moc omezený a že ho do svého operačního systému nechce. ;-)

Perzistentní heap by byla docela sranda. :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 20:57 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Jinak teda pokud je dnešní situace tak tristní, co takhle implementovat mysqlfs, přidat rozhraní pro dotazování a vystrčit na Billa prostředníček? :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 21:04 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Jinak teda pokud je dnešní situace tak tristní

Tristní... Těžko říct. Častěji než bych byl rád narážím na problémy u věcí, kde bych čekal, že jsou dávno vyřešené (no možná že jsou, ale firmy na to mají patenty a není to open source :-( ).

Heron

11.6.2006 21:05 Libor Klepac | skóre: 45 | Mýto
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

neco takoveho uz myslim existuje, pro FUSE ...

Urine should only be green if you're Mr. Spock.

11.6.2006 21:06 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Mno jo, ale FUSE zní nebezpečně... :-)

Kdo by chtel používat FS, jehož jedna implementační vrstva se jmenuje ROZBUŠKA? :-D

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 21:00 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Zrovna to řeší kamarád, co vyvíjí über-programovací jazyk,

Mno až vystřízlivým z oslav po státnicích, tak se vrhnu na MBOX2SQL. A udělám nad tím pár testů. Na netu jsem to nikde nenašel, pokud někdo něco podobného zná, tak prosím, dejte sem link.

Perzistentní heap by byla docela sranda.

Tak to zcela určitě :-D

Heron

11.6.2006 21:05 Kyosuke | skóre: 28 | blog: nalady_v_modre
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Taky nenašel, i když jsem dneska hledal, ale vzhledem ke struktuře MBOXu by to mělo být za chviličku, ne? ;-)

Jo a grafuluju! :-)

Jak moc jsou ábíčkáři inteligentní? ;-)

11.6.2006 21:11 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Dík.

Mno, za chviličku to určitě nebude.

Nechci vzít MBOX a všechny emaily dát do jedné tabulky. To bych si moc nepomohl. Například by bylo dobrý dát odesílatele (kontakty) do vlastní tabulky a do hlavní tabulky emailů dát jen jejich ID -> rychlejší vyhledávání podle kontaktu. Atd. Toho se tam najde víc, zatím jsem nad tím moc nepřemýšlel.

Heron

12.6.2006 15:43 Josef Kufner | skóre: 70
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Ale tak to je snad základní věc, když se na něco používá databáze ;-)

Hello world ! Segmentation fault (core dumped)

12.6.2006 21:00 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Ano to je.

Mno ale viděl jsem tabulky ... no škoda mluvit. Každý zná dost odstrašujících případů.

Heron

11.6.2006 21:08 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

"Jenže ResiserFS ten strom používá nejspíš pro hledání sektoru začátku souboru dle čísla inode"
A není tohle nesmysl? Operace nalezení prvního sektoru podle inode je snad otázkou jednoho diskového fetche, alespoň v tradičním unixovém FS. Problémem je hledání čísla inode u velikých adresářů ve filesystémech, které adresář implementují jako prostý lineární vektor dvojic (název, inode).

Měl jsem na mysli hledání souboru ve velkém adresáři, moc jsem to zjednodušil ;-)

Jestliže bude v adresáři třetí soubor mít název "0000003", aplikace ho otevře pod tímto názvem. Následně FS musí najít inode, což je u tradičního unixového FS obecně O(N) operace, pokud hledám náhodný soubor v adresáři s N soubory, ale pokud FS udržuje mapování z názvů na inody ve stromu (Reiser, tuším...), pak je to O(log N). Takže aplikace má ten strom k dipozici, poněvadž adresuje soubory podle názvů.

Pokud bude mít uživatel ve složce 1000 e-mailů a rozhodne se třetí smazat, soubory 000004 až 001000 se přečíslují? Děkuji nechci ;-)

A zrovna IMAP musí umět vyhledat e-mail podle jeho "absolutního čísla" – identifikátoru, který se nemění (pokud je to možné), i podle pořadí e-mailu ve složce. A to ještě nemluvím o vyhledávání podle obsahu…

11.6.2006 17:33 Filip Jirsák | skóre: 67 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Ukládání mailů do databáze

Objem dat v řádu gigabajtů by snad pro databázi neměl být žádný problém, ne? Navíc u databáze můžu s východou použít indexy pro různé třídění a vyhledávání – to musí IMAP server buď řešit také (a mít nějaký vlastní index), a nebo pokaždé prohledávat maildir (a to pak výkonostně asi nebude nic moc).

Jak dnes vůbec řešíte mailové schránky? Uživatelé jsou zvyklí na gigové schránky z freemailů, poštu nemažou ale archivují… Mně osobně to moc nejde dohromady s klasickým pojetím schránek – maildir, nad tím IMAP server a poštovní klienti, kteří si stejně minimálně část dat z IMAP serveru lokálně cachují, lokálně nad tím vyhledávají – to pro gigové schránky moc použitelné není…

Dotaz: Ukládání mailů do databáze

Odpovědi