abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 20:40 | Zajímavý článek

Lukáš Růžička v článku S Hydrogenem za lepší rytmus aneb bubeníkem snadno a rychle na MojeFedora.cz představuje automatického bubeníka s názvem Hydrogen (Wikipedie): Hydrogen je velmi vydařený program, který rozhodně nesmí chybět ve výbavě žádného linuxového muzikanta. Umožňuje nejen vytváření jednoduchých bicích doprovodů, ale také sofistikované programování bicích a perkusí, jehož výsledek se naprosto vyrovná drahým

… více »
Ladislav Hagara | Komentářů: 0
dnes 13:55 | Zajímavý projekt

UPSat (Twitter) je první open source nanodružice (CubeSat). Jedná se o společný projekt nadace Libre Space Foundation a University of Patras. Repozitáře projektu jsou k dispozici na GitHubu. Pod Libre Space Foundation patří také projekt SatNOGS (zprávička), projekt globální sítě open source pozemních satelitních stanic, vítězný projekt soutěže The Hackaday Prize 2014. UPSat je součástí mise QB50 (Twitter). ID UPSatu je GR02. GPS přijímač na UPSatu je od české společnosti SkyFox Labs. Součástí mise QB50 je i česká nanodružice VZLUSAT-1 s ID CZ02.

Ladislav Hagara | Komentářů: 3
21.4. 15:00 | Komunita

V diskusním listu Thunderbird planning vývojáři poštovního klienta Thunderbird řeší, zda by nebylo možné budoucí Thunderbird postavit nad webovými technologiemi, tj. nad Electronem, stejně jako například Nylas Mail. Gecko, nad kterým je Thunderbird postaven, se má hodně změnit. V plánu je odstranění vlastností, které Firefox už nepotřebuje, ale Thunderbird je na nich závislý [Hacker News, reddit].

Ladislav Hagara | Komentářů: 81
21.4. 10:22 | Bezpečnostní upozornění

Společnost Oracle vydala čtvrtletní bezpečnostní aktualizaci svých softwarových produktů (CPU, Critical Patch Update). Opraveno bylo celkově 299 bezpečnostních chyb. V Oracle Java SE je například opraveno 8 bezpečnostních chyb. Vzdáleně zneužitelných bez autentizace je 7 z nich. V Oracle MySQL je opraveno 39 bezpečnostních chyb. Vzdáleně zneužitelných bez autentizace je 11 z nich.

Ladislav Hagara | Komentářů: 6
21.4. 10:00 | Pozvánky

V úterý 25. dubna proběhne další Prague Containers Meetup. Přijďte se nechat inspirovat jak zlepšit build/delivery pipeline vašich kontejnerových aplikací.

little-drunk-jesus | Komentářů: 2
20.4. 21:33 | Komunita

Na Launchpadu se objevilo kódové jméno následující verze Ubuntu. Ubuntu 17.10 bude Artful Aardvark (mazaný hrabáč) [OMG! Ubuntu!].

Ladislav Hagara | Komentářů: 10
20.4. 20:11 | Zajímavý software

MojeFedora.cz informuje, že společnost Nylas oznámila vydání verze 2.0 poštovního klienta Nylas Mail (původně Nylas N1), která již plně podporuje Linux. Obchodní model společnosti je tzv. open core. Samotný klient je open source, ale uživatel si musí připlatit za některé pokročilé funkce. V základu se lze připojit k GMailu nebo libovolnému účtu přes IMAP. Podpora Exchange je pouze v placené verzi. Klient je napsaný nad Electronem.

Ladislav Hagara | Komentářů: 12
20.4. 15:55 | Zajímavý článek

České centrum pro investigativní žurnalistiku (ČCIŽ) publikovalo na svých stránkách článek s názvem Je česká státní správa „rukojmím Microsoftu“?. Drtivá většina české veřejné správy je závislá na výrobcích softwarového gigantu Microsoft – a nijak zvlášť jí to nevadí.

Ladislav Hagara | Komentářů: 18
20.4. 02:48 | Nová verze

Google Chrome 58 byl prohlášen za stabilní. Nejnovější stabilní verze 58.0.3029.81 tohoto webového prohlížeče přináší řadu oprav a vylepšení (YouTube). Opraveno bylo 29 bezpečnostních chyb. Mezi nimi i chyba umožňující phishing s unicode doménami.

Ladislav Hagara | Komentářů: 0
19.4. 22:44 | Nová verze

Po šesti týdnech od vydání verze 52.0 byla vydána verze 53.0 webového prohlížeče Mozilla Firefox. Z novinek lze upozornit například na nové kompaktní vzhledy – tmavý z Firefoxu Developer Edition a jeho světlá varianta. Na Linuxu byla ukončena podpora procesorů starších než Pentium 4 a AMD Opteron. Podrobné informace v poznámkách k vydání a na stránce věnované vývojářům. Řešeny jsou také bezpečnostní chyby.

Ladislav Hagara | Komentářů: 11
Chystáte se pořídit CPU AMD Ryzen?
 (4%)
 (35%)
 (0%)
 (7%)
 (45%)
 (10%)
Celkem 273 hlasů
 Komentářů: 31, poslední 20.4. 21:26
    Rozcestník

    Dotaz: python - hlavička emailu

    22.10.2015 08:10 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
    python - hlavička emailu
    Přečteno: 454×
    Zdravím,

    snažím se během zálohování emailů vytvořit jakousi databázi té zálohy. K tomu potřebuji každý soubor s el. poštou analyzovat a vybrat hlavičky, které mne zajímají.

    zkusil jsem to nejprve v bash přes reformime .. což o to, hlavičky mi to vracelo, ale cat | reformime .... 4x se stejným souborem kvůli čtyřem hlavičkám mi přijde neefektivní ( emailů je kolem 180 GB ). Navíc jsem musel hlavičky stejně ošetřit pythonem (dekódovat).

    Zkusil jsem tedy načtení hlaviček napsat kompletně v Pythonu. Python má nějaké rozšíření mail, ale nepřišel jsem mu na kloub, a způsoben, jakým jsem s ho snažil použít mi stále vyhazoval exceptions u dekódování "To :" ( tak jeden z 50-ti emailů mu neseděl .. ono to zlobilo i s tím reformime a následným dekódováním) ..

    Tady chci představit mou práci (jsem pořád začátečník) požádat o korekce příp navrhnout jinou cestu.

    předem díky.

    Toto je jen funkce, která vytáhne hlavičky. na vzorku emailů se to chovalo korektně, ale možná narazím na nějaké exotické emaily, kde bude výsledek horší.

    Funkce je lehce přizpůsobená z mail.headers (kde problém dělal použitý regulární výraz, jak jsem zjistil ) - regulární výraz je hahrazen otrockou smyčkou ..

    def getheaders ( file_handler ):
    	headers={}
    	needed_headers = ["From: ", "To: ", "Subject: ", "Date: "]
    	we_read = False
    	for mail_line in file_handler:
    		if ( we_read == True ):
    			if( mail_line.startswith(' ') ):
    				cur_header += " "+mail_line.strip();
    			else:
    				headers[h] = cur_header[len(h):]
    				needed_headers.remove(h)
    				we_read = False
    		if ( we_read == False ):		
    			for h in needed_headers:
    				if( mail_line.startswith( h ) ):
    					cur_header=mail_line.strip()
    					we_read = True
    					break
    		if( len(needed_headers) == 0 ):
    			break
    	#print "headers - TO: "
    	#print headers["To: "]
    	return headers
    

    Odpovědi

    mika-talvinen avatar 22.10.2015 11:35 mika-talvinen | skóre: 23 | Plzeň
    Rozbalit Rozbalit vše Re: python - hlavička emailu
    Používat tuhle, jak říkáte otrockou smyčku, tomu bych se vyhnul. Tipoval bych, že zrovna v tomhle bude problém a jeden z X emailů neprojde.

    Našel jsem ovšem tohle a k tomu dokumentaci. Jak je zde psáno: The email package provides a standard parser that understands most email document structures. To by mohlo být řešení pro vás. Nicméně jsem emaily parsovat nezkoušel, pouze vytvářet pomocí tohoto modulu. Tímto byste dostal objekt Message, kde se díky implementované __getitem__ metodě dá dostat k headers jako ke slovníku.
    22.10.2015 13:24 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
    Rozbalit Rozbalit vše Re: python - hlavička emailu
    aha .. no vídíte,

    já prvně používal email.header na už (reformime) vykousané hlavičky, a tam mne to zlobilo. Moje předvedené řešení zatím funguje. problém byl v tom, že email.header nebokázal tím regexpem co má v sobě správně roztrhat některé "To: " položky.

    Liskám to v Py 2.7 (prozatím) na serveru jsem novější verzi doposud nepotřeboval.

    našel jsem si konkrétní zprávy, které způsobovaly problém a testuju to hlavně na nich. tak to ještě zkusím s tím vašim návrhem.

    Jinak děkuji za námět.
    26.10.2015 13:40 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
    Rozbalit Rozbalit vše Re: python - hlavička emailu
    Takže prozatím ( plno práce okolo ) jsem dospěl k tomuto návrhu, ale bohužel, ani toto neparsuje pole adresátů u mnoha emailů správně. Nebudu se v tom pořád hrabat, původní řešení bylo funkční - i když "otrocké", tak to nebudu měnit.

    Řešení je pro PY 2.7, pokud by někdo chtěl s tímto zápasit ..
    def get_headers2( file_handler ):
    	headers={}
    	needed_headers = ["From", "To", "Subject", "Date"]
    	msg = email.message_from_file( file_handler )
    	for h in needed_headers:
    		curr_header = email.header.decode_header( msg.get( h ) )
    		header_sections = [unicode(text, charset or 'ASCII', "ignore") for text, charset in curr_header ]
    		headers[ h ] = u"".join(header_sections)
    	mail_date = msg.get( "Date" )
    	if ( mail_date ):
    		tup_date = email.utils.parsedate_tz( mail_date )
    		if ( tup_date ):
    			ts_date = email.utils.mktime_tz( tup_date )
    			if ( ts_date ):
    				mail_date = datetime.datetime.fromtimestamp( ts_date ).strftime( '%Y-%m-%d %H:%M:%S' )
    	headers[ 'Date' ] = mail_date
    	return headers
    
    

    Zpracování datumu je tam odbyté, ale nepotřebuji na sekundu přesně čas, tak jsem to víc neřešil..
    24.10.2015 09:43 Snow
    Rozbalit Rozbalit vše Re: python - hlavička emailu
    fuj to tvoje formátování kodu je víc než ohavné.
    26.10.2015 13:40 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
    Rozbalit Rozbalit vše Re: python - hlavička emailu
    ulevilo se ti ?
    27.10.2015 13:01 fi
    Rozbalit Rozbalit vše notmuch
    Nehodilo by se vam pouzit toto na spravu metadat o emailech: https://notmuchmail.org/ a pak si to napsat treba v shellu?
    4.11.2015 07:18 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
    Rozbalit Rozbalit vše Re: notmuch
    děkuji, je to zajímavý kanón ... ale ten pythonský kód už vlastně funguje (ale člověk jen zírá, co vše "dokáži" zprasit tzv. email programy - od neskutečných popisů datumu, přes neuvedení charsetu v jiných polích ... Čas odeslání ale v kreativitě vede. ) a drobná škobrtnutí jsou ošetřena dostatečně. Netvořím systém pro další databázové zpracování, ale zase se párkrát stane, že někdo hledá starý smazaný email, a tento výcuc metadat by měl pomoct (dříve, než archiv rozbalím ) určit, jestli má cenu to rozbalovat.

    Tohle je krátký, svižný - byť jednoúčelový - kód, který již dělá, co má.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.