abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 23:45 | Zajímavý software

Na blogu Qt bylo představeno Qt 3D Studio. Jedná se o produkt dosud známý pod názvem NVIDIA DRIVE™ Design Studio. NVIDIA jej věnovala Qt. Jedná se o několik set tisíc řádků zdrojového kódu. Qt 3D Studio bude stejně jako Qt k dispozici jak pod open source, tak pod komerční licencí. Ukázka práce s Qt 3D Studiem na YouTube.

Ladislav Hagara | Komentářů: 0
včera 17:50 | Komunita

Nadace The Document Foundation (TDF) zastřešující vývoj svobodného kancelářského balíku LibreOffice slaví 5 let od svého oficiálního vzniku. Nadace byla představena 28. září 2010. Formálně byla založena ale až 17. února 2012.

Ladislav Hagara | Komentářů: 0
včera 12:50 | Komunita

Mozilla.cz informuje, že dosud experimentální funkce Page Shot z programu Firefox Test Pilot (zprávička) se stane součástí Firefoxu. Page Shot je nástroj pro vytváření snímků webových stránek. Umí výběr oblasti, prvku stránky (např. odstavce), nebo uložení snímku celé stránky. Snímky lze ukládat na disk nebo nahrávat na server Mozilly. Nedávno bylo oznámeno, že se součástí Firefoxu stane Activity Stream.

Ladislav Hagara | Komentářů: 7
včera 04:10 | Nová verze

Po 10 týdnech vývoje od vydání Linuxu 4.9 (zprávička) oznámil Linus Torvalds, mj. již 20 let žijící v USA, vydání Linuxu 4.10 (LKML). Přehled nových vlastností a vylepšení například na Kernel Newbies a v Jaderných novinách (1, 2 a 3). Kódové jméno Linuxu 4.10 je Fearless Coyote.

Ladislav Hagara | Komentářů: 4
19.2. 15:55 | Zajímavý projekt

Vyzkoušet si příkazy a vyřešit několik úkolů lze na stránkách Commandline Challenge (CMD Challenge). Úkoly lze řešit různými způsoby, důležitý je výsledek. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.

Ladislav Hagara | Komentářů: 18
18.2. 17:35 | Bezpečnostní upozornění

Německá Bundesnetzagentur (obdoba českého ČTU) zakázala na německém území prodej panenky Cayla kvůli „špionáži“ dětí. Tato elektronická hračka obsahuje mikrofon, reproduktor a kameru a bezdrátové komunikační rozhraní, pomocí kterého se hračka připojuje na servery výrobce. Takovýmto způsobem může hračka pomocí umělé inteligence „odpovídat“ na dotazy dítěte. Hlavní problém bude ale asi někde jinde, podle prvotních zpráv může

… více »
Petr Tomášek | Komentářů: 31
17.2. 15:30 | Bezpečnostní upozornění

CSIRT.CZ upozorňuje, že bezpečnostní experti objevili nový typ malwaru, jenž cílí na open source e-commerce platformu Magento. Malware je zajímavý tím, že se jedná o první svého druhu, jehož kód zůstává skrytý v SQL databázi zasaženého e-shopu. Škodlivý kód je volán pomocí tzv. SQL trigerru, který je spouštěn při každém vytvoření objednávky v systému.

Ladislav Hagara | Komentářů: 3
17.2. 09:00 | Nová verze

Bylo vydáno Ubuntu 16.04.2 LTS, tj. druhé opravné vydání Ubuntu 16.04 LTS s kódovým názvem Xenial Xerus. Přehled novinek v poznámkách k vydání a v přehledu změn.

Ladislav Hagara | Komentářů: 57
17.2. 06:00 | Zajímavý článek

Pavel Tišnovský se v dvoudílném článku na MojeFedora.cz věnuje tvorbě pluginů (modulů) pro bitmapový grafický editor GIMP. Pomocí pluginů lze GIMP rozšiřovat o další funkce. Implementovat lze například nové filtry nebo pomocné utility pro tvorbu animací či poloautomatickou retuš snímků.

Ladislav Hagara | Komentářů: 6
16.2. 23:32 | Komunita

Do 30. března se lze přihlásit do dalšího kola programu Outreachy, jehož cílem je přitáhnout do světa svobodného a otevřeného softwaru lidi ze skupin, jež jsou ve světě svobodného a otevřeného softwaru málo zastoupeny. Za 3 měsíce práce, od 30. května do 30. srpna 2017, v participujících organizacích lze vydělat 5 500 USD. Jedná se již o 14. kolo tohoto programu.

Ladislav Hagara | Komentářů: 11
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (13%)
 (2%)
 (71%)
 (3%)
 (10%)
Celkem 669 hlasů
 Komentářů: 53, poslední včera 18:38
Rozcestník
Reklama

Dotaz: python - hlavička emailu

22.10.2015 08:10 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
python - hlavička emailu
Přečteno: 451×
Zdravím,

snažím se během zálohování emailů vytvořit jakousi databázi té zálohy. K tomu potřebuji každý soubor s el. poštou analyzovat a vybrat hlavičky, které mne zajímají.

zkusil jsem to nejprve v bash přes reformime .. což o to, hlavičky mi to vracelo, ale cat | reformime .... 4x se stejným souborem kvůli čtyřem hlavičkám mi přijde neefektivní ( emailů je kolem 180 GB ). Navíc jsem musel hlavičky stejně ošetřit pythonem (dekódovat).

Zkusil jsem tedy načtení hlaviček napsat kompletně v Pythonu. Python má nějaké rozšíření mail, ale nepřišel jsem mu na kloub, a způsoben, jakým jsem s ho snažil použít mi stále vyhazoval exceptions u dekódování "To :" ( tak jeden z 50-ti emailů mu neseděl .. ono to zlobilo i s tím reformime a následným dekódováním) ..

Tady chci představit mou práci (jsem pořád začátečník) požádat o korekce příp navrhnout jinou cestu.

předem díky.

Toto je jen funkce, která vytáhne hlavičky. na vzorku emailů se to chovalo korektně, ale možná narazím na nějaké exotické emaily, kde bude výsledek horší.

Funkce je lehce přizpůsobená z mail.headers (kde problém dělal použitý regulární výraz, jak jsem zjistil ) - regulární výraz je hahrazen otrockou smyčkou ..

def getheaders ( file_handler ):
	headers={}
	needed_headers = ["From: ", "To: ", "Subject: ", "Date: "]
	we_read = False
	for mail_line in file_handler:
		if ( we_read == True ):
			if( mail_line.startswith(' ') ):
				cur_header += " "+mail_line.strip();
			else:
				headers[h] = cur_header[len(h):]
				needed_headers.remove(h)
				we_read = False
		if ( we_read == False ):		
			for h in needed_headers:
				if( mail_line.startswith( h ) ):
					cur_header=mail_line.strip()
					we_read = True
					break
		if( len(needed_headers) == 0 ):
			break
	#print "headers - TO: "
	#print headers["To: "]
	return headers

Odpovědi

mika-talvinen avatar 22.10.2015 11:35 mika-talvinen | skóre: 23 | Plzeň
Rozbalit Rozbalit vše Re: python - hlavička emailu
Používat tuhle, jak říkáte otrockou smyčku, tomu bych se vyhnul. Tipoval bych, že zrovna v tomhle bude problém a jeden z X emailů neprojde.

Našel jsem ovšem tohle a k tomu dokumentaci. Jak je zde psáno: The email package provides a standard parser that understands most email document structures. To by mohlo být řešení pro vás. Nicméně jsem emaily parsovat nezkoušel, pouze vytvářet pomocí tohoto modulu. Tímto byste dostal objekt Message, kde se díky implementované __getitem__ metodě dá dostat k headers jako ke slovníku.
22.10.2015 13:24 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
Rozbalit Rozbalit vše Re: python - hlavička emailu
aha .. no vídíte,

já prvně používal email.header na už (reformime) vykousané hlavičky, a tam mne to zlobilo. Moje předvedené řešení zatím funguje. problém byl v tom, že email.header nebokázal tím regexpem co má v sobě správně roztrhat některé "To: " položky.

Liskám to v Py 2.7 (prozatím) na serveru jsem novější verzi doposud nepotřeboval.

našel jsem si konkrétní zprávy, které způsobovaly problém a testuju to hlavně na nich. tak to ještě zkusím s tím vašim návrhem.

Jinak děkuji za námět.
26.10.2015 13:40 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
Rozbalit Rozbalit vše Re: python - hlavička emailu
Takže prozatím ( plno práce okolo ) jsem dospěl k tomuto návrhu, ale bohužel, ani toto neparsuje pole adresátů u mnoha emailů správně. Nebudu se v tom pořád hrabat, původní řešení bylo funkční - i když "otrocké", tak to nebudu měnit.

Řešení je pro PY 2.7, pokud by někdo chtěl s tímto zápasit ..
def get_headers2( file_handler ):
	headers={}
	needed_headers = ["From", "To", "Subject", "Date"]
	msg = email.message_from_file( file_handler )
	for h in needed_headers:
		curr_header = email.header.decode_header( msg.get( h ) )
		header_sections = [unicode(text, charset or 'ASCII', "ignore") for text, charset in curr_header ]
		headers[ h ] = u"".join(header_sections)
	mail_date = msg.get( "Date" )
	if ( mail_date ):
		tup_date = email.utils.parsedate_tz( mail_date )
		if ( tup_date ):
			ts_date = email.utils.mktime_tz( tup_date )
			if ( ts_date ):
				mail_date = datetime.datetime.fromtimestamp( ts_date ).strftime( '%Y-%m-%d %H:%M:%S' )
	headers[ 'Date' ] = mail_date
	return headers

Zpracování datumu je tam odbyté, ale nepotřebuji na sekundu přesně čas, tak jsem to víc neřešil..
24.10.2015 09:43 Snow
Rozbalit Rozbalit vše Re: python - hlavička emailu
fuj to tvoje formátování kodu je víc než ohavné.
26.10.2015 13:40 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
Rozbalit Rozbalit vše Re: python - hlavička emailu
ulevilo se ti ?
27.10.2015 13:01 fi
Rozbalit Rozbalit vše notmuch
Nehodilo by se vam pouzit toto na spravu metadat o emailech: https://notmuchmail.org/ a pak si to napsat treba v shellu?
4.11.2015 07:18 Milan Uhrák | skóre: 25 | blog: milan_at_ABC
Rozbalit Rozbalit vše Re: notmuch
děkuji, je to zajímavý kanón ... ale ten pythonský kód už vlastně funguje (ale člověk jen zírá, co vše "dokáži" zprasit tzv. email programy - od neskutečných popisů datumu, přes neuvedení charsetu v jiných polích ... Čas odeslání ale v kreativitě vede. ) a drobná škobrtnutí jsou ošetřena dostatečně. Netvořím systém pro další databázové zpracování, ale zase se párkrát stane, že někdo hledá starý smazaný email, a tento výcuc metadat by měl pomoct (dříve, než archiv rozbalím ) určit, jestli má cenu to rozbalovat.

Tohle je krátký, svižný - byť jednoúčelový - kód, který již dělá, co má.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.