Portál AbcLinuxu, 11. května 2025 00:43
cat | reformime ....
4x se stejným souborem kvůli čtyřem hlavičkám mi přijde neefektivní ( emailů je kolem 180 GB ). Navíc jsem musel hlavičky stejně ošetřit pythonem (dekódovat).
Zkusil jsem tedy načtení hlaviček napsat kompletně v Pythonu. Python má nějaké rozšíření mail, ale nepřišel jsem mu na kloub, a způsoben, jakým jsem s ho snažil použít mi stále vyhazoval exceptions u dekódování "To :" ( tak jeden z 50-ti emailů mu neseděl .. ono to zlobilo i s tím reformime a následným dekódováním) ..
Tady chci představit mou práci (jsem pořád začátečník) požádat o korekce příp navrhnout jinou cestu.
předem díky.
Toto je jen funkce, která vytáhne hlavičky. na vzorku emailů se to chovalo korektně, ale možná narazím na nějaké exotické emaily, kde bude výsledek horší.
Funkce je lehce přizpůsobená z mail.headers (kde problém dělal použitý regulární výraz, jak jsem zjistil ) - regulární výraz je hahrazen otrockou smyčkou ..
def getheaders ( file_handler ): headers={} needed_headers = ["From: ", "To: ", "Subject: ", "Date: "] we_read = False for mail_line in file_handler: if ( we_read == True ): if( mail_line.startswith(' ') ): cur_header += " "+mail_line.strip(); else: headers[h] = cur_header[len(h):] needed_headers.remove(h) we_read = False if ( we_read == False ): for h in needed_headers: if( mail_line.startswith( h ) ): cur_header=mail_line.strip() we_read = True break if( len(needed_headers) == 0 ): break #print "headers - TO: " #print headers["To: "] return headers
def get_headers2( file_handler ): headers={} needed_headers = ["From", "To", "Subject", "Date"] msg = email.message_from_file( file_handler ) for h in needed_headers: curr_header = email.header.decode_header( msg.get( h ) ) header_sections = [unicode(text, charset or 'ASCII', "ignore") for text, charset in curr_header ] headers[ h ] = u"".join(header_sections) mail_date = msg.get( "Date" ) if ( mail_date ): tup_date = email.utils.parsedate_tz( mail_date ) if ( tup_date ): ts_date = email.utils.mktime_tz( tup_date ) if ( ts_date ): mail_date = datetime.datetime.fromtimestamp( ts_date ).strftime( '%Y-%m-%d %H:%M:%S' ) headers[ 'Date' ] = mail_date return headersZpracování datumu je tam odbyté, ale nepotřebuji na sekundu přesně čas, tak jsem to víc neřešil..
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.