abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
včera 17:35 | Bezpečnostní upozornění

Německá Bundesnetzagentur (obdoba českého ČTU) zakázala na německém území prodej panenky Cayla kvůli „špionáži“ dětí. Tato elektronická hračka obsahuje mikrofon, reproduktor a kameru a bezdrátové komunikační rozhraní, pomocí kterého se hračka připojuje na servery výrobce. Takovýmto způsobem může hračka pomocí umělé inteligence „odpovídat“ na dotazy dítěte. Hlavní problém bude ale asi někde jinde, podle prvotních zpráv může

… více »
Petr Tomášek | Komentářů: 21
17.2. 15:30 | Bezpečnostní upozornění

CSIRT.CZ upozorňuje, že bezpečnostní experti objevili nový typ malwaru, jenž cílí na open source e-commerce platformu Magento. Malware je zajímavý tím, že se jedná o první svého druhu, jehož kód zůstává skrytý v SQL databázi zasaženého e-shopu. Škodlivý kód je volán pomocí tzv. SQL trigerru, který je spouštěn při každém vytvoření objednávky v systému.

Ladislav Hagara | Komentářů: 0
17.2. 09:00 | Nová verze

Bylo vydáno Ubuntu 16.04.2 LTS, tj. druhé opravné vydání Ubuntu 16.04 LTS s kódovým názvem Xenial Xerus. Přehled novinek v poznámkách k vydání a v přehledu změn.

Ladislav Hagara | Komentářů: 37
17.2. 06:00 | Zajímavý článek

Pavel Tišnovský se v dvoudílném článku na MojeFedora.cz věnuje tvorbě pluginů (modulů) pro bitmapový grafický editor GIMP. Pomocí pluginů lze GIMP rozšiřovat o další funkce. Implementovat lze například nové filtry nebo pomocné utility pro tvorbu animací či poloautomatickou retuš snímků.

Ladislav Hagara | Komentářů: 6
16.2. 23:32 | Komunita

Do 30. března se lze přihlásit do dalšího kola programu Outreachy, jehož cílem je přitáhnout do světa svobodného a otevřeného softwaru lidi ze skupin, jež jsou ve světě svobodného a otevřeného softwaru málo zastoupeny. Za 3 měsíce práce, od 30. května do 30. srpna 2017, v participujících organizacích lze vydělat 5 500 USD. Jedná se již o 14. kolo tohoto programu.

Ladislav Hagara | Komentářů: 11
16.2. 23:13 | Nová verze

Byla vydána verze 0.92.1 svobodného multiplatformního vektorového grafického editoru Inkscape. Přehled novinek v poznámkách k vydání. Řešen je mimo jiné problém s verzí 0.92, jež rozbíjí dokumenty vytvořené v předchozích verzích Inkscape. Více v příspěvku na blogu Davida Revoye, autora open source webového komiksu Pepper&Carrot nebo portrétu GNU/Linuxu.

Ladislav Hagara | Komentářů: 0
16.2. 16:26 | Bezpečnostní upozornění

Byla vydána verze 1.1.0e kryptografické knihovny OpenSSL. Dle bezpečnostního upozornění 20170216 byla opravena závažná bezpečnostní chyba CVE-2017-3733.

Ladislav Hagara | Komentářů: 1
16.2. 13:03 | Pozvánky

GNOME hackaton proběhne v Brně na FIT VUT v Red Hat Labu (budova Q) v pondělí 20. února od 15:00. Registrace není nutná, ale pokud dáte na FaceBooku vědět, že plánujete dorazit, pomůže to s plánováním.

Ladislav Hagara | Komentářů: 0
16.2. 13:02 | Pozvánky

Únorový Prague Containers Meetup se koná 21. února v budově MSD. Můžete se těšit na přednášky o tom, proč a jak používat kontejnery a zároveň získat zajímavý pohled na historii a budoucnost kontejnerů.

little-drunk-jesus | Komentářů: 0
16.2. 08:55 | Zajímavý software

Google na svém blogu věnovaném vývojářům oznámil vydání verze 1.0 open source knihovny pro strojové učení TensorFlow (Wikipedie). Přehled novinek v poznámkách k vydání na GitHubu. Zdrojové kódy TensorFlow jsou k dispozici pod licencí Apache 2.0.

Ladislav Hagara | Komentářů: 0
Jak se stavíte k trendu ztenčování přenosných zařízení (smartphony, notebooky)?
 (13%)
 (2%)
 (72%)
 (3%)
 (10%)
Celkem 656 hlasů
 Komentářů: 52, poslední 13.2. 12:45
Rozcestník
Reklama

Dotaz: ruby a invalid byte sequence in UTF-8

23.7.2010 02:24 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
ruby a invalid byte sequence in UTF-8
Přečteno: 349×
Chcem v Ruby(1.9 a 1.9.1) nacitat normalne subor mailu (co subor to mail) a ked ho zacnem citat a pride na riadok kde je dake kodovanie napise tieto chyby:

invalid byte sequence in UTF-8 (ruby 1.9.1) broken UTF-8 string (ruby 1.9.0

Precita zo subora aj 18 az 28 riadkov a potom p[adne na chybe zistil som ze vzdy tam kde je diakritika.

Subor je mail a teda moze byt v kodovani 1250, 1251, utf-8 8859-2 atd

Ako teda v Ruby nacitat tieto znaky tak aby nepisali chybu bez ohladu na kodovanie ? Napr ich prekodovat do 7 bit ? Skusal som vsetko mozne aj "r:UTF-8". Please poradte.

Kod je jednoducy:
begin
     File.new(cesta_subor,"r").each { |line|
          puts line
     }
rescue
      puts "Chyba citania suboru #{subor}: #{$!}"
      next
end
*** Jabber (XMPP): fogo@jabber.cz ***

Odpovědi

23.7.2010 12:58 ET
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Zdar, koukni se na ty soubory hexa editorem a koukni jestli tam neni naka prasarna, mozna by to mohlo bejt tohle - http://en.wikipedia.org/wiki/Byte_order_mark
23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Su to normalne maily a ked ich otvorim v kodovani v akom su tak sa pekne daju precitat. Len ide o to ze maily maju rozne kodovania textu od 1250, 1251, 8859-1, 8859-2 az po utf-8 a ruby nevie za pana ich precitat.

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacit ado array ael dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }
*** Jabber (XMPP): fogo@jabber.cz ***
23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Su to normalne maily a ked ich otvorim v kodovani v akom su tak sa pekne daju precitat. Len ide o to ze maily maju rozne kodovania textu od 1250, 1251, 8859-1, 8859-2 az po utf-8 a ruby nevie za pana ich precitat.

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacit ado array ale dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }
*** Jabber (XMPP): fogo@jabber.cz ***
23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Su to normalne maily a ked ich otvorim v kodovani v akom su tak sa pekne daju precitat. Len ide o to ze maily maju rozne kodovania textu od 1250, 1251, 8859-1, 8859-2 az po utf-8 a ruby nevie za pana ich precitat.

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacita do array ale dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }
*** Jabber (XMPP): fogo@jabber.cz ***
25.7.2010 08:53 Michal Karas | skóre: 45 | blog: /dev/random
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Tak z toho důvodu je v hlavičkách Content-Type, ne? Tak při čtení nastavuj řetězcům kódování, ve kterém opravdu jsou. Anebo použij nějakou knihovnu, která má tohle vyřešené, například mikel's mail vypadá nadějně.
28.7.2010 12:47 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
A to by znamenalo ze mu pred kazdym citanim mailu musim nastavit v akom je kodovani? To je predsa nemyslitelne, to nevie ruby jednoducho spracovat text v akomkolvek kodovani?

To ej ale citanie mailu z disku(ako subor) nie cez cez protokol POP3 a pod (a ani sa k nemu tak neda dostat)

Tento program prerabam z pythona a ten to vedel spracovat v pohode, no chcel som prejist na ruby vo vsetkom co pouzivam.
*** Jabber (XMPP): fogo@jabber.cz ***
28.7.2010 14:59 l4m4
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
Buď s tím souborem pracuješ coby se sekvencí bajtů, tj. obsah souboru tě v podstatě nezajímá, nebo coby s textem (či dokonce se strukturovaným textem -- mailem), jeho obsah tě zajímá, a v tom případě ho musíš správně dekódovat a rozparsovat, na což existují knihovny.

Ruby určitě umí i tu první možnost, ale pochybuji, že je to to, co chceš.

Ostatně v Pythonu by taky každý normální člověk použil funkce pro parsování mailu, které jsou přímo ve standardní knihovně...
28.7.2010 12:49 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
aj tak dik pozriem na ten mail, ale chcel som sa vyvarovat nieco "gemovat" koli tak niecomu trivialnemu, chcel som pouzit cisty Ruby, to sa neda?
*** Jabber (XMPP): fogo@jabber.cz ***
2.8.2010 03:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
mail.read som skusal ale neriesi to moj problem tiez vyhadzuje problem s kodovanin pri niektorych mailoch (mozno cisnke)

Alebo existuej moznost ako arra (tam sa mi to da nacitat) komplet skonvertovat do napr. 8859-1 alebo utf-8 ?

Vdaka.
*** Jabber (XMPP): fogo@jabber.cz ***
3.8.2010 08:59 Michal Karas | skóre: 45 | blog: /dev/random
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8
pole.map! {|x| x.encode('UTF-8')}
Ale stejně ti tam bude pořád lítat výjimka, pokud si pomocí String#force_encoding nenastavíš kódování, ve kterém ty řetězce opravdu jsou.

Yehuda Katz pěkně popisuje současný stav s kódováním v Ruby 1.9: Encodings, Unabridged. Možná ti to trochu pomůže.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267   www.czech-server.cz
© 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.