Inzerujte na AbcPráce.cz od 950 Kč

napište » Zprávičky

dnes 04:44 | Nová verze

Apple container dospěl do verze 1.0.0. Jedná se o open source nástroj pro spouštění linuxových kontejnerů na macOS postavený nad containerization. Napsaný je v programovacím jazyce Swift a optimalizovaný pro Apple silicon.

Ladislav Hagara | Komentářů: 0

Eclipse IDE 2026-06 aneb Eclipse 4.40

dnes 03:33 | Nová verze

Bylo vydáno Eclipse IDE 2026-06 aneb Eclipse 4.40. Představení novinek tohoto integrovaného vývojového prostředí také na YouTube.

Ladislav Hagara | Komentářů: 0

Asterinas a Asterinas NixOS

včera 15:44 | Zajímavý software

Asterinas (GitHub) je v Rustu napsané jádro operačního systému poskytující s jádrem Linux kompatibilní ABI. Vydána byla verze 0.18.0. První distribucí postavenou nad jádrem Asterinas je Asterinas NixOS. Nejedná se o oficiální projekt NixOS a nemá nic společného s NixOS Foundation.

Ladislav Hagara | Komentářů: 1

Kritická zranitelnost v nf_tables (CVE-2026-23111)

včera 13:22 | Zajímavý článek

Podrobně byla rozebrána kritická zranitelnost v nf_tables (CVE-2026-23111). Další lokální eskalace práv na Linuxu. V upstreamu byla zranitelnost již v únoru opravena. Ve zdrojovém kódu stačilo odstranit 1 vykřičník.

Ladislav Hagara | Komentářů: 1

EK nařídila Metě obnovit bezplatný přístup AI konkurence k WhatsAppu

včera 12:11 | Nová verze

Evropská komise (EK) nařídila americké společnosti Meta, že musí znovu umožnit bezplatný přístup konkurenčním obecně zaměřeným asistentům umělé inteligence (AI) k WhatsAppu a tento přístup musí zachovat až do ukončení antimonopolního šetření. Opatření je dočasné a má zabránit vážnému a nevratnému poškození konkurence na rychle rostoucím trhu s obecnými AI asistenty. Meta uvedla, že se proti rozhodnutí odvolá.

Ladislav Hagara | Komentářů: 12

Claude Fable 5 a Claude Mythos 5

včera 11:44 | IT novinky

Společnost Anthropic představila AI modely Claude Fable 5 a Claude Mythos 5. Claude Fable 5 je první model třídy Mythos určený pro běžné použití.

Ladislav Hagara | Komentářů: 0

Alpine Linux 3.24.0

včera 04:44 | Nová verze

Byla vydána nová stabilní verze 3.24.0, tj. první z nové řady 3.24, minimalistické linuxové distribuce zaměřené na bezpečnost Alpine Linux (Wikipedie) postavené na standardní knihovně jazyka C musl libc a BusyBoxu. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 1

Vývoj operačního systému Redox OS (05/2026)

včera 03:33 | Komunita

Na čem pracují vývojáři v Rustu napsaného mikrokernelového unixového operačního systému Redox OS (Wikipedie)? Byl publikován přehled vývoje za květen. Vypíchnout lze nový scheduler EEVDF nebo port desktopového prostředí Xfce na Redox OS.

Ladislav Hagara | Komentářů: 0

Upozornění pro uživatele Asahi Linuxu: Neaktualizujte macOS na verzi 27 Golden Gate!

9.6. 22:22 | Komunita

Upozornění pro uživatele Asahi Linuxu: Neaktualizujte macOS na verzi 27 Golden Gate! Apple změnil detekci spouštěcích oddílů. Po aktualizaci oddíl s Asahi Linuxem nevidí. Snad je to jenom chyba.

Ladislav Hagara | Komentářů: 6

Prezentace a videa z Dne IPv6 jsou na webu akce

9.6. 15:11 | Komunita

Na webu konference Den IPv6, která se konala 4. června v Národní technické knihovně v pražských Dejvicích, jsou nyní k dispozici všechny prezentace (v PDF) a jejich videozáznamy. Organizátory konference byly i letos sdružení CESNET, CZ.NIC a NIX.CZ.

VSladek | Komentářů: 0

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / ruby a invalid byte sequence in UTF-8

Štítky: diakritika, kódování, mail, programování, Ruby

Dotaz: ruby a invalid byte sequence in UTF-8

23.7.2010 02:24 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
ruby a invalid byte sequence in UTF-8

Přečteno: 476×

Odpovědět | Admin

Chcem v Ruby(1.9 a 1.9.1) nacitat normalne subor mailu (co subor to mail) a ked ho zacnem citat a pride na riadok kde je dake kodovanie napise tieto chyby:

invalid byte sequence in UTF-8 (ruby 1.9.1) broken UTF-8 string (ruby 1.9.0

Precita zo subora aj 18 az 28 riadkov a potom p[adne na chybe zistil som ze vzdy tam kde je diakritika.

Subor je mail a teda moze byt v kodovani 1250, 1251, utf-8 8859-2 atd

Ako teda v Ruby nacitat tieto znaky tak aby nepisali chybu bez ohladu na kodovanie ? Napr ich prekodovat do 7 bit ? Skusal som vsetko mozne aj "r:UTF-8". Please poradte.

Kod je jednoducy:

begin
     File.new(cesta_subor,"r").each { |line|
          puts line
     }
rescue
      puts "Chyba citania suboru #{subor}: #{$!}"
      next
end

Nástroje: Začni sledovat (0) ?

Odpovědi

23.7.2010 12:58 ET
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Zdar, koukni se na ty soubory hexa editorem a koukni jestli tam neni naka prasarna, mozna by to mohlo bejt tohle - http://en.wikipedia.org/wiki/Byte_order_mark

23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Su to normalne maily a ked ich otvorim v kodovani v akom su tak sa pekne daju precitat. Len ide o to ze maily maju rozne kodovania textu od 1250, 1251, 8859-1, 8859-2 az po utf-8 a ruby nevie za pana ich precitat.

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacit ado array ael dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }

23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacit ado array ale dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }

23.7.2010 22:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Ked ten subor precitam funkciou arr=IO.readlines(dir+subor), tak to pekne komplet nacita do array ale dalej ked to chcem spracovavat tak to iste ako ked to citam

na tomto to spadne tiez: arr.each {|line| }

25.7.2010 08:53 Michal Karas | skóre: 45 | blog: /dev/random
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Tak z toho důvodu je v hlavičkách Content-Type, ne? Tak při čtení nastavuj řetězcům kódování, ve kterém opravdu jsou. Anebo použij nějakou knihovnu, která má tohle vyřešené, například mikel's mail vypadá nadějně.

28.7.2010 12:47 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

A to by znamenalo ze mu pred kazdym citanim mailu musim nastavit v akom je kodovani? To je predsa nemyslitelne, to nevie ruby jednoducho spracovat text v akomkolvek kodovani?

To ej ale citanie mailu z disku(ako subor) nie cez cez protokol POP3 a pod (a ani sa k nemu tak neda dostat)

Tento program prerabam z pythona a ten to vedel spracovat v pohode, no chcel som prejist na ruby vo vsetkom co pouzivam.

28.7.2010 14:59 l4m4
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

Buď s tím souborem pracuješ coby se sekvencí bajtů, tj. obsah souboru tě v podstatě nezajímá, nebo coby s textem (či dokonce se strukturovaným textem -- mailem), jeho obsah tě zajímá, a v tom případě ho musíš správně dekódovat a rozparsovat, na což existují knihovny.

Ruby určitě umí i tu první možnost, ale pochybuji, že je to to, co chceš.

Ostatně v Pythonu by taky každý normální člověk použil funkce pro parsování mailu, které jsou přímo ve standardní knihovně...

28.7.2010 12:49 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

aj tak dik pozriem na ten mail, ale chcel som sa vyvarovat nieco "gemovat" koli tak niecomu trivialnemu, chcel som pouzit cisty Ruby, to sa neda?

2.8.2010 03:27 Ivanhoej | skóre: 26 | blog: ss2_Debian | Bratislava
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

mail.read som skusal ale neriesi to moj problem tiez vyhadzuje problem s kodovanin pri niektorych mailoch (mozno cisnke)

Alebo existuej moznost ako arra (tam sa mi to da nacitat) komplet skonvertovat do napr. 8859-1 alebo utf-8 ?

Vdaka.

3.8.2010 08:59 Michal Karas | skóre: 45 | blog: /dev/random
Rozbalit Rozbalit vše Re: ruby a invalid byte sequence in UTF-8

pole.map! {|x| x.encode('UTF-8')}

Ale stejně ti tam bude pořád lítat výjimka, pokud si pomocí String#force_encoding nenastavíš kódování, ve kterém ty řetězce opravdu jsou.

Yehuda Katz pěkně popisuje současný stav s kódováním v Ruby 1.9: Encodings, Unabridged. Možná ti to trochu pomůže.

Založit nové vlákno • Nahoru

Tiskni Sdílej: