Bash a UTF-16LE

Přihlášení | Registrace

napište » Zprávičky

Superpočítač Frontier nadále zůstává nejvýkonnějším superpočítačem na světě (TOP500 06/2024)

dnes 13:00 | IT novinky

Byl aktualizován seznam 500 nejvýkonnějších superpočítačů na světě TOP500. Nejvýkonnějším superpočítačem nadále zůstává Frontier od HPE (Cray) s výkonem 1,206 exaFLOPS. Druhá Aurora má oproti loňsku přibližně dvojnásobný počet jader a dvojnásobný výkon: 1,012 exaFLOPS. Novým počítačem v první desítce je na 6. místě Alps. Novým českým počítačem v TOP500 je na 112. místě C24 ve Škoda Auto v Mladé Boleslavi. Ostravská Karolina, GPU

… více »

Ladislav Hagara | Komentářů: 0

GHC (Glasgow Haskell Compiler) 9.10.1

dnes 10:11 | Nová verze

GHC (Glasgow Haskell Compiler, Wikipedie), tj. překladač funkcionálního programovacího jazyka Haskell (Wikipedie), byl vydán ve verzi 9.10.1. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Linux 6.9

dnes 09:22 | Nová verze

Po 9 týdnech vývoje od vydání Linuxu 6.8 oznámil Linus Torvalds vydání Linuxu 6.9. Přehled novinek a vylepšení na LWN.net: první a druhá polovina začleňovacího okna. Později také na Linux Kernel Newbies.

Ladislav Hagara | Komentářů: 0

Pingora 0.2.0

11.5. 18:22 | Nová verze

Byla vydána verze 0.2.0 v Rustu napsaného frameworku Pingora pro vytváření rychlých, spolehlivých a programovatelných síťových systémů. Společnost Cloudflare jej letos v únoru uvolnila pod licencí Apache 2.0.

Ladislav Hagara | Komentářů: 0

xrdp 0.10.0

10.5. 19:11 | Nová verze

Open source RDP (Remote Desktop Protocol) server xrdp (Wikipedie) byl vydán ve verzi 0.10.0. Z novinek je vypíchnuta podpora GFX (Graphic Pipeline Extension). Nová větev řeší také několik bezpečnostních chyb.

Ladislav Hagara | Komentářů: 14

Rocky Linux 9.4

10.5. 04:11 | Nová verze

Rocky Linux byl vydán v nové stabilní verzi 9.4. Přehled novinek v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0

Dellu byla odcizena databáze zákazníků

9.5. 22:22 | Bezpečnostní upozornění

Dellu byla odcizena databáze zákazníků (jméno, adresa, seznam zakoupených produktů) [Customer Care, Bleeping Computer].

Ladislav Hagara | Komentářů: 22

Kdy Zed na Linuxu?

9.5. 21:11 | Zajímavý článek

V lednu byl otevřen editor kódů Zed od autorů editoru Atom a Tree-sitter. Tenkrát běžel pouze na macOS. Byl napevno svázán s Metalem. Situace se ale postupně mění. V aktuálním příspěvku Kdy Zed na Linuxu? na blogu Zedu vývojáři popisují aktuální stav. Blíží se alfa verze.

Ladislav Hagara | Komentářů: 61

Maker Faire Prague

9.5. 14:33 | Pozvánky

O víkendu 11. a 12. května lze navštívit Maker Faire Prague, festival plný workshopů, interaktivních činností a především nadšených a zvídavých lidí.

Ladislav Hagara | Komentářů: 0

Fedora Asahi Remix 40

8.5. 21:55 | Nová verze

Byl vydán Fedora Asahi Remix 40, tj. linuxová distribuce pro Apple Silicon vycházející z Fedora Linuxu 40.

Ladislav Hagara | Komentářů: 20

Centrum | Napsat | Starší

navrhněte » Anketa

Podle hypotézy Mrtvý Internet mj. tvoří většinu online interakcí boti.

Jsem bot. (69%)

Jsem člověk. (7%)

Opravdu jsem člověk! (11%)

Jsem něco jiného. (12%)

Celkem 203 hlasů

Komentářů: 12, poslední dnes 14:01

Rozcestník

AbcLinuxu

HDmag.cz

Marek 'marx' Grác - Paralelný blog

Paralelný blog o paralelnom svete s vlastnými paranormálnymi javmi, bez paralenu a bez pevne daných parametrov. A paradoxne aj o normálnom živote okolo.

Aktuální zápisy

? Archív

? Navigace

Nej blogů na AbcLinuxu

Nejčtenější za poslední měsíc

Nejkomentovanější za poslední měsíc

AbcLinuxu:/ Blogy / Paralelný blog / Linux / Bash a UTF-16LE

Štítky: Bash, sed, shelly

Bash a UTF-16LE

20.6.2005 23:11 | Přečteno: 1406× | Linux

Práve som vyhral súboj nad bashom. Kamarát potreboval prekódovať divný textový súbor. Divný bol preto, že používal dve kódovania iso-latin-1 a utf-16. A teraz si predstavte, že takýchto súborov potrebujete spracovať veľa a v práci mu tvrdili, že to v bashi nejde :) samozrejme, že sa to dá napísať v perle, ale ak sa to nedá, tak je to slušná výzva, nie?

Predstavte si súbor, ktorý je až na jeden riadok v iso latin 1. Ten jeden riadok má v UTF-16LE len reťazec v úvodzovkách, ktorý je potrebné vyparsovať. Keďže som typickým predstaviteľom lineárneho programovania (čítaj program píš postupne za seba; nemá to súvis s lineárnym programovaním vyučovanýn na univerzitách), tak som sa do toho pustil nasledovne. Najprv nájdi ako rozdeliť súbor na tri časti, takže som našiel číslo riadku na ktorom je UTF-16. Následne som cez head/tail našiel tie latin1 časti a vznikli mi tmp.head a tmp.tail.

Odborník si určite povie, že som blbý a je hlúposť hladať tento riadok cez for a grep, keď na to stačí grep sám. Áno dá sa použiť grep --binary-files=text -n PHRASE foo , ale bohužiaľ sa mi už z toho nepodarilo získať číslo riadku. UTF-16LE má totiž tú vlastnosť, že pred normálnym ASCII znakom máte ešte 8bitový s hodnotou nula a tým pádom z toho sed zmagorí.

Keď už máme požadovaný riadok, tak ho rozdelíme na časť pred úvodzkami, časť v UTF-16LE a časť za nimi. Opäť musíme riešiť problém, že štandardné nástroje nefungujú tak ako majú. A tak odstránime pred-úvodzovkú časť a získame reťazec začínajúci na UTF-16. Pozor nemôžeme ho uložiť do premennej shellu pretože stratíme tie nuly a už to nebude UTF-16 [kým som to zistil :(]. A necháme to prekódovať cez recode do latin2. Recode spadne za posledným UTF-16 znakom (na kombinácii medzera+cifra), ale to čo prešlo máme na štandardnom výstupe. To vezmeme a odstránime z neho diakritiku pomocou cstocs (iconv a recode je na toto nepoužiteľné) a teraz to uložíme do premennej (už to nie je utf-16). Prednú a zadnú časť nemôžeme vysedovať priamo, ale musíme celý riadok uložiť do premennej shellu, čím nám zmiznú tie nulové znaky a začne fungovať sed. Potom to je už bezproblémové. A len na konci zase reťazec z tých úvodzoviek prekódujeme do UTF-16LE (tentokrát je tam zakódovaný bez diakritiky).

A teraz na možné skracovanie ešte kód. Viem, že sa dá nahradiť bc za matematickú expanziu v shelli, ale tú si nikdy nepamätám, takže to by som až tak nebral. Nie je to formátované, je to tak ako som s tým pracoval ja :)


subor="line1014_col.lip"; IFS=$'\n'; (i=0; problem=0; for line in `cat $subor`; do if [ `echo $line | grep PHR &> /dev/null; echo $?` -eq '0' ]; then problem=$i; else i=`echo "$i+1" | bc`; fi ; done; head -n $problem < $subor > tmp.head; tail -n `echo \`wc -l $subor | sed 's/\(.*\) .*/\1/'\`-$problem-1 | bc ` $subor > tmp.tail; stred=`head -n \`echo $problem+1 | bc\` < $subor | tail -n 1 | sed 's/^\(PHRASE unicode [0-9]*\) \(".*\).*/\2/' | recode utf-16le..latin2 2> /dev/null | cstocs il2 ascii`; zaciatok=`head -n \`echo $problem+1 | bc\` < $subor | tail -n 1`; zac1=`echo $zaciatok | sed 's/^\(PHRASE unicode [0-9]*\) \(".*\).*/\1/'`; zac2=`echo $zaciatok | sed 's/^\(.*".*"\) \(.*\)$/\2/'`; cat tmp.head; echo -n "$zac1 "; echo -n $stred | recode ascii..utf-16le; echo " $zac2"; cat tmp.tail) > $subor.tmp

Hodnocení: -

zatím nehodnoceno

špatné • dobré

Tiskni Sdílej:

Komentáře

Nástroje: Začni sledovat (1) ? , Tisk

Vložit další komentář

20.6.2005 23:20 Michal Kubeček | skóre: 72 | Luštěnice
Rozbalit Rozbalit vše zamyšlení

Odpovědět | Sbalit | Link | Blokovat | Admin

Jako cvičení v používání shellu a utilit je to krásné, ale mám neodbytný pocit, že kdyby se ten program napsal v C/C++, bude

rychleji napsaný
podstatně přehlednější
řádově rychlejší

20.6.2005 23:37 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Re: zamyšlení

Mně to příjde tak nějak nastejno :o)

int system(char*); int main(void) { return system("subor=\"line1014_col.lip\"; IFS=$'\\n'; (i=0; problem=0; for line in `cat $subor`; do if [ `echo $line | grep PHR &> /dev/null; echo $?` -eq '0' ]; then problem=$i; else i=`echo \"$i+1\" | bc`; fi ; done; head -n $problem < $subor > tmp.head; tail -n `echo \\`wc -l $subor | sed 's/\\(.*\\) .*/\\1/'\\`-$problem-1 | bc ` $subor > tmp.tail; stred=`head -n \\`echo $problem+1 | bc\\` < $subor | tail -n 1 | sed 's/^\\(PHRASE unicode [0-9]*\\) \\(\".*\\).*/\\2/' | recode utf-16le..latin2 2> /dev/null | cstocs il2 ascii`; zaciatok=`head -n \\`echo $problem+1 | bc\\` < $subor | tail -n 1`; zac1=`echo $zaciatok | sed 's/^\\(PHRASE unicode [0-9]*\\) \\(\".*\\).*/\\1/'`; zac2=`echo $zaciatok | sed 's/^\\(.*\".*\"\\) \\(.*\\)$/\\2/'`; cat tmp.head; echo -n \"$zac1 \"; echo -n $stred | recode ascii..utf-16le; echo \" $zac2\"; cat tmp.tail) > $subor.tmp"); }

20.6.2005 23:26 Michal Marek (twofish) | skóre: 55 | blog: { display: blog; } | Praha
Rozbalit Rozbalit vše Obrazce

Odpovědět | Sbalit | Link | Blokovat | Admin

Zajímavé je měnit šířku okna prohlížeče a sledovat, jaké ten kód vytváří obrazce :-)

21.6.2005 00:31 .
Rozbalit Rozbalit vše Re: Obrazce na X

20.6.2005 23:32 elviin | skóre: 29 | blog: elviin | Plzeň-Praha
Rozbalit Rozbalit vše ASCII Art

Odpovědět | Sbalit | Link | Blokovat | Admin

Ja si myslím, že autor s chutí vytvořil tenhle oneliner. Zajimavý postřehy. Kód bych zařadil mezi "ASCII art". Pokud by se to správně "sedlo", "greplo" a "recodovalo", možná bychom viděli tvář autora:)

20.6.2005 23:48 doubleZ | skóre: 24 | blog: smazano
Rozbalit Rozbalit vše Re: ASCII Art

každopádně teď vidíme hov... :-)

nechce se mi to číst, ale zajímá mě to...

21.6.2005 11:24 .. | skóre: 4 | blog:
Rozbalit Rozbalit vše Re: ASCII Art

Kazdopadne neco v tom bude, ale jenom "...." vi co to je

21.6.2005 11:40 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Uáááááá

Odpovědět | Sbalit | Link | Blokovat | Admin

Tak to je síla.

for line in `cat $subor`; do ... done

while read line; do ... done <$subor

if [ `echo $line | grep PHR &> /dev/null; echo $?` -eq '0' ]

if [ "$line" == *PHR* ]

```
i=`echo "$i+1" | bc`
```
```
let i++
```
A dál už nemám sil ...

P.S.: To se někde vyučuje, nebo je to lidová tvořivost?

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

21.6.2005 11:55 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Uáááááá

Trojka je jasná o tom som písal :) Problém s jednotkou a dvojkou je že tam sú tie nulové znaky (0x00) a preto mi štandardné postupy nefungujú. Jednotka by zrejme fungovala, ale príde mi, že ušetríš tak jeden znak.

21.6.2005 13:13 unchallenger | skóre: 69 | blog: unchallenger
Rozbalit Rozbalit vše Re: Uáááááá

Nepočítáme znaky, ale procesy.

21.6.2005 13:44 Marek 'marx' Grác | skóre: 21 | blog: Paralelný blog | Brno / Bratislava
Rozbalit Rozbalit vše Re: Uáááááá

Ok, na procesy moje riešenie skutočne exceluje. Kebyže rátame procesy (réžiu), tak musí vyhrať Cčkové riešenie, to bude mať zrejme aj najmenšiu réžiu. Ja si pamätám len zopár vecí a tak ich používam dokola. Také bc má tú výhodu, že nemusíš rozmýšlať nad syntaxou pre konkrétny shell. Stačí ti pamätať ako sa priraďuje do premennej. A keďže zátvorkovanie a escape-ovanie je všade rôzne, tak sa snažím používať veci o ktorých viem, že fungujú.

A ako píšem veci o ktorých si myslím, že fungujú bez problémov sú často komplikovanejšie. Napr. to strácanie znakov zadaných do premennej, keby to skončilo pri prvej nule, tak si myslím, že by som tomu celkom rozumel. Takto bohužiaľ nie.

Založit nové vlákno • Nahoru

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje