Bash: Najít v souboru čísla a zaokrouhlit je

Tohle by nešlo?

sed -r 's/([0-9]+,[0-9]+)/printf %0.f \1/ge' file.txt

18.2.2017 21:25 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

ok, tak jednoduché to být nemůže, budu nad tím ještě dumat

18.2.2017 22:26 michal
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Jasně, že to tak být nemůže. Je tam plno chybových hlášení.

18.2.2017 22:22 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Tak takhle, pokud ten soubor není moc velkej, protože je to docela pomalé. Jiná cesta pomocí sed nejspíš není a pro awk mi jednoduché řešení nenapadá. Perl bude podstatně rychlejší.

sed -r ":a;s/(.*)([0-9]+,[0-9]+)([^0-9]*)/printf '%s%0.f%s' '\1' '\2' '\3'/e; ta" /tmp/sedtest.txt

18.2.2017 22:36 michal
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Zase chybová hlášení ....

Funguje bohužel jenom ten Perl, ale ani to není ideální. Zaokrouhlená čísla jsou kratší. Zmizí čárka a desetinné místo. Proto je třeba přidat před každé zaokrouhlené číslo dvě mezery, jenže já ten Perl neumím změnit.

18.2.2017 22:43 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

možná nemáte GNU verzi sedu nebo jinou, která podporuje modifikátor e

19.2.2017 08:56 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Funguje bohužel jenom ten Perl, ale ani to není ideální. Zaokrouhlená čísla jsou kratší. Zmizí čárka a desetinné místo. Proto je třeba přidat před každé zaokrouhlené číslo dvě mezery, jenže já ten Perl neumím změnit.

Pokud skutečně stačí přidat jen dvě mezery, tak se jednoduše přidají do formátovacího řetězce v sprintf: " %.0f".

Perl-u není třeba se bát.

This would have been so hard to fix when you don't know that there is in fact an easy fix.

19.2.2017 10:04 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Dá se to vyřešit i obecněji, bez spoléhání na konkrétní počet desetinných míst. Ne nutně v Perlu a ne nutně one-linerem. ;-)

19.2.2017 14:11 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Pomocí Perlu by to šlo například následovně

perl  -pe 's/(\d+)[,](\d+)/sprintf " " x length($2) . " %.0f", "$1.$2"/ge'  puvodni_sobor.txt

Otázka je jestli zrovna tohle zobecnění bude užitečné. Takových zobecnění se dá vymyslet spousta. Mě například napadlo, že pokud tisíce jsou odělěny mezerou, tak jednak ty mezery nadělají neplechu uprostřed čísla a jednak číslo jako 1 999,50 nedopadne při zaokrouhlování podle předpokladů. :)

Ale nač řešit problém tam, kde nemusí být. Nepřepokládám, že se snaží napsat nějaký univerzální nástroj, ale řeší jednorázovou záležitost.

This would have been so hard to fix when you don't know that there is in fact an easy fix.

19.2.2017 14:45 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

jj, není nad to, když se pro jednu čárku napíše dvacet řádků kódu ;). Komu vadí [s]printf verze, může na to jít přes matematickou funkci. Bude třeba nainstalovat modul Math::Round pomocí cpan:

perl -MMath::Round -pe 's/(\d+),(\d+)/round("$1.$2")/eg' file.txt

19.2.2017 15:01 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Tak lze i, podobně jak má on, namísto round použít int "$1.$2"+.5. Ale díky tomu, že tam potom chtěl vložit mezery, tak se ukázalo použití sprintf jako prozřetelný krok :)

This would have been so hard to fix when you don't know that there is in fact an easy fix.

19.2.2017 15:30 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Požadavek na mezery jsem ignoroval, ale proč tedy mezery nedodat rovnou substitucí:

/(" " x length $2).round("$1.$2")/

nebo stejně při oříznutí pomocí int:

/(" " x length $2).int "$1.$2"+.5/

19.2.2017 14:28 michal
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Dík wamba, mezery fungují.

Ještě prosím něco. Existuje pro tvůj Perl - kód řešení in place, tedy něco jako i v sedu ? Prostě, změny udělat rovnou v jednom vstupnim souboru.

19.2.2017 14:40 wamba | skóre: 38 | blog: wamba
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

ano, překvapivě -i :), funguje i -i.bak podobně jako v Sedu.

perl -i.bak -pe '...' soubor.txt

This would have been so hard to fix when you don't know that there is in fact an easy fix.

19.2.2017 19:18 michal
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Výsledné finální řešení funguje správně a na jeden řádek. Takže díky. Definitivně vyřešeno.

18.2.2017 22:33 RM
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Ještě malá úprava ([^0-9]*)/ zaměnit za (.*)/

18.2.2017 22:43 michal
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Chybová hlášení ....

Začínám raději studovat Perl, zápis mi připomíná Céčko

19.2.2017 10:06 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

awk taky připomíná C, jen je mnohem jednodušší. Tak snad bude tohle fungovat.

Tohle by mohlo jít. Tedy přinejmenším z požadovaného vstupu v dotazu to vyrobí ten požadovaný výstup. :-)

awk '{for (i = 1; i <= NF; ++i) {z = $i; gsub(/,/, ".", z); if (z + " " == z) $i = int(.5 + z)} print $0}' < vstup > výstup

19.2.2017 10:02 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Aha. Teprve teď jsem si všiml tohoto podivného upřesnění. To taky není problém. Stačí se v awk podívat, jak dlouhé je číslo před zaokrouhlením a po něm, a doplnit mezery. Laxní definice číselných literálů, kterou awk používá, shodou okolností přesně pasuje na tento typ problému. Proto se něco takového tak často vidí ve školních úlohách všeho druhu, že ano. ;-)

awk '{for (i = 1; i <= NF; ++i) {a = b = $i; gsub(/,/, ".", b); if (b + " " == b) {b = int(.5 + b); d = length(a) - length(b); $i = ""; for (j = 0; j < d; ++j) $i = $i " "; $i = $i b}} print $0}' < vstup > výstup

Protože mít tohle^^^ jako one-liner je už daleko za vepřovou hranicí, lépe to bude vypadat zformátované:

awk '{
       for (i = 1; i <= NF; ++i) {
         a = b = $i
         gsub(/,/, ".", b)
         if (b + " " == b) {
           b = int(.5 + b)
           d = length(a) - length(b)
           $i = ""
           for (j = 0; j < d; ++j) $i = $i " "
           $i = $i b
         }
       }
       print $0
     }' < vstup > výstup

Nebo jako samostatný spustitelný soubor se skriptem (nazvěme ho můj_hustý_skript.awk) takto:

#!/usr/bin/awk -f

{
  for (i = 1; i <= NF; ++i) {
    a = b = $i
    gsub(/,/, ".", b)
    if (b + " " == b) {
      b = int(.5 + b)
      d = length(a) - length(b)
      $i = ""
      for (j = 0; j < d; ++j) $i = $i " "
      $i = $i b
    }
  }
  print $0
}

Pak se to dá (po chmod +x můj_hustý_skript.awk) normálně spustit:

./můj_hustý_skript.awk < vstup > výstup

19.2.2017 10:11 Andrej | skóre: 51 | blog: Republic of Mordor
Rozbalit Rozbalit vše Re: Bash: Najít v souboru čísla a zaokrouhlit je

Tohle tedy pochopitelně bude zaokrouhlovat i řetězce obsahující desetinné tečky, které (v českém prostředí) třeba nemají představovat čísla. Je-li něco takového nežádoucí, dá se to ošetřit jednoduchou drobnou úpravou, kterou už bych „ponechal čtenáři za cvičení“, jak s oblibou psal (ne)jeden slavný profesor. Škoda, že nejsem slavný profesor.

Dotaz: Bash: Najít v souboru čísla a zaokrouhlit je

Odpovědi