bash - 2 shody na jednom radku (vyřešeno)

Ahoj, potřeboval bych malou radu, jak by se řešilo tohle. Aby z tohoto pomocí grepu (nebo sedu):

ahoj 2 ahoj 2

ahoj 2 ahoj 3

bylo jen tohle:

ahoj 2 ahoj 2

-> prostě chci vypsat ze souboru jen ty řádky, které obsahují řetězec "ahoj" a zároveň i řetězec "2" a ten řetězec "2" je vždy na PEVNĚ dané pozici. Narážím tím na to, že ten druhý řetězec může být na řádku na různých pozicích a já chci vypsat shodu jen na přesně dané pozici. Rád bych, aby ten druhý řezězec byl v proměnné, protože ho v cyklu budu měnit a pokaždé vyhledávat nějakou jinou hodnotu.

Když to shrnu, tak první řetězec je vždy na začátku řádku (a má pořád stejný název) a druhý vzor je s ním na stejném šáku, je vždy na pevné pozici.

Kamrád mi poradil tohle:

cat text.txt | grep "ahoj" | grep "2" >> awk.txt

Jenže to funguje polovičatě, najde to i na místech, kde to nechci.

Napsal jsem si sám jiné řešení, ale je takové neefektivní, nicméně je to přesně to co potřebuju:

cat text.txt | awk '$1 == "ahoj" && $2 == "2" {print $0}' >> awk.txt

Tohle mi vypíše do souboru awk.txt jen řádky, kde se vyskytuje na pozici 1 řetezěc "ahoj" a na pozici 2 řetězec "2". To by bylo super, jenže já si tenhle řádek chci dát do cyklu a hodnotu proměnné $2 (která zastupuje vyhledáávaný řetězec "2") chci měnit. Nějak takhle to myslím, ale nefunguje to:

while read radek; do

awk '$1 == "ahoj" && $2 == "$promenna" {print $0}' >> awk.txt

done < text.txt

Je to to samé akorád jsem řetězec nahradil proměnnou a přidal while cyklus, který načítá ze souboru po řádcích. Šlo by to nějak předělat do grepu, nebo sedu nebo i jinak?

Díky za rady!

Tenhle problém mě celkem zaujal a nyní řeším něco podobného, ale těžšího.

Mějme soubor text.txt a v něm tohle:

jana vesela Z praha

martin kunovsky M brno

eva drobna Z zdar

jana podebratskaZ hukvaldy

lubos novak M plzen

Jde jen o vhodný příklad, nechci vzbudit zájem, že bych pracovala se seznamem lidí :) Teď zpátky k mému problému. Co kdybych chtěla vypsat jen lidi, kteří začínají jménem "jana" a zárověň jsou "Z" jako žena. Uvažujme, že jednotlivé položky jsou v pevných sloupcích, tedy třeba údaj o pohlaví (znak Z nebo M) je vždy v sloupci 20 (nebo jako dvacátý znak od začátku řádku chcete-li). Když se všimnete čtvrtého záznamu v souboru, tak údaj o pohlaví splynul v jeden řetězec spolu s příjmením. Chtěla bych nějak využít inforamci o tom, že vím, že se vždy jako dvacátý znak vyskytuje údaj o pohlaví.

Pokouším se to dělat nešikovně nějak takto:

pohlavi="Z"

cat text.txt | grep "^jana" | grep "`$pohlavi ~ cut -c20`"

S tímhle hlavně bojuju:

grep "`$pohlavi ~ cut -c20`"

- myslím to tak, že najde jen ten řádek, kde proměnná $pohlavi odpovídá znaku nalezeném pomocí cut na pozici 20. Ale nějak se nedaří :/

Vím, že by to šlo třeba awk, ale jak by šlo jinak?

Děkuju za rady.

25.1.2013 23:57 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Staci jeden regexp:

egrep jana\(.\){15}Z.*$ test

27.1.2013 22:21 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Děkuji ti NN, za velice rychlé a jednoduché řešení. Nevěděla jsem, že až taková síla se ukrývá v egrepu :)

Co kdyby moje výše uvedená ukázka souboru text.txt obsahovala spoustu podobných udajů. Pro větší přehlednost by tyto údaje byly odděleny do "skupin" třeba řádkem, na kterém se nachází řetezec "KONEC_UDAJE" (něco jako zarážka - dál už nehledej a zkonči).Radši to uvedu na příkladě:

Soubor text.txt a v něm tohle:

jana   vesela     Z   praha

martin kunovsky   M   brno

eva    drobna     Z   zdar

jana   podebratskaZ   hukvaldy

lubos  novak      M   plzen

KONEC_UDAJE

marta   nova      Z   praha

martin trcalek    M   brno

eva    nejedla    Z   zdar

jana   podebratskaZ   hukvaldy

lubos  slovak      M   plzen

KONEC_UDAJE

...atd

Problém zůstává stejný, hledám řádky, začínající řetězcem "jana" a zároven, aby řádek obsahoval i řetězec "Z", který je na pevné pozici (sloupec 20) + navíc, aby vyhledávání zkončilo jakmile na začátku řádku narazí na řetězec "KONEC_UDAJE". Zajímalo by mě, jak takovou věc udělat. Přemýšlím nad tím, jak zkloubit regexp s podmínkou "pokud narazíš na určitý řětezec, nehledej dál a zkonči". Věděl by někdo jak na to?

Děkuju, bedete zlatí!

27.1.2013 22:35 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

sed -rn '/^jana.{14}Z/p;/^KONEC_UDAJE/q' text.txt

číslo 14 je zapotřebí uzpůsobit skutečném poloze sloupce Z/M. V uvedeném příkladu je totiž v devatenáctém sloupci, nikoli ve dvacátém.

A nyní je zapotřebí (a) naučit se regulární výrazy, jinak budeme takto iterovat se stále se měnícím dotazem věčně (b) přestat psát ‚co kdyby‘ a napsat, co potřebuješ doopravdy, aby se dalo odpovědět na to.

28.1.2013 20:48 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Příloha:

text.txt (81 bytů)

Děkuju, Vaše rady beru navědomí. Budu si objednávat knížku "sed&awk", protože mě fascinují zde Vaše řešení. Takřka během pár minut je tu řešení a já s tím bojuju o dost dýl!

Dobře, teď už snad poslední věc k Vašemu příspěvku. Soubor text.txt je v příloze.

Skript jsem upravila následovně:

znak="A"

cat text.txt | sed -rn "/^aa.{2}$znak/p;/^konec_aa/q" > vystup.txt

Takhle mi skript vyfiltruje tohle (v pořádku):

aa  A

aa  A

aa  A

Když ale změním hodnotu proměnné $znak na znak="B" nevypíše mi skript nic. Proč? A jak upravit výše uvedený skript, aby mi vyfiltroval tohle (obdobně pak když změním znak="C"):

aa  B

aa  B

aa  B

Závěrem chci říct, že se snažím nepsat každou banalitu, na kterou zrovna nemůžu přijít. Snažím se na co nejvíc věcí přijít sama, mám z toho pak lepší pocit. Ale co se týká kouzel a magie REGEXP, zatím v ní plavu! Všem moc děkuju za pomoc!

28.1.2013 22:33 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Protoze najde prvni 'konec_aa' a na zbytek se vykasle..

Mimochodem jak poznam, ktery konec je spravny ?

29.1.2013 19:15 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Já si právě myslela, že to od začátku prochází po řádcích a až když narazí na text, který vyhovuje sed parametrům, tak začne filtrovat a zkončí až když narazí na "konec_aa". A že to takhle dělá v celém souboru. Takže je to nereálné vyřešit?

29.1.2013 20:11 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Neodpovedela jsi na otazku, jak poznam, ktery 'konec_aa' je spravny, kdyz jsou vsechny stejne ?

29.1.2013 20:22 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Správný je pouze ten, který následuje za poslední správně nalezenou shodou podle vzoru. Takže třeba když budu hledat všechny výskyty pro znak="A":

znak="A"

cat text.txt | sed -rn "/^aa.{2}$znak/p;/^konec_aa/q" > vystup.txt

Tak bude pouze hned ten první "konec_aa" správný. Když budu hledat všechny výskyty pro znak="B", tak bude pouze ten druhý "konec_aa" správný, atd. Ju?

29.1.2013 21:11 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

V tom případě nerozumím, jaký mají konce vůbec význam, protože za poslední shodou už tak jako tak není nic k vypsání.

Když všechny konce smažeš (ignoruješ, ...), má se najít úplně stejná sada shod, ne?

29.1.2013 21:20 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

To je ale pekna kravina, protoze 'posledni spravna shoda' je predikat ne podminka.

Uvazuj priklad:

aa  A
aa  A
aa  A
konec_aa
aa  B
aa  B
aa  B
konec_aa
aa  B
aa  C
aa  C
konec_aa

Abych zjistil ,ktera je ta 'posledni shoda' musim projit cely dokument, abych si byl skutecne jisty a v takovem pripade tvuj "konec" straci smysl.

'Konec' ma smysl pouze v pripade pokud je jediny a konecny.

28.1.2013 22:34 Marble | skóre: 27 | blog: marble
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku

Případně se podívej, co umí perl (anebo grep s přepínačem -P). Pomocí "look-ahead" konstrukcí můžeš vyřešit třeba i to, že nechceš řešit délku počátečního řetězce. Třeba nějak takhle: grep -P '^(?=.{19}Z)jana' <text.txt

Závorka s otazníkem otestuje Z na 20. místě, ale zároveň neposune "aktivní pozici", takže následující výraz se porovnává stále od začátku řetězce. (Ale upozorňuji, že já perl používám velmi občas, takže to ber spíš jako inspiraci, než nějaké zaručeně dobré řešení. :) )

Dotaz: bash - 2 shody na jednom radku

Odpovědi