Portál AbcLinuxu, 19. dubna 2024 19:46


Dotaz: bash - 2 shody na jednom radku

19.12.2012 14:07 Hanyz
bash - 2 shody na jednom radku
Přečteno: 608×
Odpovědět | Admin
Ahoj, potřeboval bych malou radu, jak by se řešilo tohle. Aby z tohoto pomocí grepu (nebo sedu):

ahoj 2 ahoj 2

ahoj 2 ahoj 3

bylo jen tohle:

ahoj 2 ahoj 2

-> prostě chci vypsat ze souboru jen ty řádky, které obsahují řetězec "ahoj" a zároveň i řetězec "2" a ten řetězec "2" je vždy na PEVNĚ dané pozici. Narážím tím na to, že ten druhý řetězec může být na řádku na různých pozicích a já chci vypsat shodu jen na přesně dané pozici. Rád bych, aby ten druhý řezězec byl v proměnné, protože ho v cyklu budu měnit a pokaždé vyhledávat nějakou jinou hodnotu.

Když to shrnu, tak první řetězec je vždy na začátku řádku (a má pořád stejný název) a druhý vzor je s ním na stejném šáku, je vždy na pevné pozici.

Kamrád mi poradil tohle:

cat text.txt | grep "ahoj" | grep "2" >> awk.txt

Jenže to funguje polovičatě, najde to i na místech, kde to nechci.

Napsal jsem si sám jiné řešení, ale je takové neefektivní, nicméně je to přesně to co potřebuju:

cat text.txt | awk '$1 == "ahoj" && $2 == "2" {print $0}' >> awk.txt

Tohle mi vypíše do souboru awk.txt jen řádky, kde se vyskytuje na pozici 1 řetezěc "ahoj" a na pozici 2 řetězec "2". To by bylo super, jenže já si tenhle řádek chci dát do cyklu a hodnotu proměnné $2 (která zastupuje vyhledáávaný řetězec "2") chci měnit. Nějak takhle to myslím, ale nefunguje to:

while read radek; do

awk '$1 == "ahoj" && $2 == "$promenna" {print $0}' >> awk.txt

done < text.txt

Je to to samé akorád jsem řetězec nahradil proměnnou a přidal while cyklus, který načítá ze souboru po řádcích. Šlo by to nějak předělat do grepu, nebo sedu nebo i jinak?

Díky za rady!

Řešení dotazu:


Nástroje: Začni sledovat (1) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

19.12.2012 14:18 Petr
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Odpovědět | | Sbalit | Link | Blokovat | Admin
num="2"
grep '^ahoj.\{8\}'$num text.txt
19.12.2012 14:23 Hanyz
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Tohle vypadá dobře, jen mi není jasná ta závorky v grepu, co to dělá?
19.12.2012 14:25 Petr
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Znamená opakování položky (tedy "." nebo-li jakýkoli znak) přesně 8x. V man grep je to v odstavci "Repetition".
19.12.2012 14:36 Hanyz
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Aha, nezlobte se, ale tohle já nepotřebuji. V tom textovém souboru to první slovo "ahoj" může být libovolný počet. Předělal jsem to podle Vás a trošku upravil, ale zatím mi to nefunguje:

vzor="2"

while read radek; do

cat $radek | grep '^ahoj' $vzor >> vysledek.txt

done < text.txt

Viděl byste nějakou správnou alternativu?
19.12.2012 14:42 Kit
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Zkus třeba
vzor="2"
grep "^ahoj $vzor ahoj $vzor" <zdroj.txt >> vysledek.txt
19.12.2012 14:54 Hanyz
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Díky, tohle by taky šlo, ale kolega mi poradil s awk. Ještě jednou díky za pomoc!
Řešení 1× (Hanyz)
19.12.2012 14:42 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Odpovědět | | Sbalit | Link | Blokovat | Admin
awk '$1 == "ahoj" && $2 == "'"$promenna"'" {print}' text.txt
Anebo vůbec nechápu podstatu problému....
19.12.2012 14:43 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Nebo měnit znamená, že $promenna má být pro každý řádek souboru jiná? Těžko říci...
19.12.2012 14:52 Hanyz
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Při jednom vyhledání bude její hodnota stejná. Pak budu hledat třeba v jiném souboru a tam budu hledat zase podle její jiné hodnoty. Moje předchozí řešení pomocí awk je nepraktické a nepohodlné, jelikož bych musel ručně měnit pořád ve zdrojáku hodnotu podle které bych znova hledal. Ještě jednou díky a omlouvám se za těžkopádné vysvětlování!
19.12.2012 14:47 Hanyz
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Jste genius, díky! Já právě nevěděl jak navrat svou proměnnou do awk. Jupíí
25.1.2013 23:03 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tenhle problém mě celkem zaujal a nyní řeším něco podobného, ale těžšího.

Mějme soubor text.txt a v něm tohle:

jana   vesela     Z   praha

martin kunovsky   M   brno

eva    drobna     Z   zdar

jana   podebratskaZ   hukvaldy

lubos  novak      M   plzen

Jde jen o vhodný příklad, nechci vzbudit zájem, že bych pracovala se seznamem lidí :) Teď zpátky k mému problému. Co kdybych chtěla vypsat jen lidi, kteří začínají jménem "jana" a zárověň jsou "Z" jako žena. Uvažujme, že jednotlivé položky jsou v pevných sloupcích, tedy třeba údaj o pohlaví (znak Z nebo M) je vždy v sloupci 20 (nebo jako dvacátý znak od začátku řádku chcete-li). Když se všimnete čtvrtého záznamu v souboru, tak údaj o pohlaví splynul v jeden řetězec spolu s příjmením. Chtěla bych nějak využít inforamci o tom, že vím, že se vždy jako dvacátý znak vyskytuje údaj o pohlaví.

Pokouším se to dělat nešikovně nějak takto:

pohlavi="Z"

cat text.txt | grep "^jana" | grep "`$pohlavi ~ cut -c20`"

S tímhle hlavně bojuju:

grep "`$pohlavi ~ cut -c20`"

- myslím to tak, že najde jen ten řádek, kde proměnná $pohlavi odpovídá znaku nalezeném pomocí cut na pozici 20. Ale nějak se nedaří :/

Vím, že by to šlo třeba awk, ale jak by šlo jinak?

Děkuju za rady.
25.1.2013 23:57 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Staci jeden regexp:
egrep jana\(.\){15}Z.*$ test
27.1.2013 22:21 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Děkuji ti NN, za velice rychlé a jednoduché řešení. Nevěděla jsem, že až taková síla se ukrývá v egrepu :)

Co kdyby moje výše uvedená ukázka souboru text.txt obsahovala spoustu podobných udajů. Pro větší přehlednost by tyto údaje byly odděleny do "skupin" třeba řádkem, na kterém se nachází řetezec "KONEC_UDAJE" (něco jako zarážka - dál už nehledej a zkonči).Radši to uvedu na příkladě:

Soubor text.txt a v něm tohle:
jana   vesela     Z   praha
martin kunovsky   M   brno
eva    drobna     Z   zdar
jana   podebratskaZ   hukvaldy
lubos  novak      M   plzen
KONEC_UDAJE
marta   nova      Z   praha
martin trcalek    M   brno
eva    nejedla    Z   zdar
jana   podebratskaZ   hukvaldy
lubos  slovak      M   plzen
KONEC_UDAJE

...atd

Problém zůstává stejný, hledám řádky, začínající řetězcem "jana" a zároven, aby řádek obsahoval i řetězec "Z", který je na pevné pozici (sloupec 20) + navíc, aby vyhledávání zkončilo jakmile na začátku řádku narazí na řetězec "KONEC_UDAJE". Zajímalo by mě, jak takovou věc udělat. Přemýšlím nad tím, jak zkloubit regexp s podmínkou "pokud narazíš na určitý řětezec, nehledej dál a zkonči". Věděl by někdo jak na to?

Děkuju, bedete zlatí!
27.1.2013 22:35 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
sed -rn '/^jana.{14}Z/p;/^KONEC_UDAJE/q' text.txt
číslo 14 je zapotřebí uzpůsobit skutečném poloze sloupce Z/M. V uvedeném příkladu je totiž v devatenáctém sloupci, nikoli ve dvacátém.

A nyní je zapotřebí (a) naučit se regulární výrazy, jinak budeme takto iterovat se stále se měnícím dotazem věčně (b) přestat psát ‚co kdyby‘ a napsat, co potřebuješ doopravdy, aby se dalo odpovědět na to.
28.1.2013 20:48 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Příloha:
Děkuju, Vaše rady beru navědomí. Budu si objednávat knížku "sed&awk", protože mě fascinují zde Vaše řešení. Takřka během pár minut je tu řešení a já s tím bojuju o dost dýl!

Dobře, teď už snad poslední věc k Vašemu příspěvku. Soubor text.txt je v příloze.

Skript jsem upravila následovně:

znak="A"

cat text.txt | sed -rn "/^aa.{2}$znak/p;/^konec_aa/q" > vystup.txt

Takhle mi skript vyfiltruje tohle (v pořádku):
aa  A
aa  A
aa  A
Když ale změním hodnotu proměnné $znak na znak="B" nevypíše mi skript nic. Proč? A jak upravit výše uvedený skript, aby mi vyfiltroval tohle (obdobně pak když změním znak="C"):
aa  B
aa  B
aa  B
Závěrem chci říct, že se snažím nepsat každou banalitu, na kterou zrovna nemůžu přijít. Snažím se na co nejvíc věcí přijít sama, mám z toho pak lepší pocit. Ale co se týká kouzel a magie REGEXP, zatím v ní plavu! Všem moc děkuju za pomoc!
28.1.2013 22:33 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Protoze najde prvni 'konec_aa' a na zbytek se vykasle..

Mimochodem jak poznam, ktery konec je spravny ?
29.1.2013 19:15 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Já si právě myslela, že to od začátku prochází po řádcích a až když narazí na text, který vyhovuje sed parametrům, tak začne filtrovat a zkončí až když narazí na "konec_aa". A že to takhle dělá v celém souboru. Takže je to nereálné vyřešit?
29.1.2013 20:11 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Neodpovedela jsi na otazku, jak poznam, ktery 'konec_aa' je spravny, kdyz jsou vsechny stejne ?
29.1.2013 20:22 monika
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Správný je pouze ten, který následuje za poslední správně nalezenou shodou podle vzoru. Takže třeba když budu hledat všechny výskyty pro znak="A":

znak="A"

cat text.txt | sed -rn "/^aa.{2}$znak/p;/^konec_aa/q" > vystup.txt

Tak bude pouze hned ten první "konec_aa" správný. Když budu hledat všechny výskyty pro znak="B", tak bude pouze ten druhý "konec_aa" správný, atd. Ju?
29.1.2013 21:11 l4m4
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
V tom případě nerozumím, jaký mají konce vůbec význam, protože za poslední shodou už tak jako tak není nic k vypsání.

Když všechny konce smažeš (ignoruješ, ...), má se najít úplně stejná sada shod, ne?
29.1.2013 21:20 NN
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
To je ale pekna kravina, protoze 'posledni spravna shoda' je predikat ne podminka.

Uvazuj priklad:
aa  A
aa  A
aa  A
konec_aa
aa  B
aa  B
aa  B
konec_aa
aa  B
aa  C
aa  C
konec_aa
Abych zjistil ,ktera je ta 'posledni shoda' musim projit cely dokument, abych si byl skutecne jisty a v takovem pripade tvuj "konec" straci smysl.

'Konec' ma smysl pouze v pripade pokud je jediny a konecny.
28.1.2013 22:34 Marble | skóre: 27 | blog: marble
Rozbalit Rozbalit vše Re: bash - 2 shody na jednom radku
Případně se podívej, co umí perl (anebo grep s přepínačem -P). Pomocí "look-ahead" konstrukcí můžeš vyřešit třeba i to, že nechceš řešit délku počátečního řetězce. Třeba nějak takhle: grep -P '^(?=.{19}Z)jana' <text.txt

Závorka s otazníkem otestuje Z na 20. místě, ale zároveň neposune "aktivní pozici", takže následující výraz se porovnává stále od začátku řetězce. (Ale upozorňuji, že já perl používám velmi občas, takže to ber spíš jako inspiraci, než nějaké zaručeně dobré řešení. :) )

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.