Portál AbcLinuxu, 12. května 2025 06:43
while read radek; do
if [ "`grep -i $radek $2`" != "`grep -i $radek $1`" ]; then
echo $radek >> vysledek.txt
else
echo $radek >> /dev/null
fi
done < $1
Program spoustim takhle:
./ program.sh soubor_1 soubor_2
Uvedu priklad:
soubor_1 obsahuje:
a
b
c
d
e
f
g
soubor_2 obsahuje:
g
b
e
d
i
g
vysledny soubor vysledek.txt obsahuje:
a
c
f
g
Je to spravne, jen ten posledni znak g
tam nema byt, proc tam je? Vzdyt se nachazi v obou souborech. Tohle mi hlava nebere
Podotykam, že $1
je soubor_1 a $2
je soubor_2. Diky za nakopnuti a preju hezke svatky!
Řešení dotazu:
A co konec řádku , není tam cr_lf nebo nějakej podobnej paznak kterej neni vidět ?
diff
?
Potřebuješ to k nějaké funkčnosti nebo je to jen cvičení?
if [ "`grep -i $radek $2 | tr [A-Z] [a-z]`" != "`grep -i $radek $1 | tr [A-Z] [a-z]`" ]; then
Zkrátka, aby to převedlo všechno na malé znaky...aby mi to nevyhodilo neshodu na základě toho, že se někde v řetězci nachází velké písmenko.
diff
seřadit sort
em.
Také je možné první soubor natáhnout do nějakého asociativního pole a druhý soubor s ním porovnat.
#!/bin/bash sqlite3 <<EOT .separator '|||' create table a(nazev text); .import a.txt a create index inda on a (nazev); create table b(nazev text); .import b.txt b select nazev from b where lower(nazev) not in (select lower(nazev) from a); EOT
<?php $a=array(); foreach (file('a.txt') as $line) { $a[strtolower(trim($line))]=$line; } foreach (file('b.txt') as $line) { if (!isset($a[strtolower(trim($line))])) { echo trim($line),"\n"; } }
comm
.
Len v druhom:
comm -13 <(sort soubor_1) <(sort soubor_2)
comm
říct, že tohle jsou rozdílné řetězce:
Robert_Natus_-_Back_To_Led_(Holz56)-Promo_EP-2002-TR
Robert_Natus_-_Back_To_Led_(Holz56)-Promo_EP-2002-TR
??? Žádný rozdíl ve velikosti znaku, žádné bílé znaky, žádné jiné neviditelné znaky....
hexdump
em, možná nějaký rozdíl najdeš.
comm
je skvělý nástroj, trošku jsem si to upravil, aby neuvažoval rozdíl ve velikosti písmen:
comm -3 <(cat $1 | tr [A-Z] [a-z] | sort) <(cat $2 | tr [A-Z] [a-z] | sort) > vysledek.txt
Díky ještě jednou!
1. V jednom souboru máte řádek "g" jednou a ve druhém dvakrát, proto vám to porovnání nevyjde.
2. Kromě zoufalé neefektivity je použití grepu špatně, protože grep vám vrátí i všechny řádky, kde se vzorek vyskytuje jako podřetězec. Co hůř, vzorek se chápe jako (basic) regulární výraz, takže bude-li obsahovat např. tečku, nebudete se stačit divit, co všechno bude matchovat.
3. K čemu je podle vás dobrá ta "else" větev (kromě zpomalení skriptu)?
Abych grepu zabránil brát vzorec jako basic RE, tak stačí dát vzorek do uvozovek "$vzorek"?
Ne, tím jen zařídíte, aby shell neinterpretoval znaky, které jsou pro něj speciální (třeba mezery). Pro chápání vzorku jako řetězce by měl pomoci přepínač -F
(nebo spouštět jako fgrep
). Ale pořád bude potřeba dávat pozor na podřetězce nebo vícenásobné výskyty (podle způsobu použití).
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.