Portál AbcLinuxu, 10. května 2025 07:20
Dobrý den, potřeboval bych programem sed vytvořit ze souboru rodcislo.txt nový soubor vystup.txt, který bude mít následující formát:
Jmeno Prijmeni DD. MM. RRRR
Soubor rodcislo.txt obsahuje seznam rodných čísel a jmen osob ve formátu:
rrmmdd/nnn...:Jmeno Prijmeni
Problém je v tom, že sedem umím jen nahrazovat a nebo vymazávat různé řetězce :
sed 's/[0-9]\{6\}\/[0-9]\{3,5\}/CUC/' rodcislo.txt
- místo rod. čísla napíše CUC
Jenže nevím jak to "přesunout". Poradí mi pls někdo?
sed 's/\([0-9][0-9]\)\([0-9][0-9]\)\([0-9][0-9]\)\(/[0-9]\{3,5\}\)/\1.\2.RR\3 (\4)/Ha, snad jsem někde nezapomněl nějaký backslash...
Tak sem to vyresil (az na jednu drobnost : zeny maj u mesicu +5, coz nevim co s tim). Sice ten vas prikaz nebyl dobre, ale hodne moc mi pomohl. Děkuju vam obema...
zeny maj u mesicu +5, coz nevim co s timZkuste použít AWK (funkce
gensub
umí to, co s/.../.../
) - ten zvládá i jednoduchou aritmetiku.
sed
u). Předpokládám, že cest bude více, tuto jsem naimplementovla a funguje:
Zpracovávaný řádek si schovejte, abyste mohl zkusit záměnu na ženské/mužské RČ (nezapomeňte si ho ve správnou chvíli načíst zpět). Podle výsledku provedete podmíněný skok a u ženského RČ nahradíte první číslici měsíce... pak už je to jenom rozřazení regulérním výrazem, jak ho popisovali lidé zde a v dalším vlákně s pár dodatky:
a) ty počty výskytů ve složených závorkách nejsou regexp, ale eregexp... což Vám může být jedno s gsed
em na Linuxu, ale může Vás zaskočit na nějakém UNIXovém systému (třeba Solarisu).
b) Když je v něčem hromada dopředných a zpětných uvozovek, tak bych se moc přimlouval za jiný oddělovač (což snad podporuje každá implementace sed
u), neb to usnadní čtení. Třeba '#' (to se hezky liší od těch lomítek).
Kromě toho, že RČ rozlišuje pohlaví tam je ještě jeden zádrhel. Předpokládat ročník 19xx je podle mě chyba. Dobrá zpráva je, že formátování let lze vyřešit velmi podobně jako to pohlaví, akorát se to ještě trošičku zkomplikuje.
Zdar při řešení!
sed
u požívat i mimo svět gnutilit. Regexp nezná počty pomocí +
a ?
. Omlouvám se sed
u i těm, kteří tuto konstrukci správně použili.
Tento zápis naopak nefunguje v eregexpu, takže v awk
u a egrep
u si s nimi neškrtnete (nemluvím o gnu, kde je to vesměs jedno). Ke škodě přehlednosti a jednoduchosti psaní regulérních výrazů jsem si zvykl být docela hodně polopatický, abych neronil krokodýlí slzy tu nad nawkem, to nad sed
em.
Tento zápis naopak nefunguje v eregexpu
Funguje, jen se v RE ty složené (a kulaté) závorky na rozdíl od BRE nebackslashují.
$ echo "0123 012345 0123456" | grep '^[0-9]\{6\}$' 012345 $ echo "0123 012345 0123456" | egrep '^[0-9]{6}$'Případně k tomu
sed
u:
echo "0123 012345 0123456" | sed -ne '/^[0-9]\{6\}$/p' 012345 echo "0123 012345 0123456" | awk '/^[0-9]{6}$/{print}'Ostatně i manuálová stránka
egrep(1)
to říká:
The /usr/bin/egrep utility accepts full regular expressions as described on the regexp(5) manual page, except for \( and \), \( and \), \{ and \}, \< and \>, and \n, and with the addition of: ... 4. A full regular expression that may be enclosed in parentheses ()for grouping.Tj. vrací se nám pouze závorky, ne složené. Váše uvedený příklad je Solaris 10. A protože ne jen Linuxem a gnu nástroji je živ člověk, tak jsem tam napsal to upozornění. ;) Lidi se pak někdy nestačí divit, když zasednou před něco s UNIXem.
egrep
nebo awk
podporuje rozšířené regulární výrazy úplně nebo jen částečně. Takže vámi citovaný odstavec vlastně potvrzuje moje slova.
To už je zase čas zápočtů?
P.S.: doporučuji zvyknout si na to, že sed
a SED
jsou dva různé příkazy…
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.