AbcLinuxu:/ Poradna / Linuxová poradna / vlozenie hodnoty zo suboru do suboru

Štítky: AWK, KDE, Perl, programování, Python, sed

Dotaz: vlozenie hodnoty zo suboru do suboru

1.3.2007 22:38 peter
vlozenie hodnoty zo suboru do suboru

Přečteno: 161×

Odpovědět | Admin

dobry den
chcel by som poradit nejaky skript ktory by mi vlozil za oznacene cislo 7806 cislo z ineho suboru kde budem mat definovanu hodnotu napr 2 7806 ,a prave tu hodnotu 2 potrebujem vlozit do ineho suboru ,ten subor na tento tvar
0101.03.0714:24:080000007806073000000000000000000000 tych cisel budem mat v subore viac ,ale hodnoty a cisla sa menit nebudu
dakujem

Nástroje: Začni sledovat (3) ?

Odpovědi

2.3.2007 00:14 Henly
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Tak to nahrazeni treba takto:
sed "s/\($co\)/\1$pridat/" 2.txt
sed 's/\(7806\)/\12/' soubor.txt

Jedním příkazem se to dá napsat takhle ošklivě:
awk '{print "sed \"s/\\("$2"\\)/\\1"$1"/\" 2.txt"}' 1.txt | sh

testováno na:
$ cat 1.txt
2 7806
$ cat 2.txt
0101.03.0714:24:080000007806073000000000000000000000
$ awk '{print "sed \"s/\\("$2"\\)/\\1"$1"/\" 2.txt"}' 1.txt | sh
0101.03.0714:24:0800000078062073000000000000000000000

2.3.2007 09:48 peter
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

super ,co ste napisali funguje dobre ,ale ja tych hodnot mam v subore viac ,1.txt napr
2 7806
1 7736
1 3352

asi cca 300 a to mi uz akosi neslo

2.3.2007 10:42 ams | skóre: 10
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Toto reseni neni optimalizovano (napr. zadna predkompilace regexpu) ale funguje:

$ cat vlozit
#!/usr/bin/perl
print("Pouziti: $0 soubor_se_seznamem_nahrad soubor_s_puvodnimi_daty\n"), exit 
  unless @ARGV == 2;
open NAHRADY, "<", "$ARGV[0]" or die "Nemuzu otevrit $ARGV[0]";
while(<NAHRADY>){
        chomp;
        ($cim,$co)=split;
        $m{$co}=$cim;
}
close NAHRADY;
open DATA, "<", "$ARGV[1]" or die "Nemuzu otevrit $ARGV[1]";
while($radek = <DATA>){
        $radek=~s/$_/$_$m{$_}/g for keys %m;
        print $radek;
}
close DATA;

Priklad:

$ vlozit 1.txt data.txt > vystup.txt

2.3.2007 11:18 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Tak pro špetce optimalizací:

#!/usr/bin/env perl

use strict;
use warnings;

my %m;
while(<>){
	chomp;
	my ($cim,$co) = split;
	$m{$co} = $cim;
	last if eof;
}
my $searchPat = join '|', map quotemeta, keys %m;
while(<>){
	s/($searchPat)/$m{$1}/geo;
	print $_;
}

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

2.3.2007 11:47 ams | skóre: 10
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Pokud jde o kratky zapis pak uz neco takoveho :) :

#!/usr/bin/env perl 
use strict;
use warnings;
undef $/;
my %m = reverse split /\s/, <>;
my $s = join "|", map quotemeta, keys %m;
s/($s)/$1.$m{$1}/ge, print for <>;

Uznavam, ze toto reseni je horsi tim, ze nacita cele soubory do pameti. Opravuje ale malou chybicku: v nahrazovaci casti musi byt $1.$m{$1} misto jednoducheho $m{$1}.

2.3.2007 11:55 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Tak to $_ v tom posledním printu je zbytečné, nebo jako oneliner:

perl -pe 'BEGIN{while(<>){chomp;push@m,(split)[0,1];last if eof}%m=reverse@m;$s=join"|",map quotemeta,keys%m}s/($s)/$m{$1}/geo' nahrady soubor(y)

Ještě kratší by bylo použít s/$s/$m{$&}/geo místo s/($s)/$m{$1}/geo ale je to pomalejší viz BUGS in perlvar.

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

2.3.2007 12:11 ams | skóre: 10
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

perl -0777 -pe 'BEGIN{%m=reverse split /\s/,<>;$s=join"|",map quotemeta,keys%m}s/($s)/$1.$m{$1}/ge'

2.3.2007 12:47 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Aspoň ten(ty) měněný(é) soubor(y) by se nemusel(y) načístat do paměti celý(é). A ten regulár bych taky nekompiloval pořád dokola.

perl -pe 'BEGIN{local $/;%m=reverse split /\s/,<>;$s=join"|",map quotemeta,keys%m}s/($s)/$1.$m{$1}/geo'

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

2.3.2007 13:23 ams | skóre: 10
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Toto asi bude nejlepsi reseni.

A ten regulár bych taky nekompiloval pořád dokola.

V mem reseni ten regexp se kompiluje jenom jednou, protoze se aplikuje hned na cely soubor (ano, predpokladal jsem, ze ten soubor bude jenom jeden).

2.3.2007 10:45 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Dalo by se použít třeba tohle:

#!/usr/bin/env python
nahrady = []
for line in file('1.txt'):
    a, b = line.split()
    nahrady.append((b, b + a))
    
for line in file('2.txt'):
    for num1, num2 in nahrady:
        new = line.replace(num1, num2)
        if new != line:
            print new.strip()
            break

Nejprve si to z prvního souboru vytvoří seznam, co se má čím nahradit, např

[('7806', '78062'), ('7736', '77361'), ('3352', '33521')]

A pak prochází druhý soubor a každý jeho řádek testuje, zda se v něm dá něco nahradit. Pokud ano, vypíše ho a ihned pokračuje ve zpracování dalšího řádku. Ale nevím, co se má stát, když se nic nahradit nepodaří, zda jsou náhrady vždy jednoznačné a jestli například nejsou čísla vždy na stejných pozicích - to by se pak dalo použít asociativní pole, které je zatraceně rychlé. Nemáš někde odkaz na oba soubory?

2.3.2007 14:16 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Huh, ten python je teda nic moc. Aby člověk mohl udělat rozumě srovnatelně rychlý a konfortní program, tak musí napsat něco takového:

#!/usr/bin/env python
import sys, sre

def nahrady_gen (seq):
	for line in seq:
		a, b = line.split()
		yield (b, b + a)

nahrady = dict(nahrady_gen(file(sys.argv[1])))
searcher = sre.compile('('+'|'.join(sre.escape(key) for key in nahrady.keys())+')')
def linechanger (line):
	return searcher.sub(lambda match: nahrady[line[match.start():match.end()]], line)

for filename in sys.argv[2:]:
	if filename == '-':
		f = sys.stdin
	else:
		f = file(filename)
	for line in f:
		print linechanger(line.strip())

Na tom kódu je pěkne vidět co v šechno udělá perl za mě. Je fakt, že v pythonu moc neprogramuju (prakticky vůbec), tak se nějakej pythonysta předveďte. Jen bych chtěl, aby to mělo srovnatelný výkon (nebude se to celé načítat do paměti, regulár se bude kompilovat jen jednou, překlad přes dict a ne ta cyklická hrůza) a podobně konfortní (bude to pracovat s parametrama z příkazové řádky a bude to pracovat s víc než jedním souborem).

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

2.3.2007 14:51 Hynek (Pichi) Vychodil | skóre: 43 | blog: Pichi | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

No to je teda úroveň dokumentace :( Kde se krucinál dá najít dokumenatce k objektu SRE_match? To si ho mám snad vycucat z prstu? Aha, to musím hledat na webu, to není v pydocu :( No tak se nám ta implementace o chlup zjednoduší, ale furt je to proti perlu dost rozdíl:

#!/usr/bin/env python
import sys, sre

def nahrady_gen (seq):
	for line in seq:
		a, b = line.split()
		yield (b, b + a)

nahrady = dict(nahrady_gen(file(sys.argv[1])))
searcher = sre.compile('|'.join(sre.escape(key) for key in nahrady.keys()))
translator = lambda match: nahrady[match.group()]

for filename in sys.argv[2:]:
	if filename == '-':
		f = sys.stdin
	else:
		f = file(filename)
	for line in f:
		print searcher.sub(translator, line)

XML je zbytečný, pomalý, nešikovný balast, znovu vynalézané kolo a ještě ke všemu šišaté, těžké a kýčovitě pomalované.

2.3.2007 15:55 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

... tak se nějakej pythonysta předveďte. Jen bych chtěl, aby to mělo srovnatelný výkon (nebude se to celé načítat do paměti, regulár se bude kompilovat jen jednou, překlad přes dict a ne ta cyklická hrůza) a podobně konfortní (bude to pracovat s parametrama z příkazové řádky a bude to pracovat s víc než jedním souborem).

Hm, možná se očekává, že budu nějak bojovat na obranu pythonu, když ho používám. Ale moc se mi nechce, jsi nějaký moc agresivní.
No tak jsem aspoň pustil tu svou původní neoptimalizovanou verzi na dva soubory 1.txt -- 1000 řádků a 2.txt s 10000 řádky. Běželo to 10 sekund, stejně jako varianta v perlu. No a tvá závěrečná varianta v pythonu je asi dvacetkrát rychlejší, jenže ...
každý z nás chápe zadání jinak, a proto každé řešení dává trochu jiné výsledky, tak to nemá cenu srovnávat.
Testovací soubory jsem generoval tímhle:

#!/usr/bin/env python
import random

def gen1txt(N):
    fw = file('1.txt', 'w')
    for i in range(N):
        a = random.randint(0, 9)
        b = random.randint(1000, 9999)
        fw.write('%d %d\n' %(a, b))

def gen2txt(N):
    fw = file('2.txt', 'w')
    for i in range(N):
        a = random.randint(1000, 9999)
        fw.write('%s%d%s\n' %('0'*20, a, '0'*20))


gen1txt(1000)
gen2txt(10000)

Ale znovu podotýkám - dokud se neozve původní autor dotazu a nevyjasní detaily, tak nemá cenu se dál bavit.

3.3.2007 15:20 peter
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

dakujem vsetkym za odozvu ,takze aby som to spresnil ,(mozno som sa zle vyjadril) :)

subor 1.txt ma v sebe 2 cisla

X XXXX
,X=je hodnota bud 1 2 alebo 3 ,XXXX je 4miestne cislo ,prezentuje to osobne cislo

subor 2.txt nesie v sebe log. z identifikacneho systemu ,kde je cas prihodu a ine ,zvyraznene cislo je to osobne cislo ,a co xcem urobit je, ze zo suboru 1.txt mam zoznam osobnych cisel a hodnutu, ktoru mam pridelit do suboru 2.txt za to zvyraznene cislo ,
PS ten log ma cez 50MB ,je to zaznam cca od 2005

3.3.2007 22:18 Jan Martinek | skóre: 43 | blog: johny | Brno
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

Díky za upřesnění. Rád bych ještě věděl, jak se vlastně v tom logu pozná to čtyřmístné identifikační číslo. Má v řetězci vždycky stejnou pozici mezi 24. a 28. znakem? Pokud ano, dal by se ten program napsat třeba takto:

#!/usr/bin/env python

copridat = {}
for line in file('1.txt'):
    hodnota, os_cislo = line.split()
    copridat[os_cislo] = hodnota

zacatek, konec = 24, 28 # Jestlipak je tohle pravda ...

for line in file('2.txt'):
    line = line.strip()
    os_cislo = line[zacatek:konec]
    hodnota = copridat[os_cislo]
    print line[:konec] + hodnota + line[konec:]

Zkusil jsem tím zpracovat uměle vytvořený padesátimegový log, přičemž soubor 1.txt obsahoval 10000 položek, tedy všechna identifikační čísla se využila. Bylo to hotové za necelé čtyři sekundy, tak snad to bude stačit.

4.3.2007 10:37 peter
Rozbalit Rozbalit vše Re: vlozenie hodnoty zo suboru do suboru

ano ,to 4miestne cislo ma stale rovnaku poziciu ,dakujem za vas podnet ,hned to skusim ,dakujem este raz :)

Založit nové vlákno • Nahoru

Tiskni Sdílej: