Portál AbcLinuxu, 30. prosince 2025 04:03
$fp = FOpen ($filename, "rb");
$text = FRead ($fp, FileSize ($filename));
FClose ($fp);
$patterns = array(
"/^(.*)\.(.*) /smUe"
);
$replacements = array(
"StrFTime('%d/%m/%Y %H:%M:%S', '\\1')"
);
$text = preg_replace($patterns,$replacements, $text);
cat access.log |
cut -d. -f1 |
while read sec; do
date -d "19700101 00:00:00 $sec sec" "+%d/%m/%Y %H:%M:%S"
done
#!/usr/bin/python
import time
for line in file('access.log'):
splitted = line.split()
firsttwo = ' '.join(splitted[:2])
text = ' '.join(splitted[2:])
time_tuple = time.strptime(firsttwo, '%d/%m/%Y %H:%M:%S')
print time.mktime(time_tuple), text
Zpracovává to asi 10000 řádků za sekundu a paměť by to taky nějak zvlášť žrát nemělo.
10000 řádků za sekundu je málo. Ten php skript zpracuje 50 MB soubor logu za 3 sekunkdy.Tak o takové rychlosti si mohu nechat jen zdát. Odhaduji, že ten tvůj padesátimegový log obsahuje půl miliónu řádků. Už pouhé volání funkce strptime() z pythonu si u mě vezme 70 mikrosekund, což samo o sobě by se natáhlo na více než půl minuty. Rád bych pohlédl kruté pravdě do očí - máme tak strašně odlišné počítače nebo lžou všichni, co údajně svůj web urychlili přepsáním z php do pythonu?
Tak tady je nová verze
#!/usr/bin/env python
import time
for line in file('access.log'):
sec, text = line.split(' ', 1)
ttuple = time.localtime(float(sec))
print time.strftime('%d/%m/%Y %H:%M:%S', ttuple), text,
která zpracovává 40000 řádků za sekundu (změřeno), vypisuje vždy celý řádek logu, jen čas a datum má polidštěný formát. Padesátimegový log se zpracovává 10 sekund a líp to nedokážu.
# time perl -p -e 's/^\d+\.\d+/localtime $&/e;'< access.log > access-lidsky.log real 0m39.863s user 0m30.460s sys 0m3.120s
# cat /var/log/dmesg|grep MIPS Calibrating delay loop... 799.53 BogoMIPS
# ls -l access.log -rw-r----- 1 proxy proxy 49436371 Feb 6 15:23 access.log
Zkusím tedy napodobit ten perlovský kód a předpokládat, že formát data a času vyhovuje tak, jak ho vrací funkce ctime().
#!/usr/bin/env python
import time
for line in file('access.log'):
sec, text = line.split(' ', 1)
print time.ctime(float(sec)), text,
A opravdu se to tím zrychlilo:
$ time ./readfile.py > access-lidsky.log real 0m6.020s user 0m5.415s sys 0m0.527s $ time perl -p -e 's/^\d+\.\d+/localtime $&/e;'< access.log > access-lidsky.log real 0m9.052s user 0m7.245s sys 0m1.725sTakže padesátimegový log se pythonem zpracuje za 6 sekund, v těsném závěsu je perl s devíti sekundami. Ale nad rychlostí toho PHP mi zůstává rozum stát.
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.