Portál AbcLinuxu, 10. května 2025 03:20
Řešení dotazu:
wc -l
pouštět /usr/bin/wc -l
?
file
a pak count (pole)
a mame pocet radku. Protoze nacteni do pole celeho souboru se dela tak ze kazdy prvek pole obsahuje jeden radek.
Priklad:
$pole_soubor=file ($jm_file);
$pocet_radku=count($pole_soubor);
echo $pocet_radku;
PS: kdyby nekdo nekdy tady neco hledal tak at najde komplet odpoved na toto vlakno
$lines = 0; $f = fopen("soubor", "r"); if ($f) { while (fgets($f) != false) { line++; } fclose($f); }
wc
wc
nemusí být všude dostupné. (Typicky na hostingu se zapnutým safe_mode.)
wc
, teda kvazi optimalne (oproti horeuvedenym navrhom).
inak z orig. wc kodu:
/*
* Line counting is split out because it's a lot faster to get
* lines than to get words, since the word count requires some
* logic.
*/
if (doline) {
while ((len = read(fd, buf, MAXBSIZE))) {
wc ... 16.763 s wc -l ... 0.176 s PHP file() ... Allowed memory size of 134217728 bytes exhausted PHP po řádcích ... 2.183 s PHP po znacích ... 167.147 sNejsme v libc ani v kernelu, ale v PHP, víme?
Fajn, a co takhle 58MB soubor o jednom řádku? :-)
Obecně nejefektivnější bude načítat soubor pomocí fread()
po blocích, řekněme 4 KB, počítat LF a pak případně přičíst jedničku za poslední neukončený řádek.
Tentýž soubor, nahradil jsem konce řádků tečkou:Fajn, a co takhle 58MB soubor o jednom řádku? :-)
wc ... 17.088 s wc -l ... 0.137 s PHP file() ... 0.361 s PHP po řádcích ... 0.250 s PHP po znacích ... 165.240 s
Opět: Netuším, jak to bude vObecně nejefektivnější bude načítat soubor pomocí
fread()
po blocích, řekněme 4 KB, počítat LF a pak případně přičíst jedničku za poslední neukončený řádek.
C
, testy jsem dělal pouze v programech wc
a PHP
.
To je docela zvláštní, že jednou se vám ten soubor do paměti nevešel a podruhé stejně velký ano…
Opět: Netuším, jak to bude v C, testy jsem dělal pouze v programech wc a PHP.
Ale já přece nemluvil o C, i PHP má funkci fread()
.
Nic zvláštního. Paměťový limit mám v PHP 128 MB. Pole s jedním 58MB řetězcem zabere méně místa, než pole s 1202011 řetězci o úhrnné délce 58MB.To je docela zvláštní, že jednou se vám ten soubor do paměti nevešel a podruhé stejně velký ano…
Psát se mi to už nechce, ale vím, že to bude trvat dlouho. Dvojitý (příp. vícenásobný) cyklus ve skriptovacích jazycích celkem spolehlivě zabíjí výkon aplikace.Ale já přece nemluvil o C, i PHP má funkci
fread()
.
Psát se mi to už nechce, ale vím, že to bude trvat dlouho. Dvojitý (příp. vícenásobný) cyklus ve skriptovacích jazycích celkem spolehlivě zabíjí výkon aplikace.Myslíte, že když ten cyklus nevidíte (je schovaný v nějaké knihovní funkci), bude to s výkonem lepší?
Ještě mi docvaklo, že to půjde sAle já přece nemluvil o C, i PHP má funkci
fread()
.
fread()
i jinak, než vnořeným cyklem a to s funkcí substr_count()
. Výsledek 0.207 s
pro jednořádkový 58MB soubor a 0.251 s
pro původní soubor jsou velmi příznivé, vlastně u PHP
nejlepší. Zároveň to bude bezpečně fungovat i pro velmi dlouhé soubory a velmi dlouhé řádky.
A protože je to vítěz, zde je zdroják:
define('LF',chr(10)); $handle = fopen("soubor.txt","rb"); $lines = 0; while (!feof($handle)) { $lines+=substr_count(fread($handle, 8192),LF); } fclose($handle);Ovšem pro krátké soubory bych použil raději
fgets()
, výsledky budou přesné i v případě chybějícího LF na konci.
fgetc(): 14.769s (po znacích/bytech) fread() 2×cyklus 4KiB: 9.326s fread() 2×cyklus 32KiB: 9.248s (v C by toto bylo asi nejrychlejší) file_get_contents(): 9.209s (načtení celého souboru a smyčka) wc : 2.375s file() count(): 0.222s (načtení do pole řádků) fgets(): 0.127s (čtení po řádcích) fread() substr_count() 8KiB: 0.060s fread() substr_count() 32KiB: 0.051s wc -l : 0.024s
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.