Přihlášení | Registrace

napište » Zprávičky

včera 15:33 | Komunita

Na YouTube byly zveřejněny videozáznamy přednášek z hackerské konference DEF CON 33, jež proběhla 7. až 10. srpna v Las Vegas.

Ladislav Hagara | Komentářů: 0

Bun 1.3

včera 05:33 | Nová verze

Bun (Wikipedie), tj. běhové prostředí (runtime) a toolkit pro JavaScript a TypeScript, alternativa k Node.js a Deno, byl vydán ve verzi 1.3. Představení novinek také na YouTube. Bun je naprogramován v programovacím jazyce Zig.

Ladislav Hagara | Komentářů: 2

Česko získalo svou továrnu na umělou inteligenci a s ní i nový AI superpočítač

10.10. 14:22 | IT novinky

V Lucemburku byly oznámeny výsledky posledního kola výzev na evropské továrny pro umělou inteligenci neboli AI Factories. Mezi úspěšné žadatele patří i Česká republika, potažmo konsorcium šesti partnerů vedené VŠB – Technickou univerzitou Ostrava. V rámci Czech AI Factory (CZAI), jak se česká AI továrna jmenuje, bude pořízen velmi výkonný superpočítač pro AI výpočty a vznikne balíček služeb poskytovaný odborníky konsorcia. Obojí bude sloužit malým a středním podnikům, průmyslu i institucím veřejného a výzkumného sektoru.

Ladislav Hagara | Komentářů: 15

Visual Studio Code a VSCodium 1.105

10.10. 01:22 | Nová verze

Byla vydána (𝕏) zářijová aktualizace aneb nová verze 1.105 editoru zdrojových kódů Visual Studio Code (Wikipedie). Přehled novinek i s náhledy a videi v poznámkách k vydání. Ve verzi 1.105 vyjde také VSCodium, tj. komunitní sestavení Visual Studia Code bez telemetrie a licenčních podmínek Microsoftu.

Ladislav Hagara | Komentářů: 0

Lepší správa profilů ve Firefoxu

9.10. 15:33 | Komunita

Ve Firefoxu bude lepší správa profilů (oddělené nastavení domovské stránky, nastavení lišt, instalace rozšíření, uložení hesla, přidání záložky atd.). Nový grafický správce profilů bude postupně zaváděn od 14.října.

Ladislav Hagara | Komentářů: 0

Ubuntu 25.10 Questing Quokka

9.10. 12:44 | Nová verze

Canonical vydal (email) Ubuntu 25.10 Questing Quokka. Přehled novinek v poznámkách k vydání. Jedná se o průběžné vydání s podporou 9 měsíců, tj. do července 2026.

Ladislav Hagara | Komentářů: 0

ClamAV 1.5.0

9.10. 12:22 | Nová verze

ClamAV (Wikipedie), tj. multiplatformní antivirový engine s otevřeným zdrojovým kódem pro detekci trojských koní, virů, malwaru a dalších škodlivých hrozeb, byl vydán ve verzi 1.5.0.

Ladislav Hagara | Komentářů: 0

Julia 1.12.0

9.10. 01:22 | Nová verze

Byla vydána nová verze 1.12.0 dynamického programovacího jazyka Julia (Wikipedie) určeného zejména pro vědecké výpočty. Přehled novinek v příspěvku na blogu a v poznámkách k vydání. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 0

Kritická zranitelnost CVE-2025-49844 v Redisu

8.10. 15:11 | Bezpečnostní upozornění

V Redisu byla nalezena a v upstreamu již opravena kritická zranitelnost CVE-2025-49844 s CVSS 10.0 (RCE, vzdálené spouštění kódu).

Ladislav Hagara | Komentářů: 5

Ministr Jurečka přijal rezignaci ředitele DIA Martina Mesršmída

8.10. 14:00 | IT novinky

Ministr a vicepremiér pro digitalizaci Marian Jurečka dnes oznámil, že přijme rezignaci ředitele Digitální a informační agentury Martina Mesršmída, a to k 23. říjnu 2025. Mesršmíd nabídl svou funkci během minulého víkendu, kdy se DIA potýkala s problémy eDokladů, které některým občanům znepříjemnily využití možnosti prokázat se digitální občankou u volebních komisí při volbách do Poslanecké sněmovny.

Ladislav Hagara | Komentářů: 20

Centrum | Napsat | Starší

navrhněte » Anketa

Jaké řešení používáte k vývoji / práci?

Github (38%)

Gitlab (46%)

Atlassian (16%)

Bitbucket (18%)

Gitea (22%)

Mercurial (16%)

jen git (18%)

jen svn (16%)

Jiné (uvedu v diskusi) (16%)

Celkem 208 hlasů

Komentářů: 13, poslední 8.10. 07:41

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Programovací poradna / 200 GB txt subor a sort -u

Štítky: hardware, RAM, 500

Dotaz: 200 GB txt subor a sort -u

7.7.2018 18:52 tutanchamon
200 GB txt subor a sort -u

Přečteno: 3107×

Odpovědět | Admin

Chcem dostat unikatne slova z 260 GB suboru. Ako na to casovo aj datovo co najefektivnejsie? Mam iba starsie dvojjadro s 4GB RAM a prepoctom idem k 80 hodinam triedenia a cca 500 GB na temp subory + vysledny subor... Dakujem za postrehy...

Řešení dotazu:

Komentář #15 (OldFrog {Ondra Nemecek}, 1 hlasů)

Nástroje: Začni sledovat (0) ?

Odpovědi

7.7.2018 19:32 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Podle mě záleží, jak hodně se ta slova opakují. Naivním přístupem bych načetl slovo po slově a vkládal do Setu ve vhodném programovacím jazyce a ten Set nakonec serializoval. Výběrem vhodné implementace Setu by šlo docílit optimálního výkonu, asi na to budou i specializované knihovny. Šlo by to řešit po částech, aby se všechna aktuálně zpracovávaná data vešla do RAM - rozdělit soubor, zpracovat po částech, získané mezivýsledky zpracovat v druhém průchodu. Možná by stejnou úlohu zajistila i nějaká databáze (třeba MapDB a podobné).

-- OldFrog

7.7.2018 19:33 Kit | skóre: 46 | Brno
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Nacpal bych ta slova jako klíče do databáze DB4 a vypsal její obsah.

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

8.7.2018 12:09 Lazar
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Co rozdělit soubor na desítky(stovky?) menších, stanovit unikátní seznam pro každý z nich a pak stanovit seznam unikátních slov pro sloučené dílčí seznamy? Těch unikátních slov snad bude relativně konečné množství, ne?

8.7.2018 14:15 Dikobraz Fik
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Příloha:

progress.png (5733 bytů)

^^^^^^^^^^^^^^ pozrite si progress... poriesil som to takto - hadam to niekomu niekedy pomoze...

pv $1 | parallel --tmpdir tmp --pipe --files sort -u -T tmp -S512M  --parallel=2 | parallel --tmpdir tmp -Xj1 sort -u -T tmp -S1024M --parallel=2  -m {} ';' rm {} > $2

nutne definovat --tmpdir (u mna v aktualnom adresari) inac si zabijete /tmp (ak tam nemate dost miesta)

9.7.2018 12:25 uniq
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Preco si nepouzil program uniq?

9.7.2018 16:24 R
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Lebo pred jeho pouzitim sa musia aj tak data usporiadat programom sort?

9.7.2018 18:48 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Jo klíč by měl být OK. Ono těch slov zas tolik není:

# cat /usr/share/dict/words  | wc -l
38619
# cat /usr/share/dict/words  | wc -c
352846

Pokud by vyhledání klíče bylo rychlý (třeba hash), tak by to mohlo číst až rychlostí blízkou disku. Můj naivní kód v perlu, co parsuje asi 3.5GB lisp-like zdroják to zvládne na c2d asi za 30 minut, ale kromě hledání klíče to dělá i inserty do tisíců spojových seznamů apod (což je mnohem náročnější).

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

9.7.2018 19:25 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Pokud ovšem jde o slova z normálního „lidského“ jazyka...

-- OldFrog

10.7.2018 14:45 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Hmm to je vlastně pravda. Ale i tak ty klíče samozřejmě pomohou, jen to bude trvat dýl a sežere to víc času.

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

9.7.2018 22:47 Rockhopper
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

V prvé řadě je potřeba soubor zkomprimovat a řadit zkomprimovaný. Hrubý odhad bez znalosti typu dat cca. do 10 hodin. Na velikosti RAM víceméně nezáleží, stačí 16 MB, záleží na druhu komprese.

10.7.2018 09:08 rastos | skóre: 63 | blog: rastos
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

N=100000
split --lines=$N  vstup
for file in x*
do 
  cat $file | tr ' ' '\n' | sort -u > $file.usorted
  mv $file.usorted $file
done
cat x* | sort -u > vystup

Hodnotu N upraviť podľa potreby. To 'tr' je také neotesané riešenie, čo neberie do úvahy bodky, čiarky, atď. Možno by sa dalo nahradiť nejakým šikovnejším sed-om.

10.7.2018 09:22 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Myslím, že pokud bude těch x* hodně, zahlásí bash u cat příliš dlouhý seznam parametrů. Ale to lze snadno vyřešit třeba přes find.

Jsou dvě jádra, tak by se to procházení x* mohlo obalit funkcí a xargsem spouštět dva procesy.

10.7.2018 11:01 rastos | skóre: 63 | blog: rastos
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Keď urobíš "wc -l vstup" a vydelíš výsledok 200, tak dostaneš počet riadkov na jeden súbor ktorý bude mat +- 1GB. Ten počet dáš split-u, a budeš mať 200 súborov. Aj keby si to delil 2000 tak budeš mať 2000 súborov po 100MB. To by nemuselo byť moc. Podstatné je, že každý ten kúsok sa tým "sort -u" značne zredukuje, takže aj ich spojenie na konci bude relatívne malé.

10.7.2018 11:07 dustin | skóre: 63 | blog: dustin
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Jasně, jen jsem upozorňoval, že bývá dobré na max. počet souborů přes wildcard myslet, je to pak nepříjemná chyba. I když, v bashi je každé ladění nepříjemné :-)

10.7.2018 10:01 〹
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Kolik unikátních slov očekáváš? Bavíme se o lidském jazyce?

Řešení 1× (cronin)

10.7.2018 12:46 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

Chtělo by to vzorek toho souboru. A nabízí se vyhlásit soutěž o nejrychlejší řešení a udělat porovnání použití různých technologií :-)

-- OldFrog

17.7.2018 07:55 Michal Kubeček | skóre: 71 | Luštěnice
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

A také dost záleží na tom, jestli to má být jednorázová akce nebo jestli je cílem napsat program, který se bude na podobně velkých souborech spouštět opakovaně. V prvním případě bude stačit něco, co bude přijatelně rychlé, a nemělo by smysl trávit hodinu práce navíc optimalizací, která zrychlí běh o hodinu (nebo třeba i čtyři). Ve druhém už by stálo zamyslet se nad datovou strukturou, která umožní rychlý insert a walkthrough (RB tree?).

12.7.2018 16:09 lertimir | skóre: 64 | blog: Par_slov
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

rozhodně bych netřídil původní soubor. použil bych algoritmus typu

setrideny-seznam-unikatnich-slov="prázndný seznam"

slovo=prectu-slovo()
while (slovo!=null){
  if (slovo "je v" setrideny-seznam-unikatnich-slov){ # náročnost operace O(log(N))
     zaradit(slovo, setrideny-seznam-unikatnich-slov) # pro balancované seznam to je tuším také O(log(N)), navíc v předchozím vyhledávání už bylo nalezeno, kde v tom seznamu by tohle slovo mělo být a není takže by ty operace mohly být i rychlejší než log protože není třeba hledat.
  }
}

pak v setrideny-seznam-unikatnich-slov je pořád setříděno a pokud to není těch slov fakt moc tak se to možná i vejde do paměti.

22.7.2018 20:04 python
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

pokud se slova vejdou do RAM, tohle v pythonu bude svizne :

uniq = set()
with open('README.md') as f:
    for line in f:
        words = line.strip().split()
        for w in words:
            uniq.add(w)
print(len(uniq))

25.7.2018 01:15 DaBler | skóre: 17 | blog: dabler | Brno
Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

zkuste awk, cf. odpověď na podobný dotaz

Založit nové vlákno • Nahoru

Tiskni Sdílej:

Píšeme jinde

ISSN 1214-1267 www.czech-server.cz

Redakce | Inzerce | Podmínky použití | Osobní údaje