abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    17.4. 17:11 | Zajímavý článek

    Stanislav Fort, vedoucí vědecký pracovník z Vlčkovy 'kyberbezpečnostní' firmy AISLE, zkoumal dopady Anthropic Mythos (nový AI model od Anthropicu zaměřený na hledání chyb, který před nedávnem vyplašil celý svět) a předvedl, že schopnosti umělé inteligence nejsou lineárně závislé na velikosti nebo ceně modelu a dokázal, že i některé otevřené modely zvládly v řadě testů odhalit ve zdrojových kódech stejné chyby jako Mythos (například FreeBSD CVE-2026-4747) a to s výrazně nižšími provozními náklady.

    MakeIranBombedAgain❗ | Komentářů: 6
    17.4. 12:44 | IT novinky

    Federální návrh zákona H.R.8250 'Parents Decide Act', 13. dubna předložený demokratem Joshem Gottheimerem a podpořený republikánkou Elise Stefanik coby spolupředkladatelkou (cosponsor), by v případě svého schválení nařizoval všem výrobcům operačních systémů při nastavování zařízení ověřovat věk uživatelů a při používání poskytovat tento věkový údaj aplikacím třetích stran. Hlavní rozdíl oproti kalifornskému zákonu AB 1043 a kolorádskému SB26-051 je ten, že federální návrh by platil rovnou pro celé USA.

    MakeIranBombedAgain❗ | Komentářů: 12
    17.4. 12:33 | Nová verze

    Qwen (čínská firma Alibaba Cloud) představila novou verzi svého modelu, Qwen3.6‑35B‑A3B. Jedná se o multimodální MoE model s 35 miliardami parametrů (3B aktivních), nativní kontextovou délkou až 262 144 tokenů, 'silným multimodálním vnímáním a schopností uvažování' a 'výjimečnou schopností agentického kódování, která se může měřit s mnohem rozsáhlejšími modely'. Model a dokumentace jsou volně dostupné na Hugging Face, případně na čínském Modelscope. Návod na spuštění je už i na Unsloth.

    MakeIranBombedAgain❗ | Komentářů: 1
    17.4. 11:00 | Nová verze

    Sniffnet, tj. multiplatformní (Windows, macOS a Linux) open source grafická aplikace pro sledování internetového provozu, byl vydán ve verzi 1.5. V přehledu novinek je vypíchnuta identifikace aplikací komunikujících po síti.

    Ladislav Hagara | Komentářů: 4
    17.4. 02:22 | Nová verze

    V programovacím jazyce Go naprogramovaná webová aplikace pro spolupráci na zdrojových kódech pomocí gitu Forgejo byla vydána ve verzi 15.0 (Mastodon). Forgejo je fork Gitei.

    Ladislav Hagara | Komentářů: 1
    17.4. 01:11 | Pozvánky

    Současně se SUSECON 2026 proběhne příští čtvrtek v Praze také komunitní Open Developer Summit (ODS) zaměřený na open source a openSUSE. Akce se koná ve čtvrtek 23. 4. (poslední den SUSECONu) v Hilton Prague (místnost Berlin 3) a je zcela zdarma, bez nutnosti registrace na SUSECON. Na programu jsou témata jako automatizace (AutoYaST), DevOps, AI v terminálu, bezpečnost, RISC-V nebo image-based systémy. Všichni jste srdečně zváni.

    lkocman | Komentářů: 1
    16.4. 15:44 | Humor

    Český úřad zeměměřický a katastrální zavedl u anonymního nahlížení do katastru nemovitostí novou CAPTCHA ve formě mapové puzzle: nepřihlášení uživatelé musí nově správně otočit devět dlaždic v 3x3 poli tak, aby dohromady daly souvislý obrázek výseče reálné mapy, přičemž na to mají pouze jeden časově omezený pokus. Test je podle uživatelů i odborníků příliš obtížný a na sociálních sítích pochopitelně schytává zaslouženou kritiku a

    … více »
    MakeIranBombedAgain❗ | Komentářů: 36
    16.4. 15:33 | Nová verze

    Byla vydána verze 1.95.0 programovacího jazyka Rust (Wikipedie). Podrobnosti v poznámkách k vydání. Vyzkoušet Rust lze například na stránce Rust by Example.

    Ladislav Hagara | Komentářů: 0
    16.4. 15:22 | Zajímavý software

    Mozilla prostřednictvím své dceřiné společnosti MZLA Technologies Corporation představila open-source AI klienta Thunderbolt. Primárně je určený pro firemní nasazení.

    Ladislav Hagara | Komentářů: 0
    16.4. 14:00 | IT novinky

    Firma Cal.com oznámila, že přesouvá svůj produkční kód z otevřeného do uzavřeného repozitáře z důvodu bezpečnostního rizika umělé inteligence, která prý dokáže vyhledávat a zneužívat zranitelnosti rychleji, než by je jejich vývojářský tým stíhal opravovat. Zároveň zveřejnila samostatnou, open-source verzi Cal.diy pod licencí MIT, ovšem bez řady původních funkcí. O tom, zda je toto opatření rozumné, existují pochyby. … více »

    MakeIranBombedAgain❗ | Komentářů: 6
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (8%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (2%)
     (15%)
     (25%)
    Celkem 1356 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: 200 GB txt subor a sort -u

    7.7.2018 18:52 tutanchamon
    200 GB txt subor a sort -u
    Přečteno: 3124×
    Chcem dostat unikatne slova z 260 GB suboru. Ako na to casovo aj datovo co najefektivnejsie? Mam iba starsie dvojjadro s 4GB RAM a prepoctom idem k 80 hodinam triedenia a cca 500 GB na temp subory + vysledny subor... Dakujem za postrehy...

    Řešení dotazu:


    Odpovědi

    7.7.2018 19:32 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Podle mě záleží, jak hodně se ta slova opakují. Naivním přístupem bych načetl slovo po slově a vkládal do Setu ve vhodném programovacím jazyce a ten Set nakonec serializoval. Výběrem vhodné implementace Setu by šlo docílit optimálního výkonu, asi na to budou i specializované knihovny. Šlo by to řešit po částech, aby se všechna aktuálně zpracovávaná data vešla do RAM - rozdělit soubor, zpracovat po částech, získané mezivýsledky zpracovat v druhém průchodu. Možná by stejnou úlohu zajistila i nějaká databáze (třeba MapDB a podobné).
    -- OldFrog
    7.7.2018 19:33 Kit | skóre: 46 | Brno
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Nacpal bych ta slova jako klíče do databáze DB4 a vypsal její obsah.
    Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.
    8.7.2018 12:09 Lazar
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Co rozdělit soubor na desítky(stovky?) menších, stanovit unikátní seznam pro každý z nich a pak stanovit seznam unikátních slov pro sloučené dílčí seznamy? Těch unikátních slov snad bude relativně konečné množství, ne?
    8.7.2018 14:15 Dikobraz Fik
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Příloha:
    ^^^^^^^^^^^^^^ pozrite si progress... poriesil som to takto - hadam to niekomu niekedy pomoze...
    pv $1 | parallel --tmpdir tmp --pipe --files sort -u -T tmp -S512M  --parallel=2 | parallel --tmpdir tmp -Xj1 sort -u -T tmp -S1024M --parallel=2  -m {} ';' rm {} > $2
    
    nutne definovat --tmpdir (u mna v aktualnom adresari) inac si zabijete /tmp (ak tam nemate dost miesta)
    9.7.2018 12:25 uniq
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Preco si nepouzil program uniq?
    9.7.2018 16:24 R
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Lebo pred jeho pouzitim sa musia aj tak data usporiadat programom sort?
    9.7.2018 18:48 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Jo klíč by měl být OK. Ono těch slov zas tolik není:
    # cat /usr/share/dict/words  | wc -l
    38619
    # cat /usr/share/dict/words  | wc -c
    352846
    
    Pokud by vyhledání klíče bylo rychlý (třeba hash), tak by to mohlo číst až rychlostí blízkou disku. Můj naivní kód v perlu, co parsuje asi 3.5GB lisp-like zdroják to zvládne na c2d asi za 30 minut, ale kromě hledání klíče to dělá i inserty do tisíců spojových seznamů apod (což je mnohem náročnější).
    9.7.2018 19:25 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Pokud ovšem jde o slova z normálního „lidského“ jazyka...
    -- OldFrog
    10.7.2018 14:45 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Hmm to je vlastně pravda. Ale i tak ty klíče samozřejmě pomohou, jen to bude trvat dýl a sežere to víc času.
    9.7.2018 22:47 Rockhopper
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    V prvé řadě je potřeba soubor zkomprimovat a řadit zkomprimovaný. Hrubý odhad bez znalosti typu dat cca. do 10 hodin. Na velikosti RAM víceméně nezáleží, stačí 16 MB, záleží na druhu komprese.
    10.7.2018 09:08 rastos | skóre: 63 | blog: rastos
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    N=100000
    split --lines=$N  vstup
    for file in x*
    do 
      cat $file | tr ' ' '\n' | sort -u > $file.usorted
      mv $file.usorted $file
    done
    cat x* | sort -u > vystup
    
    Hodnotu N upraviť podľa potreby. To 'tr' je také neotesané riešenie, čo neberie do úvahy bodky, čiarky, atď. Možno by sa dalo nahradiť nejakým šikovnejším sed-om.
    10.7.2018 09:22 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Myslím, že pokud bude těch x* hodně, zahlásí bash u cat příliš dlouhý seznam parametrů. Ale to lze snadno vyřešit třeba přes find.

    Jsou dvě jádra, tak by se to procházení x* mohlo obalit funkcí a xargsem spouštět dva procesy.
    10.7.2018 11:01 rastos | skóre: 63 | blog: rastos
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Keď urobíš "wc -l vstup" a vydelíš výsledok 200, tak dostaneš počet riadkov na jeden súbor ktorý bude mat +- 1GB. Ten počet dáš split-u, a budeš mať 200 súborov. Aj keby si to delil 2000 tak budeš mať 2000 súborov po 100MB. To by nemuselo byť moc. Podstatné je, že každý ten kúsok sa tým "sort -u" značne zredukuje, takže aj ich spojenie na konci bude relatívne malé.
    10.7.2018 11:07 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Jasně, jen jsem upozorňoval, že bývá dobré na max. počet souborů přes wildcard myslet, je to pak nepříjemná chyba. I když, v bashi je každé ladění nepříjemné :-)
    10.7.2018 10:01 〹
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Kolik unikátních slov očekáváš? Bavíme se o lidském jazyce?
    Řešení 1× (cronin)
    10.7.2018 12:46 OldFrog {Ondra Nemecek} | skóre: 36 | blog: Žabákův notes | Praha
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    Chtělo by to vzorek toho souboru. A nabízí se vyhlásit soutěž o nejrychlejší řešení a udělat porovnání použití různých technologií :-)
    -- OldFrog
    17.7.2018 07:55 Michal Kubeček | skóre: 71 | Luštěnice
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    A také dost záleží na tom, jestli to má být jednorázová akce nebo jestli je cílem napsat program, který se bude na podobně velkých souborech spouštět opakovaně. V prvním případě bude stačit něco, co bude přijatelně rychlé, a nemělo by smysl trávit hodinu práce navíc optimalizací, která zrychlí běh o hodinu (nebo třeba i čtyři). Ve druhém už by stálo zamyslet se nad datovou strukturou, která umožní rychlý insert a walkthrough (RB tree?).
    12.7.2018 16:09 lertimir | skóre: 64 | blog: Par_slov
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    rozhodně bych netřídil původní soubor. použil bych algoritmus typu
    setrideny-seznam-unikatnich-slov="prázndný seznam"
    
    slovo=prectu-slovo()
    while (slovo!=null){
      if (slovo "je v" setrideny-seznam-unikatnich-slov){ # náročnost operace O(log(N))
         zaradit(slovo, setrideny-seznam-unikatnich-slov) # pro balancované seznam to je tuším také O(log(N)), navíc v předchozím vyhledávání už bylo nalezeno, kde v tom seznamu by tohle slovo mělo být a není takže by ty operace mohly být i rychlejší než log protože není třeba hledat.
      }
    }
    
    pak v setrideny-seznam-unikatnich-slov je pořád setříděno a pokud to není těch slov fakt moc tak se to možná i vejde do paměti.
    22.7.2018 20:04 python
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u
    pokud se slova vejdou do RAM, tohle v pythonu bude svizne :
    uniq = set()
    with open('README.md') as f:
        for line in f:
            words = line.strip().split()
            for w in words:
                uniq.add(w)
    print(len(uniq))
    
    DaBler avatar 25.7.2018 01:15 DaBler | skóre: 17 | blog: dabler | Brno
    Rozbalit Rozbalit vše Re: 200 GB txt subor a sort -u

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.