abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    včera 18:44 | IT novinky

    Vojenské zpravodajství (VZ) se v březnu zapojilo do mezinárodní operace proti aktivitám hackerské skupiny APT28, která je spojovaná s ruskou vojenskou zpravodajskou službou GRU a která přes slabě zabezpečené routery prováděla kybernetické útoky na státní a další organizace v ČR i zahraničí. Operaci vedl americký Federální úřad pro vyšetřování (FBI) a jejím cílem bylo odebrat útočníkům přístup k napadeným zařízením a ty následně … více »

    Ladislav Hagara | Komentářů: 3
    včera 16:44 | IT novinky

    Tvůrcem nejpopulárnější kryptoměny bitcoin, který se skrývá za pseudonymem Satoši Nakamoto (Satoshi Nakamoto), je britský kryptograf Adam Back. Na základě vlastní investigativní práce to tvrdí americký deník The New York Times (NYT). Několik indicií podle autorů jasně ukazuje na to, že Back a Nakamoto jsou stejný člověk. Jde mimo jiné o podobný odborný a osobnostní profil či totožné chyby a manýry v psaném projevu.

    Ladislav Hagara | Komentářů: 6
    včera 14:44 | Nová verze

    Google Chrome 147 byl prohlášen za stabilní. Nejnovější stabilní verze 147.0.7727.55 přináší řadu novinek z hlediska uživatelů i vývojářů. Podrobný přehled v poznámkách k vydání. Vylepšeny byly také nástroje pro vývojáře. Přehled novinek v Chrome DevTools 145 až 147 také na YouTube.

    Ladislav Hagara | Komentářů: 0
    včera 12:44 | Nová verze

    Vývojáři z Laboratoří CZ.NIC vydali nové verze aplikací Datovka (Datovka 4.29.0, Mobilní Datovka 2.6.2). V případě desktopové verze přibyly možnosti projít všechny uložené zprávy, zkontrolovat časy expirací časových razítek a přerazítkovat datové zprávy, které lze v ISDS přerazítkovat. Novinkou je také možnost vytahovat myší ze seznamu ZFO soubory datových zpráv, tento úkon jde udělat i pomocí tlačítek Ctrl+C. Nová verze Mobilní Datovky přináší jen drobné úpravy.

    VSladek | Komentářů: 0
    7.4. 21:55 | Nová verze

    MicroPython (Wikipedie), tj. implementace Pythonu 3 optimalizovaná pro jednočipové počítače, byl vydán ve verzi 1.28.0. Z novinek lze vypíchnout novou třídu machine.CAN.

    Ladislav Hagara | Komentářů: 0
    7.4. 10:22 | Komunita

    Michael Meeks, CEO společnosti Collabora, na apríla oznámil, nebyl to ale apríl, že nadace The Document Foundation zastřešující vývoj kancelářského balíku LibreOffice vyloučila ze svých řad všechny zaměstnance a partnery společnosti Collabora, tj. více než třicet lidí, kteří po mnoho let přispívali do LibreOffice. Nadace The Document Foundation po několika dnech publikovala oficiální vyjádření. Přiznává pochybení při zakládání

    … více »
    Ladislav Hagara | Komentářů: 9
    6.4. 05:33 | Pozvánky

    Protože je už po aprílu, můžou strahováci opět zveřejnit program další Virtuální Bastlírny, aniž by připravená témata působila dojmem, že jde o žert. Vězte tedy, že v úterý 14. dubna (změna!!!) od 20:00 proběhne VB, kde se setkají bastlíři, technici, učitelé i nadšenci do techniky a kde i vy se můžete zapojit do družného hovoru, jako by všichni seděli u pomyslného piva. Co mají bastlíři tento měsíc na srdci? Pravděpodobně by nás musel zasáhnout

    … více »
    bkralik | Komentářů: 3
    5.4. 23:33 | Nová verze

    Byla vydána verze 26.1 aneb čtvrtletní aktualizace open source počítačového planetária Stellarium (Wikipedie, GitHub). Vyzkoušet lze webovou verzi Stellaria na Stellarium Web.

    Ladislav Hagara | Komentářů: 1
    5.4. 23:00 | Zajímavý projekt

    VOID (Video Object and Interaction Deletion) je nový open-source VLM model pro editaci videa, který dokáže z videí odstraňovat objekty včetně všech jejich fyzikálních interakcí v rámci scény (pády, kolize, stíny...) pomocí quadmaskingu (čtyřhodnotová maska, která člení pixely scény do čtyř kategorií: objekt určený k odstranění, překrývající se oblasti, objektem ovlivněné oblasti a pozadí scény) a dvoufázového inpaintingu. Za projektem stojí výzkumníci ze společnosti Netflix.

    NUKE GAZA! 🎆 | Komentářů: 8
    5.4. 05:22 | Zajímavý software

    Design (GitHub) je 2D CAD pro GNOME. Instalovat lze i z Flathubu. Běží také ve webovém prohlížeči.

    Ladislav Hagara | Komentářů: 20
    Které desktopové prostředí na Linuxu používáte?
     (14%)
     (7%)
     (1%)
     (12%)
     (30%)
     (3%)
     (6%)
     (1%)
     (14%)
     (24%)
    Celkem 1245 hlasů
     Komentářů: 30, poslední 3.4. 20:20
    Rozcestník

    Dotaz: Algoritmus seřazení dat z různých souborů

    6.11.2010 20:59 vhaji
    Algoritmus seřazení dat z různých souborů
    Přečteno: 554×
    Dobrý den.

    Marně se pokouším vymyslet co nejoptimálnější algoritmus řazení dat ze dvou neznámých zdrojů. Dejme tomu že mám 2 soubory či obecně zdroje dat, každý obsahuje 2 sloupce - jméno a číslo, soubory obsahují hrozně moc dat a já je potřebuju seřadit podle obou souborů a limitovat zobrazení dat. Zde na fórech jsem našel algoritmus řazení: seřadit n řádek z 1. souboru, pak n řádek s 2. a pak seřadit výsledek n+n a omezit zase na n - jenže to nebude fungovat. Z popisu asi není jasné o co mi jde - zde je příklad (např. 2 spojené soubory podle klíče username):
    "user1";"1";"7"
    "user2";"2";"6"
    "user3";"3";"5"
    "user4";"3";"4"
    "user5";"4";"3"
    "user6";"4";"2"
    "user7";"4";"1"
    
    Pokud chci 3 záznamy řazené podle 2. sloupce a potom 3. sloupce, tak to musí vrátit user1, user2, user4. Nepřišel jsem na optimální algoritmus jak dostat 3 záznamy aniž bych musel přečíst celý 1. soubor, celý 2. soubor a pak to limitovat až ve výsledku, což je ale velice datově a výpočetně náročné pro větší množství dat. Určitě už někdo podobný problém řešil. Prosím o pomoc/popis algoritmu pro toto řazení.

    Odpovědi

    6.11.2010 21:25 deadmail
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Ak tie dva subory su utriedene, tak naozaj staci n prvych riadkov z prveho suboru a n riadkov z druheho suboru utriedit a vybrat z nich prvych n.

    Ak nie su, tak sa musia utriedit - bud kazdy zvlast, alebo spojene.

    Ak treba viackrat z tych istych dat rozne n, tak raz utriedit oba subory a ulozit. Potom pouzit prvy sposob.
    6.11.2010 21:27 kuka
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Nejak to nechapu - pokud ty soubory nejsou setridene, musi se vzdy cele projit, to se mi zda zrejme na prvni pohled.
    6.11.2010 21:36 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Zdroje dat (zde soubory) jsou setříděné. Nicméně výběr n a n řádků a jejich následné omezení fungovat nebude. Viz. příklad dat:
    sloupec1+sloupec2 = soubor1, řazený vzestupně podle 2. sloupce
    sloupec1+sloupec3 = soubor2, řazený vzestupně podle 3. sloupce
    
    
    "user1";"1";"7"
    "user2";"2";"6"
    "user3";"3";"5"
    "user4";"3";"4"
    "user5";"4";"3"
    "user6";"4";"2"
    "user7";"4";"1"
    
    
    1. z prvního souboru vyberu první 3 =>
     user1,
     user2,
     user3
    
    2. z druhého souboru vyberu první 3 =>
     user7,
     user6,
     user5
    
    3. spojím a zobrazím všechna data
     "user1";"1";"7"
     "user2";"2";"6"
     "user3";"3";"5"
     "user7";"4";"1"
     "user6";"4";"2"
     "user5";"4";"3"
    
    4. omezím na první 3
     => user1, user2, user3 = CHYBA
    
    Neboť primárně řadím podle 2. sloupce, tak user3 a user4 jsou nerozhodně (oba = 3), pomocí druhého sloupce ale zjistím, že user4 je před user3, což se ale při tomto algoritmu neprojeví.
    wamba avatar 7.11.2010 13:53 wamba | skóre: 38 | blog: wamba
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    co vybrat jich n plus všechny, co mají stejný druhý sloupec jak n-tý
    This would have been so hard to fix when you don't know that there is in fact an easy fix.
    rADOn avatar 8.11.2010 16:37 rADOn | skóre: 44 | blog: bloK | Praha
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Pises ze zdroje dat jsou setridene, nicmene uvedeny priklad setrideny neni (resp. je setrideny podle jineho klice)

    "2^24 comments ought to be enough for anyone" -- CmdrTaco
    7.11.2010 00:00 zulu
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    což je ale velice datově a výpočetně náročné pro větší množství dat
    Proto je dobré mít ta data v dobře zpracovatelném formátu a udržovat další informace pro jejich rychlé prohledávání a propojování. A tak vznikly databáze.
    7.11.2010 01:24 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Ta data nakonec budou uložena v nějakých databázích, ale pokaždé v jiných a na jiných místech ČR :-) Nicméně nakonec asi budu řadit tímto algoritmem:
    1. vyberu n řádků ze zdroje 1
     .. - zjistím že m z n řádků nemají jednoznačné pořadí, tak prohledám zdroj 1 znovu a vyberu z n řádky které nemají jednoznačné pořadí + řádky s tímto "indexem", ale za limitem dotazu a postoupím dalšímu zdroji
    2. to samé
    .......
    
    7.11.2010 10:54 dustin | skóre: 63 | blog: dustin
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Možná by bylo rychlejší je rovnou uložit třeba do mysql, i kdyby to mělo být jen dočasné :)

    K překlopení by měl stačit jednoduchý skript.
    7.11.2010 14:32 Goheeca
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    opravdu ten algoritmus funguje mne se nezda (nebo jsem ho treba nepochopil) nebot:
    sloupec1+sloupec2 = soubor1, řazený vzestupně podle 2. sloupce
    sloupec1+sloupec3 = soubor2, řazený vzestupně podle 3. sloupce
    tzn. ze vuci sobe nejsou serazeny vubec (teda ano 1. sloupcem) -> to musis imho projit vsechny zaznamy ...
    7.11.2010 12:45 Goheeca
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    to se resi takto: mam ukazatel na radek pro kazdy soubor. nastavim je na zacatek souboru. chci n zaznamu tak nkrat provedu nasledujici: porovnam navzajem vsechny radky a vyberu ten nejmensi (vzestupne razena data v souborech) a v patricnem souboru posunu ukazatel ...
    7.11.2010 16:55 Martin Doucha | skóre: 23 | blog: Yet another blog
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    1) sort obou souborů podle společného sloupce

    2) join na společný sloupec (join vyžaduje setříděné soubory)

    3) sort na příslušné sloupce spojeného souboru

    4) vypsat správný počet řádek

    Podrobnosti v manuálových stránkách příkazů sort, join a head. Řešení je asymptoticky optimální.
    7.11.2010 17:23 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Jo to by šlo kdybych měl soubory a ty byly na stejném stroji. Jenže zdrojem dat může být nejenom soubor. Většinou se bude jednat o různé typy relačních databází. A kdybych to měl spojovat tímto mechanismem tak se může stát že při pokusu o vypsání 5 řádků budu muset spojit několik milionů záznamů a v nich filtrovat už programem, což je mírně řečeno velice neoptimální. Ten algoritmus na který jsem nakonec přišel by měl fungovat. Příklad se "syntaxí" mysql:
    jmeno; cislo; cislo2
    -----------------------
    "user1";"1";"7"
    "user2";"2";"6"
    "user3";"3";"5"
    "user4";"3";"4"
    "user5";"4";"3"
    "user6";"4";"2"
    "user7";"4";"1"
    
    order by cislo, cislo2 limit 3 = user1, user2, user4
    
    
    teď ten algoritmus:
    - select cislo ... order by cislo limit 3
    1 2 3
    - select jmeno ... where cislo in (1,2,3) => user1, user2, user3, user4
    - pak zjistim ze sporne cislo je u user3 a user4
    - select jmeno ... where jmeno in ("user3", "user4") order by cislo2 limit3 => user4, user3 => prerovnam puvodni vyber "user1, user2, user3, user4" na "user1, user2, user4, user3" a omezim na 3 => "user1, user2, user4"
    
    Zásadní vada na kráse je ale ta že tento algoritmus je docela složitý.
    8.11.2010 13:54 deadmail
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Většinou se bude jednat o různé typy relačních databází.
    Tak pri dotaze z kazdej databazy treba prvych n riadkov utriedenych podla vyslednych ziadanych stlpcov. A nasledne utriedit vsetky takto ziskane riadky (pri 3 databazach teda 3*n riadkov).

    To je algoritmus uvedeny uz v otazke (a takisto posledny sposob uvedeny v 1. komentari). Ale to utriedenie musi byt vsade rovnake ako vysledne ziadane.
    8.11.2010 14:07 deadmail
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Aha, kazda databaza je iny stlpec ... teda sa neda dopredu utriedit ...

    tak potom v databaze s prvym stlpcom vybrat prvych n riadkov a k nim najst vsetky odpovedajuce v dalsich databazach (pokial vzdy existuje prisluchajuci riadok, resp. sa pouzije null, t.j. left join). Tie potom utriedit. Tak to bude optimalne z pohladu prenosu co najmenej dat.

    To je tebou uvedeny algoritmus.
    8.11.2010 15:48 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    A jak jsem zjistil tak tento můj algoritmus je rovněž velice neefektivní. Praktický příklad: mám dvě databáze/tabulky. V první jsou sloupce jméno,pohlaví a v druhé jméno,výška. Každá obsahuje několik desítek tisíc řádků a já je chci seřadit podle pohlaví a pak podle výšky. Zde je kámen úrazu protože i když chci třeba 5 záznamů, tak musím z první tabulky vzít několik tisíc řádků abych je postoupil k té druhé tabulce a jakékoliv umělé omezování že max. počet postupujících záznamů je m by velice razantně změnilo výsledné hodnoty. Začínám být přesvědčený, že žádný algoritmus se asi na tohle vymyslet nedá.
    8.11.2010 17:24 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Nakonec to asi budu muset vzít z druhé strany: řadit jen podle jednoho sloupce/klíče a naprogramovat nějaké pokročilé možnosti filtrování dat.
    8.11.2010 21:07 vhaji
    Rozbalit Rozbalit vše Re: Algoritmus seřazení dat z různých souborů
    Tak to je ještě horší než to řazení. Nejhorší je to, že aplikace má za úkol pouze data číst a ta data jsou velice často měněna, takže možnost lokálního cache odpadá.

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.