abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 14:44 | Pozvánky

Spolek OpenAlt zve příznivce otevřených technologií a otevřeného přístupu na 151. brněnský sraz, který proběhne v pátek 20. 4. od 18:00 hodin v restauraci Benjamin na Drobného 46.

Ladislav Hagara | Komentářů: 0
dnes 13:33 | Nová verze

Byla vydána verze 18.04.0 KDE Aplikací (KDE Applications). Přehled novinek v kompletním seznamu změn a na stránce s dalšími informacemi.

Ladislav Hagara | Komentářů: 0
dnes 13:11 | Nová verze

Bylo oznámeno vydání nové stabilní verze 1.26 a beta verze 1.27 open source textového editoru Atom (Wikipedie). Přehled novinek i s náhledy v příspěvku na blogu. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 0
dnes 12:55 | Komunita

Dle plánu byla dnes vydána hra Rise of the Tomb Raider (Wikipedie) pro Linux. Koupit ji lze za 49,99 €.

Ladislav Hagara | Komentářů: 0
dnes 09:55 | Bezpečnostní upozornění

Společnost Oracle vydala čtvrtletní bezpečnostní aktualizaci svých softwarových produktů (CPU, Critical Patch Update). Opraveno bylo celkově 254 bezpečnostních chyb. V Oracle Java SE je například opraveno 14 bezpečnostních chyb. Vzdáleně zneužitelných bez autentizace je 12 z nich. V Oracle MySQL je opraveno 33 bezpečnostních chyb. Vzdáleně zneužitelné bez autentizace jsou 2 z nich.

Ladislav Hagara | Komentářů: 3
včera 23:11 | Nová verze

Byla vydána verze 8.0 linuxové distribuce Trisquel GNU/Linux. Nejnovější verze Trisquel nese kódové jméno Flidas a bude podporována do roku 2021. Výchozím prostředím je nově MATE 1.12. Trisquel patří mezi svobodné distribuce doporučované Nadací pro svobodný software (FSF).

Ladislav Hagara | Komentářů: 0
včera 16:00 | Nová verze

Byla vydána nová verze 27.9.0 webového prohlížeče Pale Moon (Wikipedie) vycházejícího z Firefoxu. Přehled novinek v poznámkách k vydání. Jedná se o poslední větší aktualizaci verze 27. Vývojáři se zaměří na novou verzi 28.

Ladislav Hagara | Komentářů: 0
včera 12:00 | Nová verze

Google Chrome 66 byl prohlášen za stabilní (YouTube). Nejnovější stabilní verze 66.0.3359.117 tohoto webového prohlížeče přináší řadu oprav a vylepšení. Vylepšeny byly také nástroje pro vývojáře (YouTube). Opraveno bylo 62 bezpečnostních chyb.

Ladislav Hagara | Komentářů: 0
včera 06:00 | Nová verze

Byla vydána druhá RC verze nové řady 2.10 svobodné aplikace pro úpravu a vytváření rastrové grafiky GIMP. Přehled novinek i s náhledy v oznámení o vydání.

Ladislav Hagara | Komentářů: 0
17.4. 23:39 | Pozvánky

Již tento čtvrtek (19. 4.) se v posluchárně 107 na Fakultě informačních technologií ČVUT v Praze Dejvicích odehraje večer s Turrisem, tentokrát zaměřený na nový modulární router MOX. Mluvit o něm budou Patrick Zandl a Ondřej Filip, ale bude i prostor pro dotazy a diskuzi s vývojáři. Akce začíná v 18:00 a plánovaný konec je v 19:45. Mapka, kde se nachází daná posluchárna, a možnost registrace je k dispozici na webu CZ.NIC.

Miška | Komentářů: 0
Používáte na serverech port knocking?
 (2%)
 (7%)
 (48%)
 (27%)
 (16%)
Celkem 322 hlasů
 Komentářů: 29, poslední 5.4. 12:25
    Rozcestník

    Dotaz: Prosba o pomoc s optimalizaciou programu

    10.9.2013 13:32 Peter
    Prosba o pomoc s optimalizaciou programu
    Přečteno: 306×
    Příloha:
    Dobrý deň vám prajem.

    Potreboval by som pomoc s optimalizáciou časti kódu na vyhľadanie a spracovanie duplicít v poli. Každý deň dostávam csv súbor so zákazníkmi, ktorý musím naimportovať do našej databázy. Forma tohto csv je jednoduchá:
    Priezvisko; Meno; Ulica; Mesto; PSC; Telefon; Tovar
    
    Ja ale ešte musím nájsť duplicitné záznamy a jediným relevantným "ID" je pre mňa v tomto prípade telefónne číslo, ktoré ale nemusí byť pre konkrétny záznam len jedno (može byť napríklad aj: 0905123456,02/123456) a v prípade, že sa nachádza v tom csv viacero záznamov s rovnakým číslom, tak mám všetky záznamy pre tovar zlúčiť do jedného záznamu. Na serveri môžem použiť len php alebo shell, tak som si napísal php skript, ktorý ale v časti ktorá vyhľadáva duplicity trvá pri 50.000 záznamoch cca hodinu. Dotyčná časť je v priloženom súbore.

    V princípe tam ide o to, že do premennej Pole_1 si načítam ten csv, potom čítam v cykle položku po položke a porovnávam s vytváraným polom Pole_2. Ak sa dotyčný záznam v poli nachádza, tak len do stĺpca VydanyTovar pridám tovar z aktuálneho záznamu a ak sa nenachádza, tak pridám celý záznam.

    Príklad csv:
    NezaujimavyBalast; Telefon; Tovar
    xxx              ; 123    ; a
    xxx              ; 567    ; b
    xxx              ; 123,567; c
    xxx              ; 567    ; d
    
    výsledok je teda:
    NezaujimavyBalast; Telefon; Tovar
    xxx              ; 123    ; a c
    xxx              ; 567    ; b d
    
    Samozrejme, že ten skript nie je dokonalý lebo ideálny výsledok by mal byť takýto (ale nato ako to mám zrobiť som už neprišiel):
    NezaujimavyBalast; Telefon; Tovar
    xxx              ; 123,567; a b c d
    
    Nájde sa prosím vás nejaká dobrá duša čo mi s tým pomôže? Vopred vám veľmi pekne ďakujem.

    Odpovědi

    Jendа avatar 10.9.2013 13:34 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Nemůžeš to CSV nahrát do nějaké SQL databáze?
    Cestovat na exkurzi z Ochrany ovzduší se bude autem, na naftovném se domluvíme s vrchním dovozcem.
    10.9.2013 13:37 Peter
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Tak nie je problém urobiť na to nejakú temporary tabuľku, ale ako by som si mal napríklad v databáze poradiť s "explode"?
    Jendа avatar 10.9.2013 13:40 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Budeš si muset udělat tabulku „telefony“ a do ní ukládat telefony a ID hlavního záznamu, ke kterému patří. Takže explode už v PHP (ale samotný explode by neměl být tak pomalý).
    Cestovat na exkurzi z Ochrany ovzduší se bude autem, na naftovném se domluvíme s vrchním dovozcem.
    10.9.2013 16:59 Peter
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Vyskúšam. Mimochodom z čiste akademického hľadiska - mňa zaujímalo, že či neexistujú iné algoritmy na vyhľadávanie, lebo ako vieme, tak každá vec sa dá zrobiť rôznymi spôsobmi, ale jeden spôsob je stále optimálnejší ako druhý. Čiže hlavne ma zaujíma, že či som nezrobil fatálnu chybu voľbou samotného algoritmu a či neexistuje niečo lepšie. Ďakujem za odpoveď.
    Jendа avatar 10.9.2013 17:02 Jendа | skóre: 74 | blog: Výlevníček | JO70FB
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    No ty máš složitost n^3 (3 for/foreach v sobě). Když to seřadíš nebo si z toho uděláš binární strom (to se asi v PHP bude dělat blbě), tak tam můžeš někam dostat nějaké log(n).
    Cestovat na exkurzi z Ochrany ovzduší se bude autem, na naftovném se domluvíme s vrchním dovozcem.
    10.9.2013 14:01 rastos | skóre: 61 | blog: rastos
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    V tej prvej variante by nemal výstup byť:
    xxx              ; 123    ; a c
    xxx              ; 567    ; b c d
    
    ?

    Takýto druh výstupu by som získal jednoducho tak, že by som každý riadok, ktorý má N telefónnych čísiel nahradil N-ticou riadkov, z ktorých každý by mal len jedno číslo. Potom by som urobil mapu, kde by telefónne číslo bolo kľúčom a hodnotou by bol zoznam tovarov.

    Tú druhý variantu výstupu by som riešil tak, že by som vstup najprv utriedil tak, aby najprv boli záznamy s väčším počtom telefónnych čísiel. No a potom nejako dosiahnuť, aby kľúčom do spomínanej mapy nebolo jedno telefónne číslo ale množina čísiel a mapa vracala hodnotu nie ak je dané číslo kľúčom, ale ak kľúč (množina) obsahuje hľadané číslo.

    Žiaľ ako konkrétne to spraviť v PHP ti neporadím. To prenechám niekomu, kto vidí PHP častejšie, ako ja - raz za uhorský rok. V jave alebo C++ by sa to riešilo overloadnutím triedy implementujúcej mapu.
    10.9.2013 15:24 axel
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Z hlediska samotneho vyhledavani se nejedna o mapu. V zasade by se musel vytvorit seznam mnozin cisel, ten prochazet a pri nalezeni shody pripadne sloucit mnoziny - dvojice (A, B) na vstupu vede na slouceni dosud disjunktnich mnozin (A, X) a (B,Y). V principu je to kvadraticke, ale na datech z realneho zivota by to asi mohlo fungovat (napr. zaznamy s jednim cislem lze pri tomto postupu zcela ignorovat). Az budu mit tyto mnoziny, tak si k nim uz cokoliv dohledam po jednotlivych obsazenych cislech s logaritmickou slozitosti.
    10.9.2013 16:54 Peter
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Výsledok prvej varianty je správny, lebo po nájdení prvej duplicity je tam break dotyčného cyklu. Ináč to zotriedenie je super nápad. Ďakujem za odpoveď.
    10.9.2013 15:08 gogol
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Vy mate viacerych zakaznikov s rovnakym menom ? A ked ma zakaznik rovnake meno ma aj rovnaku ulicu, pripadne iny identifikator ? Nepochopil som preco trvate na tom, ze jedinecny identifikator je telefonne cislo, kedze ich moze byt viacero a este k tomu aj v roznom tvare. Tovary od jedneho zakazika sa sparuju podla jeho mena, a nie podla telefonneho cisla, ktore nemusi byt ani jeho. Ako viete, ze tovar patri k relevantnemu zakaznikovi, ked to mate oznacene ako "nazaujimavy balast", alebo ste to dokonca vyhodil.
    10.9.2013 15:29 axel
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Taky to nechapu. Jako cvicebni priklad je to zajimave, ale nedovedu si predstavit, ze by jakymsi grupovanim po tel. cislech mohla vzniknout rozumna data. Jedine snad u nejakeho telemarketingu nebo pruzkumu, kde sktecne jedina jistota je cislo, na ktere jsem volal - clovek se mi muze predstavit treba jako Klement Gottwald a rict, ze priste mu mam zavolat na jine cislo (napr. pevna linka).
    10.9.2013 16:50 Peter
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Dedo - otec - syn? Dôvodov prečo je telefónne číslo "ID" je tam viacero, ale pre účel otázky sú bezpredmetné. Pre zaujímavosť - jeden z dôvodov je to, že obchodníci píšu ako negramotné prasatá a jediné "isté" je telefónne číslo. A verte, že prikazovať im aby si zopakovali prvý stupen ZŠ nemá zmysel. Mimochodom - máme empiricky potvrdené, že pri hľadaní duplicity cez telefónne číslo je chybovosť zanedbatelná, čo sa nedá povedať o inom spôsobe. Chcem upozorniť na to, že toto je reálny svet a reálne dáta a nie laboratórium. Ďakujem za odpoveď.
    10.9.2013 17:46 axel
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Ano deduplikace a obecne ztotoznovani je problem z realneho sveta. Zde ovsem schazi prave ten krok, kdy za pomoci ruznych kriterii (mezi nimiz muze byt pochopitelne i telefon) poznam, ze jde o stejnou entitu a dale s daty uz pracuju pod jejim identifikatorem. Tim ovsem typicky neni telefonni cislo (mimo jine i proto, ze jich je vice, coz je ten tvuj problem), ktere muze napriklad dostat pozdeji jina osoba, muze jit o pujceny, firemni, hotelovy pristroj. Tzn. pokud bys mel databazi entit, tak bys kazdy zaznam vuci ni naparoval (klidne podle tel. cisla, kdyz ti to bude vyhovovat) a jednoznacne identifikoval a pak uz trivialne nagrupoval. Takove databaze se pak dale prubezne cisti a deduplikuji.
    10.9.2013 18:47 Ivan Nový
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Použijte příkaz MySQL LOAD DATA, který vám načte csv do tabulky, pak příkazem SELECT * FROM x INTO OUTFILE '/tmp/x.csv'; vyberte co potřebujete a čas zpracování bude řádově pár minut.
    10.9.2013 19:14 extremni lama | skóre: 14 | blog: e_lama
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Vytvor si pomocnou hashovaci tabulku kde budes mit

    tel cislo => index v Pole_2

    Potom misto linearniho prochazeni toho pole se jenom podivej jestli zaznam je v te tabulce. A jses na linearni slozitosti...

    btw. 50 000 zaznamu za hodinu, to ne neuveritelne pomaly... Zpracovat takovy maly mnozstvi dat by melo trvat zlomky sekundy :-)
    The enemy of my enemy is still my enemy.
    10.9.2013 20:59 marek
    Rozbalit Rozbalit vše Re: Prosba o pomoc s optimalizaciou programu
    Dobry den.

    Pokud to setridite, pak je mozne dosahnout podobneho vysledku, jaky popisujete v dotazu, jednim pruchodem dat.

    viz:

    echo 'xxx              ; 123    ; a
    xxx              ; 567    ; b
    xxx              ; 123,567; c
    xxx              ; 567    ; d' | sort -t ';' -k 2 | awk -F ";" '// {prvni=$2;sub(",.*","",prvni);sub("^ *","",prvni);sub(" *$","",prvni);if (zminula != prvni){if(telefon != "" ){print balast ";" telefon ";" tovar}; balast=$1;tovar=$3;zminula=$2;sub("^ *","",zminula);sub(" *$","",zminula);telefon=zminula}else{tovar= tovar $3; balast= $1;sub(" *$","",$2);sub("^ *","",$2); if (!match(","telefon",",","$2",")){ telefon= $2}}} END {print balast ";" telefon ";" tovar}'
    

    To awk porovnava vzdy jenom s nasledujici polozkou v seznamu.

    Verim ze s 50000 zaznamy to na dnesnim zeleze bude hotove velmi rychle

    marek

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.