abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
AbcLinuxu hledá autory!
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×

dnes 12:34 | Komunita

Aktualizovanou počítačovou hru Warhammer 40,000: Dawn of War III v ceně 39,99 eur běžící také na Linuxu lze o víkendu na Steamu hrát zdarma a případně ještě v pondělí koupit s 50% slevou. Do soboty 19:00 lze na Humble Bundle získat zdarma Steam klíč k počítačové hře Sid Meier's Civilization® III v ceně 4,99 eur běžící také ve Wine.

Ladislav Hagara | Komentářů: 0
dnes 00:22 | Nasazení Linuxu

Společnost Samsung oznámila, že skrze dokovací stanici DeX a aplikaci Linux on Galaxy bude možno na Samsung Galaxy S8 a S8+ a Galaxy Note 8 provozovat Linux. Distribuce nebyly blíže upřesněny.

Phantom Alien | Komentářů: 4
včera 23:55 | Komunita

Společnost Purism na svém blogu oznámila, že její notebooky Librem jsou nově dodávány se zrušeným (neutralized and disabled) Intel Management Engine (ME). Aktualizací corebootu na již prodaných noteboocích lze Management Engine také zrušit. Více v podrobném článku.

Ladislav Hagara | Komentářů: 0
včera 21:44 | Nová verze

Organizace Apache Software Foundation (ASF) na svém blogu slaví páté výročí kancelářského balíku Apache OpenOffice jako jejího Top-Level projektu. Při této příležitosti byl vydán Apache OpenOffice 4.1.4 (AOO 4.1.4). Podrobnosti v poznámkách k vydání. Dlouhé čekání na novou verzi tak skončilo.

Ladislav Hagara | Komentářů: 6
včera 19:22 | Pozvánky

Již příští týden - 26. a 27. října se v Praze v hotelu Olšanka odehraje OpenWRT Summit. Na webu konference naleznete program a možnost zakoupení lístků - ty stojí 55 dolarů. Čtvrtek bude přednáškový a v pátek se budou odehrávat převážně workshopy a meetingy.

Miška | Komentářů: 0
včera 13:44 | Nová verze

Bylo vydáno Ubuntu 17.10 s kódovým názvem Artful Aardvark. Ke stažení jsou Ubuntu Desktop a Server, Ubuntu Cloud Images, Ubuntu Netboot, Kubuntu, Lubuntu a Lubuntu Alternate, Lubuntu Next, Ubuntu Budgie, Ubuntu Kylin, Ubuntu MATE, Ubuntu Studio a Xubuntu. Podrobnosti v poznámkách k vydání.

Ladislav Hagara | Komentářů: 18
včera 13:00 | Komunita

MojeFedora.cz informuje, že Fedora 27 dostane podporu pro AAC. Podpora multimediálních formátů je ve výchozí instalaci Fedory tradičně limitovaná kvůli softwarovým patentům, ale desktopový tým Red Hatu se ji i tak snaží v poslední době co nejvíce rozšířit. Už nějaký čas obsahuje kodeky pro MP3, H.264, AC3 a nyní byl přidán také kodek pro další velmi rozšířený zvukový formát – AAC.

Ladislav Hagara | Komentářů: 2
18.10. 23:55 | Pozvánky

Spolek OpenAlt zve příznivce otevřených technologií a otevřeného přístupu na 145. brněnský sraz, který proběhne v pátek 20. října od 18:00 hodin v restauraci Time Out na adrese Novoměstská 2 v Řečkovicích. Jedná se o poslední sraz před konferencí OpenAlt 2017, jež proběhne o víkendu 4. a 5. listopadu 2017 na FIT VUT v Brně. Běží registrace účastníků.

Ladislav Hagara | Komentářů: 0
18.10. 21:44 | Nová verze

Byla vydána verze 5.2.0 multiplatformního virtualizačního nástroje Oracle VM VirtualBox. Jedná se o první stabilní verzi z nové větve 5.2. Z novinek lze zmínit například možnost exportování VM do Oracle Cloudu, bezobslužnou instalaci hostovaného systému nebo vylepšené GUI. Podrobnosti v seznamu změn. Aktualizována byla také dokumentace.

Ladislav Hagara | Komentářů: 2
18.10. 14:00 | Zajímavý projekt

Byl spuštěn Humble Down Under Bundle. Za vlastní cenu lze koupit multiplatformní hry The Warlock of Firetop Mountain, Screencheat, Hand of Fate a Satellite Reign. Při nadprůměrné platbě (aktuálně 3,63 $) také Hacknet, Hacknet Labyrinths, Crawl a Hurtworld. Při platbě 12 $ a více lze získat navíc Armello.

Ladislav Hagara | Komentářů: 0
Jak se vás potenciálně dotkne trend odstraňování analogového audio konektoru typu 3,5mm jack z „chytrých telefonů“?
 (10%)
 (1%)
 (1%)
 (1%)
 (75%)
 (13%)
Celkem 118 hlasů
 Komentářů: 7, poslední včera 23:06
    Rozcestník

    Dotaz: Jakou db pouzit na vlastni "vyhledavac"?

    2.8.2012 01:01 martina
    Jakou db pouzit na vlastni "vyhledavac"?
    Přečteno: 746×

    ahoj,

     

    poradte mi jakou technologii, db a jazyk pouzit na tohle:

     

    "databaze" obsahujici kolem 10M clanku (delka textu 1-4 A4) (cast plaintext, cast html)

     

    hw: xeon, 32gb ram, 3tb disk (raid1 - lepsiho nic neni)

     

    a potrebuji udelat neco, co bude schopne hledat v tom duplicity/kopie. proste, zadam clanek (nebo aspon tri ctyri vety z nej) a potrebuji do par vterin mit vypsane bud presne nebo velmi podobne shody (tj. aby prosly i veci kde je vic mezer mezi slovy, atd.)

     

    nemyslim si, ze mysql/pgsql a fulltext je na tohle dobre reseni.

     

    mate nejaky tip? treba lucene?

     

    dekuji,

    martina

    Odpovědi

    2.8.2012 07:43 psholty2 | skóre: 7 | blog: char
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    2.8.2012 07:48 psholty2 | skóre: 7 | blog: char
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    A este asi budes potrebovat "Document Retrieval", mrkni na NLP lekcie na coursera.org (week 7 - Information retrieval), je tam popisany aj ten inverted index, potom v week 7 - ranked information retrieval je skore, asi tf-idf je najbeznejsie
    3.8.2012 12:23 martina
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    diky, kouknu na to
    5.8.2012 13:02 FooBar
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Muzes rozvest, proc nemyslis, ze mysql/pgsql a jejich fulltext neni vhodny reseni? S MySQL fulltextem zkuenosti nemam, ale postgres fulltext by na tohle sel pouzit zcela trivialne.
    5.8.2012 13:03 FooBar
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    *"proc myslis, ze je", samozrejme
    6.8.2012 14:14 martina
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    no, mam strach, ze nebude to stihat vykonem (viz hw nahore). oproti nejakemu reseni na miru. tzn. povazuji fulltext u sql db za prilis obecne reseni (ale netusim, nikdy jsem takovou vec neresila).

    ono, pokud bych z kazdeho clanku vybrala par vet (delsi nez 6 slov, kvuli hledani duplicit) a projela to oproti db, bylo by to pro me dostacujici. myslis, ze by tohle slo v pgdb s tim, ze budou vysledky temer okamzite?
    6.8.2012 15:23 Ivan
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    No nevim. Podle me mas spatny poradi. Nejdriv se resi pozadavky na SW, algoritmus, konktretni SW produkt a teprve az nekonec se resi sizing. Jestli to pgSQL(anebo neco jinyho) utahne anebo ne, to se neda rict - nikdo nema tvoje data. To muze ukazat jedine test.

    6.8.2012 15:37 FooBar
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Nemam jedinej duvod si myslet, ze budou problemy -- prijde mi, ze ted resis jen premature optimization, coz je naprosta cesta do pekel.

    Ve zkratce:
    1. Ziskej data.
    2. Rozhoduj se.
    Nedelej to obracene. Nerozhoduj se na zaklade nepodlozenejch predpokladu o vykonu, a az budes ziskavat data na zaklade kterejch se budes rozhodovat, nezapomen si overit nekym zkusenejsim ze tam nejsou nejaky prehlednuty chyby (omylem chybejici index nebo tak neco veselyho).

    Jako rule of thumb bych naprosto nevidel problem v FT vyhledavani nad ~40M normostranama, ale samozrejme zalezi na hromade dalsich faktoru, jako napriklad ocekavana charakteristika zateze.
    rADOn avatar 8.8.2012 19:01 rADOn | skóre: 44 | blog: bloK | Praha
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Pokud ti jde jen o nejaky ty mezery a podobny volovinky tak by stacilo nejak znormalizovat tu databazi. Pokud chces decentni vykon a opravdovej fulltext tak mrkni na sphinx. Vezme si nejaky misto na barely, ale lita jako drak. "Fulltext" v databazich je tak neco mezi tim, funkcne slabota ale zase je to jednoduchy na rozbehani. (sphinxka je docela elektrarna)
    "2^24 comments ought to be enough for anyone" -- CmdrTaco
    13.8.2012 12:01 Michal
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Na fulltext db se mi osvedcilo Lucene (Java API) a Solr (HTTP/REST API postavene nad Lucene enginem). Velice dobre konfigurovatelne, jsou tam ruzne filtry, dalsi lze napsat, atd. Hledat duplikaty tam jde velice jednoduse, a to i v pripade ze nejde o 100% shodu.
    13.8.2012 17:09 Michal Karas | skóre: 45 | blog: /dev/random
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Když už jsou zmíněny tyto technologie, tak bych přidal i ElasticSearch, který je také postavený na Lucene a přijde mi, že v poslední době je minimálně stejně populární jako Solr.
    14.8.2012 07:45 ML
    Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?
    Já jsem si zvyk na http://sphinxsearch.com/ , celekm fajn. :)

    Založit nové vláknoNahoru

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.