Inzerujte na AbcPráce.cz od 950 Kč

napište » Zprávičky

pico-usb-wifi

dnes 16:55 | Zajímavý software

pico-usb-wifi je open source firmware pro Raspberry Pi Pico W, který jej promění v USB Wi-Fi adaptér. Po připojení k počítači se objeví jako zařízení USB CDC-NCM.

Ladislav Hagara | Komentářů: 0

Google bude muset v EU otevřít služby konkurenci v AI, rozhodla komise

dnes 16:00 | IT novinky

Americká společnost Google ze skupiny Alphabet bude muset podle nových požadavků Evropské unie umožnit společnosti OpenAI i dalším konkurentům v oblasti umělé inteligence (AI) a internetových vyhledávačů přístup ke svým službám. Ve svém rozhodnutí o tom včera informovala Evropská komise (EK). Opatření má zajistit dodržování pravidel, jejichž cílem je omezit v EU tržní sílu velkých technologických firem. Google s tím nesouhlasí.

… více »

Ladislav Hagara | Komentářů: 0

Firefox od září přechází na dvoutýdenní cyklus vydávání verzí

dnes 04:55 | Komunita

Nové verze webových prohlížečů Chrome a Firefox jsou vydávány každé 4 týdny. Aktuální verze Chrome je 150. Aktuální verze Firefoxu je 152. V březnu bylo oznámeno, že od září přejde Chrome na dvoutýdenní cyklus vydávání verzí. To by znamenalo, že Chrome v číslování verzí Firefox brzy přeskočí. Vývojáři Firefoxu proto také od září přecházejí na dvoutýdenní cyklus vydávání verzí. :-)

Ladislav Hagara | Komentářů: 3

Microsoft Comic Chat je dnešním dnem open source

dnes 00:22 | Zajímavý software

Microsoft Comic Chat (Wikipedie), tj. grafický IRC klient z devadesátek, který převáděl konverzace na IRC do podoby komiksových panelů, a který zpopularizoval font Comic Sans, je dnešním dnem open source. Zdrojové kódy jsou k dispozici na GitHubu pod licencí MIT.

Ladislav Hagara | Komentářů: 1

OPNsense 26.7 Xenial Xenops

včera 19:55 | Nová verze

Byla vydána (𝕏) nová verze 26.7 open source firewallové a routovací platformy OPNsense (Wikipedie). Jedná se o fork pfSense postavený na FreeBSD. Kódový název OPNsense 26.7 je Xenial Xenops. Přehled novinek v příspěvku na fóru.

Ladislav Hagara | Komentářů: 0

Česko zakázalo Polymarket

včera 14:44 | IT novinky

Na Seznam nepovolených internetových her (Wikipedie) se k 13. 7. 2026 dostala predikční platforma Polymarket.

Ladislav Hagara | Komentářů: 5

Raspberry Pi Official Magazine 167 a Hello World 30

včera 14:22 | Zajímavý článek

Nová čísla časopisů od nakladatelství Raspberry Pi zdarma ke čtení: Raspberry Pi Official Magazine 167 (pdf) a Hello World 30 (pdf).

Ladislav Hagara | Komentářů: 0

Gambas 3.22.0

včera 00:44 | Nová verze

Byla vydána nová verze 3.22.0 grafického vývojového prostředí a platformy Gambas (Wikipedie) založené na interpretru programovacího jazyka Basic s rozšířením o objektově orientované programování. Přehled novinek v poznámkách k vydání. Zdrojové kódy jsou k dispozici na GitLabu.

Ladislav Hagara | Komentářů: 0

FreeBSD odstranilo poslední GPL kód ze základního systému

15.7. 20:22 | Komunita

FreeBSD odstranilo poslední GPL kód ze základního systému. Konkrétně dpv, libdpv, libfigpar a dialog. Instalátor před čtyřmi lety přešel z dialogu na bsddialog.

Ladislav Hagara | Komentářů: 2

X (dříve Twitter) má dnes 20 let

15.7. 15:22 | IT novinky

Sociální síti 𝕏 (dříve Twitter) má dnes 20 let. Pro veřejnost byla zpřístupněna 15. července 2006.

Ladislav Hagara | Komentářů: 2

Centrum | Napsat | Starší

navrhněte » Anketa

Komentářů: 30, poslední 3.4. 20:20

Rozcestník

AbcLinuxu

HDmag.cz

AbcLinuxu:/ Poradna / Databázová poradna / Jakou db pouzit na vlastni "vyhledavac"?

Štítky: databáze, disk, hardware, jazyk

Dotaz: Jakou db pouzit na vlastni "vyhledavac"?

2.8.2012 01:01 martina
Jakou db pouzit na vlastni "vyhledavac"?

Přečteno: 851×

Odpovědět | Admin

ahoj,

poradte mi jakou technologii, db a jazyk pouzit na tohle:

"databaze" obsahujici kolem 10M clanku (delka textu 1-4 A4) (cast plaintext, cast html)

hw: xeon, 32gb ram, 3tb disk (raid1 - lepsiho nic neni)

a potrebuji udelat neco, co bude schopne hledat v tom duplicity/kopie. proste, zadam clanek (nebo aspon tri ctyri vety z nej) a potrebuji do par vterin mit vypsane bud presne nebo velmi podobne shody (tj. aby prosly i veci kde je vic mezer mezi slovy, atd.)

nemyslim si, ze mysql/pgsql a fulltext je na tohle dobre reseni.

mate nejaky tip? treba lucene?

dekuji,

martina

Nástroje: Začni sledovat (1) ?

Odpovědi

2.8.2012 07:43 psholty2 | skóre: 7 | blog: char
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Inverted index

2.8.2012 07:48 psholty2 | skóre: 7 | blog: char
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

A este asi budes potrebovat "Document Retrieval", mrkni na NLP lekcie na coursera.org (week 7 - Information retrieval), je tam popisany aj ten inverted index, potom v week 7 - ranked information retrieval je skore, asi tf-idf je najbeznejsie

3.8.2012 12:23 martina
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

diky, kouknu na to

5.8.2012 13:02 FooBar
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Muzes rozvest, proc nemyslis, ze mysql/pgsql a jejich fulltext neni vhodny reseni? S MySQL fulltextem zkuenosti nemam, ale postgres fulltext by na tohle sel pouzit zcela trivialne.

5.8.2012 13:03 FooBar
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

*"proc myslis, ze je", samozrejme

6.8.2012 14:14 martina
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

no, mam strach, ze nebude to stihat vykonem (viz hw nahore). oproti nejakemu reseni na miru. tzn. povazuji fulltext u sql db za prilis obecne reseni (ale netusim, nikdy jsem takovou vec neresila).

ono, pokud bych z kazdeho clanku vybrala par vet (delsi nez 6 slov, kvuli hledani duplicit) a projela to oproti db, bylo by to pro me dostacujici. myslis, ze by tohle slo v pgdb s tim, ze budou vysledky temer okamzite?

6.8.2012 15:23 Ivan
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

No nevim. Podle me mas spatny poradi. Nejdriv se resi pozadavky na SW, algoritmus, konktretni SW produkt a teprve az nekonec se resi sizing. Jestli to pgSQL(anebo neco jinyho) utahne anebo ne, to se neda rict - nikdo nema tvoje data. To muze ukazat jedine test.

6.8.2012 15:37 FooBar
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Nemam jedinej duvod si myslet, ze budou problemy -- prijde mi, ze ted resis jen premature optimization, coz je naprosta cesta do pekel.

Ve zkratce:

Ziskej data.
Rozhoduj se.

Nedelej to obracene. Nerozhoduj se na zaklade nepodlozenejch predpokladu o vykonu, a az budes ziskavat data na zaklade kterejch se budes rozhodovat, nezapomen si overit nekym zkusenejsim ze tam nejsou nejaky prehlednuty chyby (omylem chybejici index nebo tak neco veselyho).

Jako rule of thumb bych naprosto nevidel problem v FT vyhledavani nad ~40M normostranama, ale samozrejme zalezi na hromade dalsich faktoru, jako napriklad ocekavana charakteristika zateze.

8.8.2012 19:01 rADOn | skóre: 44 | blog: bloK | Praha
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Pokud ti jde jen o nejaky ty mezery a podobny volovinky tak by stacilo nejak znormalizovat tu databazi. Pokud chces decentni vykon a opravdovej fulltext tak mrkni na sphinx. Vezme si nejaky misto na barely, ale lita jako drak. "Fulltext" v databazich je tak neco mezi tim, funkcne slabota ale zase je to jednoduchy na rozbehani. (sphinxka je docela elektrarna)

"2^24 comments ought to be enough for anyone" -- CmdrTaco

13.8.2012 12:01 Michal
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Na fulltext db se mi osvedcilo Lucene (Java API) a Solr (HTTP/REST API postavene nad Lucene enginem). Velice dobre konfigurovatelne, jsou tam ruzne filtry, dalsi lze napsat, atd. Hledat duplikaty tam jde velice jednoduse, a to i v pripade ze nejde o 100% shodu.

13.8.2012 17:09 Michal Karas | skóre: 45 | blog: /dev/random
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Když už jsou zmíněny tyto technologie, tak bych přidal i ElasticSearch, který je také postavený na Lucene a přijde mi, že v poslední době je minimálně stejně populární jako Solr.

14.8.2012 07:45 ML
Rozbalit Rozbalit vše Re: Jakou db pouzit na vlastni "vyhledavac"?

Já jsem si zvyk na http://sphinxsearch.com/ , celekm fajn. :)

Založit nové vlákno • Nahoru

Tiskni Sdílej: