Portál AbcLinuxu, 20. července 2025 22:57
ahoj,
poradte mi jakou technologii, db a jazyk pouzit na tohle:
"databaze" obsahujici kolem 10M clanku (delka textu 1-4 A4) (cast plaintext, cast html)
hw: xeon, 32gb ram, 3tb disk (raid1 - lepsiho nic neni)
a potrebuji udelat neco, co bude schopne hledat v tom duplicity/kopie. proste, zadam clanek (nebo aspon tri ctyri vety z nej) a potrebuji do par vterin mit vypsane bud presne nebo velmi podobne shody (tj. aby prosly i veci kde je vic mezer mezi slovy, atd.)
nemyslim si, ze mysql/pgsql a fulltext je na tohle dobre reseni.
mate nejaky tip? treba lucene?
dekuji,
martina
Tiskni
Sdílej:
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.