Portál AbcLinuxu, 31. října 2025 21:17
ahoj,
poradte mi jakou technologii, db a jazyk pouzit na tohle:
"databaze" obsahujici kolem 10M clanku (delka textu 1-4 A4) (cast plaintext, cast html)
hw: xeon, 32gb ram, 3tb disk (raid1 - lepsiho nic neni)
a potrebuji udelat neco, co bude schopne hledat v tom duplicity/kopie. proste, zadam clanek (nebo aspon tri ctyri vety z nej) a potrebuji do par vterin mit vypsane bud presne nebo velmi podobne shody (tj. aby prosly i veci kde je vic mezer mezi slovy, atd.)
nemyslim si, ze mysql/pgsql a fulltext je na tohle dobre reseni.
mate nejaky tip? treba lucene?
dekuji,
martina
 8.8.2012 19:01
rADOn             | skóre: 44
             | blog: bloK
             | Praha
        8.8.2012 19:01
rADOn             | skóre: 44
             | blog: bloK
             | Praha
        
        Tiskni
            
                Sdílej:
                 
                 
                 
                 
                 
                 
            
    
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.