Portál AbcLinuxu, 10. května 2024 21:10


Dotaz: Unikátní řetězec pro daný string

21.1.2011 21:58 unikat
Unikátní řetězec pro daný string
Přečteno: 331×
Odpovědět | Admin
ahoj. Hledám způsob, jak řetězec libovolné velikosti (v praxi od 20 do 1000 písmen) nějak přesně identifikovat. Potřebuju ho identifikovat nějakým řetězcem, který se vleze do 64 znaků. Neboť všechny takové hashe jsou kolizní a já potřebuju 100 procentně nekolizní řetězec - nenapadá vás jak to udělat? Co třeba dva md5 za sebou "posunuté" o nějaký znak apod.? Nejsem odborník přes tyto algoritmy a tak to nedokážu posoudit.
Nástroje: Začni sledovat (0) ?Zašle upozornění na váš email při vložení nového komentáře.

Odpovědi

21.1.2011 22:21 NN
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Odpovědět | | Sbalit | Link | Blokovat | Admin
Mozna bude lepsi napsat o co ti vlastne jde..

NN
21.1.2011 22:21 cronin | skóre: 49
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Odpovědět | | Sbalit | Link | Blokovat | Admin
Tady cesta nevede. Presne ako pises: vsetky hashe su kolizne, pretoze matematicky take nevyhnutne musia byt.
21.1.2011 22:32 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Odpovědět | | Sbalit | Link | Blokovat | Admin
Neomezenou množinu vstupů samozřejmě nemůžete jednoznačně přiřadit omezené množině výstupů. Pokud chcete použít hashe, běžně se to řeší tak, že u hashe počítáte s tím, že jednomu hashi může být přiřazeno více vstupů. Takže pokud třeba testujete, zda je nějaký řetězec v databázi, vyhledáte si podle hashe seznam řetězců (se stejným hashem) a ten už pak s hledaným řetězcem porovnáte prvek po prvku. Typicky ten seznam pro jeden hash bude jednoprvkový, takže takové porovnání bude rychlé.
23.1.2011 08:39 Radovan
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Odpovědět | | Sbalit | Link | Blokovat | Admin
I když omezíš množinu znaků, například jen velká a malá písmena bez diakritiky, číslice a mezera, to je 26+26+10+1=63, na to potřebuješ 6 bitů, takže do 64 znaků bys nacpal 85, bez nějaké šílené komprese jako je třeba morseovka :-D Ale nikdy 1000, to se prostě nedá, budeš muset obětovat víc místa než 64B.

Druhá možnost by byla použít dva úplně odlišné způsoby jak ten hash vypočítat, takže ty kolize by se nacházely na jiných místech. Ale stejně by tě to stálo 2x64 znaků, protože bys musel mít uložené dva různé hashe. Ale jistotu nebudeš mít nikdy, pokud opravdu všechny možnosti neotestuješ, což by mohlo trvad dost dlóóóuho, pokud nevlastníš nějaký botnet.
23.1.2011 09:38 Filip Jirsák | skóre: 68 | blog: Fa & Bi
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Druhá možnost by byla použít dva úplně odlišné způsoby jak ten hash vypočítat, takže ty kolize by se nacházely na jiných místech.
To by ničemu nepomohlo, stejně by existovaly různé vstupy, pro které by oba hashe byly stejné. Navíc mi tak od oka připadá, že pokud mám k dispozici dvě různé hashovací funkce s volitelnou délkou výstupu, u kterých není známa žádná slabina, je lepší použít jednu s dvojnásobnou délkou výstupu než kombinovat obě dvě. Ty dvě funkce totiž mohou „uvnitř“ používat nějaký stejný postup, takže ty dva výsledné hashe mezi sebou mohou mít nějakou závislost, tj. efektivní délka jejich součtu bude menší.
23.1.2011 15:02 Sten
Rozbalit Rozbalit vše Re: Unikátní řetězec pro daný string
Odpovědět | | Sbalit | Link | Blokovat | Admin
Hashe jsou kolizní už z principu: 1000 znakových řetězců je 256¹°°° kombinací. 64 znakových řetězců je 256⁶⁴ kombinací. 256¹°°° ≫ 256⁶⁴. Takže byste musel použít 1000 znakovou hash, tedy byste rovnou mohl použít původní řetězce.

Anebo byste mohl použít trie, ale potom nemáte jednoznačnou identifikaci, ale rozumný strom, abyste mohl celkem rychle nalézt ten, který hledáte.

Založit nové vláknoNahoru

Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.