Hashing-basierte Indizierung: Anwendungsszenarien, Theorie und Methoden
AutorIn[nen]
Stein, Benno Potthast, Martin
In :
LWA 2006 : Lernen - Wissensentdeckung - Adaptivität (Workshop 9.11.10.2006 in Hildesheim) / Martin Schaaf, Klaus-Dieter Althoff [Hrsg.]
FGIR 2006 : Workshop Information Retrieval 2006 of the Special Interest Group Information Retrieval (FGIR) : (Hildesheim) : 2006.10.09-11
Hashing-basierte Indizierung ist eine mächtige Technologie für die Ähnlichkeitssuche in großen Dokumentkollektionen [Stein 2005]. Sie basiert auf der Idee, Hashkollisionen als Ähnlichkeitsindikator aufzufassen – vorausgesetzt, dass eine entsprechend konstruierte Hashfunktion vorliegt. In diesem Papier wird erörtert, unter welchen Voraussetzungen grundlegende Retrieval- Aufgaben von dieser neuen Technologie profitieren können. Weiterhin werden zwei aktuelle, hashing-basierte Indizierungsansätze präsentiert und die mit ihnen erzielbaren Verbesserungen bei der Lösung realer Retrieval-Aufgaben verglichen. Eine Analyse dieser Art ist neu; sie zeigt das enorme Potenzial maßgeschneiderter hashing-basierter Indizierungsmethoden wie zum Beispiel dem Fuzzy- Fingerprinting.