Databricks kündigt die allgemeine Verfügbarkeit der hybriden Suche in Mosaic-AI-Vector-Search an

Databricks kündigt die allgemeine Verfügbarkeit der hybriden Suche in Mosaic-AI-Vector-Search an. Die hybride Suche ist eine leistungsstarke Funktion, die die Stärken von vorab trainierten eingebetteten Modellen mit der Flexibilität der Stichwortsuche kombiniert. Vorgefertigte eingebettete Modelle sind eine leistungsstarke Möglichkeit, unstrukturierte Daten darzustellen und die semantische Bedeutung in einem komprimierten und leicht durchsuchbaren Format zu erfassen. Bei der hybriden Suche wird der Index für die Vektorsuche um einen gelernten Index für die Schlagwortsuche ergänzt. Der Schlüsselwort-Suchindex ist auf spezifische Unternehmensdaten trainiert und kennt daher die Namen, Produktschlüssel und andere Identifikatoren, die für das jeweilige Unternehmen wichtig sind.

 

Drei Optionen für die Bereitstellung von Vektoreinbettungen

Um eine Vektor-Datenbank in Databricks zu erstellen, müssen die Data-Engineers zunächst entscheiden, wie die Vektoreinbettungen bereitgestellt werden sollen. Databricks unterstützt drei Optionen:

  • Option 1: Bereitstellung einer Source-Delta-Table, die Daten im Textformat enthält. Databricks berechnet die Einbettungen unter Verwendung eines vom Data Engineer angegebenen Modells und speichert die Einbettungen optional in einer Tabelle im Unity-Catalog. Wenn die Delta-Tabelle aktualisiert wird, bleibt der Index mit der Delta Table synchronisiert.
  • Option 2: Bereitstellung einer Source-Delta-Table, die vorberechnete Einbettungen enthält. Wenn die Delta Table aktualisiert wird, bleibt der Index mit der Delta Table synchronisiert.
  • Option 3 (direkter Zugriff): Bereitstellung einer Source Delta Table, die vorberechnete Einbettungen enthält. Es findet keine automatische Synchronisierung statt, wenn die Delta Table aktualisiert wird. Data Engineers müssen den Index manuell über die REST-API aktualisieren, wenn sich die Tabelle mit den Einbettungen ändert.

 

Die angewandte Methode

Die hybride Suche basiert auf der „Rank Reciprocal Fusion (RRF)“ der Ergebnisse der Vektorsuche und der Schlagwortsuche. Die Parameter der RRF werden auf Werte abgestimmt, die für die meisten Datensätze qualitativ hochwertige Ergebnisse liefern sollten. Die Punktzahlen werden normalisiert, sodass die höchstmögliche Punktzahl 1,0 ist. Dadurch lässt sich leicht erkennen, wann Dokumente sowohl von der Vektor- als auch von der Schlagwortsuche als hochwertig eingestuft werden. Werte nahe bei 1,0 bedeuten, dass beide Retriever das Dokument als hoch relevant einstufen. Werte nahe 0,5 und darunter bedeuten, dass einer oder beide Retriever das Dokument für wenig relevant halten.

Unternehmen können sofort mit der hybriden Suche beginnen, da alle Indizes Zugriff auf die hybride Suche haben, ohne dass zusätzliche Einstellungen erforderlich sind. Der Schlüsselwortindex wird auf alle Textfelder in ihrem Korpus trainiert, so dass er automatisch Zugriff sowohl auf den Text-Chunk als auch auf alle Textmetadatenfelder hat.

#Databricks