Embedding im Machine Learning am Beispiel von ChromaDB

Inhaltsverzeichnis

Embedding im Machine Learning wird genutzt, um mehrdimensionale Objekte wie Bilder, Text, Videos oder Audiodaten in Vektoren umzuwandeln. So können diese von maschinellen Lernmodellen besser erkannt und kategorisiert werden. Insbesondere in Vektordatenbanken wie ChromaDB kommt diese Methode bereits mit großem Erfolg zum Einsatz.

Was ist Embedding im Machine Learning?

Embedding im Machine Learning ist eine Technik, die Systeme verwenden, um reale Objekte durch eine Darstellung in mathematischer Form für die künstliche Intelligenz (KI) verständlich zu machen. Diese Einbettungen (engl. embeddings) vereinfachen dabei einerseits die Darstellung der realen Objekte, behalten andererseits aber deren Merkmale und Beziehungen zu anderen Objekten bei. Die Methode wird genutzt, um maschinelle Lernmodelle im Auffinden ähnlicher Objekte zu unterrichten. Dabei kann es sich unter anderem um natürlichen Text, Bilder, Audiodaten oder Videos handeln. Man spricht bei diesen Objekten von hochdimensionalen Daten, da zum Beispiel ein Bild zahlreiche Pixelfarbwerte enthalten kann.

Bei AI Embeddings handelt es sich strenggenommen um Vektoren. Vektoren sind in der Mathematik Zahlenreihen, die einen Punkt in einem dimensionalen Raum bestimmen.

IONOS AI Model Hub

Erste deutsche, multimodale KI-Plattform

100 % DSGVO-konform und sicher in Deutschland gehostet
Die leistungsstärksten KI-Modelle auf einer Plattform
Kein Vendor Lock-in durch Open Source

Die Grundidee von Embeddings im Machine Learning ist es nun, dass ein Suchalgorithmus innerhalb einer Vektorendatenbank zwei Vektoren identifiziert, die möglichst nah beieinander liegen. Je vielschichtiger diese Vektoren sind, desto genauer wird in den meisten Fällen auch das Ergebnis sein, wenn zwei davon sich ähneln. Daher werden beim Embedding im Machine Learning möglichst viele Faktoren oder Dimensionen vektorisiert und beim Vergleich berücksichtigt. Damit dies gelingt, wird ein Modell mit möglichst großen und heterogenen Datensätzen trainiert.

Hinweis

In bestimmten Szenarien, z. B. um Overfitting zu vermeiden oder um die Rechenleistung zu optimieren, können bei AI Embeddings auch weniger Dimensionen sinnvoll sein, um ein gutes Resultat zu erzielen.

Welche Anwendungsfälle für Embedding im Machine Learning gibt es?

Embeddings finden im Machine Learning vor allem bei großen Sprachmodellen, also Large Language Models (LLMs), Verwendung. Diese werden von zahlreichen KI-Tools genutzt. Dabei bettet die Methode nicht nur ein Wort ein, sondern auch seinen Kontext. Dies ermöglicht es Lösungen wie ChatGPT auch Wortfolgen, Sätze oder ganze Texte zu analysieren. Unter anderem folgende Anwendungsoptionen gibt es daher für Embedding im Machine Learning:

Bessere Suchen und Abfragen: Embedding im Machine Learning kann genutzt werden, um Suchanfragen und Abfragen zu präzisieren und dadurch auch auf lange Sicht exaktere Ausgaben zu ermöglichen.
Kontextualisierung: Auch durch die Bereitstellung zusätzlicher Kontextinformationen können präzisere Antworten geliefert werden.
Individuelle Anpassungen: Große Sprachmodelle können mithilfe von AI Embeddings spezifiziert und individualisiert werden. So ist ein genauer Zuschnitt auf bestimmte Konzepte oder Begrifflichkeiten möglich.
Integration: Mithilfe von Einbettungen können auch Daten aus externen Datenquellen integriert werden. Dadurch werden Datensätze noch umfangreicher und heterogener.

Wie funktioniert Embedding? (Beispiel: ChromaDB)

Für die effektive Speicherung und spätere Abfrage von eingebetteten Daten ist eine Vektordatenbank die beste Lösung. Solche Speicher hinterlegen die Daten nicht nur platzsparend, sondern erlauben Abfragen, die nicht das genaue Ergebnis, sondern ähnliche Ergebnisse ausliefern. Einer der populärsten Open-Source-Vektorspeicher ist ChromaDB. Dieser speichert Embeddings für Machine Learning zusammen mit Metadaten, sodass diese zu einem späteren Zeitpunkt von LLMs verwendet werden können. Anhand dieser Lösung können wir die Funktionsweise von Einbettungen etwas besser veranschaulichen. Im Großen und Ganzen sind nur die drei nachfolgend präsentierten Schritte nötig.

Schritt 1: Eine neue Sammlung erstellen

Im ersten Schritt wird eine Sammlung erstellt, die Ähnlichkeiten mit den Tabellen aufweist, die in einer Beziehungsdatenbank hinterlegt wurden. Diese werden in Einbettungen umgewandelt. Als Standard für Embeddings nutzt ChromaDB die Umwandlung all-MiniLM-L6-v2. Diese Einstellung kann aber geändert und dadurch ein anderes Modell genutzt werden. Wenn Sie z. B. eine spezialisierte Sammlung benötigen, können Sie durch die Wahl eines anderen Modells spezifische Anforderungen wie die Verarbeitung von Fachtexten oder Bildern besser berücksichtigen. Die Flexibilität bei der Modellwahl macht ChromaDB vielseitig einsetzbar, ob für Text, Audio oder Bilddaten.

Schritt 2: Neue Dokumente hinzufügen

Anschließend fügen Sie zu der neuen Collection Textdokumente mit Metadaten und einer eigenen ID hinzu. Enthält die Sammlung den Text, wird er automatisch von ChromaDB in Embeddings umgewandelt. Die Metadaten dienen dabei als zusätzliche Informationen, um die Abfrage später gezielt zu verfeinern, z. B. durch Filterung nach Kategorien oder Zeitstempeln. Diese Strukturierung ermöglicht es, große Datenmengen übersichtlich zu verwalten und relevante Ergebnisse schneller zu finden.

Schritt 3: Die gesuchten Dokumente abfragen

Im dritten Schritt können Sie dann Texte oder Embeddings in ChromaDB abfragen. Als Ausgabe erhalten Sie dann Ergebnisse, die Ihrer Anfrage ähneln. Es ist außerdem möglich, die gewünschten Dokumente durch die Eingabe der Metadaten auszugeben. Die Ergebnisse werden nach ihrer Ähnlichkeit sortiert, sodass die Treffer mit der höchsten Relevanz ganz oben stehen. Zudem können Sie die Abfrage optimieren, indem Sie Schwellenwerte für die Ähnlichkeit festlegen oder zusätzliche Filter anwenden, um die Präzision weiter zu erhöhen.

Managed Database Services

Datenbanken – Auf´s Wesentliche konzentrieren

IONOS Cloud-Partner: Die Experten für Ihren Datenbank-Betrieb
Flexibel: Maßgeschneiderte Datenbank-Lösungen ganz auf Ihre Bedürfnisse
Rechenzentren in Deutschland: Ihre Daten sind sicher

10 Jahre Digital Guide: Eine Erfolgsgeschichte

Embodied AI

Roboter werden immer intelligenter und die Anwendungsbereiche immer vielfältiger und komplexer. Die Entwicklungen im Bereich Robotik erfahren durch den Einsatz von künstlicher Intelligenz einen massiven Innovationsschub. Embodied AI wird bereits in vielen Branchen im Alltag…

Lexikon
KI

BEST-BACKGROUNDSshutterstock

Die 5 besten AI-Code-Generatoren im Überblick

AI-Code-Generatoren wurden entwickelt, um Programmiererinnen und Programmierern die Arbeit zu erleichtern. Die Tools können Code vervollständigen, Fehler entdecken und sich dank Machine Learning an individuelle Ansprüche anpassen. In diesem Artikel erklären wir Ihnen, was…

KI
Ratgeber

focal pointshutterstock

Die 10 besten KI-Text-Generatoren

KI-Text-Generatoren haben in den letzten Jahren beeindruckende Fortschritte gemacht und können mittlerweile eine Vielzahl von Aufgaben übernehmen. Aber Vorsicht: Nicht jede KI, die Texte schreiben kann, eignet sich auch automatisch für Ihre Anforderungen. Wir stellen Ihnen die…

KI
Vergleich

mrmohockshutterstock

Die 10 besten KI-Video-Generatoren

Videos sind ein wichtiger Bestandteil von Content- und Social-Media-Marketing. Das Problem: Gute Videos zu produzieren ist aufwändig und zeitintensiv. Mithilfe von künstlicher Intelligenz können diese mittlerweile aber ohne großen Aufwand generiert werden. Doch nicht jede KI, die…

KI
Vergleich

alphaspirit.itshutterstock

KI für Unternehmen: Grundlagen, Tools und Lösungen

Durch KI im Unternehmen können viele Arbeitsschritte vereinfacht und optimiert werden. In diesem Artikel erklären wir Ihnen, welche Chancen KI für Unternehmen bietet, welche Herausforderungen die Technik mit sich bringt und welche Voraussetzungen für ihre Nutzung erfüllt werden…

KI
Ratgeber

Embedding im Machine Learning am Beispiel von ChromaDB

Was ist Embedding im Machine Learning?

Welche An­wen­dungs­fäl­le für Embedding im Machine Learning gibt es?

Wie funk­tio­niert Embedding? (Beispiel: ChromaDB)

Schritt 1: Eine neue Sammlung erstellen

Schritt 2: Neue Dokumente hin­zu­fü­gen

Schritt 3: Die gesuchten Dokumente abfragen

Welche Anwendungsfälle für Embedding im Machine Learning gibt es?

Wie funktioniert Embedding? (Beispiel: ChromaDB)

Schritt 2: Neue Dokumente hinzufügen