Embedding im Machine Learning wird genutzt, um mehr­di­men­sio­na­le Objekte wie Bilder, Text, Videos oder Au­dio­da­ten in Vektoren um­zu­wan­deln. So können diese von ma­schi­nel­len Lern­mo­del­len besser erkannt und ka­te­go­ri­siert werden. Ins­be­son­de­re in Vek­tor­da­ten­ban­ken wie ChromaDB kommt diese Methode bereits mit großem Erfolg zum Einsatz.

Was ist Embedding im Machine Learning?

Embedding im Machine Learning ist eine Technik, die Systeme verwenden, um reale Objekte durch eine Dar­stel­lung in ma­the­ma­ti­scher Form für die künst­li­che In­tel­li­genz (KI) ver­ständ­lich zu machen. Diese Ein­bet­tun­gen (engl. em­bed­dings) ver­ein­fa­chen dabei ei­ner­seits die Dar­stel­lung der realen Objekte, behalten an­de­rer­seits aber deren Merkmale und Be­zie­hun­gen zu anderen Objekten bei. Die Methode wird genutzt, um ma­schi­nel­le Lern­mo­del­le im Auffinden ähnlicher Objekte zu un­ter­rich­ten. Dabei kann es sich unter anderem um na­tür­li­chen Text, Bilder, Au­dio­da­ten oder Videos handeln. Man spricht bei diesen Objekten von hoch­di­men­sio­na­len Daten, da zum Beispiel ein Bild zahl­rei­che Pi­xel­farb­wer­te enthalten kann.

Bei AI Em­bed­dings handelt es sich streng­ge­nom­men um Vektoren. Vektoren sind in der Ma­the­ma­tik Zah­len­rei­hen, die einen Punkt in einem di­men­sio­na­len Raum bestimmen.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Die Grundidee von Em­bed­dings im Machine Learning ist es nun, dass ein Such­al­go­rith­mus innerhalb einer Vek­to­ren­da­ten­bank zwei Vektoren iden­ti­fi­ziert, die möglichst nah bei­ein­an­der liegen. Je viel­schich­ti­ger diese Vektoren sind, desto genauer wird in den meisten Fällen auch das Ergebnis sein, wenn zwei davon sich ähneln. Daher werden beim Embedding im Machine Learning möglichst viele Faktoren oder Di­men­sio­nen vek­to­ri­siert und beim Vergleich be­rück­sich­tigt. Damit dies gelingt, wird ein Modell mit möglichst großen und he­te­ro­ge­nen Da­ten­sät­zen trainiert.

Hinweis

In be­stimm­ten Szenarien, z. B. um Over­fit­ting zu vermeiden oder um die Re­chen­leis­tung zu op­ti­mie­ren, können bei AI Em­bed­dings auch weniger Di­men­sio­nen sinnvoll sein, um ein gutes Resultat zu erzielen.

Welche An­wen­dungs­fäl­le für Embedding im Machine Learning gibt es?

Em­bed­dings finden im Machine Learning vor allem bei großen Sprach­mo­del­len, also Large Language Models (LLMs), Ver­wen­dung. Diese werden von zahl­rei­chen KI-Tools genutzt. Dabei bettet die Methode nicht nur ein Wort ein, sondern auch seinen Kontext. Dies er­mög­licht es Lösungen wie ChatGPT auch Wort­fol­gen, Sätze oder ganze Texte zu ana­ly­sie­ren. Unter anderem folgende An­wen­dungs­op­tio­nen gibt es daher für Embedding im Machine Learning:

  • Bessere Suchen und Abfragen: Embedding im Machine Learning kann genutzt werden, um Such­an­fra­gen und Abfragen zu prä­zi­sie­ren und dadurch auch auf lange Sicht exaktere Ausgaben zu er­mög­li­chen.
  • Kon­tex­tua­li­sie­rung: Auch durch die Be­reit­stel­lung zu­sätz­li­cher Kon­text­in­for­ma­tio­nen können präzisere Antworten geliefert werden.
  • In­di­vi­du­el­le An­pas­sun­gen: Große Sprach­mo­del­le können mithilfe von AI Em­bed­dings spe­zi­fi­ziert und in­di­vi­dua­li­siert werden. So ist ein genauer Zuschnitt auf bestimmte Konzepte oder Be­griff­lich­kei­ten möglich.
  • In­te­gra­ti­on: Mithilfe von Ein­bet­tun­gen können auch Daten aus externen Da­ten­quel­len in­te­griert werden. Dadurch werden Da­ten­sät­ze noch um­fang­rei­cher und he­te­ro­ge­ner.

Wie funk­tio­niert Embedding? (Beispiel: ChromaDB)

Für die effektive Spei­che­rung und spätere Abfrage von ein­ge­bet­te­ten Daten ist eine Vek­tor­da­ten­bank die beste Lösung. Solche Speicher hin­ter­le­gen die Daten nicht nur platz­spa­rend, sondern erlauben Abfragen, die nicht das genaue Ergebnis, sondern ähnliche Er­geb­nis­se aus­lie­fern. Einer der po­pu­lärs­ten Open-Source-Vek­tor­spei­cher ist ChromaDB. Dieser speichert Em­bed­dings für Machine Learning zusammen mit Metadaten, sodass diese zu einem späteren Zeitpunkt von LLMs verwendet werden können. Anhand dieser Lösung können wir die Funk­ti­ons­wei­se von Ein­bet­tun­gen etwas besser ver­an­schau­li­chen. Im Großen und Ganzen sind nur die drei nach­fol­gend prä­sen­tier­ten Schritte nötig.

Schritt 1: Eine neue Sammlung erstellen

Im ersten Schritt wird eine Sammlung erstellt, die Ähn­lich­kei­ten mit den Tabellen aufweist, die in einer Be­zie­hungs­da­ten­bank hin­ter­legt wurden. Diese werden in Ein­bet­tun­gen um­ge­wan­delt. Als Standard für Em­bed­dings nutzt ChromaDB die Um­wand­lung all-MiniLM-L6-v2. Diese Ein­stel­lung kann aber geändert und dadurch ein anderes Modell genutzt werden. Wenn Sie z. B. eine spe­zia­li­sier­te Sammlung benötigen, können Sie durch die Wahl eines anderen Modells spe­zi­fi­sche An­for­de­run­gen wie die Ver­ar­bei­tung von Fach­tex­ten oder Bildern besser be­rück­sich­ti­gen. Die Fle­xi­bi­li­tät bei der Mo­dell­wahl macht ChromaDB viel­sei­tig ein­setz­bar, ob für Text, Audio oder Bilddaten.

Schritt 2: Neue Dokumente hin­zu­fü­gen

An­schlie­ßend fügen Sie zu der neuen Coll­ec­tion Text­do­ku­men­te mit Metadaten und einer eigenen ID hinzu. Enthält die Sammlung den Text, wird er au­to­ma­tisch von ChromaDB in Em­bed­dings um­ge­wan­delt. Die Metadaten dienen dabei als zu­sätz­li­che In­for­ma­tio­nen, um die Abfrage später gezielt zu ver­fei­nern, z. B. durch Filterung nach Ka­te­go­rien oder Zeit­stem­peln. Diese Struk­tu­rie­rung er­mög­licht es, große Da­ten­men­gen über­sicht­lich zu verwalten und relevante Er­geb­nis­se schneller zu finden.

Schritt 3: Die gesuchten Dokumente abfragen

Im dritten Schritt können Sie dann Texte oder Em­bed­dings in ChromaDB abfragen. Als Ausgabe erhalten Sie dann Er­geb­nis­se, die Ihrer Anfrage ähneln. Es ist außerdem möglich, die ge­wünsch­ten Dokumente durch die Eingabe der Metadaten aus­zu­ge­ben. Die Er­geb­nis­se werden nach ihrer Ähn­lich­keit sortiert, sodass die Treffer mit der höchsten Relevanz ganz oben stehen. Zudem können Sie die Abfrage op­ti­mie­ren, indem Sie Schwel­len­wer­te für die Ähn­lich­keit festlegen oder zu­sätz­li­che Filter anwenden, um die Präzision weiter zu erhöhen.

Managed Database Services
Da­ten­ban­ken – Auf´s We­sent­li­che kon­zen­trie­ren
  • IONOS Cloud-Partner: Die Experten für Ihren Datenbank-Betrieb
  • Flexibel: Maß­ge­schnei­der­te Datenbank-Lösungen ganz auf Ihre Be­dürf­nis­se
  • Re­chen­zen­tren in Deutsch­land: Ihre Daten sind sicher
Zum Hauptmenü