AI Tokens stellen die kleinste sprach­li­che Einheit dar, die KI-Modelle benötigen, um Text zu ver­ar­bei­ten und zu in­ter­pre­tie­ren. Mithilfe der AI To­ke­niza­ti­on wird Sprache in diese Bausteine zerlegt, was die Grundlage für die Analyse und Ge­ne­rie­rung von Texten bildet. Mit Tools wie dem OpenAI Tokenizer lassen sich die Tokens eines Textes einfach und schnell bestimmen.

De­fi­ni­ti­on: Was sind AI Tokens?

AI Tokens (Ar­ti­fi­ci­al In­tel­li­gence Tokens) – im Deutschen auch als KI-Tokens be­zeich­net – stellen die kleinsten Da­ten­ein­hei­ten von KI-Modellen wie ChatGPT, LLama2 und Copilot dar. Sie sind der wich­tigs­te Baustein für die Ver­ar­bei­tung, In­ter­pre­ta­ti­on und Ge­ne­rie­rung von Text, denn nur durch die Zerlegung eines Textes in Tokens kann künst­li­che In­tel­li­genz Sprache verstehen und passende Antworten auf Anfragen der Nut­ze­rin­nen und Nutzer liefern. AI Tokens können dabei sowohl einzelne Wörter oder Wortteile re­prä­sen­tie­ren als auch Satz­zei­chen und Emojis.

Aus wie vielen KI-Tokens sich ein Text zu­sam­men­setzt, hängt von ver­schie­de­nen Faktoren ab. Neben der Textlänge sind in diesem Zu­sam­men­hang bei­spiels­wei­se auch die ver­wen­de­te Sprache und das genutzte KI-Modell von Bedeutung. Wenn Sie einen API-Zugang wie die ChatGPT API nutzen, bedingt die Anzahl der Tokens zudem, welche Kosten anfallen. In den meisten Fällen rechnen KI-An­wen­dun­gen die ver­brauch­ten AI Tokens einzeln ab.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Wie funk­tio­niert AI To­ke­niza­ti­on?

Der Prozess, bei dem ein KI-Modell Text in Tokens umwandelt, wird als AI To­ke­niza­ti­on be­zeich­net. Dieser Schritt ist er­for­der­lich, da Large Language Models na­tür­li­che Sprache in einer ma­schi­nell ana­ly­sier­ba­ren Form benötigen. Die To­ke­niza­ti­on bildet demnach die Grundlage für Text­in­ter­pre­ta­ti­on, Mus­ter­er­ken­nung und Ant­wor­ter­stel­lung. Ohne diesen Um­wand­lungs­pro­zess wäre künst­li­che In­tel­li­genz nicht dazu in der Lage, Be­deu­tungs- und Be­zie­hungs­zu­sam­men­hän­ge zu erfassen. Die Um­wand­lung von Text in Tokens setzt sich aus mehreren Schritten zusammen und läuft wie folgt ab:

  1. Nor­ma­li­sie­rung: In einem ersten Schritt wandelt das KI-Modell den Text in eine stan­dar­di­sier­te Form um, wodurch sich die Kom­ple­xi­tät und Varianz re­du­zie­ren. Im Zuge der Nor­ma­li­sie­rung wird der komplette Text in Klein­buch­sta­ben um­ge­wan­delt. Außerdem entfernt das Modell Son­der­zei­chen und be­schränkt Wörter mitunter auf Grund­for­men.
  2. Text­zer­le­gung in Tokens: Als Nächstes zerlegt die KI den Text in Tokens, also kleinere sprach­li­che Einheiten. Wie die Text­bau­stei­ne im Detail auf­ge­teilt werden, hängt von der Kom­ple­xi­tät und Trai­nings­wei­se des Modells ab. Der Satz „KI re­vo­lu­tio­niert die Markt­for­schung.” bestand bei GPT-3 noch aus elf Tokens, bei GPT-3.5 und GPT-4 aus neun Tokens und bei GPT-4o nur noch aus acht Tokens.
  3. Zuweisung nu­me­ri­scher Werte: Im Anschluss ordnet das KI-Modell jedem AI Token einen nu­me­ri­schen Wert zu, der als Token-ID be­zeich­net wird. Die IDs sind in gewisser Weise das Vokabular der künst­li­chen In­tel­li­genz, das alle der dem Modell bekannten Tokens be­inhal­tet.
  4. Ver­ar­bei­tung der KI-Tokens: Das Sprach­mo­dell ana­ly­siert die Beziehung zwischen den Tokens, um Muster zu erkennen und Vor­her­sa­gen be­zie­hungs­wei­se Antworten zu erstellen. Diese werden auf Basis von Wahr­schein­lich­kei­ten generiert. Das KI-Modell schaut sich Kon­text­in­for­ma­tio­nen an und bestimmt nach­fol­gen­de AI Tokens immer auf Grundlage der vor­he­ri­gen.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Wie berechnet man die Tokens eines Textes?

Wie Tokens von der AI berechnet werden, lässt sich mithilfe so­ge­nann­ter Tokenizer nach­voll­zie­hen, die Texte in die kleinsten Ver­ar­bei­tungs­ein­hei­ten zerlegen. Sie arbeiten nach spe­zi­fi­schen Al­go­rith­men, die sich an den Trai­nings­da­ten und der Ar­chi­tek­tur des KI-Modells ori­en­tie­ren. Neben der Anzeige der Token-Anzahl können solche Tools auch de­tail­lier­te In­for­ma­tio­nen zu jedem einzelnen Token be­reit­stel­len, wie z. B. die da­zu­ge­hö­ri­ge nu­me­ri­sche Token-ID. Dadurch lassen sich nicht nur Kosten besser kal­ku­lie­ren, sondern auch die Effizienz von Texten in der Kom­mu­ni­ka­ti­on mit KI-Modellen op­ti­mie­ren.

Ein Beispiel für einen frei zu­gäng­li­chen Tokenizer ist der OpenAI Tokenizer, der für aktuelle ChatGPT-Modelle ausgelegt ist. Nachdem Sie den ge­wünsch­ten Text in das Ein­ga­be­feld kopiert oder ein­ge­tippt haben, prä­sen­tiert die Anwendung Ihnen die einzelnen AI Tokens, indem es die Einheiten farblich her­vor­hebt.

Hinweis

Die maximale Textlänge hängt immer vom Token-Limit des je­wei­li­gen Modells ab. GPT-4 kann bei­spiels­wei­se bis zu 32.768 Tokens pro Anfrage ver­ar­bei­ten.

AI Tokens und To­ke­niza­ti­on: Pra­xis­bei­spiel

Um eine bessere Vor­stel­lung von der AI To­ke­niza­ti­on zu erhalten, haben wir einen kurzen Bei­spiel­text zur Ver­an­schau­li­chung verfasst:

AI Tokens sind es­sen­ti­ell für moderne Sprach­mo­del­le wie GPT-4. Warum? Diese Tokens zerlegen Texte in kleinere Einheiten, damit die KI die Mög­lich­keit hat, sie zu ana­ly­sie­ren und zu verstehen. Ohne To­ke­niza­ti­on wäre es KI-Modellen unmöglich, na­tür­li­che Sprache effizient zu ver­ar­bei­ten.

Das Modell GPT-4o zerlegt diesen aus 285 Zeichen be­stehen­den Text in 61 Tokens, was wie folgt aussieht:

Bild: OpenAI: Tokenizer-Textbeispiel
Zerlegte AI Tokens für eine bei­spiel­haf­te Text­se­quenz; Quelle: https://platform.openai.com/tokenizer
Zum Hauptmenü