Skip to main content

Das Know-How.

Seminare, Schulungen, Ausbildungen und Trainings

Tokens

Definition

Tokens sind die kleinsten Bausteine, in die ein Text zerlegt wird, damit ein Sprachmodell ihn verarbeiten kann. Ohne diese Zerlegung könnte ein KI-Modell mit Text gar nichts anfangen.

Ein Token kann ein ganzes Wort sein oder nur ein Teil davon. Auch Satzzeichen wie Punkte oder Ausrufezeichen zählen dazu.

Beispiel:

Der Satz „Das Leben ist schön!“ wird in folgende Tokens zerlegt:
„Das“, „Leben“, „ist“, „schön“, „!“

Manchmal wird ein Wort sogar noch feiner zerlegt, zum Beispiel bei langen oder zusammengesetzten Wörtern.

Warum Tokens wichtig sind

Effiziente Verarbeitung
Indem der Text in Tokens aufgeteilt wird, kann das Modell ihn viel schneller und strukturierter analysieren. Es erkennt so besser, welche Wörter zusammengehören oder wie sie im Satz miteinander wirken.

Sprachverständnis auch bei neuen Wörtern
Viele Wörter bestehen aus bekannten Bausteinen wie „ver-“, „-ung“ oder „lich“. Wenn das Modell diese Bausteine kennt, kann es auch neue oder zusammengesetzte Wörter verstehen, die es vorher noch nie gesehen hat.

Lernen von Mustern
Beim Training lernt das Modell, wie bestimmte Tokens in bestimmten Zusammenhängen auftauchen. So kann es zum Beispiel vorhersagen, welches Wort als Nächstes wahrscheinlich kommt oder selbst neuen, sinnvollen Text schreiben.

REFA Online-Seminar - live & interaktiv