Nu­me­ri­sche Präzision be­schreibt, wie exakt GPUs Zahlen dar­stel­len und ver­ar­bei­ten. In Deep Learning bestimmt das gewählte Gleit­kom­ma­for­mat (z. B. FP32, FP16, BF16 oder FP8) den Kom­pro­miss zwischen Re­chen­leis­tung, Spei­cher­be­darf und Mo­dell­ge­nau­ig­keit und spielt daher eine wichtige Rolle für die Leistung von KI-An­wen­dun­gen.

Was sind Gleit­kom­ma­zah­len?

Gleit­kom­ma­zah­len sind eine Mög­lich­keit, reelle Zahlen im Computer dar­zu­stel­len. Statt einer festen Anzahl von Nach­kom­ma­stel­len wie bei Ganz­zah­len wird die Zahl in eine Art wis­sen­schaft­li­che Notation zerlegt. Sie bestehen aus drei zentralen Kom­po­nen­ten:

  • Vor­zei­chen
  • Exponent
  • Mantisse

Das Vor­zei­chen­bit legt fest, ob eine Zahl positiv oder negativ ist. Der Exponent bestimmt den Wer­te­be­reich, also wie große oder kleine Zahlen dar­ge­stellt werden können. Die Mantisse wird auch Si­gni­fi­kand genannt und definiert die Präzision, also wie genau eine Zahl dar­ge­stellt wird. Je mehr Bits der Exponent hat, desto größer ist der Dy­na­mik­be­reich. Je mehr Bits die Mantisse besitzt, desto feiner ist die Auflösung zwischen zwei dar­stell­ba­ren Zahlen.

Ein zentraler Ziel­kon­flikt besteht darin, dass höhere Präzision zwar genauere Er­geb­nis­se liefert, aber auch mehr Speicher und Re­chen­leis­tung benötigt. Geringere Präzision spart hingegen Res­sour­cen und be­schleu­nigt Be­rech­nun­gen, kann jedoch zu Run­dungs­feh­lern führen. Besonders bei Deep-Learning-Modellen ist das relevant, da hier mit Millionen bis Mil­li­ar­den von Pa­ra­me­tern gerechnet wird. Je nach Format gibt es außerdem spezielle Werte wie NaN („Not a Number“) oder ±Inf (unendlich), die bei be­stimm­ten Re­chen­ope­ra­tio­nen entstehen können.

Bei sehr kleinen Zahlen kann es zu so­ge­nann­tem Underflow kommen. Werte verlieren dann an Ge­nau­ig­keit, werden als sub­nor­ma­le Werte dar­ge­stellt oder zu null gerundet. Umgekehrt spricht man von Overflow, wenn Zahlen zu groß werden und den dar­stell­ba­ren Bereich über­schrei­ten. KI-Hardware kom­bi­niert aus diesem Grund ver­schie­de­ne Gleit­kom­ma­for­ma­te, um Ge­schwin­dig­keit und Sta­bi­li­tät gleich­zei­tig zu erreichen. Dieses Verfahren nennt man Mixed Precision. Es ist heute in vielen Trai­nings­pipe­lines Standard, ins­be­son­de­re beim Training großer Modelle wie bei­spiels­wei­se LLMs.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Vergleich der Formate

Die Wahl des Gleit­kom­ma­for­mats be­ein­flusst maß­geb­lich Per­for­mance, Spei­cher­be­darf und Mo­dell­sta­bi­li­tät. Während FP32 lange als Standard galt, setzen aktuelle Systeme zunehmend auf re­du­zier­te Präzision. Besonders im Deep Learning haben sich FP16, BF16 und zunehmend FP8 etabliert.

FP32 (Single Precision)

FP32 ist das klas­si­sche Format für wis­sen­schaft­li­ches Rechnen und war lange Zeit der Standard im Deep Learning. Es bietet eine hohe Ge­nau­ig­keit und einen großen Dy­na­mik­be­reich.

Wie der Name schon andeutet, nutzt FP32 32 Bit insgesamt: 1 Bit für das Vor­zei­chen, 8 Bits für den Ex­po­nen­ten und 23 Bits für die Mantisse. Dadurch lassen sich sowohl sehr große als auch sehr kleine Zahlen stabil dar­stel­len. Diese Ge­nau­ig­keit ist besonders wichtig bei komplexen Si­mu­la­tio­nen oder sensiblen Trai­nings­pro­zes­sen. Al­ler­dings ist FP32 re­chen­in­ten­siv und benötigt viel Speicher.

In der Praxis wird FP32 heute daher meist nur noch in kri­ti­schen Teilen eines Modells verwendet, wie bei der Ver­lust­be­rech­nung oder Gra­di­en­ten­ak­ku­mu­la­ti­on. Für große Modelle wie Trans­for­mer kann FP32 allein zu langsam sein. Dennoch bleibt es der Re­fe­renz­stan­dard für nu­me­ri­sche Sta­bi­li­tät.

Vorteile Nachteile
Sehr hohe Präzision Hoher Spei­cher­ver­brauch
Großer Dy­na­mik­be­reich Geringere Re­chen­ge­schwin­dig­keit auf GPUs
Stabil für Training und wis­sen­schaft­li­che An­wen­dun­gen Weniger effizient für große KI-Modelle

FP16 (Half Precision)

FP16 wurde ein­ge­führt, um Re­chen­leis­tung zu steigern und Spei­cher­be­darf zu re­du­zie­ren. Es ist ein zentraler Be­stand­teil des Mixed-Precision-Trainings.

FP16 verwendet nur 16 Bit: 1 Bit Vor­zei­chen, 5 Bits Exponent und 10 Bits Mantisse. Dadurch halbiert sich der Spei­cher­be­darf im Vergleich zu FP32. GPUs können FP16-Ope­ra­tio­nen aus diesem Grund deutlich schneller ausführen, ins­be­son­de­re über Tensor Cores. Al­ler­dings ist der Dy­na­mik­be­reich ein­ge­schränkt.

Ein Problem von FP16 ist Underflow bei sehr kleinen Werten, was ins­be­son­de­re bei Gra­di­en­ten pro­ble­ma­tisch sein kann. Deshalb wird häufig so­ge­nann­tes Loss Scaling ein­ge­setzt. Hierbei handelt es sich um eine Technik, die verwendet wird, um nu­me­ri­sche Fehler zu vermeiden. Sie soll ver­hin­dern, dass sehr kleine Werte während des Trainings zu null werden. FP16 eignet sich gut für neuronale Netze, erfordert jedoch sorg­fäl­ti­ge Im­ple­men­tie­rung.

Vorteile Nachteile
Hohe Ge­schwin­dig­keit Anfällig für Underflow
Deutlich ge­rin­ge­rer Spei­cher­be­darf Geringere nu­me­ri­sche Sta­bi­li­tät
Gute Un­ter­stüt­zung durch moderne GPUs Zu­sätz­li­che Techniken wie Loss Scaling notwendig

BF16 (Brain Floating Point)

Das Gleit­kom­ma­for­mat BF16 wurde speziell für Deep Learning ent­wi­ckelt und kom­bi­niert Vorteile von FP32 und FP16. Es ist daher vor allem relevant für große Modelle wie Trans­for­mer.

BF16 nutzt ebenfalls 16 Bit, verteilt diese aber anders: 1 Bit Vor­zei­chen, 8 Bits Exponent und nur 7 Bits Mantisse. Dadurch ent­spricht der Dy­na­mik­be­reich dem von FP32. Gleich­zei­tig wird al­ler­dings Speicher gespart.

Der ent­schei­den­de Vorteil: BF16 reduziert Underflow-Probleme deutlich im Vergleich zu FP16. Gerade bei großen Sprach­mo­del­len ist dies ent­schei­dend. Deshalb setzen viele Frame­works und Hardware-Platt­for­men bevorzugt auf BF16. Die geringere Mantisse bedeutet jedoch weniger Präzision.

Vorteile Nachteile
Großer Dy­na­mik­be­reich (ähnlich FP32) Geringere Präzision als FP32
Weniger Underflow-Probleme als FP16 Leichte Run­dungs­feh­ler möglich
Ideal für Trans­for­mer-Modelle Nicht auf älterer Hardware verfügbar

FP8 (Ultra Low Precision)

FP8 ist ein ver­gleichs­wei­se junges Format und wird vor allem für Inferenz und op­ti­mier­te Trai­nings­pipe­lines ein­ge­setzt. Der Fokus liegt auf maximaler Effizienz.

FP8 verwendet nur 8 Bit und existiert in ver­schie­de­nen Varianten wie E4M3 oder E5M2, die un­ter­schied­li­che Auf­tei­lun­gen von Exponent und Mantisse nutzen. Dadurch wird der Spei­cher­be­darf drastisch reduziert. Moderne GPUs wie die NVIDIA H100 un­ter­stüt­zen FP8 nativ in Tensor Cores.

FP8 er­mög­licht enorme Ge­schwin­dig­keits­ge­win­ne, die sich ins­be­son­de­re bei großen Modellen nie­der­schla­gen. Al­ler­dings ist die Präzision stark ein­ge­schränkt. Deshalb wird FP8 meist in Kom­bi­na­ti­on mit hö­her­prä­zi­sen Formaten verwendet. Typisch ist der Einsatz von FP8 für Inferenz oder quan­ti­sier­tes Training.

Vorteile Nachteile
Extrem hoher Durchsatz Sehr geringe Präzision
Minimaler Spei­cher­be­darf Nur mit spe­zi­el­ler Hardware sinnvoll
Ideal für Inferenz großer Modelle Komplexe Ka­li­brie­rung er­for­der­lich

Die Gleit­kom­ma­for­ma­te im direkten Vergleich

FP32 und FP16 sind IEEE-754-Formate. BF16 und FP8 folgen ebenfalls dem Gleit­kom­ma-Prinzip, sind aber separat definiert: BF16 als FP32-ab­ge­lei­te­tes In­dus­trie­for­mat, FP8 in Varianten wie E4M3 und E5M2 über die OCP-OFP8-Spe­zi­fi­ka­ti­on.

Format Bits gesamt Exponent Mantisse (ge­spei­chert) Dy­na­mik­be­reich (ca.)
FP32 32 8 23 ca. 10⁻³⁸ bis 10³⁸
FP16 16 5 10 ca. 10⁻⁵ bis 65.504
BF16 16 8 7 ca. 10⁻³⁸ bis 10³⁸
FP8 8 4 bis 5 2 bis 3 stark ein­ge­schränkt

Hardware-Un­ter­stüt­zung

Moderne GPUs sind speziell dafür ausgelegt, mit re­du­zier­ter nu­me­ri­scher Präzision besonders effizient zu arbeiten. Die NVIDIA-Ampere-Ar­chi­tek­tur er­wei­ter­te Tensor Cores unter anderem um BF16 und TF32; FP16 wurde bereits früher un­ter­stützt. Dadurch wurde Mixed Precision breiter nutzbar und häufiger im prak­ti­schen KI-Training ein­ge­setzt.

Die neuere NVIDIA Hopper-Ge­ne­ra­ti­on erweitert dieses Konzept um FP8. GPUs wie die NVIDIA H100 besitzen spezielle Hard­ware­ein­hei­ten, die FP8-Be­rech­nun­gen besonders schnell ausführen können. Auch die NVIDIA-Ada-Lovelace-Ar­chi­tek­tur ist stark auf FP16- und BF16-Workloads optimiert, un­ter­stützt je nach Modell und Ein­satz­kon­text ebenfalls FP8.

Tensor Cores spielen dabei eine zentrale Rolle. Sie be­schleu­ni­gen Ma­trix­ope­ra­tio­nen, die in neu­ro­na­len Netzen ständig benötigt werden. Je geringer die ver­wen­de­te Präzision ist, desto mehr Be­rech­nun­gen kann die GPU parallel ausführen. Dadurch steigen Ge­schwin­dig­keit und Effizienz deutlich.

Wie stark dieser Vorteil in der Praxis ausfällt, hängt jedoch nicht nur von der Hardware ab, sondern auch von der Software. Frame­works wie PyTorch und Ten­sor­Flow un­ter­stüt­zen Mixed Precision heute au­to­ma­tisch und wählen passende Formate in vielen Fällen selbst­stän­dig aus.

Nicht jede GPU un­ter­stützt jedoch alle Formate glei­cher­ma­ßen. Ältere Modelle arbeiten häufig haupt­säch­lich mit FP32, während moderne KI-Be­schleu­ni­ger speziell für FP16, BF16 oder FP8 ent­wi­ckelt wurden. Für große Sprach­mo­del­le gelten BF16 und FP16 mitt­ler­wei­le als Standard. FP8 etabliert sich zunehmend auch im Training (z. B. DeepSeek-V3), erfordert dort aber fein­gra­nu­la­re Ska­lie­rung und FP32-Ak­ku­mu­la­ti­on.

Praxis-Impact: Quan­ti­sie­rung und Down­cas­ting

Im prak­ti­schen Einsatz haben re­du­zier­te Gleit­kom­ma­for­ma­te einen großen Einfluss auf Ge­schwin­dig­keit, Spei­cher­be­darf und Be­triebs­kos­ten von KI-An­wen­dun­gen. Werden Be­rech­nun­gen von FP32 auf FP16 oder BF16 um­ge­stellt, benötigen Modelle deutlich weniger Speicher. Dadurch passen größere Modelle oder höhere Batch­grö­ßen in den Gra­fik­spei­cher der GPU.

Zu­sätz­lich können GPUs mit kleineren Da­ten­for­ma­ten mehr Be­rech­nun­gen parallel ausführen. Das erhöht den Durchsatz und verkürzt Trainings- sowie In­fe­renz­zei­ten. Vor allem bei großen neu­ro­na­len Netzen mit Mil­li­ar­den Pa­ra­me­tern ist dieser Un­ter­schied erheblich. Ein wichtiger Op­ti­mie­rungs­schritt ist dabei das so­ge­nann­te Down­cas­ting. Dabei werden Daten oder Mo­dell­pa­ra­me­ter von einem größeren Format wie FP32 in kleinere Formate wie FP16 oder BF16 überführt. Dadurch sinken Spei­cher­ver­brauch und Band­brei­ten­an­for­de­run­gen deutlich, während die Ge­schwin­dig­keit erhöht wird.

Noch einen Schritt weiter geht die so­ge­nann­te Quan­ti­sie­rung. Dabei werden Modelle auf noch kleinere Formate wie FP8 oder Integer-Da­ten­ty­pen reduziert. Das senkt die Spei­cher­an­for­de­run­gen weiter und ver­bes­sert die Latenz, also die Re­ak­ti­ons­ge­schwin­dig­keit eines KI-Systems. Deshalb spielt Quan­ti­sie­rung vor allem bei pro­duk­ti­ven KI-An­wen­dun­gen und Echtzeit-Inferenz eine wichtige Rolle.

Al­ler­dings gibt es immer einen Kom­pro­miss zwischen Effizienz und Ge­nau­ig­keit. Wird die Präzision zu stark reduziert, können Run­dungs­feh­ler zunehmen und die Mo­dell­qua­li­tät ver­schlech­tern. Deshalb kom­bi­nie­ren KI-Frame­works oft mehrere Formate gleich­zei­tig. Kritische Be­rech­nun­gen laufen bei­spiels­wei­se weiterhin in höherer Präzision, während weniger emp­find­li­che Teile in FP16, BF16 oder FP8 ver­ar­bei­tet werden.

Compute Engine
Die ideale IaaS für Ihre Workloads
  • Kos­ten­güns­ti­ge vCPUs und leis­tungs­star­ke de­di­zier­te Cores
  • Höchste Fle­xi­bi­li­tät ohne Min­dest­ver­trags­lauf­zeit
  • Inklusive 24/7 Experten-Support
Zum Hauptmenü