Rein­force­ment Learning (übersetzt etwa ver­stär­ken­des Lernen) ist ein Teil­ge­biet des ma­schi­nel­len Lernens, bei dem ein Agent durch Belohnung und Be­stra­fung lernt, optimale Ent­schei­dun­gen in einer Umgebung zu treffen. Dabei probiert er ver­schie­de­ne Aktionen aus und ver­bes­sert sein Verhalten schritt­wei­se, um lang­fris­tig den größt­mög­li­chen Nutzen zu erzielen.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Was ist Rein­force­ment Learning?

Wörtlich übersetzt bedeutet Rein­force­ment Learning „be­stär­ken­des“ bzw. „ver­stär­ken­des“ Lernen. Dieser Begriff be­schreibt eine Methode im Bereich Machine Learning. Neben Su­per­vi­sed Learning und Un­su­per­vi­sed Learning stellt Rein­force­ment Learning die dritte Mög­lich­keit dar, Al­go­rith­men und Agenten so an­zu­ler­nen, dass sie selbst­stän­dig Ent­schei­dun­gen treffen können. Der Fokus liegt dabei auf der Ent­wick­lung von in­tel­li­gen­ten Lösungen für komplexe Steue­rungs­pro­ble­me.

Bei dieser Mög­lich­keit des Machine Learnings werden im Gegensatz zum Su­per­vi­sed und Un­su­per­vi­sed Learning keine Daten zur Kon­di­tio­nie­rung benötigt. Statt­des­sen werden die Daten in einem Trial-and-Error-Verfahren während des Trainings generiert und gleich­zei­tig mit einem Label versehen. Dabei durch­läuft das Programm etliche Trai­nings­durch­läu­fe innerhalb einer Si­mu­la­ti­ons­um­ge­bung, um ein exaktes Ergebnis ab­zu­lie­fern. Es werden also nur Impulse gesetzt, die das System un­ter­stüt­zen.

Das ge­wünsch­te Ergebnis dieses Trainings ist es, dass die künst­li­che In­tel­li­genz ohne mensch­li­ches Vorwissen in der Lage ist, sehr komplexe Steue­rungs­pro­ble­me autonom zu lösen. Im Vergleich zum kon­ven­tio­nel­len En­gi­nee­ring ist dies schneller, ef­fi­zi­en­ter und liefert im idealen Fall auch das optimale Ergebnis.

Wie funk­tio­niert Rein­force­ment Learning?

Rein­force­ment Learning be­schreibt zahl­rei­che Ein­zel­me­tho­den, bei denen ein Al­go­rith­mus bzw. Software-Agent selbst­stän­dig Stra­te­gien erlernt. Das Ziel ist es, Be­loh­nun­gen innerhalb einer Si­mu­la­ti­ons­um­ge­bung zu ma­xi­mie­ren. Der Computer führt eine Aktion aus und erhält an­schlie­ßend ein Feedback. Der Software-Agent erhält dabei vorab keinerlei In­for­ma­tio­nen, welche Aktionen die viel­ver­spre­chends­ten sind, und muss seine Vor­ge­hens­wei­se im Trial-and-Error-Verfahren selbst bestimmen.

Um den Erfolg des Prozesses zu op­ti­mie­ren, erhält der Computer zu un­ter­schied­li­chen Zeit­punk­ten Be­loh­nun­gen, die einen Einfluss auf seine Stra­te­gien haben. Mit diesen Er­eig­nis­sen lernt der Software-Agent, die Folge von be­stimm­ten Aktionen innerhalb der Si­mu­la­ti­ons­um­ge­bung ein­zu­schät­zen.

Bild: Schaubild zur Funktionsweise von Reinforcement Learning
Die Be­loh­nun­gen werden durch den Rein­force­ment-Learning-Al­go­rith­mus ver­ar­bei­tet und be­ein­flus­sen die Policy des Agenten.

Um ein Rein­force­ment-Learning-System effektiv zu trai­nie­ren, kommt häufig Q-Learning zum Einsatz. Dabei be­schreibt die Q-Funktion den er­war­te­ten zu­künf­ti­gen Nutzen einer be­stimm­ten Aktion in einem gegebenen Zustand. Ziel des be­stär­ken­den Lernens ist es, auf Basis dieser Schät­zun­gen eine optimale Ver­hal­tens­stra­te­gie zu ent­wi­ckeln.

Hinweis

Tra­di­tio­nell wird im Q-Learning die Policy in einer Q-Tabelle ab­ge­bil­det, in der Zustände und Aktionen explizit auf­ge­führt sind und jede Kom­bi­na­ti­on einen Wert für die erwartete Belohnung enthält. Dieses Verfahren ist jedoch nur in stark ver­ein­fach­ten Um­ge­bun­gen prak­ti­ka­bel. In modernen Szenarien mit großen oder kon­ti­nu­ier­li­chen Zustands- und Ak­ti­ons­räu­men wird die Q-Tabelle durch Funk­ti­ons­ap­pro­xi­ma­tio­nen ersetzt. Hierbei kommen meist neuronale Netze zum Einsatz.

Wo und wann wird Rein­force­ment Learning ein­ge­setzt?

Rein­force­ment Learning wird in vielen ver­schie­de­nen Bereichen ein­ge­setzt, in denen Maschinen oder Systeme ei­gen­stän­dig Ent­schei­dun­gen treffen und aus ihren Er­fah­run­gen lernen sollen. Ziel ist es dabei immer, durch kon­ti­nu­ier­li­ches Lernen bessere Stra­te­gien zu ent­wi­ckeln und Prozesse zu op­ti­mie­ren. Zentrale Ein­satz­ge­bie­te sind bei­spiels­wei­se:

  • Robotik: Im Bereich der Robotik hilft Rein­force­ment Learning zum Beispiel Robotern dabei, komplexe Be­we­gungs­ab­läu­fe wie Greifen, Gehen oder Na­vi­gie­ren zu erlernen. Statt jede Bewegung manuell zu pro­gram­mie­ren, lernen Roboter durch Versuch und Irrtum, wie sie Aufgaben effizient ausführen können. So können sie sich auch an neue Um­ge­bun­gen oder Si­tua­tio­nen anpassen.
  • Spiel­ent­wick­lung und KI-Training: Berühmt wurde das ver­stär­ken­de Lernen durch seine Erfolge in Spielen wie Schach, Go oder Vi­deo­spie­len. Künst­li­che In­tel­li­gen­zen lernen dabei durch Millionen von Si­mu­la­tio­nen, optimale Stra­te­gien zu ent­wi­ckeln und selbst mensch­li­che Spie­le­rin­nen und Spieler zu über­tref­fen.
  • Fi­nanz­we­sen: In der Fi­nanz­welt wird die Lern­me­tho­de ein­ge­setzt, um Han­dels­stra­te­gien zu op­ti­mie­ren oder Port­fo­li­os au­to­ma­tisch zu verwalten. Der Al­go­rith­mus lernt, auf Markt­ver­än­de­run­gen zu reagieren und Risiken sowie Erträge abzuwägen. Dadurch kann er lang­fris­tig bessere In­ves­ti­ti­ons­ent­schei­dun­gen treffen.
  • Steuerung komplexer Systeme: Ein weiteres Rein­force­ment-Learning-Beispiel ist die Steuerung an­spruchs­vol­ler Systeme wie in­tel­li­gen­ter Ver­kehrs­sys­te­me. So liefert es in­tel­li­gen­te Lösungen bei der Qua­li­täts­über­wa­chung. Darüber hinaus wird das be­stär­ken­de Lernen bei in­tel­li­gen­ten Strom­net­zen, der Op­ti­mie­rung von Lie­fer­ket­ten in diversen Lo­gis­tik­un­ter­neh­men oder der Fa­brik­au­to­ma­ti­sie­rung genutzt.
  • Medizin und En­er­gie­op­ti­mie­rung: In der Medizin un­ter­stützt Rein­force­ment Learning per­so­na­li­sier­te Be­hand­lun­gen, indem es optimale The­ra­pie­plä­ne vor­schlägt. In der En­er­gie­ver­sor­gung hilft es, den Verbrauch und die Ver­tei­lung von Energie dynamisch zu steuern, um Res­sour­cen zu schonen und Kosten zu senken.
Tipp

Um das Schreiben neuer Rein­force­ment-Learning-Al­go­rith­men zu ver­ein­fa­chen, gibt es ver­schie­de­ne Bi­blio­the­ken. So hat das auf künst­li­che In­tel­li­genz spe­zia­li­sier­te Un­ter­neh­men DeepMind mit Acme eine spezielle Bi­blio­thek für die Pro­gram­mier­spra­che Python ver­öf­fent­licht. Auch die Stable-Baselines3-Bi­blio­thek enthält bereits viele fertige Im­ple­men­tie­run­gen beliebter Al­go­rith­men.

Zum Hauptmenü