Policy Gradients

Policy Gradients

Policy Gradients sind eine Klasse von Algorithmen im Reinforcement Learning, die direkt eine Policy, also eine Handlungsstrategie, optimieren. Im Gegensatz zu Q-Learning oder Deep Q-Learning, die versuchen, eine Wertfunktion zu approximieren, lernen Policy-Gradient-Methoden unmittelbar die Wahrscheinlichkeitsverteilung von Aktionen in bestimmten Zuständen. Dadurch eignen sie sich besonders für kontinuierliche oder komplexe Aktionsräume.

Wie funktionieren Policy Gradients?

Das Grundprinzip von Policy Gradients basiert auf der Anpassung der Policy mithilfe von Gradientenverfahren:

  • Policy: Eine Funktion, die angibt, mit welcher Wahrscheinlichkeit eine Aktion in einem Zustand ausgeführt wird.
  • Gradientenverfahren: Die Parameter der Policy werden durch Berechnung des Gradienten der erwarteten Belohnung angepasst.
  • Stochastische Policies: Anstelle fester Regeln werden Wahrscheinlichkeitsverteilungen genutzt, wodurch Exploration erleichtert wird.
  • Monte-Carlo-Sampling: Episoden werden durchgespielt, und die Ergebnisse dienen zur Berechnung der Gradienten.

Bekannte Varianten sind REINFORCE, Actor-Critic-Methoden sowie erweiterte Verfahren wie Proximal Policy Optimization (PPO) und Trust Region Policy Optimization (TRPO).

Praxisbeispiele:

  • Robotik: Steuerung komplexer Bewegungen, z. B. für humanoide Roboter.
  • Autonomes Fahren: Entscheidungsstrategien in dynamischen Verkehrssituationen.
  • Industrie 4.0: Optimierung von Produktions- und Logistikprozessen mit kontinuierlichen Aktionsräumen.
  • Computerspiele: Entwicklung adaptiver Strategien für komplexe Spielumgebungen.

Vorteile:

  • Direkte Strategieoptimierung: Kein Umweg über Wertfunktionen notwendig.
  • Geeignet für kontinuierliche Räume: Besonders effektiv bei Aufgaben mit unendlich vielen möglichen Aktionen.
  • Flexibilität: Lässt sich leicht mit anderen Methoden wie Actor-Critic kombinieren.

Herausforderungen:

  • Hohe Varianz: Schätzungen der Gradienten können stark schwanken.
  • Effizienz: Benötigt oft viele Trainingsdurchläufe, um zu stabilen Ergebnissen zu gelangen.
  • Hyperparameter-Sensitivität: Ergebnisse hängen stark von Lernrate und weiteren Parametern ab.

Verwandte Begriffe:

Reinforcement Learning, Q-Learning, Deep Q-Learning, Actor-Critic, Proximal Policy Optimization, Trust Region Policy Optimization, Monte-Carlo-Sampling, Neuronale Netze, Deep Learning

Autor: IKTconcept Redaktion • Letzte Aktualisierung: 15. September 2025
Quelle: IKTconcept IT-Glossar, IKTconcept Startseite