Q-Learning

Q-Learning

Q-Learning ist ein Algorithmus des Reinforcement Learning, der es einem Agenten ermöglicht, durch Interaktion mit einer Umgebung eine optimale Strategie zu erlernen. Dabei werden sogenannte Q-Werte genutzt, die eine Bewertung für die Ausführung einer bestimmten Aktion in einem bestimmten Zustand darstellen. Ziel ist es, durch wiederholte Versuche eine Policy zu entwickeln, die den langfristigen Gesamtnutzen maximiert.

Wie funktioniert Q-Learning?

Q-Learning basiert auf einer Q-Tabelle, in der für jeden Zustand und jede mögliche Aktion ein Wert gespeichert wird. Dieser Wert wird bei jedem Durchlauf angepasst, bis sich eine optimale Strategie ergibt:

  • Zustand: Beschreibt die aktuelle Situation der Umgebung.
  • Aktion: Entscheidung, die der Agent in einem bestimmten Zustand trifft.
  • Belohnung: Rückmeldung, ob eine Aktion positiv oder negativ war.
  • Q-Wert: Schätzwert für den langfristigen Nutzen einer Aktion in einem Zustand.
  • Exploration vs. Exploitation: Abwägung zwischen dem Ausprobieren neuer Aktionen und der Nutzung bereits bekannter, erfolgreicher Aktionen.

Eine Besonderheit von Q-Learning ist, dass es modellfrei arbeitet, also kein vollständiges Modell der Umgebung benötigt. Der Lernprozess erfolgt nach der sogenannten Bellman-Gleichung, welche die Aktualisierung der Q-Werte beschreibt.

Praxisbeispiele:

  • Robotik: Optimierung von Bewegungsabläufen durch Versuch und Irrtum.
  • Netzwerkmanagement: Effiziente Ressourcenzuteilung in Kommunikationssystemen.
  • Finanzwesen: Entscheidungsfindung in dynamischen Märkten für automatisierte Handelssysteme.
  • Spiele: Einsatz in Brett- und Computerspielen, um Strategien automatisch zu erlernen.

Vorteile:

  • Einfachheit: Gut verständlicher Algorithmus mit klarer Struktur.
  • Modellfreiheit: Keine Kenntnis über die Dynamik der Umgebung erforderlich.
  • Breite Anwendbarkeit: Funktioniert in vielen praxisnahen Szenarien.

Herausforderungen:

  • Skalierungsproblem: In großen Zustandsräumen wird die Q-Tabelle sehr groß und schwer handhabbar.
  • Lange Trainingszeit: Benötigt viele Iterationen, um stabile Ergebnisse zu erreichen.
  • Begrenzte Generalisierung: Klassisches Q-Learning kann schwer auf unbekannte Situationen übertragen werden.

Verwandte Begriffe:

Reinforcement Learning, Deep Q-Learning, Policy Gradients, Actor-Critic, Markov Decision Process, Neuronale Netze, Deep Learning, Exploration vs. Exploitation

Autor: IKTconcept Redaktion • Letzte Aktualisierung: 15. September 2025
Quelle: IKTconcept IT-Glossar, IKTconcept Startseite