Active Learning

Active Learning

Active Learning ist eine Methode des Maschinellen Lernens, bei der das Modell gezielt auswählt, welche Daten es lernen möchte. Statt passiv auf zufällig ausgewählte Trainingsdaten zuzugreifen, identifiziert das Modell besonders informative oder unsichere Beispiele und fordert für diese gezielt Labels von einem Menschen (z. B. Experten) an. Ziel ist es, mit möglichst wenigen gelabelten Daten eine hohe Modellqualität zu erreichen.

Active Learning ist besonders dann hilfreich, wenn das Labeln von Daten teuer oder zeitaufwendig ist, etwa in der Medizin, im Rechtswesen oder bei komplexen technischen Dokumenten. Durch die Reduktion unnötiger Labeling-Arbeit lässt sich der Aufwand in vielen Projekten erheblich senken.

Wie funktioniert Active Learning?

Das Modell wird zunächst mit einem kleinen Datensatz trainiert. Anschließend bewertet es unlabelte Daten und identifiziert jene, bei denen es sich besonders unsicher ist oder die den größten Informationsgewinn versprechen. Diese Daten werden dann einem menschlichen Annotator vorgelegt, der sie beschriftet. Die neuen Labels fließen ins Training zurück, wodurch das Modell iterativ verbessert wird.

Typische Strategien:

  • Uncertainty Sampling: Auswahl der Datenpunkte, bei denen das Modell am unsichersten ist.
  • Query-by-Committee: Mehrere Modelle bewerten dieselben Daten; bei Uneinigkeit werden diese bevorzugt gelabelt.
  • Diversität-basierte Auswahl: Fokussiert auf Daten, die eine hohe Varianz oder neue Strukturen repräsentieren.
  • Hybrid-Ansätze: Kombination aus Unsicherheit und Diversität.

Praxisbeispiele:

  • Medizinische Diagnostik: Ärzte labeln gezielt schwierige Fälle, während einfache automatisch verarbeitet werden.
  • Cybersecurity: Sicherheitsexperten prüfen gezielt verdächtige Netzwerk-Logs oder Anomalien.
  • Spracherkennung: Annotatoren korrigieren gezielt schwer verständliche Sprachproben.
  • Industrie: Ingenieure beschriften nur komplexe Fehlerbilder von Maschinen, nicht alle Standarddaten.

Vorteile von Active Learning:

  • Kosteneffizienz: Weniger manuelles Labeling notwendig.
  • Schnellere Ergebnisse: Modelle erreichen mit weniger Daten schneller eine hohe Genauigkeit.
  • Flexibilität: Besonders geeignet für hochspezialisierte Domänen mit teuren Expertenlabels.

Herausforderungen:

  • Abhängigkeit von Experten: Labels müssen zuverlässig und konsistent bereitgestellt werden.
  • Komplexität: Erfordert zusätzliches Management der Daten- und Abfrageprozesse.
  • Bias-Risiko: Wenn nur bestimmte Daten aktiv ausgewählt werden, können Verzerrungen entstehen.

Verwandte Begriffe:

Semi-Supervised Learning, Supervised Learning, Uncertainty Sampling, Query-by-Committee, Human-in-the-Loop, Annotation, Data Labeling, Few-Shot Learning, Transfer Learning, Machine Teaching

Autor: IKTconcept Redaktion • Letzte Aktualisierung: 15. September 2025
Quelle: IKTconcept IT-Glossar, IKTconcept Startseite