Self-Attention

Self-Attention

Self-Attention ist ein spezieller Attention Mechanism, bei dem jedes Element einer Sequenz auf alle anderen Elemente derselben Sequenz „achtet“. Das bedeutet: Jedes Wort, Bildpixel oder Datenelement kann seine Repräsentation in Abhängigkeit vom gesamten Kontext anpassen. Dieses Verfahren bildet die Grundlage moderner Transformer-Modelle und hat die Verarbeitung von Sprache, Text, Bildern und multimodalen Daten revolutioniert.

Wie funktioniert Self-Attention?

Self-Attention berechnet für jedes Element sogenannte Queries, Keys und Values. Anschließend werden für alle Elemente Relevanzwerte bestimmt:

  • Query: Das aktuelle Element, das auf andere „achtet“.
  • Key: Eigenschaften der übrigen Elemente in der Sequenz.
  • Value: Die tatsächlichen Informationen, die abhängig von den Relevanzwerten gewichtet werden.

Das Ergebnis ist eine gewichtete Kombination aller Eingabeelemente. Dadurch wird der Kontext eines Elements nicht nur lokal, sondern global innerhalb der gesamten Sequenz berücksichtigt.

Praxisbeispiele:

  • Maschinelle Übersetzung: Jedes Wort wird in Bezug auf alle anderen Wörter eines Satzes übersetzt.
  • Sprachmodelle: In LLMs wie GPT oder BERT wird jedes Token durch Self-Attention kontextabhängig repräsentiert.
  • Bildverarbeitung: Vision Transformer (ViT) nutzen Self-Attention, um Abhängigkeiten zwischen Bildbereichen zu erfassen.
  • Multimodale KI: Verknüpfung von Text, Audio und Bild durch gemeinsame Attention-Schichten.

Vorteile:

  • Globaler Kontext: Berücksichtigt alle Beziehungen innerhalb einer Sequenz gleichzeitig.
  • Parallele Verarbeitung: Im Gegensatz zu RNNs oder LSTMs keine sequentielle Berechnung erforderlich.
  • Universelle Anwendbarkeit: Funktioniert für Text, Sprache, Bilder und multimodale Daten.

Herausforderungen:

  • Rechenintensität: Besonders bei sehr langen Sequenzen steigt der Speicher- und Rechenaufwand quadratisch an.
  • Interpretierbarkeit: Attention Scores liefern nur begrenzte Transparenz.
  • Skalierungsprobleme: Effiziente Varianten wie Sparse Attention oder Linear Attention sind in Entwicklung.

Verwandte Begriffe:

Attention Mechanism, Multi-Head Attention, Transformer, Encoder-Decoder-Architektur, Large Language Models (LLM), Vision Transformer (ViT), Natural Language Processing (NLP), Deep Learning, Sequence-to-Sequence Modelle, Künstliche Intelligenz

Autor: IKTconcept Redaktion • Letzte Aktualisierung: 15. September 2025
Quelle: IKTconcept IT-Glossar, IKTconcept Startseite