Self-Attention
Self-Attention ist ein spezieller Attention MechanismAttention Mechanism Der Attention Mechanism ist ein zentrales Konzept im modernen Deep Learning, das es neuronalen Netzen ermöglicht, gezielt die wic... Mehr, bei dem jedes Element einer Sequenz auf alle anderen Elemente derselben Sequenz „achtet“. Das bedeutet: Jedes Wort, Bildpixel oder Datenelement kann seine Repräsentation in Abhängigkeit vom gesamten Kontext anpassen. Dieses Verfahren bildet die Grundlage moderner Transformer-Modelle und hat die Verarbeitung von Sprache, Text, Bildern und multimodalen Daten revolutioniert.
Wie funktioniert Self-Attention?
Self-Attention berechnet für jedes Element sogenannte Queries, Keys und Values. Anschließend werden für alle Elemente Relevanzwerte bestimmt:
- Query: Das aktuelle Element, das auf andere „achtet“.
- Key: Eigenschaften der übrigen Elemente in der Sequenz.
- Value: Die tatsächlichen Informationen, die abhängig von den Relevanzwerten gewichtet werden.
Das Ergebnis ist eine gewichtete Kombination aller Eingabeelemente. Dadurch wird der Kontext eines Elements nicht nur lokal, sondern global innerhalb der gesamten Sequenz berücksichtigt.
Praxisbeispiele:
- Maschinelle Übersetzung: Jedes Wort wird in Bezug auf alle anderen Wörter eines Satzes übersetzt.
- Sprachmodelle: In LLMs wie GPT oder BERT wird jedes Token durch Self-Attention kontextabhängig repräsentiert.
- Bildverarbeitung: Vision Transformer (ViT) nutzen Self-Attention, um Abhängigkeiten zwischen Bildbereichen zu erfassen.
- Multimodale KI: Verknüpfung von Text, Audio und Bild durch gemeinsame Attention-Schichten.
Vorteile:
- Globaler Kontext: Berücksichtigt alle Beziehungen innerhalb einer Sequenz gleichzeitig.
- Parallele Verarbeitung: Im Gegensatz zu RNNs oder LSTMs keine sequentielle Berechnung erforderlich.
- Universelle Anwendbarkeit: Funktioniert für Text, Sprache, Bilder und multimodale Daten.
Herausforderungen:
- Rechenintensität: Besonders bei sehr langen Sequenzen steigt der Speicher- und Rechenaufwand quadratisch an.
- Interpretierbarkeit: Attention Scores liefern nur begrenzte Transparenz.
- Skalierungsprobleme: Effiziente Varianten wie Sparse Attention oder Linear Attention sind in Entwicklung.
Verwandte Begriffe:
Attention Mechanism, Multi-Head AttentionMulti-Head Attention Multi-Head Attention ist eine Erweiterung des Attention Mechanism und bildet das Kernstück moderner Transformer-Modelle. Anstatt... Mehr, Transformer, Encoder-Decoder-ArchitekturEncoder-Decoder-Architektur Die Encoder-Decoder-Architektur ist ein grundlegendes Designprinzip in der Künstlichen Intelligenz, insbesondere im Berei... Mehr, Large Language Models (LLM)Large Language Models (LLM) Large Language Models (LLMs) sind großskalige KI-Modelle, die auf der Transformer-Architektur basieren und mit riesigen M... Mehr, Vision Transformer (ViT), Natural Language Processing (NLP)Natural Language Processing (NLP) Natural Language Processing (NLP) ist ein Teilbereich der Künstlichen Intelligenz, der sich mit der Interaktion zwi... Mehr, Deep LearningDeep Learning Deep Learning ist ein Teilbereich des Maschinellen Lernens, der auf künstlichen neuronalen Netzwerken basiert, die aus mehreren Schicht... Mehr, Sequence-to-Sequence Modelle, Künstliche Intelligenz