KI-Sichtbarkeit messen: Warum eine einzelne Prüfung nicht reicht

Large Language Models wie ChatGPT, Perplexity und Gemini werden zu einem neuen Ausgangspunkt dafür, wie Menschen Produkte, Unternehmen und Informationen online entdecken.

Für Marketer entsteht dadurch ein neues Problem: Wie lässt sich erkennen, ob eine Marke in KI-generierten Antworten sichtbar ist?

Der naheliegende erste Ansatz ist, KI-Suche wie SEO zu behandeln. Man gibt einen Prompt ein, prüft, ob die Marke erscheint, und notiert das Ergebnis. Doch so einfach funktioniert es nicht.

Klassisches Rank Tracking basiert auf relativ stabilen Suchergebnissen. KI-Suche verhält sich anders. Eine einzelne Prüfung zeigt nur eine mögliche Version der Antwort, aber nicht das vollständige Bild der tatsächlichen Sichtbarkeit einer Marke.

Laut einer Studie der Universität St. Gallen aus dem Jahr 2026 sollte KI-Sichtbarkeit probabilistisch gemessen werden, nicht deterministisch. Einfach gesagt: Man sollte nicht fragen: 'Ist meine Marke in dieser einen Antwort erschienen?' Die bessere Frage lautet: 'Wie oft erscheint meine Marke über wiederholte Prüfungen hinweg?'

Warum KI-Suche anders ist

In der klassischen Suche können Rankings schwanken, sind aber meist nicht völlig zufällig. Wenn eine Seite heute auf Position drei steht, ist die Chance hoch, dass sie morgen in einem ähnlichen Bereich liegt.

KI-Suche ist anders, weil LLMs Antworten probabilistisch generieren. Selbst mit exakt demselben Prompt kann sich die Antwort von einem Durchlauf zum nächsten ändern.

Das bedeutet: Eine Marke kann in einer Antwort erscheinen und in der nächsten verschwinden, obwohl sich im Web nichts Wesentliches verändert hat.

Die Studie beschreibt dies als Inclusion-Exclusion-Problem. Im klassischen SEO kann eine Marke von Position drei auf Position fünf fallen. In der KI-Suche ist die Veränderung oft binärer: Die Marke wird erwähnt oder gar nicht erwähnt.

Dadurch sind einmalige Prüfungen unzuverlässig. Wenn eine Marke einmal erscheint, kann das eine glückliche Aufnahme sein. Wenn sie nicht erscheint, kann es eine unglückliche Auslassung sein. Beides reicht nicht aus, um die echte KI-Sichtbarkeit zu verstehen.

Was passiert, wenn derselbe Prompt erneut ausgeführt wird

Um das zu testen, ließen die Forschenden dieselben Prompts mehrfach hintereinander laufen.

Die Ergebnisse zeigten, dass KI-Antworten deutlich variieren können, selbst wenn der Prompt identisch ist und die Prüfungen zeitlich nah beieinanderliegen.

Bei zitierten Quellen lag die Überschneidung zwischen wiederholten Läufen nur bei 32-43%. Markenerwähnungen waren etwas stabiler, aber ebenfalls weit von Konsistenz entfernt. In Tagesvergleichen lag die durchschnittliche Markenüberschneidung nur bei 45-59%.

Das ist wichtig, weil die Volatilität nicht nur durch externe Veränderungen entsteht, etwa neue indexierte Seiten oder aktualisierte Websites. Ein großer Teil der Variation kommt aus den KI-Systemen selbst.

Wenn eine Marke bei einer einzelnen Prüfung nicht erscheint, bedeutet das also nicht automatisch, dass sie keine Sichtbarkeit hat. Sie wurde in genau dieser Antwort vielleicht nur nicht ausgewählt. Umgekehrt beweist eine einzelne Erwähnung noch keine starke KI-Sichtbarkeit.

KI-Zitate sind stark konzentriert

Die Studie fand außerdem ein deutliches Winner-takes-most-Muster in der KI-Suche.

Eine relativ kleine Zahl autoritativer Domains erhält den größten Teil der Zitate in KI-generierten Antworten. Die Forschenden maßen diese Konzentration mit dem Gini-Koeffizienten und fanden über die Plattformen hinweg einen Durchschnittswert von 0,715.

Google AI Mode hatte mit 0,782 die höchste Konzentration. Perplexity war mit 0,671 stärker verteilt.

Für Marken und Publisher ist das relevant, weil KI-Sichtbarkeit nicht gleichmäßig verteilt ist. Einige wenige Quellen dominieren häufig den Antwortraum, während viele andere nur selten oder gar nicht erwähnt werden.

Was sauberes KI-Sichtbarkeitsmonitoring braucht

Weil KI-Antworten instabil sind, braucht eine saubere Sichtbarkeitsmessung wiederholte Prüfungen über Zeit.

Ein einzelner Prompt-Lauf ist für professionelle Analysen zu verrauscht. Die Forschenden schätzen, dass jeder Prompt etwa 7 bis 8 Mal pro Tag laufen müsste, um Messfehler auf ein komfortables Niveau zu senken. In der Praxis starten viele Teams eher mit täglichen Checks und erhöhen die Frequenz, wenn Budget und Monitoring-Bedarf wachsen.

Auch kurzfristige Daten können täuschen. KI-Antworten schwanken von Tag zu Tag, und Modellupdates können die Sichtbarkeit verändern. Die Studie legt nahe, dass stabile Sichtbarkeitsschätzungen pro Marke ein rollierendes Beobachtungsfenster von etwa 21 bis 24 Tagen benötigen.

Sichtbarkeit hängt außerdem stark davon ab, wie eine Frage gestellt wird. Eine Marke kann bei einem Prompt erscheinen und bei einem sehr ähnlichen Prompt fehlen. Verlässliches Monitoring sollte deshalb ein Prompt-Portfolio mit verschiedenen Nutzerintentionen, Formulierungen und Phasen der Customer Journey enthalten.

Fazit

KI-Sichtbarkeit ist kein festes Ranking. Sie ist eine Wahrscheinlichkeit.

Das ist der zentrale Unterschied zwischen klassischem SEO-Tracking und Monitoring in der KI-Suche. Im SEO ist die Frage 'Wo ranken wir?' oft sinnvoll. In der KI-Suche ist die bessere Frage: 'Wie wahrscheinlich ist es, dass wir erwähnt werden?'

Eine einzelne Prüfung kann diese Frage nicht beantworten. Sie zeigt nur eine mögliche Version des Ergebnisses.

Um echte KI-Sichtbarkeit zu verstehen, brauchen Marketer wiederholte Messungen, mehrere Prompts und genug historische Daten, um tatsächliche Trends von zufälliger Variation zu trennen. Ohne das beruhen Entscheidungen weniger auf Analytics und mehr auf Zufall.

Quelle: Schulte, J., Bleeker, M., & Kaufmann, P. (2026). Don't Measure Once: Measuring Visibility in AI Search (GEO). University of St. Gallen.

KI-Sichtbarkeit messen Warum eine einzelne Prüfung nicht reicht.

Warum KI-Suche anders ist

Was passiert, wenn derselbe Prompt erneut ausgeführt wird

KI-Zitate sind stark konzentriert

Was sauberes KI-Sichtbarkeitsmonitoring braucht

Fazit