Ein Durchbruch bei Werbepretests?

Die Argumente gegen Werbepretests sind immer noch die gleichen wie vor 20 Jahren. Werbeagenturen haben ein besonders gespaltenes Verhältnis zu Werbepretests. Vor allem die kreativen Schöpfer von Kampagnen haben sich bis heute nicht mit Pretests arrangiert. Bei einem negativen Pretest-Ergebnis hinterfragt die Agentur die Methode, mindestens aber die getesteten Kriterien. Die Kreativen beklagen die mangelnde Sensibilität von Pretests, die subtile Wirkungen ungenügend und erst langfristig einsetzende Werbewirkung überhaupt nicht anzeigen.

Auch unter Werbungtreibenden selbst ist die Skepsis gegenüber Pretests noch verbreitet: Viele machen gar keine, andere setzen sich im Zweifel über ungewünschte Ergebnisse hinweg. Ein besonders gepflegtes Klischee ist, dass Pretests originelle Kampagnen schlecht aussehen lassen und durchschnittliche Kampagnen besser abschneiden.

Daher gebe es zwei Arten von Kampagnen: die originellen und mutigen auf der einen und die pregetesteten auf der anderen Seite, die von vornherein nur Durchschnitt waren oder durch den Pretest ihrer kreativen Elemente beraubt und zu einer gefälligen Durchschnittskampagne umgeformt wurden. Ein Marketing-Manager wendete diese Sichtweise so konsequent an, dass er nur Werbekampagnen schaltete, die im Pretest durchgefallen waren. Zwei volle Jahre hielt er dies durch, dann war er selbst durchgefallen.

Natürlich gehen nicht alle Skeptiker so weit, ein negatives Pretest-Ergebnis als Erfolgsprognose zu verwenden. Aber im Kern läuft ihr Vorwurf auf eine mangelnde Sensibilität von Pretests hinaus, egal, in welchen der folgenden Facetten die Beschwerde formuliert wird:

Der Pretest verwendet die falschen oder unvollständige Kriterien.
Subtilere Wirkungen, die erst bei mehrmaligem Schalten der Kampagne einsetzen, werden nicht angezeigt.
Die kreative Leistung wird überhaupt nicht getestet

Pretests wird letztlich vorgeworfen, dass sie eine Kampagne zu schnell „tot testen“, statt Auskunft darüber zu geben, ob der Ansatz der Kampagne vielleicht richtig ist und nur Teile der „execution“ geändert werden müssen. Sie messen nur bestimmte Kriterien und sind nicht zu einer Diagnose fähig.

Ein neuer Ansatz mit Signifikanter Verbesserung
Unter allen Kriterien der Werbewirkung kommt der Persuasion (Beeinflussbarkeit) entscheidende Bedeutung zu. Sie ist so etwas wie das Endziel von Werbung, letztlich auch von solchen Kampagnen, die primär die Bekanntheit einer Marke oder ihre Aktualität erhöhen sollen. Der Streit darüber, ob Persuasion als Wirkungskriterium in Pretests einbezogen werden soll, rührt in Wahrheit daher, dass die Persuasion am schwersten zu erreichen – und auch am schwersten zu messen – ist. Das darf aber gerade kein Grund sein, die Persuasion aus Pretests auszuklammern.

Aus der vergleichenden Analyse der prominentesten Pretest-Ansätze ist in den vergangenen zwei Jahren ein neuer Ansatz entwickelt worden, der durch folgende Hauptmerkmale gekennzeichnet ist:

Er berücksichtigt bei der Messung der Werbeerinnerung die üblicherweise flüchtige Wahrnehmung des Werbemittels als typische Rezeptionsbedingung.
Er misst die Persuasion-Wirkung einer Kampagne sensibler als bisherige Verfahren und sogar doppelt: auf Verhaltens- und auf Einstellungsebene.
Er misst die Persuasion-Wirkung nicht nur, sondern erklärt sie auch. Der Ansatz diagnostiziert, welche kommunikativen Inhalte der Kampagne die Persuasion-Wirkung ausgelöst haben.

Diese realistische Messung der Werbeerinnerung wird durch zwei Maßnahmen erreicht: Die Testperson weiß im Moment der Werberezeption nicht, um welche Kampagne es geht, und die Werbeerinnerung wird auch nicht sofort, sondern erst am nächsten Tag gemessen.

Sensiblere Messung der Persuasion-Wirkung
Auf Verhaltensebene wird die Persuasion-Wirkung als Verhaltenstendenz gegenüber der Testmarke gemessen, und zwar als Veränderung des Markenwahlverhaltens („Brand Choice Behaviour Shift“).

Dabei kam es in erster Linie auf die stärkste Operationalisierung an, denn hierbei ging es in der Vergangenheit auch bei professionellen Pretest-Ansätzen munter durcheinander: Kaufverhaltensabfrage, Relevant-Set-Ermittlung, Gewinnkorb. Einige wechselten die Art der Messung auch noch zwischen Pre- und Post-Messung. In dem Bemühen, Ordnung in das bestehende Angebot zu bringen, haben sich mit Hilfe von Vergleichsuntersuchungen drei simple, aber wichtige Grundregeln des optimalen Vorgehens ergeben:- Markenpräferenz muss für die Pre- und Post-Messung absolut kongruent operationalisiert werden: nicht Kaufverhaltensabfragen oder Relevant-Set- Ermittlung vorher und Gewinnkorb nachher.

Der Gewinnkorb ist nicht die beste Operationalisierung von Markenpräferenz, da er zwischen Pre- und Post- Messung zu wenig Bewegungsspielraum lässt. Außerdem erschweren besonders attraktive Produkte die Identifikation von Werbewirkung („Champagner- Effekt“).
Pre-Post-Veränderungen des Markenwahlverhaltens werden am besten durch simulierte Mehrfach-Käufe aus vorgegebenen Marken (mit Hilfe so genannter Chip Games) identifiziert.

Auf Einstellungsebene schlägt die Persuasion- Wirkung keineswegs immer gleich bis auf die Verhaltensebene durch. In einer Reihe von Produktfeldern, beispielsweise solchen mit mehreren starken Marken oder bei Gebrauchsgütern, setzt die Persuasion-Wirkung von Werbung oft subtiler ein und macht nicht sofort aus Nicht-Käufern einer Marke Käufer. Sehr wohl kann Werbung aber auch dann die Markenaffinität eines Verbrauchers positiv beeinflussen, manchmal zuerst nur latent. Es wird also aus einem gleichgültigen Verbraucher nicht sofort ein kaufinteressierter, sondern aus einem Ablehner ein nachdenklicher, aus einem nachdenklichen ein aufmerksamer, aus einem aufmerksamen ein interessierter Verbraucher, der aber trotzdem erst beim übernächsten Mal kauft.

Welcher Pretest misst eigentlich solche – latenten – Shifts in der Markenaffinität der Verbraucher, die sich weder mit Kauf oder Nichtkauf noch mit anderen kategorialen Operationalisierungen einfangen lassen? Dass Pretests solche subtilen Veränderungen in der Markenaffinität bisher nicht gemessen haben, ist kein Zufall, denn es gab dafür bisher kein wirklich geeignetes Instrument. Die Markenaffinität eines Verbrauchers als stufenloses Kontinuum lässt sich auf keiner der herkömmlichen Skalen adäquat repräsentieren.

Darum ist für diesen Zweck eine neue Skala entwickelt worden: die SCS Stimulus Comparison Scale. Dieses neue Messinstrument enthält im Unterschied zu herkömmlichen Skalen kein Grading, sondern ist ein stufenloses Kontinuum mit einem Minus-Symbol auf der einen und einem Plus-Symbol auf der anderen Seite. Dieses sind die einzigen Vorgaben, die das neue Messinstrument den Testpersonen macht. Damit können die Befragten ihre Bewertungen abgeben, ohne sie verbal, numerisch oder nach Stufen zu definieren. Sie urteilen frei auf einem Kontinuum. Dass ihr Urteil trotzdem sofort notiert werden kann, liegt daran, dass auf der Interviewerseite – für den Befragten uneinsehbar – eine metrische Einteilung existiert, auf der der Interviewer den zu notierenden Wert abliest. Das geht genauso schnell wie bei einer Stufenskala. Mit diesem neuen Instrument lässt sich auch für Marken, die nicht zum Kauf ausgewählt wurden, das latente Potenzial bei jeder Person ermitteln. So werden mit der SCS-Skala auch solche Werbewirkungen identifiziert, die sich den gröberen Messungen bisher entzogen haben.

Die SCS hat in der Praxis gezeigt, dass sie Fehlereffekte minimiert, die durch verbale, numerische oder räumliche Skaleneinteilungen entstehen: Halo-Effekte, Klumpungen, nivellierende oder extreme Urteilstendenzen. Dass die SCS damit Daten höherer Qualität liefert, zeigt der Vergleich mit einer fünfstufigen Verbalskala in 30 Produkt- und Konzepttests. Das SCS-Antwortprofil in Grafik 1 zeigt eine viel stärkere Annäherung an eine Normalverteilungskurve als das Antwortprofil der Stufenskala.

Sensiblere Messung führt über höhere Datenqualität zu besserer Erklärung von beobachteten Sachverhalten, wie das folgende Beispiel beweist: In Pretests für Fertigprodukte wurden Analysen gemacht, um herauszufinden, wie stark Kaufbereitschaften von konkreten Produkterwartungen beeinflusst werden: einmal mit einer herkömmlichen 5er-Skala und einmal mit der SCS. Die Grafik 2 zeigt, in welchem Ausmaß die skalierte Kaufbereitschaft durch Produkterwartungen erklärt wird: in allen vier Fällen mit der SCS besser als mit der 5er-Stufenskala. Das macht die neue SCS Stimulus Comparison Scale zu einer Revolution für die gesamte Marktforschung. Denn auch in Produkt-, Konzept- und Packungstests ist es wichtig, diejenigen Produkteigenschaften und -erwartungen zu bestimmen, die am Ende kaufrelevant sind.

Welche kommunikativen Inhalte lösen die Beeinflussung aus?
Die sensiblere Messung von Werbewirkung ist das Kernstück dieser neuen Pretestmethode. Sicherzustellen, welche Veränderungen in Produktwahrnehmung und Markenaffinität ein Werbemittel tatsächlich auszulösen vermag, ist zweifellos am wichtigsten. In einem weiteren Schritt werden auch diejenigen Elemente der kommunizierten Botschaft herausgefunden, die den größten Einfluss auf die erreichten Veränderungen in der Produktwahrnehmung, Markenaffinität und Kaufwahrscheinlichkeit ausgeübt haben.

Dies geschieht über die ACA Advanced Communication Analysis. Sie ermittelt die Kommunikationsstärke für jedes inhaltliche Element und bestimmt danach die produktiven und kontraproduktiven unter ihnen. Die Analyse identifiziert also die Persuasion-Treiber unter den Kommunikationsinhalten. Damit misst dieser neue Pretest auch das Zustandekommen der Werbewirkung aus den Kommunikationsinhalten. Es ist diese Kombination von Messung und Diagnose, die den neuen Pretest aus den bisherigen Pretestverfahren heraushebt, vor allem aber Pretests endgültig von dem Klischee der Creativity Killers befreit.

Wulf Schlund gründete das Marktforschungsunternehmen ISM und die internationale Gruppe Global Dynamics.