In kaum einem Bereich lässt sich die rasante Entwicklung von KI-Anwendungen so gut beobachten wie bei Large Language Models (LLMs), insbesondere ChatGPT. Ein Anwendungsfall, der gerade für Marktforscher*innen spannend sein dürfte, ist die Generierung von künstlichen Datensätzen, sogenannten Silicon Samples, die das menschliche Antwortverhalten abbilden sollen.
Wäre dies zuverlässig möglich, so ließen sich Kampagnen schnell auf Basis großer Datensätze testen oder ad hoc das Kundenfeedback zu neuen Produkten einholen. Aber sind mit ChatGPT generierte Datensätze wirklich geeignet, menschliches Antwortverhalten adäquat zu repräsentieren? Dies würde voraussetzen, dass sie die Vielseitigkeit menschlicher Antworten und Entscheidungen mit all ihren Besonderheiten abbilden können. Und genau daran scheint es in manchen Bereichen zu hapern.
Beispiel gefällig?
Frage: Ein Schläger und ein Ball kosten zusammen 1,10 Euro. Der Schläger kostet einen Euro mehr als der Ball. Wie viel kostet der Ball? ChatGPT gibt darauf eine klare Antwort: Natürlich 5 Cent, denn wenn der Schläger einen Euro teurer ist, so kosten beide zusammen genau 1,10 Euro. Das Problem ist hierbei nur, dass die überwiegende Mehrheit der Menschen diese Frage spontan mit 10 Cent und damit falsch beantworten würde. Diese Fähigkeit von ChatGPT ist neu, denn bis vor kurzem hat der Chatbot eher intuitiv und damit „menschlicher“ geantwortet, so eine aktuelle Studie des Teams um Thilo Hagendorff an der Universität Stuttgart, kürzlich erschienen in der renommierten Fachzeitschrift „Nature Computational Science“. ChatGPTs Fähigkeit, richtige Antworten zu geben, mag viele KI-Forscher*innen erfreuen. Für Marktforscher*innen, die menschliches Verhalten ergründen und vorhersagen wollen, ist sie aber ein handfestes Problem.
Und damit nicht genug, denn LLMs wie ChatGPT verhalten sich auch in anderen Kontexten alles andere als menschlich. Während Menschen beispielsweise dazu tendieren, Risiken einzugehen, um entstandene Verluste auszugleichen, ist solch ein Verhalten bei ChatGPT-Antworten nicht beobachtbar. Andere Aspekte werden hingegen gut abgebildet, zum Beispiel unsere menschliche Tendenz, Informationen so zu verarbeiten, dass sie unsere eigenen Erwartungen erfüllen. Auch hat eine neue Studie gezeigt, dass ChatGPT Zahlungsbereitschaften für bestimmte Waren und Dienstleistungen realistisch einschätzen kann.
Weiterhin Datenqualität prüfen
Die Nutzung von LLMs, um künstliche Datensätze zu generieren, ist verführerisch. Sie bringt aber wenig, wenn wir nicht wissen, ob die Antworten menschliche Denk- und Verhaltensweisen adäquat widerspiegeln oder nicht. Mit jedem neuen Release können sich die Antwortmuster ändern und die Forschungen zum Antwortverhalten von LLMs hinfällig sein. Marketer werden daher nicht umhinkommen, verstärkt über Datenqualität nachzudenken und eigene Pretests durchzuführen, um die Plausibilität der Antworten zu testen. Bis dahin ist eine gewisse Zurückhaltung bei der Nutzung künstlicher Datensätze angebracht.