Von Bastian Finkel und Dr. Marcus Dill
Ohne technische Hilfsmittel ist die Erkennung komplexer Zusammenhänge in großen Datenmengen nicht möglich, erst recht nicht in Echtzeit. Es verwundert daher auch nicht, wenn aus Sicht vieler Marketingleiter die Analyse von “Big Data” eine der zentralen Herausforderung der kommenden Jahre ist.
Marketing hat sich in den letzten beiden Jahrzehnten deutlich gewandelt. Wo es früher geprägt war vom Einsatz von Massenmedien und Massenmailings, um breite Käuferschichten von den Vorteilen eines Produkts zu überzeugen, da steht heute mehr und mehr der einzelne Kunde im Zentrum der Betrachtung. Ihn, sein Verhalten und seine Bedürfnisse zu verstehen – die viel zitierte 360°-Sicht auf den Kunden -, ist die Grundlage der Entscheidung, welches Produkt und welche Dienstleistung er über welchen der immer mehr verfügbaren Kanäle zu welchen Konditionen angeboten bekommt. Je präziser die Segmentierung von Kunden und die Prognose ihres Verhaltens, desto höher sind Kontakt- und Antwortraten und damit letztlich auch Abschlussquoten und Umsatz. Aber auch die Zufriedenheit und Loyalität steigt aufgrund geringerer „Dissonanzen“ durch „falsche“ Kundenansprache. Durch den fokussierten und erfolgreicheren Einsatz von Budgets und Ressourcen wird das Marketing zum wesentlichen Treiber für steigende Profitabilität.
Was sich so einfach liest, stellt jedoch in Wirklichkeit hohe Ansprüche an die Leistungsfähigkeit von IT-Systemen und an die Qualität von Datenanalysen. Trotz technologischer und organisatorischer Fortschritte sind die Herausforderungen nicht geringer geworden. Das Internet und die mittlerweile allgegenwärtigen mobilen Endgeräte wälzen sowohl den Konsumentenmarkt als auch die Systeme und Prozesse aller Firmen massiv um. Soziale Medien geben dem schon länger beobachtbaren Wandel der Machtverlagerung vom Produzenten zum Konsumenten neuen Schub und kehren das Verhältnis sogar endgültig um. Kunden stellen ganz neue Anforderungen an Produkte und Dienstleistungen eines Unternehmens. Sie erwarten aber auch intelligente, auf die eigenen Belange passende und zeitnahe Kommunikation.
Die Beschleunigung von Prozessen und ganzen Märkten erreicht ständig neue Dimensionen. Menge und Vielfalt von Daten, die für Analysen zur Verfügung stehen, ebenfalls. „Big Data“ zu analysieren, erfordert für viele Unternehmen einen Paradigmenwechsel, erst recht, wenn dies in Echtzeit erfolgen muss. Aber Big Data birgt eben auch Chancen. Nie gab es so viele wertvolle Informationen über Kunden und Märkte. Vorhersagen werden präziser, und Unternehmen können viel feinere, aber signifikante Zusammenhänge identifizieren und nutzen, Kundensegmente gezielter und schneller ansprechen. Produkte und Services lassen sich passgenau dem Bedarf von Kunden anpassen (Design to Value) und so deren Zufriedenheit deutlich steigern.
Customer Analytics – chancenlos ohne intelligente Computerprogramme
Menge, Vielfalt und Komplexität der heute verfügbaren Daten machen es menschlichen Analysten schon lange praktisch unmöglich, darin enthaltene Zusammenhänge zu identifizieren. Durch Betrachtung von Daten wirklich neue Erkenntnisse zu gewinnen, ist selbst dann äußerst unwahrscheinlich, wenn Muster vergleichsweise einfach sind. Es lassen sich bestenfalls Annahmen und Vermutungen gezielt überprüfen. Aber schon solche einfache hypothesengetriebene, konfirmative Analysen erfordern Werkzeuge, die die über Millionen Datensätze verteilte Information verwalten, sinnvoll aggregieren (Mittelwerte, Summen) und visualisieren (siehe Abb. 1). Dem Wachstum an Daten sind viele Werkzeuge für deskriptive Statistik und OLAP nicht mehr gewachsen.
Dies gilt auch zunehmend für die relationalen Datenbankenmanagementsysteme, die über die Jahrzehnte zum Rückgrat der IT aller größeren Unternehmen geworden waren, deren Grenzen jedoch für viele Zwecke, etwa im Kampagnenmanagement, erreicht scheinen. Viele Firmen gehen mittlerweile andere Wege, wenn sie beispielsweise trotz großer Datenmengen den Überblick über Verlauf und Erfolg ihrer Marketingaktionen behalten wollen.
Wenn in den Datenbergen dann auch noch bisher unbekannte Muster gesucht werden sollen (explorative Analysen), ist man ohne technische Hilfsmittel verloren. Selbst relativ einfache Zusammenhänge lassen sich durch einfaches Datenbrowsen nur zufällig finden. Werden die Muster komplexer, sind sie selbst für intelligenteste menschliche Analytiker und bei bester Softwareunterstützung zur Aggregation und Visualisierung der Daten praktisch unsichtbar.
Spätestens hier kommt das sogenannte Data Mining ins Spiel. Hinter dieser Gruppe von Analyseverfahren verbergen sich eine Vielzahl von Algorithmen und Methoden, die weitgehend autonom und automatisiert signifikante Zusammenhänge in großen Datenmengen aufspüren, aus denen sicher wiederum Prognosen für zukünftige Ereignisse ableiten lassen (Predictive Analytics). Moderne Verfahren sind durchaus in der Lage, auch Effekte zu erkennen, die sich aus dem Zusammenspiel von Dutzenden von Einflussfaktoren zusammensetzen. Und sie finden diese Muster in Grundgesamtheiten mit Zehntausenden von Variablen zu Millionen und Abermillionen von Datensätzen.
Dass die auf diese Weise gewonnenen Vorhersagemodelle nicht nur theoretischen Wert haben, weiß man im Marketing schon seit vielen Jahren, wo vielfältige Anwendungen für Data Mining existieren. Die im Database Marketing praxisüblichen Modelle zeigen oft eine erstaunliche Fähigkeit, das Verhalten von Kunden oder Märkten oder den Erfolg von Produkt- oder Dienstleistungsangeboten mit hoher Wahrscheinlichkeit vorherzusagen.
Big Data Analytics – mehr als ein Hype
Marketiers setzen schon seit vielen Jahren auf Predictive Analytics zur Erkennung von komplexen Zusammenhängen in großen Datenmengen und zur Vorhersage von Kundenverhalten und Markttrends. Doch was in früheren Jahrzehnten als großer Datenbestand und große Herausforderung galt, nämlich Daten zu Millionen Kunden und Zig Millionen Transaktionen zu analyiseren, das ist heute durch verbesserte Technologie und etablierte Verarbeitungsprozesse selbst für manchen Mittelständler zur Normalität geworden. Allerdings nur, solange man nicht den Anspruch erhebt, die Daten in Echtzeit zu analysieren, man sich auf die Betrachtung von aggregierten Informationen anstelle von Einzelvorgängen beschränkt und man auf viele weitere Datenquellen und Auswertungen verzichtet. Bis an die Grenzen ihrer Leistungsfähigkeit getunte Datenbanksysteme und elaborierte, aber eben auch zeitaufwändige Prozesse der Datenverarbeitung und –aufbereitung machen es möglich.
Doch die kontinuierlich steigenden Anforderungen in hart umkämpften Märkten und die ständig zunehmende Datenmenge und -vielfalt erzwingen einen technologischen Paradigmenwechsel. Wenn heutzutage von „Big Data“ die Rede ist, dann meint man die Daten von Zig Millionen Kunden und Milliarden Transaktionen. Vor allem aber meint man auch Typen von Daten, die es in dieser Form und Vielfalt früher nicht gab oder die man lange Zeit als praktisch nicht analysierbar einstufte. Allen voran sind dies Freitexte (etwa Webseiteninhalte), aber auch Bilder, Videos, Audiodaten und – im Zeitalter mobiler Endgeräte und RFID-Technologie – zunehmend auch Informationen über den Aufenthaltsort von Personen und Objekten. Hinzu kommen Daten, die durch die immer mehr in Produkten enthaltenen Sensoren an die Hersteller zurückgemeldet werden und so die genaue Kenntnis von Nutzung, etwaigen Fehler und des aktuellen Zustands von Produkten wie Maschinen, Fahrzeugen oder Softwareinstallationen ermöglichen.
Big Data ist zum Modebegriff geworden, den Hersteller von Business-Intelligence-Software und neuartigen Hardware Appliances intensiv nutzen, um den Verkauf ihrer jeweiligen Produkte zu fördern. Tatsächlich ist die steigende Anzahl an Datensätzen aber eben nur eine der wesentlichen Eigenschaften, die heutige Geschäftsdaten von denen früherer Jahrzehnte unterscheiden. Wer nur diesen Aspekt betrachtet, der trifft aber unter Umständen falsche Investitionsentscheidungen und versucht beispielsweise mit noch größerer Hardware oder weiteren Tuningoptionen das Datenwachstum zu kompensieren, wo eigentlich qualitativ andere Ansätze erforderlich wären.
Tatsächlich sind bei Big Data Analytics mindestens folgende Aspekte (Abb. 2) im Einzelfall zu betrachten:
- die Vielfalt und Andersartigkeit der heutigen und zukünftigen Datenquellen im Vergleich zu denen der Vergangenheit,
- der heutige und zukünftige Bedarf an schnellen und angemessenen Aktionen und Reaktionen im Kundenkontakt (und damit die Notwendigkeit, von Programmen automatisierte Entscheidungen auf der Basis von intelligenten Algorithmen treffen zu lassen),
- der Trend, nicht nur grundlegende Strategien durch Data Mining zu untermauern, sondern auf immer detaillierteren Ebenen Prozesse zu optimieren, wodurch auch die Analysen immer stärker ins Detail der Daten letztlich sogar einzelner Transaktionen vordringen und Aggregationen und Vorberechnungen bedeutungslos werden.
Internet- und Mobiltechnologien und die sie nutzenden neuen Unternehmen und Geschäftsmodelle brachten nicht nur viele neue Datenquellen mit sich. Sie führten auch zu einer Vielzahl an neue Anforderungen und Ideen für Analysen. Und in einer Welt, in der alles per Knopfdruck und in Echtzeit auf dem Smartphone bereitstehen soll, dürfen auch Analysen selbst größter Datenbestände nicht mehr Tage und Wochen für Datenverarbeitung und statistische Auswertung in Anspruch nehmen. Big Data Analytics ist somit fast zwangsläufig eingebettet in vollautomatisierte Prozesse, in denen der Mensch nur noch im Ausnahmefall korrigierend eingreift.
Big Data – große Datenmengen, neue Datenquellen
Während das klassische Database Marketing im Wesentlichen mit strukturierten Daten innerhalb von relationalen Datenbanken oder Flat Files arbeitet, brachten um die Jahrtausendwende herum zunächst CRM-Systeme neue Datenquellen mit sich (siehe Abb. 3): weitgehend technische Protokolle aus Call Center oder Webshop, die aus Volumen- und Performancegründen nicht in transaktionale Datenbanken mit aufgenommen werden, sondern in Dateien ausgelagert bleiben. Von Anfang an waren diese Informationen für Marketing und die Analyse von Kundendaten höchst interessant, da sie in Verbindung mit den Stamm- und Transaktionsdaten einen erheblichen Nutzen für das Verständnis von Kundenverhalten und die Erfolgskontrolle von Marketingaktionen beinhalteten. Mit dem Aufkommen von Web 2.0 fielen neben diesen zumeist semistrukturierten Textdateien vermehrt auch vollständig freie Textinformationen aus Blogs, Foren und Sozialen Netzwerken an. Der Clou: diese Daten sind nicht mehr notwendigerweise von unternehmenseigenen Systemen erfasst, sondern liegen im Internet, wo sie aber dennoch weitgehend uneingeschränkt für Analysen verfügbar sind – sofern man weiß wie und man eine Idee hat wofür.
Letztlich birgt das Internet aber auch nichttextuelle Informationen, vor allem Audio-, Bild- und Videodaten. Die Auswertung dieser Art von Daten erfordert oftmals völlig andere Algorithmen, als man sie bisher im Data Mining eingesetzt hat. Aktuell konzentrieren sich viele der Big-Data-Analysen noch auf relationale und Text-Daten. Doch die akademische und industrielle Forschung bringt buchstäblich täglich neue Verfahren für die Analyse nicht-textueller Daten hervor. Analysen von nichttextuellen Daten werden an Bedeutung gewinnen, wenn darauf basierend eine kritische Masse an pfiffigen Ideen und lukrativen Geschäftsmodellen gewachsen ist.
Vorher dürften es jedoch vor allem Standortinformationen sein, aus denen durch Big Data Analytics praktischer Nutzen gezogen wird. Personen die für ihren Aufenthaltsort jeweils passenden Services und Informationen zukommen zu lassen – die sogenannten Location-Based Services – ist längst nicht mehr ungewöhnlich, wenn auch das Potential dieser neuartigen Dienstleistungsangebote sicher noch lange nicht ausgeschöpft ist. Aus den Standortinformationen von Personen lassen sich aber verschiedenste Profile erstellen, zum Beispiel Bewegungsprofile im Supermarkt oder innerhalb von bestimmten Geografien.
Großes Potential birgt auch die Analyse von Produktnutzungsdaten, die von Softwareprodukten oder verschiedensten Arten von Maschinen und Fahrzeugen an den Hersteller übermittelt werden können. Neben der hierbei im Vordergrund stehenden Analyse von Produktdefekten sind diese Daten grundsätzlich auch für die Erstellung von Nutzungsprofilen verwendbar. In den USA wird beispielsweise darüber nachgedacht, Daten zur Fahrzeugnutzung Versicherern zur Verfügung zu stellen, damit diese Risiken besser bewerten können. Natürlich sind insbesondere personalisierte Datensammlungen und Auswertungen sehr kritisch aus dem Blickwinkel des Datenschutzes zu betrachten.
Im klassischen Database Marketing – Basis für jegliche Kampagnen mit dem Ziel von Cross oder Up Selling, Kündigerprävention, Neukundengewinnung oder Kundenrückgewinnung – sind die Modelle im Wesentlichen aus Kundenverhaltensdaten und Kundenattributen aufgebaut. Bei Kundenattributen handelt es sich im weitesten Sinn um soziodemografische Daten (Adressinformationen, Alter, Status, etc.), ergänzt um Segmentzuordnungen oder andere klassifizierende Eigenschaften, die beispielsweise aus früheren Analysen gewonnen wurden.
Beim Kundenverhalten standen lange Zeit die konkreten Umsatzdaten im Vordergrund, meist gruppiert nach Produktgruppen und analysiert für verschiedene Zeitintervalle. Retouren, Rabatte und andere auftragsbezogene Informationen ergänzten oft das Verhaltensprofil. Mit der Einführung von CRM-Systemen und dem Einzug der Onlinewelt boten sich später vermehrt Daten zur „Vorgeschichte“ von Aufträgen zur Analyse an. Art und Verlauf von Kundenkontakten in Call Centern und Webshops wurden interessant, und Informationen hierüber können als die ersten betriebswirtschaftlich relevanten Big Data gelten. Nur wenige Unternehmen nutzten diese Call Detail Records (CDRs) und Click-Stream-Daten jedoch von Anfang an wirklich systematisch, teils da schlicht an anderen Stellen noch grundlegendere Hausaufgaben zu erledigen waren, teils aber auch weil ihnen die Werkzeuge dafür fehlten. Für viele sinnvolle Fragestellungen müssen diese Daten außerdem mit Transaktions- und Stammdaten integriert werden, wofür es an Patentrezepten mangelt und vielfach individuelle Lösungen gefunden werden müssen.
Predictive Analytics im Marketing nach der Jahrtausendwende
Das letzte Jahrzehnt brachte zwei wesentliche neue Trends, aus denen neue Chancen und damit auch Anforderungen an Analysen entstanden: Einerseits nahm mit dem Aufkommen von Web 2.0 mit Sozialen Netzwerken, Foren und Blogs der Umfang und die Bedeutung von Freitextinformationen massiv zu. Vertrieb und Marketing vieler Unternehmen haben schnell erkannt, dass diese neuen Kommunikationskanäle den Markt nachhaltig verändern werden und für viele gerade junge Kundengruppen der primäre Weg des Austausches untereinander sind. Weite Teile dieser Kundengruppen können praktisch nur auf diesem Kanal erfolgreich angesprochen werden, da sie nicht mehr fernsehen und kaum Emails lesen.
Aus dem modernen Konsumentenmarketing sind Facbook, Twitter und Co. nicht mehr wegzudenken. Und selbst im B2B-Geschäft sind Foren und Netzwerke wesentlicher Bestandteil von PR und Leadgenerierung einerseits, und Support- und Serviceangeboten andererseits geworden. Die verschiedenen Spielarten von Web 2.0 sind aber nicht nur als Kommunikationsmedien relevant. Sie bieten auch und vor allem ungeahnte neue Möglichkeiten der Gewinnung von Wissen über Kunden, die diese Informationen oft bereitwillig im Austausch für relevante Services preisgeben. Bei allen – teils noch abschließend geklärten – kritischen Datenschutzaspekten liegen hier fraglos eine Unmenge Chancen zum Nutzen von Unternehmen wie Kunden.
Häufig genanntes Beispiel ist die Sentimentanalyse, mittels derer Stimmungen und Einstellungen zu bestimmten Themen, Produkten, Firmen etc. automatisch erkannt werden. Im Internet kursierende Gerüchte und Kritik können sehr leicht durch Stille-Post- und Selbstverstärkungseffekte einen dauerhaften Imageschaden für ein Unternehmen erzeugen. Erkennt man solche Risiken schnell, lässt sich durch Richtigstellungen und eine gezielte Informationspolitik der Schaden begrenzen. In manchen Fällen kann eine humor- und fantasievolle Reaktion sogar einen Imagegewinn produzieren . Das Sentiment im Web 2.0 gegenüber den eigenen und Konkurrenzprodukten ist aber auch ein Frühwarnsystem, das mögliche Umsatzrückgänge und das Abwandern größerer Kundengruppen ankündigen kann. Insbesondere Unternehmen mit Konsumentengeschäft können auf relativ einfache Weise Hinweise sammeln, in welche Richtung zukünftige Marketingaktionen zielen sollten, aber auch welche Produkteigenschaften in naher Zukunft besonders stark nachgefragt werden.
Big Data – auch eine Frage der Technologie
Für die Analyse von Web 2.0 Daten sind die meisten bisher genutzten Analysewerkzeuge nicht hinreichend ausgerüstet. Sie sind entstanden in der Welt strukturierter Daten und Geschäftsprozesse, in der Felder und deren Ausprägungen vorgedacht waren, und auf deren Vorgaben man sich zumindest über weite Strecken verlassen konnte. Sie bieten aber nicht die technischen Zugriffsmöglichkeiten auf unstrukturierte Daten, vor allem aber auch nicht den analytischen Zugang zu den semantischen Finessen, die in Blog- und Foreneinträgen mitschwingen und sogar die eigentliche Aussage darstellen können. Synonyme, Wortspiele, Wortkreationen, neue Akronymschöpfungen, Humor – all dies sind Aspekte menschlicher Sprache und menschlichen Denkens, mit denen Analysewerkzeuge nun lernen müssen umzugehen, um für bestimmte Fragestellungen brauchbare Informationen aus den Textdaten zu ziehen. Technische Verfahren aus Text Mining und Suchmaschinentechnologie haben daher Einzug in Business-Intelligence-Lösungen gehalten und ermöglichen damit erst die Beantwortung der oben genannten Fragestellungen. Es steht zu erwarten, dass in den nächsten Jahren auch vermehrt Module aus Bildverarbeitung, Stimm- und Spracherkennung und vielen anderen Bereichen Eingang in Analyseinfrastrukturen finden werden.
Viele dieser neuen Technologien beruhen auf parallel und verteilt verarbeitenden Algorithmen und Architekturen (etwa Hadoop) und stiften ihren Nutzen oft nur in Verbindung mit spezieller Hardware. Optimierte Appliances – zumeist parallelprozessierende Hardware mit hoher Arbeitsspeicherkapazität und integrierter, darauf abgestimmter Analysesoftware – nehmen eine immer wichtige Stellung im Markt für Big Data Analytics ein. Sie verdrängen aufgrund ihrer Verarbeitungsgeschwindigkeit und der dadurch in Reichweite gelangten Business Cases zunehmend die herkömmlichen relationalen Datenbanken als zentrale Datenablagen.
Neben kleineren, aber sehr erfolgreichen Spezialisten wie Exasol und Netezza (Ende 2010 übernommen von IBM) hat als einer der ersten großen BI-Anbieter SAP diesen Trend erkannt und mit HANA (High-Performance Analytical Appliance) bereits ein erfolgreiches Produkt im Markt, das seit neuestem auch als Basis für die Kundensegmentierungs- und die Predictive-Analytics-Lösung der SAP verfügbar ist. Nebenbei arbeitet SAP daran, diese Plattform als zukünftige Datenbank auch unter den operativen SAP-Systemen zu nutzen. Das positive Kundenfeedback der bisherigen HANA-Nutzer, die Marktstellung von SAP und die Marketingpower, mit der SAP das Thema im Markt forciert, haben auch andere Hersteller auf den Plan gerufen und den Markt weiter in Bewegung gebracht.
Über die Autoren: Dr. Marcus Dill ist geschäftsführender Gesellschafter der mayato GmbH und Experte für Business Intelligence mit den Schwerpunkten Data Warehousing, Data Mining und Customer Relationship Management. Bastian Finkel ist Solution Manager für SAP CRM bei der SAP AG in Walldorf. Sein Schwerpunkt liegt auf der Entwicklung von Big Data Marketinglösungen in Kombination mit Data Mining und Predictive Analytics.