Mehr Klahrheit im Data Mining

Schon seit einigen Jahren gilt Data Mining in der IT-Gemeinschaft als das Versprechen, um automatisiert und relativ einfach wertvolle Kenntnisse und sogar unvermutete Zusammenhänge aus bestehenden Datensammlungen auszugraben. Dieses Versprechen ist an sich sicherlich nicht irreal, aber der Prozess, um zu diesen neuen Kenntnissen und Zusammenhängen zu kommen, wird häufig gewaltig unterschätzt. Dies hat zur Folge, dass viele Data Mining Projekte das Ziel nicht erreichen oder beim Abschluss nicht die Ergebnisse liefern, die - wie man vermutet - die Daten in Prinzip bieten.

Ein vielversprechender Versuch, Data Mining aus der Sphäre des unvorhersehbaren kreativen Prozesses zu holen, ist das von der Europäischen Union entwickelte CRISP-Modell. Die Abkürzung steht für Cross Industry Standard Process for Data Mining (CRISP-DM) und möchte einen Standard-Prozesses für das Aufdecken von Daten schaffen. Das CRISP Prozessmodell verlegt den Fokus des Data Mining somit von der Technik und Statistik auf eine Business Anwendung, mit der man Geld verdienen kann.

Vom CRISP-Standard versprechen sich die Initiatoren folgende Vorteile:

  • Data Mining Ergebnisse schließen besser an die Business Problematik an;
  • Produktivitätsverbesserung bei Systemanalytikern durch vorab definierte Schritte und Wiederverwendung von Kenntnissen;
  • ein zuverlässiger Prozess durch bessere Vorhersehbarkeit;
  • ein wiederholbarer Prozess durch das Festlegen von Schritten;
  • ein Prozess, der besser zu beherrschen ist;
  • schnelleres Data Mining mit Hilfe präziser Methoden.

Das Prozessmodell
Das CRISP-DM Modell umfaßt den ganzen Zyklus eines Data Mining Prozesses in sechs Phasen, die alle aus Aufgaben und Outputs bestehen. Die Aufgaben im Modell sind vollständig und generisch. Das heisst, sie sind unabhängig vom spezifischen Business- und Data Mining Problem. Zudem sind die verwendeten Data Mining Techniken stabil in Bezug auf zukünftige Entwicklungen im Data Mining (wie etwa neue Modelliertechniken). Die sechs Phasen bestehen aus:
Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment. Dabei ist ein Data Mining Prozess (nahezu) nie ein linearer Prozess, in dem die Schritte in der dargestellten Reihenfolge abgearbeitet werden. In der Praxis stellt sich heraus, dass Data Mining ein dynamischer Prozess ist, in dem Befunde in einer bestimmten Phase oder Aufgabe den Analytiker dazu zwingen, zu vorherigen Phasen oder Aufgaben zurückzukehren.

Die Phasen
Das CRISP-Modell legt den Fokus des Data Minings weniger auf den technischen, sondern mehr auf den wirtschaftlichen Bereich. Die erste Phase, das Business Understanding, ist ein Beleg dafür. In dieser Phase werden unter anderem Business-Zielsetzung (zum Beispiel: verbessere den Absatz von Produkt X um 10 Prozent), die daraus hervorgehenden Problemstellungen (zum Beispiel: Wie sieht das Profil des Kunden aus, der in den letzten 6 Monaten Produkt X gekauft hat), Ausgangspunkte und Erfolgskriterien bestimmt. Dies alles soll dann zu einem Projektplan führen, in dem die Ausgangspunkte und die Vorgehensweise des Data Mining Projektes deutlich werden.

Die zweite Phase, das Data Understanding, ist darauf ausgelegt, sich ein Bild derjenigen Daten zu verschaffen, die in der Data Mining Analyse eine Rolle spielen werden. Zentral ist dabei der Datenbestand (welche Quellen sind geeignet), die Qualität der Daten (fehlende Werte, Unvollständigkeit), das erste Erforschen der Daten und eventuelle Maßnahmen, die Qualität der Daten zu erhöhen. In dieser Phase kommen oft die nötigen Probleme bezüglich der Daten ans Licht. Ein klassisches Beispiel ist das Ausfüllen von Datenbank- Feldern in primären Prozessen. Regelmäßig stellt sich heraus, dass Daten, bei denen das Informatiksystem keine richtige Eintragung erzwingt, eine sehr mäßige Qualität von sich geben. Handelt es sich außerdem um Daten, die für den primären Prozess nicht notwendig sind, dann führt dies nicht selten dazu, dass auf die Verwendung von bestimmten Daten verzichtet werden muss, weil es einfach nicht genügend Datensätze mit sinnvollen Einträgen gibt.
Die Phase Data Understanding hat letztendlich einige Berichterstattungen als Input für die nächste Phase des Prozesses zur Folge.

Die Data Preparation, die dritte Phase, umfaßt alle Aktivitäten, die notwendig sind, um die Daten für das automatisierte Zerlegen zu sinnvollem Wissen vorzubereiten. Dies fängt bereits mit einer Beschreibung der verfügbaren Daten an. Mittels der Schritte Selektion, Bereinigung, Integration und Formatierung sollten die Daten die Form bekommen, die notwendig ist, um die verfügbaren Data Mining Techniken anwenden zu können. Ein Beispiel dafür, Daten für die Modellierung aufzubereiten, ist das Umsetzen der in der Datenbank vorhandenen Geburtsdaten in Lebensalter. Um Zusammenhänge zwischen dem Alter von Kunden und zum Beispiel der Kaufchance für ein bestimmtes Produkt erkennen zu können, liegt es nicht auf der Hand, die Geburtsdaten zu benutzen. Diese können zum Beispiel in Altersgruppen umgesetzt werden, in dem man die Jahreszahl im Geburtsdatum (inklusive Jahrhundert natürlich) vom Jahr im heutigen (System) Datum abzieht (Konstruktion), das Ergebnis in Segmenten von jeweils 5 Jahren (Integration) gruppiert und daran einen numerischen Code von zwei Positionen zukennt (Formatierung).

Innerhalb der Modeling-Phase finden die Aktivitäten statt, mit deren Hilfe die gesuchten Kenntnisse und Zusammenhänge tatsächlich aus den Daten zum Vorschein kommen sollen. Die Schritte sind: die Selektion von Modelliertechniken (zum Beispiel: Entscheidungsbäume, neuronale Netzwerke, Regelinduktion und Regression), das Generieren von Test- und Trainsets der Daten, der Bau und die Echtheitsprüfung von Modellen. Mit Hilfe der erstellten und getesteten Modelle kann man dann letztendlich an die so begehrten Kenntnisse gelangen, indem man den zu erforschenden Datensatz damit konfrontiert.
Von vielen werden die Aktivitäten, die hier in der Phase Modeling positioniert wurden, als das eigentliche Data Mining angesehen, während es auch Data Mining Definitionen gibt, die alle Aktivitäten für das Erlangen von Kenntnissen aus Daten umfassen.

Ohne diese Diskussion hier führen zu wollen, ist hoffentlich schon klar geworden, dass Datenanalyse von einem Businesstandpunkt aus nur sinnvoll ist, wenn dies aus einer relevanten Problemstellung heraus stattfindet und wenn der Analyse ein korrekter und kontrollierbarer Prozess zugrunde liegt. Die folgenden Phasen des CRISP Prozessmodells unterstützen dies in hohem Maße.

Nach Modeling wird im CRISP Prozessmodell die Phase Evaluation präsentiert. Das wichtigste Ziel dieser Phase ist, festzustellen, ob die entwickelten Modelle der definierten Problemstellung und den Businesserfolgskriterien gerecht werden. Es findet also eine deutliche Rückkopplung zu den Ausgangspunkten, die am Anfang des Prozesses gewählt wurden, statt. Die Schritte der Evaluation sind: Evaluation der Ergebnisse, Review des Prozesses und das Definieren der nächsten Schritte. Letzteres impliziert, dass es, je nach Ergebnis, sehr gut möglich ist, dass Teile des Prozesses aufs Neue durchlaufen werden müssen. Mögliche Gründe könnten sein, dass das Ergebnis zu wenig Anhaltspunkte für das Businessproblem bietet, oder dass gerade dermaßen interessante Ergebnisse erzielt wurden, dass man sich direkt zu weiterer Forschung entschließt.

Im letzten Schritt des Deployment, wird das Data Mining Projekt abgeschlossen und der endgültige Report erstellt. Dies alles aber nicht bevor die Anwendung der Ergebnisse geplant ist, wie auch die Kontrolle und die Instandhaltung der erstellten Modelle. Letztendlich wird das ganze CRISP Projekt, wie es sich für ein gutes Forschungsprojekt gehört, mit einer Evaluation des Verlaufs und der resultierenden Erfahrung abgeschlossen.

CRISP-DM in der Praxis
Im Rahmen des Projekts zur Entwicklung der CRISP-Methode, haben Versicherer und Bank OHRA (aus Holland) und das industrielle Unternehmen DaimlerChrysler das Prozessmodell auf Praxissituationen im Marketing angewendet. Einmal um das Anfangsmodell zu testen und einmal um eine zweite fortgeschrittene Version zu validieren. Es hat sich herausgestellt, dass CRISP auf jeden Fall einen Teil der Versprechen, die am Anfang genannt wurden, einlöst. Vor allem der bessere Anschluß an die Business Problematik, die Zuverlässigkeit und Wiederholbarkeit des Prozesses und die Wiederverwendung von Kenntnissen kommen in der Praxis ausgezeichnet zur Geltung.

Die Verbesserung der Effizienz durch CRISP ist in diesem Moment noch schwierig festzustellen. Einerseits, weil die Berichterstattung über die Anwendung von CRISP im Rahmen des Projektes viel Zeit gekostet hat und andererseits, weil man es hier mit einer Lernkurve im Arbeiten mit der Methode zu tun hat. Trotzdem überwiegt bei den Beteiligten das Gefühl, dass CRISP einen wertvollen Halt beim Einsatz von Data Mining Technologie in der Praxis bietet. Wichtig ist dabei aber auch die Einsicht, dass Data Mining Projekte immer zum größten Teil Menschenwerk bleiben werden und dass die Qualität dieser Projekte letztendlich durch diejenigen bestimmt wird, die sie ausführen. Dabei ist es natürlich schon eine Hilfe, wenn diese Leute mittels einer guten und strukturierten Methode unterstützt werden.

Hintergrund

CRISP-DM: Projekt und Konsortium
Im Juli 1997 ist das Projekt CRISP-DM offiziell mit der Bildung des Konsortiums zur Realisierung der Ziele, wie sie von den Projekt-Initiatoren formuliert wurden, initiiert worden. Diese Initiatoren sind: NCR Dänemark (u.a. Lieferant von Datawarehousing Lösungen) und der deutsche DaimlerChrysler Konzern (damals DaimlerBenz; ein Unternehmen mit Beteiligungen in u.a. der Autoindustrie, Luft- und Raumfahrttechnologie und Telekom), die zusammen eine Lösung für das Fehlen einer gut definierten und dokumentierten Methode für Data Mining suchten. Diese zwei Organisationen, erweitert um die englische „Integral Solutions Limited“ (ISL), der Anbieter des Data Mining Pakets Clementine und durch eine Übernahme seit Januar 1999 Teil von SPSS sowie „OHRA Versicherungen und Bank Gruppe“, bilden zusammen das CRISP Konsortium. Das Projekt CRISP-DM ist teilweise subventioniert von der Europäischen Kommission im Rahmen des ESPRIT-Programms zur Förderung von technologischen Entwicklungen in Europa.

NCR erfüllt im Projekt die Rolle von Projektleiter und Lieferant von Data Mining Expertise. Letzteres ist auch die Aufgabe von ISL, die außerdem die mögliche Anwendung von CRISP in Tools vornimmt. DaimlerChrysler und OHRA sind beteiligt als Benutzerorganisationen, die beide zwei Pilot-Projekte für CRISP durchgeführt haben. Das erste Projekt, um das initiale Prozessmodell zu testen und das zweite um das angepaßte (sogenannte Enhanced) Prozessmodell zu validieren. Die Anwendung bei DaimlerChrysler um das CRISP-Modell zu testen, betrifft das Feststellen von Faktoren die den Kauf eines Mercedes durch einen Kunden beeinflussen.
Dabei wurden vornehmlich Gruppierung und Regelinduktion angewendet. OHRA hat CRISP auf zwei verschiedenen Weisen angewendet. Die erste Forschung betraf eine Analyse des Kundenverlusts (Customer Churn), die zweite Forschung hatte als Ziel, festzustellen welche Faktoren den Ankauf von Lebensversicherungspolissen erklären. Vor allem Regelinduktion, neuronale Netzwerke und bestimmte Formen von Regression wurden hierbei angewendet.

Das Projekt CRISP-DM ist in diesem Moment nahezu abgeschlossen Das Endprodukt des Projekts ist ein Report mit folgendem Inhalt: das Konzept CRISP-DM, das Prozessmodell und eine Benutzergebrauchsanweisung inklusive allgemeiner Hilfe bezüglich Data Mining Techniken.
Neben den Benutzerprojekten wurden vier „Special Interest Group (SIG) Meetings“ organisiert, die vor allem als Ziel hatten, das CRISP-Konzept in der Data Mining Welt zu verbreiten, wie auch Input für die Entwicklung des Prozessmodells zu liefern. Die SIG-Meetings haben stattgefunden in: Amsterdam (November 1997), London (Mai 1998), New York (September 1998) und Brüssel (März 1999). Über 140 Unternehmen weltweit sind mittlerweile Mitglied der CRISP SIG.

www.crisp-dm.org


Autor: Christian Klein SPSS GmbH Software
E-Mail: cklein@spss.com / www.spss.com
eingestellt am 14. Februar 2002

Weitere Artikel zum Thema: