Das CRISP-DM-Modell (Cross Industry Standard Process for Data Mining) ist ein Standardmodell für Data Mining, welches weit verbreitet, branchenübergreifend und öffentlich zugänglich ist.
Dieses Modell wurde um 1996 von namhaften Unternehmen entwickelt und bietet eine sehr gute Möglichkeit, Data-Mining-Projekte sinnvoll abzubilden und abzuarbeiten. Das Modell, an dem wir uns auch in unseren Digitalisierungsprojekten am Fraunhofer IST orientieren, gliedert sich in sechs Phasen, wobei einzelne Prozessphasen auch wiederholt durchlaufen werden können. Im Folgenden werden die einzelnen Phasen kurz beschrieben und beispielhaft mit Projekten des Fraunhofer IST illustriert.
Die erste Phase des CRISP-DM in der Oberflächentechnik ist eine Grundvoraussetzung für ein erfolgreiches Abschließen des Projekts.
In dieser Phase werden die Ziele und Anforderungen des Data Mining festgelegt. Hierbei sollte das Ziel »SMART« sein, d. h »spezifisch, messbar, akzeptiert, realistisch und terminiert«. Nur so lässt sich auch nach Abschluss des Projekts feststellen, ob das Data Mining wirklich erfolgreich war.
Das Fraunhofer IST kann mit seiner jahrzehntelangen Erfahrung und den über 200 Mitarbeitenden auf eine ausgezeichnete Expertise im Bereich der Schicht- und Oberflächentechnik zurückblicken und hat bereits zahlreiche Digitalisierungsprojekte umgesetzt. Hierbei standen unterschiedlichste Fragestellungen im Vordergrund. Ein Beispiel ist die Integration von am Markt befindlichen Umgebungssensoren auf Basis von MQTT (Message Queuing Telemetry Transport) über WLAN zur Erfassung der Raumtemperatur, der Luftfeuchtigkeit und des Luftdrucks, um die genannten Parameter automatisiert in Datenbanken zu speichern und die Mitarbeitenden bei Unter- bzw. Überschreiten von Grenzwerten automatisiert per E-Mail zu informieren.
In der zweiten Phase des Projekts erfolgt dann der Abgleich des Projektziels mit den vorhandenen Datensätzen. In dieser Phase soll entschieden werden, ob die Datenbestände ausreichen, um das Projektziel mit guten Erfolgsaussichten zu erreichen. Falls alle notwendigen Daten vorliegen, kann mit der nächsten Phase begonnen werden. Falls die Daten nicht ausreichend sind, muss entweder das Projektziel neu definiert werden oder die Daten müssen nachgetragen oder -erfasst werden.
Hierbei setzt das Fraunhofer IST unter anderem auf OPC-UA-Server (Open Platform Communications Unified Architecture) zur Datenbereitstellung. Diese Server sind bei Anlagenneuanschaffungen bereits implementiert, aber auch schon erfolgreich in Bestandsanlagen nachträglich integriert worden. Sie ermöglichen eine automatisierte Erfassung und Sicherung der Prozessparameter.
Die Datensicherung erfolgt dabei in zentralen Datenbanken, welche zusätzlich ergänzende Informationen z. B. über die Laborumgebungsbedingungen, Temperatur, Luftfeuchtigkeit und Luftdruck enthalten. Des Weiteren werden am Fraunhofer IST Webseiten als Upload-Front-End für die Mitarbeiter zur Verfügung gestellt. Diese Upload-Seiten nehmen fast beliebige Dokumentformate entgegen und speichern diese in aufbereiteter Form ebenfalls in Datenbanken ab.
Nach Abschluss der ersten beiden Phasen ist sichergestellt, dass die Daten zum Projektziel passen und nun für den nachfolgenden Prozess aufbereitet werden können. Das Ziel der dritten Phase ist, einen Datensatz mit allen notwendigen, korrekt formatierten Werten der Modellierung zu übergeben. Hierzu müssen die oftmals unterschiedlichen Datenquellen zusammengeführt werden, Fehler in den Datensätzen geeignet korrigiert und falls notwendig neue Variablen entwickelt werden.
Am Fraunhofer IST wurden zu diesem Zweck beispielsweise Software-Tools entwickelt, die es ermöglichen, automatisiert große Mikroskopbilder in kleinere Einheiten zu teilen, in Helligkeit, Kontrast und Farbraum zu bearbeiten und darüber hinaus den Dateinamen mit Zusatzinformationen zu versehen. Bei Bedarf kann die Datenaufbereitung innerhalb von Datenbanken erfolgen. Dazu werden neue Tabellen angelegt, welche die agglomerierten Informationen enthalten.
In der Phase der Modellierung wird nach einer passenden Methode zur Lösung der Problemstellung gesucht. Die möglichen Methoden umfassen den Einsatz einfacher Statistik, semi-empirischer Modelle oder Machine-Learning-Algorithmen bis hin zu neuronalen Netzwerken.
Am Fraunhofer IST werden Machine-Learning-Algorithmen in Kooperation mit Partnern zur Vorhersage von Schichteigenschaften und Prozessparametern und neuronale Netzwerke in der Bilderkennung eingesetzt.
In der Modellierungsphase wird ausschließlich das Modell getestet. In der Evaluierungsphase geht es darum, die gesamte Verarbeitungsroutine zu testen und zu klären, ob der Prozess von der Datenaufnahme über die Verarbeitung und Modellierung zuverlässig funktioniert.
Diese sogenannten Pipelines sollten dabei auch robust gegenüber Fehlern wie dem Ausbleiben von Daten tolerant sein.
In der letzten Phase wird das Projekt in die Unternehmensprozesse integriert. Alle am Fraunhofer IST aufgesetzten Digitalisierungsprojekte sind in Docker- Containern aufbereitet und können somit sehr einfach auch auf andere Systeme portiert werden.