Anwendungsspezifische Auswahl von Text-Mining-Methoden - Identifikation von Qualifizierungsbedarfen für Servicetechniker

Thies Beinke, Michael Freitag, Nico Nienaber, Annabell Schamann, Klaas Feldmann

Die computergestützte Analyse großer Datenmengen verspricht für unterschiedlichste Anwendungsfälle und Bedarfe erheblichen Nutzen. Ziel dieses Beitrags ist die Entwicklung eines Ansatzes zur Ermittlung geeigneter Text-Mining- Methoden ausgehend vom spezifischen Anwendungsfall. Dieser Ansatz umfasst zwei Phasen, welche den Analytic Hierarchy Process sowie den Text-Mining- Prozess einbeziehen. Für den Anwendungsfall der Identifikation von Qualifizierungsbedarfen von Servicetechnikern wird der Ansatz beispielhaft durchlaufen. Das Ergebnis dieser beispielhaften Betrachtung verdeutlicht, dass die jeweiligen Methoden des Text-Minings bzw. ihre Mehrwerte nicht nur von dem Anwendungsfall, sondern auch stark von der jeweiligen Zielstellung abhängen.

Die zunehmende Komplexität von Produktionssystemen und Instandhaltungstätigkeiten, bedingt durch die steigenden Kundenanforderungen und nicht zuletzt durch die zunehmende Digitalisierung der Arbeitswelt, liefert für den Bereich der Informations- und Kommunikationstechnologien durch stetige Innovationen eine Vielzahl von Chancen [1, 2]. Dies ist begründet durch die Rolle von Informationen, welche die Grundlage jeglicher Entscheidungsprozesse bilden. Durch den stetigen Anstieg der Datenmengen und folglich der Informationsgrundlage stellt die unterstützte Datenanalyse einen wichtigen Gegenstand für zukünftige Entscheidungsprozesse dar. Der Ansatz des Knowledge Discovery in Database, welcher als der Prozess zur Identifikation von neuen, nützlichen und nachvollziehbaren Erkenntnissen aus unterschiedlichen Datensätzen durch die Anwendung verschiedenster Algorithmen beschrieben ist, liefert für unterschiedlichste Anwendungsbereiche erhebliche Potenziale [3, 4].


Bild 1: Erforderliche Qualifikationen und Zertifikate für Servicetechniker der
Offshore-Windenergie [6].

Der Anwendungsbereich, welcher in diesem Beitrag adressiert wird, stellt die Offshore-Windkraftbranche und näher die Identifikation von Qualifizierungsbedarfen der Servicetechniker dar. Der Wettbewerbsdruck im Bereich des Instandhaltungsservices nimmt kontinuierlich zu. Dabei stellt die Qualität der Dienstleistung das entscheidende Differenzierungsmerkmal dar. Die Qualität ist letztlich eine direkte Folge des betriebenen Aufwands für die stetige Weiterentwicklung des Servicepersonals. Die Weiterbildung der Mitarbeiter ist dabei durch öffentliche Vorgaben hinsichtlich der Inhalte sowie zentrale Qualifizierungsstandorte bei dezentralen Servicestationen gekennzeichnet. Dabei steigt die Anzahl der Weiterbildungsangebote rund um Offshore Windenergie in der Nord-West Region Deutschlands stetig [5]. Bedingt durch eine quantitative Deckung des Qualifizierungsbedarfs rückt die Qualität der Qualifizierungsangebote immer mehr in den Vordergrund [6]. Hierbei steht nicht nur die fachliche Qualifizierung, sondern auch vermehrt die Vermittlung von überfachlichen Kompetenzen sowie Führungsverantwortung und Sicherheitsbewusstsein im Vordergrund [5]. Die Aufwendungen für qualitativ hochwertige Weiterbildungsangebote bei zertifizierten Weiterbildungsträgern führen zu erheblichen Kosten für die Instandhaltungsbranche. Diese umfassen je Service-Mitarbeiter pro Jahr 2.000 € bis 3.000 € sowie sechs bis sieben Arbeitstage [6]. Bild 1 stellt diese Qualifizierungsanforderungen an einen Offshore-Servicetechniker übersichtlich dar.


Bild 2: Theoretische Servicezeit und die jeweiligen Verluste der Offshore- Windenergiebranche [6].

Diesen erheblichen Aufwendungen der Qualifizierung steht der Bedarf einer hohen Verfügbarkeit der Offshore-Windenergieanlagen gegenüber [6]. Die Ausfallkosten einer 5 MW Anlage pro Tag werden hierbei auf 13.000 € beziffert [7]. Das Ziel der Instandhaltung ist folglich die Minimierung der Fehlerquote sowie nachhaltige Konsequenzen und Schäden an den Offshore-Windenergieanlagen zu vermeiden [8]. Grundsätzlich wird bei der Durchführung von Instandhaltungen an Offshore-Windenergieanlagen ein anderer Ansatz gewählt als bei Onshore-Windenergieanlagen. Auf See ist der Instandhaltungsprozess wesentlich aufwendiger und kostenintensiver. Den Servicetechnikern ist es aufgrund der großen Entfernung zwischen Festland und Windpark nicht möglich, diese innerhalb kürzester Zeit zu erreichen [9]. Die Transferzeit zum Windpark sowie der Wettereinfluss auf den Transfer wirken sich zusammen mit weiteren Faktoren direkt auf die Reaktionsfähigkeit der Instandhaltung aus. Stillstandzeiten, Geschwindigkeitsverluste und Qualitätsverluste sind neben der Instandhaltung die Faktoren, welche auf die Produktionszeit Einfluss nehmen. Bild 2 stellt eben diesen Sachverhalt dar und hebt die Bedeutung der Instandhaltung für den wirtschaftlichen Betrieb hervor.

Text-Mining als Teil des Knowledge Discovery in Database

Text-Mining stellt eine Teildisziplin des Knowledge Discovery in Database dar, welches große, unstrukturierte bzw. teilstrukturierte textuelle Datensätze (Big Data) mittels systematischer Anwendung von statistischen und linguistischen Methoden computergestützt analysiert. Dies dient der Ermittlung von impliziten Informationen, der Identifikation von Beziehungen zwischen Informationen aus verschiedenen Dokumenten, der Generierung von Hypothesen und deren Überprüfung sowie der Herausarbeitung von Verbindungen, Schnittmengen und Trends [3, 10-12]. Dabei stellt Text-Mining ein interdisziplinäres Themengebiet mit einer Ansammlung diverser Methoden und Algorithmen aus verschiedenen Bereichen (Data Mining, Web Mining, Information Retrieval, Information Extraction, Computational linguistics und Natural Language Processing) dar [13]. Der Prozess des Text-Minings gliedert sich in vier Schritte – die Auswahl des Datenmaterials, die Aufbereitung der Daten, die softwareunterstützte Analyse der Daten und die Aufbereitung der Ergebnisse. In Bild 3 sind die einzelnen Inhalte der jeweiligen Phasen näher beschrieben.


Bild 3: Text-Mining-Prozess [12-15].

In der wissenschaftlichen Literatur lassen sich einzelne Arbeiten mit Ansätzen für die Ermittlung von geeigneten Text-Mining-Verfahren identifizieren. In der Arbeit von Hashimi u. a. [16] werden beispielsweise auf der Grundlage einer Literaturanalyse von 130 Veröff entlichungen im Bereich des Text-Minings Kriterien zur Bestimmung der Nützlichkeit von einzelnen Verfahren identifiziert. Als Ergebnis stellen die Autoren allgemeine Kriterien (u. a. Usability, Umfang, Flexibilität sowie Komplexität) und spezifi sche Kriterien (u. a. Ziel der Forschung, Zufriedenheit und Abkürzungen) vor und merken an, dass die jeweiligen Kriterien stark vom Anwendungsgebiet abhängen.
 

Ansatz zur anwendungsfallorientierten Identifikation von Text-Mining-Methoden und Verfahren

Wie bereits dargestellt, ist die Auswahl von geeigneten Methoden des Text-Minings stark durch den jeweiligen Anwendungsfall geprägt. Der nachfolgend präsentierte Ansatz kommt dieser Forderung nach und besteht aus zwei Phasen. Die erste Phase ist theoretischer Natur und stellt den Anwendungsfall in den Betrachtungsfokus. Mittels des Analytic Hierarchy Process (AHP) fi ndet eine fundierte Vorbetrachtung und Auswahl einzelner Methoden im Kontext des Anwendungsfalls statt. Die zweite Phase orientiert sich an dem beschriebenen Text-Mining-Prozess, welcher mittels Softwarelösungen durchgeführt wird (Bild 4).
Der AHP stellt eine Methode zur Entscheidungsfi ndung dar, welche eine Verbindung von qualitativen und quantitativen Ansätzen ermöglicht [17]. Ziel ist der Aufbau einer Hierarchie zur Schaff ung einer strukturierten Entscheidungsgrundlage. Der Ansatz ermöglicht es, eine Vielzahl von Elementen zu vergleichen, wodurch sichergestellt werden kann, dass eine Konsistenz bei den Antworten vorliegt [18]. Die verschiedenen Prozessschritte des AHP können stark variieren. Für die Integration in den Ansatz zur Identifikation geeigneter Text-Mining- Methoden werden sechs Schritte adressiert (Bild 4). Der erste Schritt stellt die Zieldefi nition dar. Hierzu ist der Anwendungsfall klar abzugrenzen. Das Ergebnis dieses ersten Schritts stellt ein Leitfaden dar. Nachfolgend werden ausgehend von der Zielstellung die Elemente strukturiert. Hierzu wird die Problemstellung in ihre Bereiche und Subbereiche aufgegliedert. Mithilfe einer Baumstruktur wird dies sowie die betrachteten Text-Mining-Methoden übersichtlich dargestellt. Mittels einer Evaluationsmatrix werden im nachfolgenden Schritt die Bereiche und Subbereiche hinsichtlich ihres Mehrwerts zur Problemlösung sowie die Text-Mining-Methoden hinsichtlich ihres Mehrwerts für jeden Subbereich paarweise verglichen. Das Ergebnis dieses Schritts stellt eine relative Bewertung der Elemente zueinander dar. Eine nachfolgende Konsistenzprüfung zur Fehlervermeidung folgt in Prozessschritt vier. Die abschließenden Schritte fünf und sechs stellen die Ermittlung der Prioritäten der einzelnen Methoden zur Zielerreichung sowie die Auswahl der nachfolgend in Phase zwei zu betrachtenden Methoden dar.
 


Bild 4: Ansatz zur anwendungsfallorientieren Identifi kation von
geeigneten Text-Mining-Methoden.

Anwendung des Ansatzes zur Identifikation von Text-Mining-Methoden

Der Anwendungsfall im Rahmen dieses Beitrags stellt die Ermittlung von Qualifi zierungsbedarfen für die Instandhaltung von Servicetechnikern für die Off shore-Windenergie dar. Folglich lässt sich im ersten Schritt der Phase „Auswahl von Text-Mining- Methoden“ eben dies als Ziel benennen. Durch die Betrachtung der Inhalte der Dokumente in der Instandhaltung lässt sich die Zielstellung im zweiten Schritt in zwei Bereichen diff erenzieren: Ersterer stellt die Betrachtung einfacher Fehler im Umgang mit Dokumenten dar. Dazu gehören beispielsweise Fehler in den Bereichen Rechtschreibung, Verwendung falscher Begriff e und die Nutzung falscher Verweise auf andere Dokumente. Auff älligkeiten in der Instandhaltungstätigkeit und ihrer Dokumentation beinhalten den zweiten Bereich. Subbereiche stellen hier beispielsweise Unterschiede im Ablauf zwischen einzelnen Technikern, Fehler von Technikern (Techniker ist nicht dem regelkonformen Ablauf des Plans gefolgt), Unterschiede von Beobachtungen und tatsächlich getätigten Maßnahmen (Fehler nicht korrekt identifiziert oder Beobachtungen falsch interpretiert), die Aktualisierung des Maßnahmenkatalogs nach erstmalig getätigten Maßnahmen und die Anwendung verschiedener Maßnahmen bei dem gleichen Problem dar.
Beispielhaft wird für die Anwendung des dritten Schritts der ersten Phase des Konzepts der paarweise Vergleich der Text-Mining-Methoden für den Subbereich „Falscher Verweis auf andere Dokumente“ betrachtet. Bei Verweisen können durch das Information Retrieval bestimmte Stichwörter gesucht werden, die im Zusammenhang mit Verweisen verwendet werden. Diese könnten z. B. sein: „vergleiche mit…“, „siehe…“ oder Ähnliche. Außerdem kann Information Retrieval Dokumente liefern, die den Verweis enthalten, oder die Dokumente, auf die verwiesen wird. Information Extraction ermöglicht ein ähnliches Vorgehen, indem durch das Trainieren von Information Extraction die Verwendung von Verweisen gelernt wird. Durch Text Summarization können die Sätze in der Nähe der Verweise zusammengefasst werden und mit dem Dokument, auf welches verwiesen wird, verglichen werden und folglich eine Überprüfung durchgeführt werden. Text Categorization ermöglicht die Prüfung, ob die Dokumente der potenziell gleichen Kategorie angehören (z. B. Schmiermaßnahmen o. Ä.). Da sich der Verweis jedoch nur auf einen kleinen Teil des Dokuments beziehen kann, ist diese Methode weniger hilfreich zu bewerten. Text Clustering liefert für diesen Subbereich keinen Mehrwert, da Instandhaltungsdokumente i. d. R. kategorisiert sind.
Die weitere Analyse der Subbereiche ergibt für die betrachtete Zielstellung, dass die Methode des Text Summarization in Summe den größten Mehrwert für die Instandhaltung liefern kann. Letztlich ist aber je nach Subbereich eine Auswahl vorzunehmen. Bild 5 stellt dies für die benannten Subbereiche dar.

 


Bild 5: Ergebnisse der Phase Methodenauswahl.

Zusammenfassung und Ausblick

Zu Beginn dieses Beitrags wurden die Rahmenbedingungen der Qualifizierung von Offshore- Servicetechnikern vorgesellt und der Gegenstand der Text-Minings beschrieben und verortet sowie der Prozess des Text-Minings präsentiert. Darauf aufbauend wurde ein Vorgehen zur Identifikation von geeigneten Text-Mining-Methoden präsentiert und anhand des Anwendungsfalls „Qualifizierung von Offshore-Servicetechnikern“ die erste Phase dieses Ansatzes beispielhaft durchgeführt. Das Ergebnis hat bestätigt, dass die Mehrwerte der einzelnen Text-Mining-Methoden von der jeweiligen Zielstellung abhängen. Allgemein ist folglich zu konstatieren, dass sich dieser Ansatz auch für weitere Anwendungsfälle zur Analyse von sehr großen textuellen Datenmengen eignet. Ausgehend von den Ergebnissen dieses Beitrags bedarf es in der zukünftigen Betrachtung der Umsetzung des Verfahrens in der Praxis und im Speziellen in der zweiten Phase des Ansatzes der Einbeziehung realer Datensätze. Für die Durchführung dieser zweiten Analysephase bietet sich die Nutzung einer Datenanalysesoftware wie beispielsweise KNIME an. Darüber hinaus werden weitere Forschungs- und Entwicklungstätigkeiten in den Bereichen Analyse weiterer Anwendungsfelder, Erweiterung der Bewertung um eine absolute Bewertung der Methoden sowie Erweiterung der Kriterien für den Anwendungsfall avisiert.

Dieser Beitrag entstand im Rahmen des Verbundprojekts QUEST – Gamification for Qualification of Offshore Wind Energy Service Technicians (FKZ: FUE0590B), gefördert von der WfB – Wirtschaftsförderung Bremen.

Schlüsselwörter:

Text-Mining, Vorgehensmodell, Offshore-Windenergie, Qualifizierung

Literatur:

[1] Spath, D. (Hrsg): Produktionsarbeit der Zukunft - Industrie 4.0. Fraunhofer-Institut für Arbeitswirtschaft und Organisation. Stuttgart 2013.
[2] Westkämper, E.; Spath, D.; Constantinescu, C.; Lentes, J.: Digitale Produktion. Berlin Heidelberg 2013.
[3] Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P.: From Data Mining to Knowledge Discovery in Databases. In: AI Magazin 17 (1996) 3, S. 37-54.
[4] Runkler, T.A.: Data Mining. Modelle und Algorithmen intelligenter Datenanalyse. 2. Aufl age. Wiesbaden 2015.
[5] Grantz, T.; Molzow-Voit, F.; Spöttl, G.; Windelband, L.: Vocational Education and Training: Research and Practice – Off shore-Kompetenz. Frankfurt am Main 2013.
[6] Beinke, T.; Schamann, A.; Freitag, M.; Feldmann, K.; Brandt, M.: Text-Mining and Gamifi cation for the Qualifi - cation of Service Technicians in the Maintenance Industry of Off shore Wind Energy. In: Park, G.-K.; Kim, S. J. (Hrsg): Proceedings of International Conference on Advanced Intelligent Maritime Safety and Technology. International Association of e-navigation and Ocean Economy. Mokpo, Korea 2016, S. 137-145.
[7] Heidmann, R.: Windenergie und Logistik. Losgröße 1: Logistikmanagement im Maschinen- und Anlagenbau mit geringen Losgrößen, 1. Auflage. Berlin 2015.
[8] Alsyouf, I.: Wind energy system reliability and maintainability, and operation and mainte-nance strategies. In: Sørensen, J.D.; Sørensen, J.N. (Hrsg): Wind energy systems. Optimising design and construction for safe and reliable operation. Oxford Cambridge Philadelphia New Delhi 2011.
[9] Burkhardt, C.: Logistik- und Wartungskonzepte. In: Böttcher, J. (Hrsg): Handbuch Of fshore -Windenergi e . Rechtliche, technische und wirtschaftliche Aspekte. München 2013.
[10] Ester, M.; Sander, J.: Knowledge discovery in databases. Berlin New York 2000.
[11] Hotho, A.; Nürnberger, A.; Paaß, G.: A Brief Survey of Text Mining. In: Ldv Forum 20 (2005) 1, S. 19-62.
[12] Miner, G.; Delen, D.; Elder, J.; Fast, A.; Hill, T.; Nisbet, R.: Practical text mining and statistical analysis for non-structured text data applications. Oxford 2012.
[13] Dang, S.; Ahmad, P.H.: A Review of Text Mining Techniques Associated with Various Application Areas. In: IJSR (International Journal of Science and Research) 4 (2015) 2, S. 2461-2466.
[14] Feldman, R.; Sanger, J.: The text mining handbook. Advanced approaches in analyzing unstructured data. Cambridge New York 2007.
[15] Weiss, S.; Indurkhya, N.; Zhang, T.; Damerau, F.: Text mining. Predictive methods for analyzing unstructured information. New York 2005.
[16] Hashimi, H.; Hafez, A.; Mathkour, H.: Selection criteria for text mining approaches. In: Computers in Human Behavior 51 (2015), S. 729-733.
[17] Cheng, E.W.L.; Li, H.: Analytic hierarchy process. In: Measuring Business Excellence 5 (2001) 3, S. 30-37.
[18] Saaty, Thomas L.: How to make a decision. The analytic hierarchy process. In: European Journal of Operational Research 48 (1990) 1, S. 9-26.