Gegen Dark Data im Unternehmen

Vorhandenes Wissen richtig nutzen

Daniel Fallmann

© Shutterstock / pathdoc

Unter Analysten gilt das automatisierte Auswerten, Verknüpfen und gewinnbringende Aufbereiten von Informationen aus sämtlichen Datenquellen im Unternehmen als das nächste große Ding. Moderne Enterprise-Search-Lösungen vereinen schon heute Techniken wie Web Harvesting, Entities, Machine/Deep Learning oder Methoden der künstlichen Intelligenz, um das im Unternehmen vorhandene Wissen in seiner gesamten Breite und Tiefe nutzbar zu machen. Alle Unternehmensebenen profitieren von leichter zugänglichen Informationen, die Geschäftsprozesse beschleunigen und fundiertere Entscheidungsgrundlagen liefern.

Der Seufzer von Siemens-Chef Heinrich von Pierer ging um die Welt: „Wenn Siemens wüsste, was Siemens weiß“, so der Vorstandschef bei einer Pressekonferenz in München im Jahr 1995, „dann wären unsere Zahlen noch besser.“ Wo wir auch schon beim Thema wären. Bereits 1995, in dem Jahr erschien Windows 95 und die Intel-Pentium-Prozessoren wurden eingeführt, war dem Siemens-Vorstandschef bereits bewusst, dass es versteckte Informationen im Unternehmen gab, die wahrscheinlich zum Geschäftserfolg des Unternehmens beitragen könnten. Diese Erkenntnis ist heute präsenter denn je. In Unternehmen schlummern große Mengen an Informationen und sie werden täglich mehr (Abb. 1).

Abb. 1: Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte) (Quelle: Statista)

Abb. 1: Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte) (Quelle: Statista)

Durch den zunehmenden Einfluss der Digitalisierung werden unabhängig von der Branche noch mehr Daten produziert, die unstrukturiert gespeichert werden und in verschiedenen Formaten wie Videos, Bilddateien oder Messenger-Nachrichten vorhanden sind. Diese Anhäufung (Big Data) von strukturierten, unstrukturierten und semi-strukturierten Daten hat auch zur Folge, dass ein Teil davon durchs Raster fällt. Gartner wählte dafür den Ausdruck Dark Data, also nicht analysierte Informationen oder Informationen, die gespeichert wurden und danach aber nicht mehr verwendet werden. In diesen Daten schlummert oft riesiges Potenzial, um die Wettbewerbsfähigkeit des Unternehmens zu erhöhen.
Abgesehen von der vorgegebenen Datenspeicherung hat jede Fachabteilung ganz individuelle Ansprüche, wenn es um ihre Informationen geht. Beispielsweise interessiert die Einkaufsabteilung welche Zertifikate ein Lieferant hält. Während eine Wartungscrew wissen möchte, welche Informationen zu dem Bauteil X vorhanden sind, das in der Maschine Y verbaut ist. Die Customer-Care-Leitung stellt sich dagegen vielleicht die Frage, ob gleichartige Anfragen auf unterschiedliche Weise beantwortet werden.

Mit den entsprechenden Tools ist es heute ohne großen Aufwand möglich, vorhandene Daten zu analysieren, zu verknüpfen und die vorhandenen Informationen abzurufen. Enterprise-Search-Systeme blicken dabei auf eine lange Tradition zurück und bilden die Basis für modernes Wissensmanagement. Doch die Anforderungen an die Systeme haben sich in den letzten Jahren massiv verändert. Vorgelebt und gelernt von Internetsuchmaschinen geht der Trend weg von der Stichwortsuche in Richtung mehr Interaktion mit dem System, wie auch der Forrester-Analyst Mike Gualtieri mit der Aussage „Keyword search is obsolete“ untermauert. Mitarbeiter erwarten vom System also Antworten auf komplexen Fragestellungen mit klarem Fokus auf den maximalen Output für das Unternehmen.

Bleibt nur noch zu klären, welche Systeme die gewünschten Antworten liefern können. Das Analystenhaus Gartner sieht die Zukunft in Systemen, die die drei Vs Variability, Veracity und Value erfüllen (Veränderlichkeit, Wahrhaftigkeit und Wertigkeit; Kasten: „Definition der Vs“).

Definition der Vs

  • Variability: Within any given dataset, establish if the contextualizing structure of the data stream is regular and dependable, subject to unpredictable change from record to record, or even within each individual transaction. If so, decide how the nature and context of text data content (as well as other forms, such as sound and video) be interpreted in a way that becomes meaningful for the required business analytic-ready models.
  • Veracity: Verify that the data is suitable for its intended purpose and usable within the analytic model. Decide whether the data can be tested against a set of defined criteria to establish the degree of confidence and trustworthiness. Capture the business procedures that enable the data to be profiled and validated. If problems are identified, undertake the right activities to remediate the data before any analysis is performed.
  • Value: Identify the purpose, scenario or business outcome that the analytic solution seeks to address. Confirm what questions are to be answered, and what actions will be taken as a result. Look at what benefits are anticipated from collecting and analyzing the data and see if there are new and innovative ideas that can be tested and validated by exploring the data in a different way. Ensure that the analysis to be performed meets ethical considerations, without reputational and/or compliance implications.

Gemeint sind hier selbstlernende Systeme mit heute schon einem Hauch von künstlicher Intelligenz kombiniert mit leistungsfähiger Hardware. Besonders im Hinblick auf die geänderten Anforderungen in Unternehmen werden diese Systeme zunehmend an Bedeutung gewinnen. IT-Analysten prognostizieren, dass bis zum Jahr 2018 rund 30 Prozent aller Unternehmenssuchabfragen mit den Worten „Was“, „Wer“, „“Wie“ oder „Wann“, beginnen. Außerdem werden rund 30 Prozent der Interaktionen mit Systemen auf Konversation mit intelligenten Maschinen basieren. Des Weiteren nehmen sie an, dass anstelle von 40 Prozent nur noch zehn Prozent aller Unternehmen rein nach strukturierten Daten suchen werden.

Diese kognitiven Computersysteme bringen Wissensmanagement basierend auf den bekannten Enterprise-Search-Systemen auf eine neue Ebene, denn sie ermöglichen die Analyse von großen Datenmengen. Sie verfügen über die relevanten Methoden, um Daten zu beschreiben, zu verstehen zu organisieren, zu analysieren und daraus die existierenden oder synthetisierten Informationen entweder proaktiv oder interaktiv im richtigen Kontext und in der bestmöglichen Darstellung für die Wissensarbeiter zur Verfügung zu stellen. Abhängig vom Anwendungsfall kann die Sicht dabei variieren, z. B. auf einen Kunden oder auf eine Komponente.

Wissensmanagement in Unternehmen

Um diesen Anforderungen gerecht zu werden, setzen immer mehr Unternehmen Wissensmanagementsysteme ein. Ein modernes Wissensmanagementsystem definiert sich vor allem durch semantische Verknüpfung verschiedener Datenquellen, um relevantes Wissen aus der Menge an Informationen herauszufiltern. Basierend auf klassischen Enterprise-Search-Anwendungen (Suche via Suchfeld) leisten sie viel mehr. Durch semantische Analysen, die Berechnung von Relevanzmodellen und Maschine Learning hält künstliche Intelligenz Einzug in die Unternehmen. Damit ist es möglich, nicht nur statische Repräsentationen von Daten zu realisieren, sondern dynamisch die Relevanz der hinterlegten Daten aus den Kundenverhalten abzuleiten und die Benutzeroberfläche automatisch danach anzupassen. Bei einer Suche wird automatisch eine 360-Grad-Sicht auf Geschäftsfälle, Korrespondenzen, Produkte, Aufträge oder Lieferanten generiert, visualisiert und im richtigen Kontext (Benutzer, Abteilung, Uhrzeit, Suchbegriff usw.) dargestellt. Dabei ist es irrelevant, ob es sich um strukturierte Daten, etwa aus einem Dokumentenmanagementsystem, einer Fachanwendungen oder unstrukturierte Daten wie File-Systeme, Cloud-Plattformen oder E-Mails handelt. Die Systeme stellen darüber hinaus proaktiv relevante Informationen zur Verfügung, die im richtigen Kontext zur richtigen Zeit angeboten werden. Explizite wie implizite Abfragen erfolgen dabei stets unter Berücksichtigung der Zugriffsberechtigungen einzelner Abteilungen oder Anwender, die bei jeder Abfrage geprüft werden.
Auf diese Weise bekommen die Mitarbeiter genau jene Informationen angezeigt, die für sie relevant sind und die sie auch sehen dürfen. Idealerweise kann sich jede Abteilung ohne Programmieraufwand ihre bevorzugten Abfragen und Suchmuster selbst erstellen und spezifisch anpassen. Somit werden Fragestellungen wie „Welche Lieferanten sind nach ISO 27001 zertifiziert?“ einfach auf Knopfdruck auszuwerten sein, auch wenn das Zertifikat vielleicht noch nicht in der Fachanwendung erfasst wurde, sondern beispielsweise noch als Anhang in einer E-Mail liegt. Das Analystenhaus Gartner bezeichnet diese intelligenten Anwendungen als Insight Engines, die klassische wortbasierte Suchmaschinen zunehmend ablösen werden.

Schlummerndes Potenzial

Um eine Vorstellung zu erhalten, wie viele Datenschätze sich vielleicht im Unternehmen verbergen, können folgende allgemeine Fragen gestellt werden:

  • Wie viel ungenutztes Wissen schlummert eigentlich in unserem Unternehmen?
  • Was tun wir aktuell, um dieses Wissen verwertbar und damit (strategisch) nutzbar zu machen?
  • Wie kann ich mit Suche die Intelligenz meines Unternehmens erhöhen?

Unternehmen aber auch Fachabteilungen ist oft gar nicht bewusst auf welchem Datenschatz sie sitzen und welche Möglichkeiten sich eröffnen, einen Mehrwert aus diesen Daten zu generieren. Anzumerken ist, dass es zunehmend die Fachabteilungen sind, die hier eine Vorreiterrolle einnehmen, und sich nach geeigneten Lösungen erkundigen, um ihre Daten auswerten zu können. Sie agieren häufig unabhängig von der Unternehmens-IT und stellen auch das nötige Budget. Letztere wird in diesen Fällen erst spät in den Prozess involviert, meist erst dann, wenn es um die Integration ins Rechenzentrum geht.

Ethische Grundsätze beachten

Der gewissenhafte Umgang mit vorhandenen Daten darf bei all den Vorteilen, die moderne Analyseverfahren für bieten, nicht auf der Strecke bleiben. Die Möglichkeiten wie Daten ausgewertet werden können, sind heute fast unendlich. Gerade im Businessumfeld spielt der verantwortungsvolle Umgang mit Daten eine wesentliche Rolle. Jedes Unternehmen sollte sich daher im Vorfeld überlegen, welche Daten wie ausgewertet werden sollen. Insight Engines bieten natürlich auch die Option, Daten und bestimmte Abfragen als Ausnahme zu definieren.

Integration ins Unternehmen

Hat das Unternehmen eine klare Vorstellung, wo die Insight Engine eingesetzt werden kann, ist es wichtig den richtigen Anbieter zu evaluieren. Die Anbieterlandschaft ist sehr heterogen aufgestellt. Von klassischen traditionellen BI-Anbietern bis zu Newcomern, die erst seit Abkündigung der Google Search Appliance mit Ende 2018 Produkte und Leistungen anbieten, ist alles am Markt vertreten. Dementsprechend vielfältig gestalten sich auch die Lösungsansätze und Integrationsmöglichkeiten. Viele Unternehmen entscheiden sich für eine Appliance-Lösung (Kombination aus Hardware plus Software). Natürlich sind auch Cloud-Lösungen, klassische On-Premise-Softwarelösungen oder Hybridvarianten möglich. Ausschlagegebend ist dabei immer das Gesamtpaket des Anbieters. Eine Appliance ist wesentlich mehr als Software auf Hardware zu installieren und ins Rechenzentrum zu integrieren. Es geht auch um Best Practices für die professionelle Inbetriebnahme, einfache Skalierung, einfache einheitliche Konfiguration, klar definierte SLAs, einen internationalen Support und dadurch ein umfassendes Servicepaket dessen Umfang klar definiert und einfach kalkulierbar ist (Stichwort: Gesamtkostenkalkulation). Daher ist es maßgeblich, dass die Appliance bereits standardmäßig alle Konnektoren (Schnittstellen) für die wichtigsten Datenquellen wie SAP, SharePoint, Salesforce oder Exchange mitbringt und bei Bedarf eine einfache Erweiterung der Konnektoren für spezielle Datenquellen ermöglicht. Das verringert den Aufwand für die IT. Nach der Integration ins Rechenzentrum bestimmt der Administrator, welche Datenquellen angebunden werden. Anschließend startet er die Analyse der Informationen und das Erstellen einer Wissensdatenbank etwa in Form von Indexkatalogen oder Graphen-Datenbanken. Die Abfragen der User werden gegen diese Wissensdatenbank gestellt. Um eine Aktualität der Suchergebnisse zu gewährleisten, die nahezu Echtzeit mit den Originaldaten übereinstimmt, sollte die Lösung ein Producer/Consumer-Szenario beinhalten. Mittels Producer/Consumer können die Indizes in minimalen Intervallen aktualisiert werden. Dabei kümmert sich der Producer um die Analyse, Zuordnung und Aufnahme von neuen oder geänderten Inhalten von Dokumenten im Index. Änderungen und Ergänzungen, also das Delta zum vorigen Index, werden an den Consumer übermittelt. In diesem Zusammenhang spricht man auch von Onlineindex. Da die Anwenderanfragen am Consumer durchgeführt  werden, bleibt die Performance trotz nahezu Echtzeitaktualität des Index zu jedem Zeitpunkt konstant.

Für maximale Ausfallsicherheit empfiehlt es sich, eine Hot-Backup-Appliance in einem anderen Brandabschnitt des Rechenzentrums oder gleich einem anderen Rechenzentrum zu installieren. Nicht zu vergessen, die Usability für die Anwender: Idealerweise wird das Abfragefeld nahtlos in bestehende Anwendungen wie SharePoint oder SAP integriert. Startet der Anwender eine Abfrage, erhält er dort alle für ihn relevanten Ergebnisse optimal dargestellt. Erst wenn Aktionen wie Öffnen ausgeführt werden, wird in die dafür benötigte Anwendung wie etwa Microsoft Word gewechselt.

Fazit

Für die Sicherung der Wettbewerbsfähigkeit gilt es für Unternehmen nun zu Handeln und nicht nur die digitale Transformation voranzutreiben, sondern auch das bereits vorhandene und gesammelte Wissen zu konsolidieren und gewinnbringend einzusetzen. Die technischen Mittel sind längst vorhanden. Sie müssen nur noch richtig eingesetzt werden, um benötigtes Wissen genau zum richtigen Zeitpunkt im richtigen Zusammenhang und in der richtigen Darstellung abrufbar zu machen.

Geschrieben von
Daniel Fallmann
Daniel Fallmann
Daniel Fallmann ist Gründer und Geschäftsführer der Mindbreeze GmbH. Mindbreeze mit Sitz in Linz (Österreich) ist ein Anbieter von Appliances für Enterprise Search, Big Data und Wissensmanagement.
Kommentare

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu: