Digitalisierung und Innovation/ 07.10.2021 / Patrick Arnold

Aufbau einer Cloud-Plattform für Datenanalysen und KI-Innovation

Durch Künstliche Intelligenz (KI) und Machine Learning (ML) lassen sich in großen Datensätzen Zusammenhänge entdecken, die dem menschlichen Auge in aller Regel verborgen bleiben. Immer mehr Unternehmen wollen diese Technologie daher für sich nutzen.

Dies setzt allerdings auch voraus, dass sie ihre IT-Architektur auf diesen Anwendungsfall hin ausrichten beziehungsweise modernisieren. Denn die Systemlandschaft im Hintergrund muss in der Lage sein, die riesigen Datenmengen schnell zu verarbeiten und im Hinblick auf ihr dynamisches Wachstum zu skalieren.

Dieser Blogartikel beschreibt die Anforderungen an eine solche Architektur und zeigt auf, wie sie sich mit dem Cloud-Angebot eines Hyperscalers – in unserem Beispiel Google Cloud – implementieren lässt.

Herausforderungen bei KI-gestützter Datenanalysen

Traditionelle IT-Architekturen, wie sie in vielen Unternehmen noch zu finden sind, stoßen im Zusammenhang mit KI und Big Data schnell an ihre Grenzen. Eine moderne Architektur ist hingegen in der Lage, die folgenden Anforderungen zu erfüllen:

  • Hohe Skalierbarkeit – Die Datenmenge wächst täglich schneller an; hierauf müssen die Ressourcen dynamisch angepasst werden, um stets die richtige Menge vorzuhalten und somit eine hohe Effizienz bei den Betriebskosten zu erzielen.
  • Anpassung an die (Daten-)Organisation – Damit KI-gestützte Datenanalysen ihr Potenzial ausschöpfen können, müssen Daten aus allen Unternehmensbereichen mit einfließen. Darauf muss sich sowohl die Organisation im Sinne einer „Datenkultur“ einstellen als auch die IT-Architektur, indem sie eine Einbindung verschiedenster Datenquellen ermöglicht.
  • Unstrukturierte Daten – Ein immer größerer Anteil der online generierten Daten ist unstrukturiert, z.B. in Form von Bildern, Videos und Audio-Dateien. Die Architektur muss strukturierte wie auch unstrukturierte Daten verarbeiten können.
  • Zentralisierung – Gerade in den Bereichen KI und ML sind Know-how und Personalressourcen stark limitiert. Daher müssen die Daten zentral bereitgestellt werden.

Diesen Anforderungen an die IT-Architektur stehen in der Praxis häufig mehrere Hindernisse gegenüber. Zum einen geht es dabei um Legacy-Systeme, die auf obige Punkte schlichtweg nicht ausgelegt sind. Schwache Datenqualität und ein erschwerter Zugang zu ihnen sind ein weiterer limitierender Faktor. Übertrieben restriktive Datenschutz- und Sicherheitsbestimmungen können dies zusätzlich noch verschärfen.

Vom Data Lake zum zentralen Enterprise Data Warehouse (EDWs)

In vielen Unternehmen ist – wenn überhaupt – bisher nur ein Data Lake vorhanden, in dem die Daten undifferenziert zusammenfließen. Analysten müssen dabei „im Trüben fischen“, um die für sie relevanten Datensätze herauszusuchen. Dies zieht einen höheren Zeitaufwand sowie eine geringere Datenqualität nach sich.

In einem modernen Enterprise Data Warehouse (EDW) werden hingegen die relevanten Datensätze vordefiniert und für die spätere Analyse zur Verfügung gestellt. Um die oben genannten Anforderungen zu erfüllen, sollte dieses in einer Cloud-Plattform bereitgestellt werden. Dafür bedarf es der folgenden fünf Schritte:

  1. Migration des bestehenden Data Lake bzw. Data Warehouse in die Cloud
  2. Aufbrechen der Silostruktur, Verfügbarmachen der Analysefunktionen und Aufbau einer Datenkultur im gesamten Unternehmen
  3. Einführung Kontext-bezogener Entscheidungsfindung in Echtzeit
  4. „Leap-Frogging“ (d.h. sprunghafte Weiterentwicklung) hin zu einer Ende-zu-Ende-umfassenden KI-Lösung
  5. Entfesseln daten-getriebener Innovationen durch Bereitstellung einer geeigneten KI-Lösung

Sind alle fünf Schritte erfolgreich abgeschlossen, erhält das Anwenderunternehmen eine mächtige Lösung, um entscheidungsrelevante Erkenntnisse aus allen Datenströmen zu gewinnen.

Aufbau und Vorteile einer skalierbaren Datenplattform mit KI

Eine adäquate Cloud-Plattform lässt sich vorzugsweise mit einem der drei Hyperscaler – Google Cloud, Amazon Web Services (AWS) oder Microsoft Azure – aufbauen und bereitstellen. Die genannten Anbieter haben den Vorteil, dass sie über eine sehr große, hochverfügbare und skalierbare Infrastruktur verfügen.    

Orchestriert wird die Plattform nach den Prinzipien von Continuous Integration / Continuous Delivery (CI/CD). Hierdurch werden bisherige Integrationsprobleme überwunden, sodass die beteiligten Entwickler ihren Code nahtlos in den bestehenden einpflegen können. In fast allen Phasen der Anwendungsentwicklung kommt dabei Automatisierung zum Tragen.

Durch eine solche CI/CD-Pipeline entsteht ein kontinuierlicher Datenstrom, der in Erkenntnisse für die relevanten Entscheidungen mündet. Die Lösung kann in nahezu Echtzeit auf Veränderungen reagieren und Feedback-Schleifen berücksichtigen. Hierdurch lassen sich zum Beispiel „Frühwarnsysteme“ realisieren, die ein entschiedenes Handeln bei rapiden Veränderungen ermöglichen.

Zuletzt sollte nicht unerwähnt bleiben, dass Business Analytics keine rein technische Aufgabe ist und KI-/ML-Modelle keineswegs „von selbst“ zu Ergebnissen führen. Die Kontextualisierung von Analyse-Ergebnissen sowie das Verständnis für sie als Entscheidungsgrundlagen, sind nach wie vor beim Menschen – genauer, im Management – angesiedelt.

Dennoch werden Unternehmen, die heute in die entsprechende Infrastruktur investieren, früher in der Lage sein, die Erkenntnisse aus KI-Analysen für sich zu nutzen. Damit wird sich im Lauf der Zeit ihr Wettbewerbsvorteil gegenüber denjenigen Mitbewerbern immer weiter vergrößern, welche den Datenschatz in ihrem Unternehmen nicht heben wollen oder können.

--

Ein ausführlicher Beitrag von Patrick Arnold zu diesem Thema ist bereits als Gastbeitrag bei Cloud Computing Insider erschienen.

Einblicke

Shaping the future with our clients