Die heutige Big Data-Herausforderung beruht auf Vielfalt, nicht auf Lautstärke oder Geschwindigkeit

Inhalt

Drei Vs Big Data
Adressierung des Datenvielfaltproblems
Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Wegbringen:

Zu viele IT-Abteilungen werfen alles, was sie haben, auf das Thema Datenvolumen und -geschwindigkeit und vergessen dabei, das grundlegende Problem der Datenvielfalt anzusprechen.

Die Herausforderung bei der Verwaltung und Nutzung von Big Data besteht aus drei Elementen, so Doug Laney, Research Vice President bei Gartner. Laney stellte vor mehr als einem Jahrzehnt zum ersten Mal fest, dass Big Data ein solches Problem für das Unternehmen darstellt, da es schwer zu verwaltendes Volumen, Geschwindigkeit und Vielfalt einführt. Das Problem ist, dass zu viele IT-Abteilungen alles, was sie haben, auf das Problem von Datenvolumen und -geschwindigkeit werfen und vergessen, das grundlegende Problem der Datenvielfalt anzusprechen.

Bereits im Jahr 2001 schrieb Laney, dass "führende Unternehmen zunehmend ein zentrales Data Warehouse verwenden werden, um ein gemeinsames Geschäftswortschatz zu definieren, das die interne und externe Zusammenarbeit verbessert." Das Thema dieses Vokabulars - und die Variabilität, die Unternehmen davon abhält, es zu erstellen - ist bis heute der am wenigsten behandelte Aspekt des Big-Data-Rätsels. (Sehen Sie sich an, was andere Experten zu sagen haben. Sehen Sie sich die Big Data-Experten an, denen Sie folgen sollten.)

Drei Vs Big Data

Zahlreiche Unternehmen haben Methoden gefunden, um das erhöhte Datenvolumen und die Geschwindigkeit zu nutzen. Beispielsweise können enorme Datenmengen analysiert werden. Natürlich werden diese Daten häufig immer wieder mit denselben Parametern dargestellt. Dies führte zu technologischen Innovationen wie beispielsweise Spaltendatenbanken, die inzwischen von anderen Unternehmen mit gleich großen Beständen ähnlicher Datenelemente in großem Umfang genutzt werden.

Anbieter wie Splunk helfen Unternehmen dabei, schnell erstellte Daten über Protokolldateien zu analysieren, die mehrere tausend Ereignisse pro Sekunde erfassen. Diese Analyse von Ereignissen mit hohem Datenaufkommen zielt auf Anwendungsfälle der Sicherheits- und Leistungsüberwachung ab. Wie bei der Datenvolumenherausforderung wurde die Geschwindigkeitsherausforderung größtenteils durch ausgeklügelte Indizierungstechniken und verteilte Datenanalysen angegangen, mit denen die Verarbeitungskapazität mit zunehmender Datengeschwindigkeit skaliert werden kann.

Wenn es um Abwechslung geht, stehen zu viele Unternehmen immer noch vor einem großen Problem bei ihrer Herangehensweise an die Big-Data-Analyse. Dieses Problem wird von drei Faktoren getrieben: Erstens sind Unternehmen aufgrund von Wachstum, Akquisitionen und technologischen Innovationen, die neue Systeme in die Umgebung integrieren, in einer sehr heterogenen Umgebung gefangen, und diese Heterogenität nimmt nur mit der Zeit zu. Unternehmen müssen eine Vielzahl von Systemtypen nachverfolgen und Zehntausende von Datentypen verwalten sowie dieselben Daten mit unterschiedlichen Nomenklaturen und Formaten darstellen.

Zweitens melden diese Systeme und Datentypen in vielen Fällen sowohl relevante Informationen als auch Informationen, die sicher als irrelevant für das angesprochene Problem herausgefiltert werden können. Es besteht die Notwendigkeit, relevante Informationen zuverlässig zu identifizieren.

Die dritte Dimension der Sortenherausforderung ist die ständige Variabilität oder Veränderung der Umwelt. Systeme werden aktualisiert, neue Systeme eingeführt, neue Datentypen hinzugefügt und neue Nomenklaturen eingeführt. Dies belastet unsere Fähigkeit, die Herausforderung der Datenvielfalt zu meistern. Dies fügt der Sortenherausforderung eine zusätzliche Schicht hinzu. (Weitere Informationen finden Sie unter Big Data: Wie es erfasst, komprimiert und verwendet wird, um Geschäftsentscheidungen zu treffen.)

Adressierung des Datenvielfaltproblems

Um das Problem der Datenvielfalt anzugehen, müssen Unternehmen mit der IT-Domäne beginnen, da diese häufig sowohl die schlimmsten Straftäter als auch die schlimmsten Opfer des Sortenproblems darstellt. Der erste Schritt besteht darin, mit einer umfassenden Definition oder Taxonomie aller IT-Elemente oder Assets zu beginnen. Dies bietet eine Basis oder Grundlage für Verweise in oder über die IT und ermöglicht es Unternehmen, die zunehmende Heterogenität gegenüber einer bekannten Taxonomie oder Terminologie zu verwalten.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Der nächste Schritt besteht darin, die zahlreichen Möglichkeiten zu identifizieren, mit denen dasselbe Objekt in verschiedenen Aufzeichnungssystemen dargestellt wird. Auf diese Weise können IT-Experten einen Blick auf ihre heterogene Umgebung werfen und die Daten in hohem Maße filtern und zu relevanten und verwaltbaren Blöcken komprimieren.

Schließlich müssen IT-Manager die Umgebung ständig auf Änderungen überprüfen, z. B. auf neu eingeführte Elementtypen oder neue Nomenklaturen, die sich auf dasselbe Element beziehen.

Mit diesen Schritten können IT-Organisationen das Problem der Vielfalt bewältigen und fundierte Erkenntnisse gewinnen, die sich IT-Teams in der Vergangenheit entzogen haben. Darüber hinaus wird durch das Management des Sortenproblems der Return on Investment in Tools und Techniken, die die traditionelleren Big-Data-Probleme von Volumen und Geschwindigkeit lösen, erheblich verbessert.