Datenkataloge und die Reifung des Marktes für maschinelles Lernen

Autor: Roger Morrison
Erstelldatum: 28 September 2021
Aktualisierungsdatum: 21 Juni 2024
Anonim
Datenkataloge und die Reifung des Marktes für maschinelles Lernen - Technologie
Datenkataloge und die Reifung des Marktes für maschinelles Lernen - Technologie

Inhalt


Quelle: Nmedia / Dreamstime.com

Wegbringen:

Der MLDC-Markt wächst und Unternehmen, die Big Data effektiv mit maschinellem Lernen nutzen möchten, sollten die Top-Namen auf dem Gebiet und ihre individuellen Rankings kennen.

Dies ist das Zeitalter von Big Data. Wir werden mit Informationen überflutet, und Unternehmen sehen es als Herausforderung an, den Wert dieser Informationen zu verwalten und daraus zu extrahieren.

Der heutige Fluss von Big Data beinhaltet nicht nur Volumen, Vielfalt und Geschwindigkeit, sondern auch Komplexität. Wie SAS in "Big Data History" und "Current Considerations" festgestellt hat, ist dies ein Faktor für die Streams "aus mehreren Quellen, wodurch es schwierig ist, Daten systemübergreifend zu verknüpfen, abzugleichen, zu bereinigen und zu transformieren". (Möchten Sie mehr über Big Data erfahren? Schauen Sie sich (Big) Datas Big Future an.)


Um wertvolle Erkenntnisse zu gewinnen, müssen nicht nur so viele Daten wie möglich gesammelt werden, sondern es müssen auch die richtigen Daten gefunden werden. Es ist unmöglich, alles mit manuellen Prozessen durchzuarbeiten. Aus diesem Grund greifen immer mehr Unternehmen auf Datenkataloge zurück, um den Zugang zu Daten zu demokratisieren, Stammesdatenwissen in die Lage zu versetzen, Informationen zu sammeln, Datenrichtlinien anzuwenden und alle Daten schnell für den Unternehmenswert zu aktivieren.

Hier werden Datenkataloge (manchmal auch als Informationskataloge bezeichnet) in das Bild eingefügt. Wie hier definiert, ermöglichen sie "Benutzern, ihre erforderlichen Datenquellen zu erkunden und die untersuchten Datenquellen zu verstehen, und gleichzeitig Organisationen dabei zu unterstützen, mit ihren derzeitigen Investitionen mehr Wert zu erzielen". Dies geschieht unter anderem dadurch, dass der Zugriff auf Daten für verschiedene Benutzertypen, die diese nutzen oder dazu beitragen können, erheblich verbessert wird.


Der Infonomics-Imperativ

Angesichts der dramatisch gestiegenen Nachfrage nach Datenkatalogen Ende 2017 nannte Gartner sie "das neue Schwarz". Sie wurden als schnelle und wirtschaftliche Lösung erkannt, "um die zunehmend verteilten und unorganisierten Datenbestände der Organisationen zu inventarisieren und zu klassifizieren und ihre Informationsversorgungsketten abzubilden". Die Notwendigkeit hierfür ist aufgrund der zunehmenden "Infonomie" entstanden, die es erforderlich macht, bei der Nachverfolgung von Informationen die gleiche Sorgfalt anzuwenden wie bei der Verwaltung anderer Unternehmensressourcen. (Weitere Informationen zu Lieferketten finden Sie unter Wie maschinelles Lernen die Effizienz der Lieferkette verbessern kann.)

Gartners geht mit The Forrester Wave ™: Datenkataloge für maschinelles Lernen, 2. Quartal 2018, auf die Probe. Über die Hälfte der Umfrageteilnehmer in diesem Bericht gab an, die Implementierung ihres Datenkatalogs voranzutreiben. Wahrscheinlich waren sie größtenteils von der Tatsache motiviert, dass in ihrer Organisation jeweils mindestens sieben Datenseen vorhanden waren. Wie die Gartner-Studie zu Datenkatalogen erklärt, sind Datenkataloge besonders nützlich, um "den Nachteil, die Bedeutung und den Wert von Daten" herauszufinden, die normalerweise in nicht klassifizierter Form in einem Datensee verbleiben.

Forrester berichtet, dass mehr als ein Drittel der Daten- und Analyseentscheider im Jahr 2017 mit mindestens 1.000 TB Daten zu tun hatten. Im Vorjahr waren es nur 10 bis 14 Prozent. Das Verwalten von Daten in dieser Größenordnung ist eine wachsende Herausforderung, insbesondere zwei Herausforderungen:

„1) Zusammenführen bestehender Geschäftsprozesse zur Datenquelle, um diese zu analysieren und Erkenntnisse zu implementieren, und 2) Beschaffung, Erfassung, Verwaltung und Steuerung der Daten, während sie wachsen.“

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Was Datenkataloge für Unternehmen tun können

Gartner zeigt auf, auf welche Weise Datenkataloge den Informations- und Produktivitätsfluss eines Unternehmens verbessern können:

  • Sammeln und Übermitteln des aktuellen Inventars von Informationsressourcen, das der Organisation zur Verfügung steht.

  • Erstellen eines gemeinsamen Glossars von Geschäftsbegriffen, das die semantische Interpretation und Bedeutung der Unternehmensdaten definiert und so die Möglichkeit bietet, definitorische Inkonsistenzen zu vermitteln und aufzulösen.

  • Aktivieren einer dynamischen und agilen Umgebung für die Zusammenarbeit, damit Geschäfts- und IT-Kollegen Daten kommentieren, dokumentieren und gemeinsam nutzen können.

  • Transparenz der Datennutzung durch Herkunfts- und Auswirkungsanalyse.

  • Überwachung, Prüfung und Verfolgung von Daten zur Unterstützung von Information Governance-Prozessen.

  • Erfassung von Metadaten zur Verbesserung der internen Analyse der Datennutzung und -wiederverwendung, Abfrageoptimierung und Datenzertifizierung.

  • Informationen innerhalb ihrer geschäftlichen Nutzung konkretisieren, indem erfasst, kommuniziert und analysiert wird, welche Daten vorhanden sind, woher sie stammen, welche Nachteile sie haben, warum sie benötigt werden, wie sie zwischen Prozessen und Systemen fließen, wer dafür verantwortlich ist und was sie bedeuten und welchen Wert es hat.

Dem Gartner-Bericht zufolge ist es wichtig, die Daten korrekt zu identifizieren und für die Schlüsselpersonen in der Organisation zugänglich zu machen, um nicht nur den Weg zu finden, "Datenbestände für digitale Geschäftsergebnisse zu monetarisieren", sondern auch die Vorschriften einzuhalten, unabhängig davon, ob es sich um branchenbezogene Daten handelt. spezifisch wie das Gesetz über die Portabilität und Rechenschaftspflicht von Krankenversicherungen (HIPAA) oder allgemeinerer Art wie die Allgemeine Datenschutzverordnung (DSGVO).

Maschinelles Lernen hinzufügen

Aber nichts ist ohne Nachteile. Bei Datenkatalogen war das Problem der langsame und langwierige Prozess, der darin bestand, sie manuell mit allen Metadaten aufzubauen, die implementiert werden müssen. Hier kommt die maschinelle Lernkomponente ins Spiel.

Die von Forrester bewerteten Datenkataloge werden als MLDCs bezeichnet, da sie die Leistungsfähigkeit des maschinellen Lernens nutzen, einer der Komponenten der KI. Wie in einem Podium Data-Blog erläutert, ist es damit möglich, "ein beständiges Repository für Metadaten zu erstellen und dann ML / AI anzuwenden, um potenziell nützliche Erkenntnisse über zugrunde liegende Datenbestände zu erhalten und verfügbar zu machen".

Wie man wählt

Um Organisationen bei der Beurteilung der Auswahl eines Unternehmens zu unterstützen, wendete Forrester 29 Bewertungspunkte auf die Top-12-MLDCs an. Die Marktführer in diesem Bereich wurden identifiziert als: IBM, Relito, Unifi Software, Alation und Collibra. Die starken Leistungsträger waren Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics und Cloudera. Hortonworks steht allein im Rang "Anwärter".

Man sollte sich jedoch nicht allein an der Gesamtwertung orientieren. In dem Bericht werden die jeweiligen Stärken und Schwächen aufgeschlüsselt. Wenn ein bestimmtes Merkmal wie Forschung und Entwicklung für ein Unternehmen von größter Bedeutung ist, kann es daher Hortonworks für diesen Aspekt als IBM und Colilbra gleichwertig betrachten, da diese drei für diese Qualität die Bestnote von fünf teilen zwei Punkte besser als Alation und Coloudera und vier Punkte besser als Cambridge Semantics.

Dementsprechend empfiehlt der Forrester-Bericht denjenigen, die seinen Bericht als Richtschnur verwenden, nicht anzunehmen, dass das bestplatzierte Unternehmen die beste Wahl für alle ist. Sie sollten die Aufschlüsselung der Bewertung genau beobachten, um herauszufinden, was ihren jeweiligen Anforderungen entspricht.