Hadoop Analytics: Die Kombination von Daten erfordert einen quellenunabhängigen Ansatz

Autor: Laura McKinney
Erstelldatum: 1 April 2021
Aktualisierungsdatum: 16 Kann 2024
Anonim
Hadoop Analytics: Die Kombination von Daten erfordert einen quellenunabhängigen Ansatz - Technologie
Hadoop Analytics: Die Kombination von Daten erfordert einen quellenunabhängigen Ansatz - Technologie


Quelle: Agsandrew / Dreamstime.com

Wegbringen:

Quellenunabhängige Methoden sind ideal für die Verarbeitung von Daten für Hadoop Analytics.

Das Zusammenführen von Datenquellen in Hadoop ist ein komplexes Geschäft. Einige der Gründe hierfür sind:

  • Benutzerdefinierte, quellenspezifische Skripts, die Datenquellen kombinieren, sind problematisch.
  • Die Verwendung von Datenintegrations- oder Data-Science-Tools führt zu viel Unsicherheit.
  • Das Hinzufügen von Daten aus externen Quellen ist nahezu unmöglich.

Heute werde ich diskutieren, wie die Hadoop-Analyse durch quellenunabhängige Technologien verbessert wird, mit denen interne und externe Datenquellen auf einfache Weise kombiniert werden können. Neben der Beschreibung der Funktionsweise quellenunabhängiger Methoden werde ich auch erläutern, warum Hadoop-Analysen integrierte Intelligenz- und Wissenstransferfunktionen, ein Verständnis für Beziehungen und Dateneigenschaften sowie eine skalierbare und leistungsstarke Architektur erfordern.



  • Quellenunabhängige Methoden ein flexibles Entitätsauflösungsmodell enthalten, mit dem neue Datenquellen mithilfe statistisch fundierter, wiederholbarer datenwissenschaftlicher Prozesse hinzugefügt werden können. Diese Prozesse nutzen Algorithmen, um Wissen aus den Daten zu sammeln und es zu bewerten und zu analysieren, um den besten Integrationsansatz zu bestimmen.
    Unabhängig davon, wie fragmentiert oder unvollständig die ursprünglichen Quelldatensätze sind, sollten die Hadoop-Analysetechnologien quellenunabhängig sein und Daten vereinheitlichen können, ohne die Quelldaten zu ändern oder zu manipulieren. Diese Technologien sollten auch Entitätsindizes erstellen, die auf Dateninhalten und Attributen zu Personen und deren Existenz in der Welt basieren. Um dies zu erreichen, müssen sie den Dateninhalt, die Konstellation, die Struktur und die Beziehung der Komponenten zueinander verstehen.
  • Eingebaute Expertise in Data Science und Datenintegration Ermöglicht die Bereinigung, Standardisierung und Korrelation von Daten mit einem hohen Maß an Genauigkeit und Präzision. Mithilfe von Visualisierungstools und -berichten können Analysten Daten bewerten und daraus lernen sowie Systemeinstellungen vornehmen, die auf dem Wissen basieren, das sie aus verschiedenen Schritten des Prozesses gewonnen haben.
  • Beziehungen verstehen zwischen Entitäten führt zu genaueren Entitätsauflösungsprozessen. Da reale Entitäten nicht nur die Summe ihrer Attribute sind, sondern auch ihre Verbindungen, sollte Beziehungswissen verwendet werden, um festzustellen, ob Datensätze identisch sind. Dies ist besonders wichtig für die Bearbeitung von Eckfällen und Big Data.
  • Datencharakterisierung Verbessert die Analyse, Auflösung und Verknüpfung von Daten durch Identifizierung und Bereitstellung von Informationen in Datenquellen. Es kann dabei helfen, den Inhalt, die Dichte und die Verteilung von Daten in Spalten mit strukturierten Informationen zu überprüfen. Die Datencharakterisierung kann auch verwendet werden, um wichtige entitätsbezogene Daten (Name, Adresse, Geburtsdatum usw.) aus unstrukturierten und halbstrukturierten Quellen für die Korrelation mit strukturierten Quellen zu identifizieren und zu extrahieren.
  • Skalierbare, parallele Architektur führt Analysen schnell durch, selbst wenn Hunderte von strukturierten, halbstrukturierten und unstrukturierten Datenquellen sowie Dutzende von Milliarden von Datensätzen unterstützt werden.

Hadoop verändert die Art und Weise, wie die Welt Analysen durchführt. Wenn Hadoop-Ökosystemen neue quellenunabhängige Analysen hinzugefügt werden, können Unternehmen die Punkte über viele interne und externe Datenquellen hinweg verknüpfen und Erkenntnisse gewinnen, die zuvor nicht möglich waren.


Dieser Artikel wurde ursprünglich bei Novetta.com veröffentlicht. Es wurde hier mit Erlaubnis von Schilf gedeckt. Novetta behält sich alle Urheberrechte vor.