Die 10 wichtigsten Hadoop-Begriffe, die Sie kennen und verstehen müssen

Autor: Eugene Taylor
Erstelldatum: 10 August 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Die 10 wichtigsten Hadoop-Begriffe, die Sie kennen und verstehen müssen - Technologie
Die 10 wichtigsten Hadoop-Begriffe, die Sie kennen und verstehen müssen - Technologie

Inhalt



Quelle: Trueffelpix / Dreamstime.com

Wegbringen:

Um Big Data wirklich zu verstehen, müssen Sie etwas über Hadoop und die Sprache verstehen, in der es sich befindet.

Big Data, der eingängige Name für große Mengen strukturierter, unstrukturierter oder semi-strukturierter Daten, ist bekanntermaßen schwierig zu erfassen, zu speichern, zu verwalten, zu teilen, zu analysieren und zu visualisieren, zumindest unter Verwendung herkömmlicher Datenbank- und Softwareanwendungen. Deshalb haben Big Data-Technologien das Potenzial, riesige Datenmengen effektiv und effizient zu verwalten und zu verarbeiten. Und Apache Hadoop bietet das Framework und die zugehörigen Technologien für die verteilte Verarbeitung großer Datenmengen über mehrere Computercluster hinweg. Um Big Data wirklich zu verstehen, müssen Sie etwas über Hadoop wissen. Schauen Sie sich hier die Top-Begriffe an, die Sie in Bezug auf Hadoop hören werden - und was sie bedeuten.


Aber zuerst ein Blick auf die Funktionsweise von Hadoop

Bevor Sie sich mit dem Hadoop-Ökosystem befassen, müssen Sie zwei grundlegende Dinge klar verstehen. Das erste ist, wie eine Datei in Hadoop gespeichert wird. Die zweite ist, wie gespeicherte Daten verarbeitet werden. Alle Hadoop-bezogenen Technologien arbeiten hauptsächlich in diesen beiden Bereichen und machen es benutzerfreundlicher. (Grundlagen zur Funktionsweise von Hadoop finden Sie unter Wie Hadoop zur Lösung des Big-Data-Problems beiträgt.)

Nun zu den Begriffen.

Hadoop Common

Das Hadoop-Framework verfügt über verschiedene Module für verschiedene Funktionalitäten, und diese Module können aus verschiedenen Gründen miteinander interagieren. Hadoop Common kann als eine allgemeine Dienstprogrammbibliothek definiert werden, die diese Module im Hadoop-Ökosystem unterstützt. Diese Dienstprogramme sind im Grunde Java-basierte, archivierte Dateien (JARs). Diese Dienstprogramme werden hauptsächlich von Programmierern und Entwicklern während der Entwicklungszeit verwendet.


Hadoop Distributed File System (HDFS)

Das Hadoop Distributed File System (HDFS) ist ein Unterprojekt von Apache Hadoop unter der Apache Software Foundation. Dies ist das Rückgrat des Speichers im Hadoop-Framework. Es handelt sich um ein verteiltes, skalierbares und fehlertolerantes Dateisystem, das sich über mehrere gängige Hardwarekomponenten erstreckt, die als Hadoop-Cluster bezeichnet werden. Das Ziel von HDFS ist es, ein riesiges Datenvolumen zuverlässig und mit hohem Datendurchsatz auf Anwendungsdaten zuzugreifen. Das HDFS folgt der Master / Slave-Architektur, wobei der Master als NameNode und die Slaves als DataNodes bezeichnet werden.

Karte verkleinern

Hadoop MapReduce ist auch ein Unterprojekt der Apache Software Foundation. MapReduce ist eigentlich ein rein in Java geschriebenes Software-Framework. Hauptziel ist es, große Datenmengen in einer verteilten Umgebung (bestehend aus Standardhardware) vollständig parallel zu verarbeiten. Das Framework verwaltet alle Aktivitäten wie Job Scheduling, Monitoring, Executing und Re-Executing (bei fehlgeschlagenen Tasks).

HBase

Apache HBase ist als Hadoop-Datenbank bekannt. Es ist ein säulenförmiger, verteilter und skalierbarer Big Data Store. Es ist auch als eine Art NoSQL-Datenbank bekannt, bei der es sich nicht um ein relationales Datenbankverwaltungssystem handelt. HBase-Anwendungen sind ebenfalls in Java geschrieben, basieren auf Hadoop und laufen auf HDFS. HBase wird verwendet, wenn Sie Lese- / Schreibzugriff in Echtzeit und direkten Zugriff auf Big Data benötigen. HBase basiert auf Googles BigTable-Konzepten.

Bienenstock

Apache Hive ist ein Open-Source-Data-Warehouse-Softwaresystem. Hive wurde ursprünglich von entwickelt, bevor es unter die Apache Software Foundation kam und Open Source wurde. Es erleichtert die Verwaltung und Abfrage großer Datenmengen auf verteiltem Hadoop-kompatiblem Speicher. Hive führt alle seine Aktivitäten mithilfe einer SQL-ähnlichen Sprache aus, die als HiveQL bezeichnet wird. (Weitere Informationen finden Sie in einer kurzen Einführung in Apache Hive and Pig.)

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Apache Pig

Pig wurde ursprünglich von Yahoo für die Entwicklung und Ausführung von MapReduce-Jobs für eine große Menge verteilter Daten initiiert. Jetzt ist es ein Open Source-Projekt unter der Apache Software Foundation geworden. Apache Pig kann als Plattform für die effiziente Analyse sehr großer Datenmengen definiert werden. Die Schweineinfrastrukturebene erstellt Sequenzen von MapReduce-Jobs für die eigentliche Verarbeitung. Die Sprachebene "Schweine" ist als "Schweinelatein" bekannt und bietet SQL-ähnliche Funktionen zum Ausführen von Abfragen für verteilte Datensätze.

Apache Spark

Spark wurde ursprünglich vom AMPLab an der UC Berkeley entwickelt. Es wurde im Februar 2014 zu einem Apache-Top-Level-Projekt. Apache Spark kann als Open-Source-Framework für allgemeine Zwecke mit Cluster-Computing definiert werden, das die Datenanalyse erheblich beschleunigt. Es basiert auf dem verteilten Hadoop-Dateisystem, ist jedoch nicht mit dem MapReduce-Framework verknüpft. Die Leistung von Sparks ist im Vergleich zu MapReduce viel schneller. Es bietet High-Level-APIs in Scala, Python und Java.

Apache Cassandra

Apache Cassandra ist eine weitere Open-Source-NoSQL-Datenbank. Cassandra wird häufig für die Verwaltung großer Mengen strukturierter, semi-strukturierter und unstrukturierter Datenbereiche in mehreren Rechenzentren und Cloud-Speichern verwendet. Cassandra basiert auf einer "masterlosen" Architektur, was bedeutet, dass das Master / Slave-Modell nicht unterstützt wird. In dieser Architektur sind alle Knoten gleich und die Daten werden automatisch und gleichmäßig auf alle Knoten verteilt. Cassandras wichtigste Merkmale sind kontinuierliche Verfügbarkeit, lineare Skalierbarkeit, integrierte / anpassbare Replikation, kein einziger Fehlerpunkt und einfache Bedienung.

Noch ein Resource Negotiator (YARN)

Ein weiterer Resource Negotiator (YARN) ist auch als MapReduce 2.0 bekannt, fällt jedoch unter Hadoop 2.0. YARN kann als Job Scheduling- und Ressourcenmanagement-Framework definiert werden. Die Grundidee von YARN besteht darin, die Funktionen von JobTracker durch zwei separate Daemons zu ersetzen, die für das Ressourcenmanagement und die Planung / Überwachung verantwortlich sind. In diesem neuen Framework wird es einen globalen ResourceManager (RM) und einen anwendungsspezifischen Master namens ApplicationMaster (AM) geben. Der globale ResourceManager (RM) und der NodeManager (pro Node-Slave) bilden das eigentliche Datenberechnungsframework. Vorhandene MapReduce v1-Anwendungen können auch auf YARN ausgeführt werden. Diese Anwendungen müssen jedoch mit Hadoop2.x-Jars neu kompiliert werden.

Impala

Impala kann als SQL-Abfrage-Engine mit MPP-Leistung (Massive Parallel Processing) definiert werden. Es läuft nativ auf dem Apache Hadoop Framework. Impala ist als Teil des Hadoop-Ökosystems konzipiert. Es verwendet dasselbe flexible Dateisystem (HDFS), dieselben Metadaten, Ressourcenverwaltungs- und Sicherheitsframeworks wie andere Hadoop-Ökosystemkomponenten. Der wichtigste Punkt ist, dass Impala in der Abfrageverarbeitung im Vergleich zu Hive viel schneller ist. Wir sollten uns jedoch auch daran erinnern, dass Impala für die Abfrage / Analyse eines kleinen Datensatzes gedacht ist und hauptsächlich als Analysetool für verarbeitete und strukturierte Daten entwickelt wurde.

Hadoop ist ein wichtiges Thema in der IT, aber es gibt Leute, die skeptisch sind, ob es langfristig realisierbar ist. Lesen Sie mehr in Was ist Hadoop? Eine Zyniktheorie.