Was sind die Vorteile des Hadoop 2.0 (YARN) Frameworks?

Autor: Roger Morrison
Erstelldatum: 18 September 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn
Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Inhalt


Quelle: Jim Hughes / Dreamstime.com

Wegbringen:

YARN ist eine signifikante Verbesserung gegenüber dem Hadoop 1.0-Framework. Hier untersuchen wir einige der Vorteile, die es gegenüber seinem Vorgänger hat.

Seit der Einführung des Big-Data-Konzepts durchlief es mehrere Evolutionsphasen. Hadoop wurde 2005 mit einigen anfänglichen Funktionen wie der MapReduce-Verarbeitungsengine eingeführt, mit der umfangreiche Datenverarbeitungs-Workloads in Clustern verteilt werden konnten. Hadoop selbst hat viele Veränderungen erfahren und fortschrittliche Frameworks und Methoden entwickelt.

YARN ist eine Kernkomponente von Hadoop 2.0. Grundsätzlich werden die Ressourcen in einer Clusterumgebung verwaltet. Der YARN-Broker interagiert (im Auftrag der Anwendungen) mit den Rechenressourcen und weist jeder Anwendung Ressourcen zu, die auf unterschiedlichen Filterkriterien basieren.

In diesem Artikel werden die wichtigsten Vorteile von YARN gegenüber Hadoop 1.0 erläutert.


Was ist das YARN Framework?

Y.et EINnicht Resource Negotiator ist eine Kernkomponente von Hadoop 2.0, mit der Ressourcen in einer Clusterumgebung verwaltet werden. Das Hadoop YARN-Framework ist eine erweiterte Version von Hadoop 1.0, die eine verbesserte Leistung bietet, die sich positiv auf das Hadoop-Ökosystem und die gesamte Palette der damit verbundenen Technologien auswirkt. Nachdem wir uns mit YARN etwas besser auskennen, schauen wir uns Hadoop 1.0 und YARN genauer an.

Einschränkungen des Hadoop 1.0 Frameworks

Um die Vorteile des YARN-Frameworks zu verstehen, ist es sehr wichtig zu verstehen, wie Hadoop 1.0 funktioniert und welche Einschränkungen dieses Framework aufweist.

Hier kommt die Rolle von JobTracker ins Spiel. Sie verwaltet sowohl die Clusterressourcen als auch die MapReduce-Jobausführung. Kurz gesagt, JobTracker plant und reserviert die Task-Slots und konfiguriert und überwacht jede ausgeführte Task. Wenn eine Aufgabe fehlschlägt, wird ein neuer Steckplatz für den erneuten Start der Aufgabe zugewiesen. Sobald eine Aufgabe abgeschlossen ist, gibt JobTracker den Platz für andere Aufgaben frei und bereinigt die temporären Ressourcen.


Hauptnachteile des obigen Ansatzes:

  • Verfügbarkeit - JobTracker ist der einzige Verfügbarkeitspunkt in Hadoop 1.0. Das heißt, wenn JobTracker fehlschlägt, werden standardmäßig alle Aufgaben neu gestartet.
  • Eingeschränkte Skalierbarkeit - Da JobTracker mehrere Aufgaben ausführt und auf einem einzelnen Computer ausgeführt wird, werden die anderen verfügbaren Computer nicht verwendet. Dies führt zu einer eingeschränkten Skalierbarkeit.
  • Ressourcennutzung - Beim obigen Ansatz sind die Karten- und Reduzierungsslots vordefiniert. Es kann vorkommen, dass einer der Steckplätze voll ist, die anderen jedoch leer sind. Da die leeren Steckplätze reserviert sind, bleiben sie im Leerlauf, anstatt für die vollen Steckplätze Kompromisse einzugehen. Dies kann zu einem Problem der Ressourcennutzung führen.
  • Ausführen von Nicht-MapReduce-Anwendungen - JobTracker ist eine Anwendung, die für das MapReduce-Framework erstellt wurde. Das Problem tritt auf, wenn eine Nicht-MapReduce-Anwendung versucht, in diesem Framework ausgeführt zu werden. Die Anwendung muss der MapReduce-Framework-Programmierung entsprechen, um erfolgreich ausgeführt zu werden. Einige der häufig auftretenden Probleme sind:
    • Ad-hoc-Abfrage
    • Echtzeitanalyse
    • vorbeifahrender Ansatz
  • Kaskadierungsfehler - Eines der Hauptprobleme in diesem Framework tritt auf, wenn die Anzahl der Knoten mehr als 4000 beträgt. In einem solchen Szenario tritt ein Kaskadierungsfehler auf, der zur Verschlechterung des gesamten Clusters führt.

Dies sind einige der Hauptbeschränkungen bei der Arbeit mit diesem Framework. Es gibt auch einige andere kleinere Einschränkungen, die nicht erwähnt werden. Das YARN-Framework wurde eingeführt, um diese Einschränkungen zu überwinden.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

YARN Framework und seine Vorteile

Das in Hadoop 2.0 eingeführte YARN-Framework soll die Zuständigkeiten von MapReduce teilen und sich um die Cluster-Verwaltungsaufgabe kümmern. Auf diese Weise kann MapReduce nur die Datenverarbeitung ausführen und somit den Prozess optimieren.

YARN bringt das Konzept eines zentralen Ressourcenmanagements ein. Auf diese Weise können mehrere Anwendungen auf Hadoop ausgeführt werden und eine gemeinsame Ressourcenverwaltung nutzen.

Einige der Hauptkomponenten des YARN-Frameworks sind:

  • ResourceManager - Die ResourceManager-Komponente ist der Unterhändler in einem Cluster für alle in diesem Cluster vorhandenen Ressourcen. Darüber hinaus ist diese Komponente einem Anwendungsmanager zugeordnet, der für die Verwaltung von Benutzeraufträgen zuständig ist. Ab Hadoop 2.0 wird jeder MapReduce-Job als Anwendung betrachtet.
  • ApplicationMaster - Diese Komponente ist der Ort, an dem ein Job oder eine Anwendung vorhanden ist. Es verwaltet auch alle MapReduce-Jobs und wird nach Abschluss der Jobverarbeitung abgeschlossen.
  • NodeManager - Die Node Manager-Komponente fungiert als Server für den Jobverlauf. Es ist verantwortlich für die Sicherung der Informationen über die abgeschlossenen Aufträge. Außerdem werden die Aufträge der Benutzer zusammen mit ihrem Workflow für einen bestimmten Knoten verfolgt.

Beachten Sie, dass das YARN-Framework verschiedene Komponenten zum Verwalten der verschiedenen Aufgaben enthält, und sehen Sie sich an, wie die Einschränkungen von Hadoop 1.0 behoben werden.

  • Bessere Ressourcennutzung - Das YARN-Framework verfügt über keine festen Zeitfenster für Aufgaben. Es bietet einen zentralen Ressourcenmanager, mit dem Sie mehrere Anwendungen über eine gemeinsame Ressource gemeinsam nutzen können.
  • Ausführen von Nicht-MapReduce-Anwendungen - In YARN sind die Planungs- und Ressourcenverwaltungsfunktionen von der Datenverarbeitungskomponente getrennt. Auf diese Weise kann Hadoop verschiedene Arten von Anwendungen ausführen, die nicht der Programmierung des Hadoop-Frameworks entsprechen. Hadoop-Cluster können jetzt unabhängige interaktive Abfragen ausführen und eine bessere Echtzeitanalyse durchführen.
  • Abwärtskompatibilität - YARN wird als abwärtskompatibles Framework geliefert, sodass alle vorhandenen MapReduce-Jobs in Hadoop 2.0 ausgeführt werden können.
  • JobTracker gibt es nicht mehr - Die beiden Hauptaufgaben des JobTracker waren Ressourcenmanagement und Auftragsplanung. Mit der Einführung des YARN-Frameworks werden diese nun in zwei separate Komponenten unterteilt:
    • NodeManager
    • Ressourcenmanager

Fazit

Die Einführung des YARN-Frameworks hat es für Hadoop-Entwickler einfacher gemacht, Anwendungen zu erstellen. Jetzt müssen die Anwendungen nicht mehr mit Tools von Drittanbietern implementiert werden. YARN ist eine große Änderung, mit der Benutzer Hadoop 2.0 in Betracht ziehen können, um Anwendungen zu erstellen und Daten effektiver zu bearbeiten. Mit der Zeit wird es weitere Entwicklungen geben, um die Benutzerfreundlichkeit von Hadoop zu verbessern. Derzeit wird das YARN-Framework eine entscheidende Rolle bei der Bewältigung der bestehenden Probleme und der Schaffung einer problemlosen Umgebung spielen, die vielseitiger ist als die frühere Version des MapReduce-Modells.