Apache Pig

Autor: Robert Simon
Erstelldatum: 16 Juni 2021
Aktualisierungsdatum: 13 Kann 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Video: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Inhalt

Definition - Was bedeutet Apache Pig?

Apache Pig ist eine Plattform, die zum Analysieren großer Datenmengen verwendet wird. Es besteht aus einer Hochsprache zum Ausdrücken von Datenanalyseprogrammen und der Infrastruktur zum Auswerten dieser Programme. Eines der wichtigsten Merkmale von Pig ist, dass seine Struktur auf eine signifikante Parallelisierung anspricht.


Pig arbeitet auf der Hadoop-Plattform, schreibt Daten in das Hadoop Distributed File System (HDFS) und liest diese aus und führt die Verarbeitung mithilfe eines oder mehrerer MapReduce-Jobs durch. Apache Pig ist als Open Source verfügbar.

Apache Pig ist auch als Pig Programming Language oder Hadoop Pig bekannt.

Eine Einführung in Microsoft Azure und die Microsoft Cloud | In diesem Handbuch erfahren Sie, worum es beim Cloud-Computing geht und wie Microsoft Azure Sie bei der Migration und Ausführung Ihres Unternehmens aus der Cloud unterstützen kann.

Techopedia erklärt Apache Pig

Apache Pig besteht aus zwei Teilen: Pig Latin Language und Pig Engine. Die lateinische Sprache Pig ist eine Skriptsprache, mit der Benutzer veranschaulichen können, wie der Datenfluss von einer oder mehreren Eingaben gelesen und verarbeitet werden muss und wo er gespeichert werden muss.

Einige der wichtigsten Eigenschaften von Pig Latin sind:


  • Einfach zu programmieren: Komplizierte Aufgaben, die aus verschiedenen miteinander verbundenen Datentransformationen bestehen, sind klar als Datenflusssequenzen codiert. Dies macht sie einfach zu schreiben, zu verstehen und zu pflegen.
  • Optimierungsmöglichkeiten: Durch die Art und Weise, in der die Tasks codiert werden, kann das System die automatische Ausführung optimieren. Auf diese Weise kann der Benutzer auf die Semantik anstatt auf die Effizienz achten.
  • Erweiterbarkeit: Benutzer dürfen eigene Funktionen zur Durchführung von Sonderverarbeitungen erstellen. Die Pig-Engine ist für die Ausführung des in Pig Latin geschriebenen Datenflusses verantwortlich. Ähnlich wie bei einem relationalen Datenbankmanagementsystem (RDBMS) besteht Apache Pig aus einem Parser, einem Optimierer und einer Typprüfung sowie Operatoren, die die Datenverarbeitung durchführen. Pig enthält keine Transaktionen, keinen Datenkatalog oder die Fähigkeit, die Datenspeicherung direkt zu handhaben oder das Ausführungsframework zu verwenden.