7 Wissenswertes zu Hadoop

Video: Hadoop In 5 Minutes | What Is Hadoop? | Introduction To Hadoop | Hadoop Explained |Simplilearn

Inhalt

Wie hat Hadoop angefangen?
Was ist an Hadoop so wichtig?
Was ist Schema on Read?
Was ist Hive?
Welche Daten analysiert Hadoop?
Können Sie ein reales Beispiel für Hadoop geben?
Ist Hadoop bereits veraltet oder verwandelt es sich nur noch?

Quelle: Pressureua / Dreamstime.com

Wegbringen:

Hadoop hilft seit Jahren bei der Analyse von Daten, aber es gibt wahrscheinlich mehr als ein paar Dinge, die Sie nicht darüber wissen.

Was ist Hadoop? Es ist ein gelber Spielzeugelefant. Nicht das, was Sie erwartet hatten? Wie wäre es damit: Doug Cutting - Mitbegründer dieses Open-Source-Softwareprojekts - hat den Namen von seinem Sohn entlehnt, der zufällig seinen Spielzeugelefanten Hadoop nannte. Kurz gesagt, Hadoop ist ein von der Apache Software Foundation entwickeltes Software-Framework, mit dem datenintensives verteiltes Computing entwickelt wird. Und es ist eine Schlüsselkomponente in einem anderen Modewort, von dem Leser scheinbar nie genug bekommen: Big Data. Hier sind sieben Dinge, die Sie über diese einzigartige, frei lizenzierte Software wissen sollten.

Wie hat Hadoop angefangen?

Vor zwölf Jahren baute Google eine Plattform auf, um die gewaltigen Datenmengen, die es sammelte, zu manipulieren. Wie das Unternehmen es oft tut, stellte Google sein Design der Öffentlichkeit in Form von zwei Artikeln zur Verfügung: Google File System und MapReduce.

Zur gleichen Zeit arbeiteten Doug Cutting und Mike Cafarella an Nutch, einer neuen Suchmaschine. Die beiden hatten auch Probleme damit, mit großen Datenmengen umzugehen. Dann holten sich die beiden Forscher die Beiträge von Google. Diese glückliche Überschneidung veränderte alles, indem sie Cutting und Cafarella in ein besseres Dateisystem einführte und eine Möglichkeit bot, die Daten im Auge zu behalten, was schließlich zur Schaffung von Hadoop führte.

Was ist an Hadoop so wichtig?

Das Sammeln von Daten ist heute einfacher als je zuvor. All diese Daten bieten viele Möglichkeiten, aber es gibt auch Herausforderungen:

Massive Datenmengen erfordern neue Verarbeitungsmethoden.
Die erfassten Daten haben ein unstrukturiertes Format.

Cutting und Cafarella entwickelten eine zweiteilige Lösung, um die Herausforderungen zu bewältigen, die mit der Manipulation immenser Mengen unstrukturierter Daten verbunden sind. Um das Problem der Datenmenge zu lösen, verwendet Hadoop eine verteilte Umgebung - ein Netzwerk von Commodity-Servern - und erstellt einen Parallelverarbeitungscluster, der mehr Verarbeitungsleistung für die zugewiesene Aufgabe bringt.

Als Nächstes mussten sie unstrukturierte Daten oder Daten in Formaten verarbeiten, die von relationalen Standarddatenbanksystemen nicht verarbeitet werden konnten. Cutting and Cafarella hat Hadoop so konzipiert, dass es mit jeder Art von Daten arbeitet: strukturiert, unstrukturiert, Bilder, Audiodateien, sogar. In diesem Whitepaper von Cloudera (Hadoop Integrator) wird erläutert, warum dies wichtig ist:

"Indem Sie all Ihre Daten nutzbar machen, nicht nur die Daten in Ihren Datenbanken, können Sie mit Hadoop verborgene Beziehungen aufdecken und Antworten aufdecken, die bisher nur unerreichbar waren. Sie können mehr Entscheidungen auf der Grundlage von harten Daten treffen, anstatt sich Gedanken zu machen und nachzuschauen." bei vollständigen Datensätzen, nicht nur bei Stichproben und Zusammenfassungen. "

Was ist Schema on Read?

Wie bereits erwähnt, ist einer der Vorteile von Hadoop die Fähigkeit, unstrukturierte Daten zu verarbeiten. In gewissem Sinne bedeutet das, "die Dose die Straße runterzutreten". Schließlich benötigen die Daten eine Art Struktur, um sie zu analysieren.

Hier kommt das Schema beim Lesen ins Spiel. Das Schema beim Lesen ist das Zusammenführen des Formats der Daten, des Auffindens der Daten (denken Sie daran, dass die Daten auf mehrere Server verteilt sind) und der Vorgehensweise für die Daten - keine einfache Aufgabe. Es wurde gesagt, dass die Manipulation von Daten in einem Hadoop-System die Fähigkeiten eines Geschäftsanalysten, eines Statistikers und eines Java-Programmierers erfordert. Leider gibt es nicht viele Menschen mit diesen Qualifikationen.

Was ist Hive?

Wenn Hadoop erfolgreich sein sollte, musste die Arbeit mit den Daten vereinfacht werden. Also machte sich die Open-Source-Crowd an die Arbeit und schuf Hive:

"Hive bietet einen Mechanismus, um Strukturen auf diese Daten zu projizieren und die Daten mit einer SQL-ähnlichen Sprache namens HiveQL abzufragen. Gleichzeitig können traditionelle Map / Reduce-Programmierer mit dieser Sprache ihre benutzerdefinierten Mapper und Reducer einbinden, wenn dies unpraktisch oder unpraktisch ist ineffizient, um diese Logik in HiveQL auszudrücken. "
Hive ermöglicht das Beste aus beiden Welten: Datenbankmitarbeiter, die mit SQL-Befehlen vertraut sind, können die Daten manipulieren, und Entwickler, die mit dem Schema für den Lesevorgang vertraut sind, können weiterhin benutzerdefinierte Abfragen erstellen.

Welche Daten analysiert Hadoop?

Webanalyse ist das erste, was mir in den Sinn kommt, Webprotokolle und Webdatenverkehr zu analysieren, um Websites zu optimieren. Zum Beispiel geht es definitiv um Webanalysen, bei denen Hadoop verwendet wird, um die Terabyte an Daten zu sortieren, die das Unternehmen ansammelt.

Unternehmen verwenden Hadoop-Cluster zur Durchführung von Risikoanalysen, Betrugserkennung und Kundensegmentierung. Versorgungsunternehmen analysieren mit Hadoop Sensordaten aus ihrem Stromnetz und optimieren so die Stromerzeugung. Ein großes Unternehmen wie Target, 3M und Medtronics nutzen Hadoop, um den Produktvertrieb, die Bewertung des Geschäftsrisikos und die Segmentierung des Kundenstamms zu optimieren.

Auch Universitäten investieren in Hadoop. Brad Rubin, außerordentlicher Professor an den Graduiertenprogrammen für Software der Universität St. Thomas, erwähnte, dass sein Hadoop-Fachwissen dazu beiträgt, die zahlreichen Datenmengen zu sortieren, die von den Forschungsgruppen der Universität zusammengestellt wurden.

Können Sie ein reales Beispiel für Hadoop geben?

Eines der bekannteren Beispiele ist die TimesMachine. Die New York Times verfügt über eine Sammlung von ganzseitigen TIFF-Zeitungsbildern, zugehörigen Metadaten und Artikeln aus den Jahren 1851 bis 1922, die sich auf Terabytes an Daten belaufen. Derek Gottfrid von NYT verwendet ein EC2 / S3 / Hadoop-System und einen speziellen Code:

Es wurden 405.000 sehr große TIFF-Bilder, 3,3 Millionen Artikel in SGML und 405.000 XML-Dateien aufgenommen, die Artikel rechteckigen Bereichen in den TIFFs zuordnen. Diese Daten wurden in webfreundlichere 810.000 PNG-Bilder (Thumbnails und Vollbilder) und 405.000 JavaScript-Dateien konvertiert. "
Gottfrid erwähnte, dass mit Servern in der Amazon Web Services-Cloud alle für die TimesMachine erforderlichen Daten in weniger als 36 Stunden verarbeitet werden konnten.

Ist Hadoop bereits veraltet oder verwandelt es sich nur noch?

Hadoop gibt es schon seit über einem Jahrzehnt. Das hat viele sagen, es ist veraltet. Ein Experte, Dr. David Rico, sagte: "IT-Produkte sind kurzlebig. In der Hundeperiode sind Googles-Produkte etwa 70, während Hadoop 56 Jahre alt ist."

Was Rico sagt, mag etwas Wahres sein. Es sieht so aus, als würde Hadoop einer umfassenden Überarbeitung unterzogen. Um mehr darüber zu erfahren, lud mich Rubin zu einem Treffen der Twin Cities Hadoop User Group ein. Das Diskussionsthema lautete Einführung in YARN:

"Apache Hadoop 2 enthält eine neue MapReduce-Engine, die gegenüber der vorherigen Implementierung eine Reihe von Vorteilen bietet, darunter eine bessere Skalierbarkeit und Ressourcennutzung. Die neue Implementierung basiert auf einem allgemeinen Ressourcenverwaltungssystem zum Ausführen verteilter Anwendungen mit dem Namen YARN."Hadoop ist in Datenbank- und Content-Management-Kreisen sehr gefragt, es gibt jedoch noch viele Fragen, wie es am besten eingesetzt werden kann. Dies sind nur einige davon. Wenn Sie mehr haben, sind sie unser Weg. Beantworten Sie die besten Fragen auf Techopedia.com.