Kudu: Ein Game Changer im Hadoop-Ökosystem?

Inhalt

Was ist Kudu?
Was ist der aktuelle Status von Kudus?
Wie kann Kudu HDFS / HBase ergänzen?
Funktionen des Kudu Frameworks
Wie kann Kudu das Hadoop-Ökosystem verändern?
Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören
Fazit

Quelle: Agsandrew / Dreamstime.com

Wegbringen:

Kudu ist ein Open-Source-Projekt, mit dem Speicher effizienter verwaltet werden kann.

Kudu ist ein neues Open-Source-Projekt, das aktualisierbaren Speicher bietet. Es ist eine Ergänzung zu HDFS / HBase, das sequentielle und schreibgeschützte Speicherung bietet. Kudu eignet sich eher für die schnelle Analyse schneller Daten, wie es derzeit von Unternehmen gefordert wird. Kudu ist also nicht nur ein weiteres Hadoop-Ökosystemprojekt, sondern hat auch das Potenzial, den Markt zu verändern. (Weitere Informationen zu Hadoop finden Sie unter Die 10 wichtigsten Hadoop-Begriffe, die Sie kennen und verstehen müssen.)

Was ist Kudu?

Kudu ist ein spezielles Speichersystem, das strukturierte Daten in Form von Tabellen speichert. Jede Tabelle hat eine vordefinierte Anzahl von Spalten. Jeder von ihnen hat einen Primärschlüssel, der eigentlich eine Gruppe von einer oder mehreren Spalten dieser Tabelle ist. Dieser Primärschlüssel dient zum Hinzufügen einer Einschränkung und zum Sichern der Spalten sowie als Index, der das einfache Aktualisieren und Löschen ermöglicht. Diese Tabellen sind eine Reihe von Datenuntergruppen, die als Tablets bezeichnet werden.

Was ist der aktuelle Status von Kudus?

Kudu ist wirklich gut entwickelt und verfügt bereits über viele Funktionen. Es muss jedoch noch etwas poliert werden, was einfacher gemacht werden kann, wenn die Benutzer Vorschläge machen und einige Änderungen vornehmen.

Kudu ist komplett Open Source und verfügt über die Apache Software License 2.0. Es soll auch an Apache gesendet werden, damit es als Apache Incubator-Projekt entwickelt werden kann. Dies ermöglicht es seiner Entwicklung, noch schneller voranzukommen und sein Publikum weiter zu vergrößern. Nach einer gewissen Zeit wird Kudus Entwicklung öffentlich und transparent gemacht. Viele Unternehmen wie AtScale, Xiaomi, Intel und Splice Machine haben sich zusammengeschlossen, um zur Entwicklung von Kudu beizutragen. Kudu hat auch eine große Community, in der bereits eine große Anzahl von Zuschauern ihre Vorschläge und Beiträge einreicht. Es sind also die Menschen, die Kudus Entwicklung vorantreiben.

Wie kann Kudu HDFS / HBase ergänzen?

Kudu ist kein Ersatz für HDFS / HBase. Es wurde entwickelt, um sowohl HBase als auch HFDS zu unterstützen und um ihre Funktionen zu erweitern. Dies liegt daran, dass HBase und HDFS immer noch viele Funktionen haben, die sie auf bestimmten Computern leistungsstärker als Kudu machen. Insgesamt werden solche Maschinen von diesen Systemen mehr profitieren.

Funktionen des Kudu Frameworks

Die Hauptmerkmale des Kudu-Frameworks sind:

Extrem schnelles Scannen der Tabellenspalten - Die besten Datenformate wie Parkett und ORCFile erfordern die besten Scanverfahren, die von Kudu perfekt angesprochen werden. Solche Formate erfordern schnelle Scans, die nur bei korrekter Kodierung der Spaltendaten auftreten können.
Zuverlässigkeit der Leistung - Das Kudu-Framework erhöht die allgemeine Zuverlässigkeit von Hadoop, indem es viele der in Hadoop vorhandenen Lücken und Lücken schließt.
Einfache Integration in Hadoop - Kudu kann für mehr Effizienz problemlos in Hadoop und seine verschiedenen Komponenten integriert werden.
Vollständig Open Source - Kudu ist ein Open Source-System mit der Apache 2.0-Lizenz. Es hat eine große Community von Entwicklern aus verschiedenen Unternehmen und mit unterschiedlichem Hintergrund, die es regelmäßig aktualisieren und Änderungsvorschläge machen.

Wie kann Kudu das Hadoop-Ökosystem verändern?

Kudu wurde entwickelt, um sich in das Ökosystem von Hadoop einzufügen und seine Funktionen zu verbessern. Es kann auch in einige der Hauptkomponenten von Hadoop wie MapReduce, HBase und HDFS integriert werden. MapReduce-Jobs können entweder Daten bereitstellen oder Daten aus den Kudu-Tabellen entnehmen. Diese Funktionen können auch in Spark verwendet werden. Eine spezielle Ebene macht einige Spark-Komponenten wie Spark SQL und DataFrame für Kudu zugänglich. Obwohl Kudu nicht so weit entwickelt wurde, um diese Funktionen zu ersetzen, wird geschätzt, dass es nach ein paar Jahren ausreichend entwickelt sein wird, um dies zu tun. Bis dahin ist die Integration zwischen Hadoop und Kudu wirklich sehr nützlich und kann die großen Lücken im Hadoop-Ökosystem schließen. (Weitere Informationen zu Apache Spark finden Sie unter Wie Apache Spark die schnelle Anwendungsentwicklung unterstützt.)

Kudu kann an verschiedenen Orten implementiert werden. Einige Beispiele für solche Orte sind unten angegeben:

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Streaming von Eingaben in nahezu Echtzeit - An Orten, an denen Eingaben so schnell wie möglich empfangen werden müssen, kann Kudu eine bemerkenswerte Arbeit leisten. Ein Beispiel für einen solchen Ort sind Unternehmen, in denen große Mengen dynamischer Daten aus verschiedenen Quellen einfließen und in Echtzeit schnell verfügbar sein müssen.
Zeitreihenanwendungen mit unterschiedlichen Zugriffsmustern - Kudu eignet sich perfekt für zeitreihenbasierte Anwendungen, da es einfacher ist, Tabellen einzurichten und damit zu scannen. Ein Beispiel für eine solche Verwendung sind Kaufhäuser, in denen alte Daten schnell gefunden und verarbeitet werden müssen, um die zukünftige Beliebtheit von Produkten vorherzusagen.
Legacy-Systeme - Viele Unternehmen, die Daten aus verschiedenen Quellen beziehen und auf verschiedenen Workstations speichern, werden sich bei Kudu wie zu Hause fühlen. Kudu ist extrem schnell und kann effektiv in Impala integriert werden, um Daten auf allen Maschinen zu verarbeiten.
Vorhersagemodellierung - Datenwissenschaftler, die eine gute Plattform für die Modellierung wünschen, können Kudu verwenden. Kudu kann aus jedem eingegebenen Datensatz lernen. Der Wissenschaftler kann das Modell wiederholt ausführen und erneut ausführen, um zu sehen, was passiert.

Fazit

Obwohl sich Kudu noch in der Entwicklungsphase befindet, hat es genug Potenzial, um ein gutes Add-In für Standard-Hadoop-Komponenten wie HDFS und HBase zu sein. Es hat genug Potenzial, um das Hadoop-Ökosystem vollständig zu verändern, indem alle Lücken gefüllt und einige weitere Funktionen hinzugefügt werden. Es ist außerdem sehr schnell und leistungsstark und kann bei der schnellen Analyse und Speicherung großer Datentabellen hilfreich sein. Es bleibt jedoch noch einiges zu tun, damit es effizienter genutzt werden kann.