Der Nexus aus Vermächtnis und Innovation: Ein Wendepunkt für Daten

Inhalt

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören
Runter zur Sache
Wie Kafka das Datenmanagement verändern wird

Wegbringen:

Kafka wird für Informationssysteme das tun, was LinkedIn für Geschäftsleute tut: Bleiben Sie über weite Bereiche hinweg in Verbindung.

Indem wir leidenschaftlich an etwas glauben, das es noch nicht gibt, schaffen wir es. Das Nichtexistierende ist das, was wir nicht genug gewünscht haben.

~ Franz Kafka

Die Notwendigkeit bleibt die Mutter der Erfindung. Ein kluger Berater sagte mir einmal: "Wenn in einer Organisation etwas passieren muss, dann geschieht es." Sein Punkt war zweifach: 1) Einige Leute werden immer einen Weg finden, Dinge zu erledigen; und 2) die Geschäftsleitung oder sogar das mittlere Management wissen möglicherweise nicht genau, wie die Dinge in ihrem eigenen Betrieb erledigt werden.

Wenn wir diese Metapher auf das gesamte Universum der Datenverwaltung ausweiten, können wir sehen, dass gerade eine Transformation stattfindet. Der Rohdruck von Big Data, kombiniert mit der Achse des Streaming von Daten, erzeugt so viel Druck, dass ältere Systeme an den Rändern ausfransen, wenn nicht gar zusammenbrechen. Gleichwohl sind in diesem Moment unzählige Fachkräfte im Einsatz, die sich dieser Realität weitgehend nicht bewusst sind.

Die datenbasierten, datengetriebenen Unternehmen haben einen Spitzenplatz und treiben diesen Wandel in vielerlei Hinsicht voran. Überlegen Sie, wie Kraftpakete wie Yahoo! und LinkedIn die Unternehmenssoftwareindustrie mit ihren Spenden an Open Source von der Seite gedreht haben: Hadoop, Cassandra und jetzt Kafka, die alle von der Apache Foundation betreut wurden und selbst eine zentrale Rolle in dieser Metamorphose spielen .

Was ist das Ergebnis all dieser Veränderungen? Was heute zu sehen war, ist die kategoriale Neuklassifizierung und Umstrukturierung des Datenmanagements. Dies bedeutet nicht, dass ältere Systeme jetzt herausgerissen und ersetzt werden. Jeder Branchenveteran wird Ihnen sagen, dass die Auflösung von Altsystemen im großen Stil ungefähr so oft vorkommt, wie die Chicago Cubs die World Series gewinnen. Es ist ein seltenes Ereignis, um es gelinde auszudrücken.

Was wirklich passiert, ist, dass rund um die Systeme der alten Welt eine Superstruktur aufgebaut wird. Betrachten Sie die Analogie zwischenstaatlicher Autobahnen, die sich häufig über den Städten erheben, die sie bedienen, um Menschen und Fracht in diese Bevölkerungszentren zu befördern und jedem und allem in ihnen den Zugang zu ermöglichen. Sie ersetzen bestehende Straßen nicht nur durch Hochgeschwindigkeitsalternativen.

Genau das macht Apache Kafka: Es bietet Hochgeschwindigkeitsrouten für die Datenübertragung zwischen und zwischen Informationssystemen. Um der Autobahn-Analogie zu folgen, gibt es immer noch viele Unternehmen, die lineare Warteschlangen oder den alten ETL-Standard (Extract-Transform-Load) verwenden. Aber diese Bahnen haben niedrige Geschwindigkeitsbegrenzungen und es gibt viele Schlaglöcher. Darüber hinaus sind die Wartungskosten häufig enorm. Beschilderung ist schlecht.

Kafka bietet eine alternative Methode für die Bereitstellung von Daten, die ausgesprochen echtzeitfähig, skalierbar und langlebig ist. Dies bedeutet, dass Kafka nicht nur ein Datenbewegungsfahrzeug, sondern auch ein Datenreplikator ist. und bis zu einem gewissen Grad eine verteilte Datenbanktechnologie. Wir sollten vorsichtig sein, wenn wir die Analogie zu weit gehen, da es Merkmale von ACID-kompatiblen Datenbanken gibt, die Kafka noch nicht kennt. Trotzdem ist die Veränderung real.

Dies sind großartige Neuigkeiten für die Informationslandschaft, da die Daten nun frei im Land und in der Welt sind. Was früher eine schmerzhafte Einschränkung war, nämlich das Schlagen von Batch-Fenstern für ETL-Prozesse, löst sich jetzt stark auf, da der Nebel unter dem Licht einer heißen Sonne einem klaren Himmel Platz macht. Wenn Daten nahtlos von einem System in ein anderes verschoben werden, bricht eine Ära neuer Möglichkeiten an.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Der Mensch wird wahrscheinlich die größte Reibung auf dem Weg zu neuen Daten für die Zukunft darstellen. Alte Gewohnheiten sind schwer abzulegen. Kein CIO ist zu aufgeregt, um umfassende Änderungen an Unternehmenssystemen vorzunehmen. Sagte eine versierte Führungskraft der Rolle: "Machen Sie sich bereit, einsam zu sein." Innerhalb eines Jahres nach diesem Kommentar war er Berater. Es ist kein einfacher Weg, um die ungewöhnlich unhandliche Welt der Unternehmensdaten zu managen.

Die gute Nachricht ist, dass Kafka die Zukunft vorantreibt. Da es sich um einen leistungsstarken, vielseitigen Bus handelt, werden Brücken zwischen Legacy-Systemen und ihren zukunftsweisenden Gegenstücken hergestellt. Unternehmen, die diese neue Chance mit offenem Verstand und ausreichendem Budget nutzen, können so in die neue Welt eintreten, ohne die alte hinter sich zu lassen. Das ist eine wirklich große Sache.

Runter zur Sache

Während Apache Kafka eine Open-Source-Technologie ist, die von jedem heruntergeladen und verwendet werden kann, haben die Leute, die diese Software für LinkedIn erstellt haben, eine separate Einheit namens Confluent ausgegliedert, die sich darauf konzentriert, das Angebot für den Unternehmensgebrauch zu verbessern. Ähnlich wie Cloudera haben Hortonworks und MapR ihre Geschäfte um das Open-Source-Projekt Apache Hadoop herum aufgebaut, weshalb Confluent versucht, Kafka zu monetarisieren.

In einem Interview mit InsideAnalysis erklärte der CEO und Mitbegründer von Confluent, Jay Kreps, seine Herkunft auf LinkedIn:

"Wir haben versucht, ein paar unterschiedliche Probleme zu lösen. Zum einen hatten wir all diese unterschiedlichen Datensysteme mit unterschiedlichen Arten von Daten. Wir hatten Datenbanken und Protokolldateien und wir hatten Metriken über Server und wir hatten Benutzer, die auf Dinge klickten. Es war wirklich schwierig, all diese Daten in Umlauf zu bringen, da sie immer größer wurden. Die Leistungsfähigkeit der Daten war nur dann gegeben, wenn Sie sie an die Anwendungen, die Verarbeitung oder die Systeme weiterleiten konnten, die sie benötigten. Das war ein großes Problem.

"Das andere Problem, das wir hatten, war, dass wir Hadoop übernommen hatten, und das war etwas, an dem ich beteiligt war. Wir hatten diese fantastische Plattform für die Offline-Verarbeitung, die wir skalieren und in die wir alle unsere Daten einfügen konnten. Für LinkedIn geschahen alle unsere Daten in real Es gab eine kontinuierliche Generierung von Daten. Es gab immer diese Diskrepanz, wenn wir versuchten, aus unseren Daten wichtige Teile des Geschäfts aufzubauen, zwischen etwas, das einmal am Tag, vielleicht nachts, ausgeführt wurde und am nächsten Tag Ergebnisse lieferte. und diese Art von kontinuierlichen Daten - kurze Interaktionszeiten -, mit denen Sie aufholen mussten. Wir wollten in der Lage sein, etwas zu tun, was es schon eine Weile in der Wissenschaft gab, aber nicht wirklich ein Mainstream-Ding war, was es sein sollte Datenströme abrufen und verarbeiten, wie sie generiert wurden, anstatt wie sie sich befanden. "

Gut. Genau das möchte Confluent jetzt mit Unternehmensdaten aller Größen und Formen erreichen. Die Gelegenheit im Spiel? Greenfield. Ehrlich gesagt, könnte man in der gesamten Geschichte der Unternehmenssoftware behaupten, dass der adressierbare Markt für diese Technologie absolut die Nase vorn hat. Es gibt kein einziges großes Unternehmen oder auch nur ein datenintensives kleines Unternehmen, das von dieser Technologie nicht in großem Maße profitieren kann.

Dies gilt insbesondere aufgrund des neurologischen Aspekts dieser Technologie; nicht nur die beteiligten Köpfe, sondern auch die Art und Weise, wie Kafka die Informationssysteme bedient. Da Kafka zum Verwalten der Datenbewegung in einer Organisation verwendet werden kann, kann es nicht nur als Verkehrspolizist betrachtet werden, sondern vielmehr als Kopf der Operation. Waren in den frühen Stadien dieser Vision, aber seien Sie versichert, es ist real.

Wie Kafka das Datenmanagement verändern wird

Um zu verstehen, wie Kafka die Art der Datenverwaltung verändert, sollten Sie sich überlegen, wie LinkedIn die Vernetzung verändert hat. Das Finden von Kollegen wurde so viel einfacher. Mit Menschen in Kontakt zu bleiben, ist jetzt ein Kinderspiel. Kafka wird für Informationssysteme tun, was LinkedIn für Geschäftsleute tut: Halten Sie sie über die größten Bereiche dieser Erde verbunden.

Die Abspaltung von Confluent ist ein Sinnbild für etwas, das wir die Neue Innovation nennen könnten, eine Bewegung, die von der Entkopplung von Softwareentwicklung und Closed-Source-Mentalität getrieben wird und von den Entwicklern der Open-Source-Technologie geleitet wird, die durch große Mengen an Risikokapital, das durch die Monetarisierung finanziert wird, befeuert wird Profitorientierte Unternehmen, die die Art und Weise revolutionieren möchten, wie Organisationen und Menschen Daten erstellen, sammeln, analysieren und nutzen.

Franz Kafka zitiert: "Ab einem bestimmten Punkt gibt es kein Zurück mehr. Das ist der Punkt, den man erreichen muss."

Wir haben den Rubikon passiert. Es gibt kein Zurück mehr.