Kann Big Data jemals zu viele Daten enthalten?

Video: Was ist das Web der Daten? Oder: Wie geht man mit mehr als einer Milliarde Daten-Tripel um?

Inhalt

Q:
EIN:

Q:

Kann Big Data jemals zu viele Daten enthalten?

EIN:

Die Antwort auf die Frage ist ein klares JA. In einem Big-Data-Projekt können absolut zu viele Daten vorhanden sein.

Es gibt zahlreiche Möglichkeiten, wie dies geschehen kann, und verschiedene Gründe, warum Fachleute Daten auf eine beliebige Anzahl von Wegen einschränken und kuratieren müssen, um die richtigen Ergebnisse zu erzielen. (Lesen Sie 10 große Mythen über Big Data.)

Experten sprechen im Allgemeinen davon, das "Signal" vom "Rauschen" in einem Modell zu unterscheiden. Mit anderen Worten, in einem Meer von Big Data ist es schwierig, relevante Insight-Daten zu erfassen. In einigen Fällen suchen Sie nach einer Nadel im Heuhaufen.

Angenommen, ein Unternehmen versucht, mithilfe von Big Data bestimmte Einblicke in ein Kundensegment und deren Käufe über einen bestimmten Zeitraum zu gewinnen. (Lesen Sie Was macht Big Data?)

Die Aufnahme einer enormen Menge von Datenbeständen kann dazu führen, dass zufällige Daten erfasst werden, die nicht relevant sind, oder es kann sogar eine Verzerrung auftreten, die die Daten in die eine oder andere Richtung verzerrt.

Dies verlangsamt den Prozess dramatisch, da Computersysteme mit immer größeren Datenmengen zu kämpfen haben.

In so vielen verschiedenen Projekten ist es für Dateningenieure äußerst wichtig, die Daten in eingeschränkten und spezifischen Datensätzen zusammenzufassen. Im obigen Fall wären dies nur die Daten für das zu untersuchende Kundensegment, nur die Daten für diese Zeit Rahmen untersucht, und ein Ansatz, der zusätzliche Kennungen oder Hintergrundinformationen aussortiert, die Dinge verwirren oder Systeme verlangsamen können. (ReadJob-Rolle: Dateningenieur.)

Schauen wir uns für weitere Informationen an, wie dies im Grenzbereich des maschinellen Lernens funktioniert. (Lesen Sie Machine Learning 101.)

Experten für maschinelles Lernen sprechen von einer "Überanpassung", bei der ein zu komplexes Modell zu weniger effektiven Ergebnissen führt, wenn das maschinelle Lernprogramm auf neue Produktionsdaten umgestellt wird.

Eine Überanpassung tritt auf, wenn ein komplexer Satz von Datenpunkten zu gut mit einem anfänglichen Trainingssatz übereinstimmt und das Programm sich nicht einfach an neue Daten anpassen kann.

Technisch wird die Überanpassung nicht mehr durch zu viele Datenproben, sondern durch die Krönung zu vieler Datenpunkte verursacht. Man könnte jedoch argumentieren, dass zu viele Daten ebenfalls zu diesem Problem beitragen können. Der Umgang mit dem Fluch der Dimensionalität beinhaltet einige der gleichen Techniken, die in früheren Big-Data-Projekten angewendet wurden, als Profis versuchten, herauszufinden, was sie IT-Systemen zuführten.

Unter dem Strich können Big Data für Unternehmen enorm hilfreich sein oder zu einer großen Herausforderung werden. Ein Aspekt dabei ist, ob das Unternehmen über die richtigen Daten verfügt. Experten wissen, dass es nicht ratsam ist, alle Datenbestände einfach in einem Trichter abzulegen und auf diese Weise Erkenntnisse zu gewinnen - in neuen cloud-nativen und hoch entwickelten Datensystemen müssen die Daten kontrolliert, verwaltet und kuratiert werden, um genauer und sicherer zu werden Effiziente Nutzung von Datenbeständen.