Wie strukturiert sind Ihre Daten? Untersuchen von strukturierten, unstrukturierten und halbstrukturierten Daten

Autor: Roger Morrison
Erstelldatum: 25 September 2021
Aktualisierungsdatum: 21 Juni 2024
Anonim
Strukturierte Daten: So analysierst Du eine Webseite | morefire
Video: Strukturierte Daten: So analysierst Du eine Webseite | morefire

Inhalt



Quelle: monsitj / iStockphoto

Wegbringen:

Erfahren Sie mehr über strukturierte, unstrukturierte und halbstrukturierte Daten.

In der Vergangenheit waren Datenanalysten in der Lage, Informationen nur aus einem Datentyp zu entschlüsseln und zu extrahieren: aus strukturierten Daten. Diese Art von Daten war aufgrund ihrer klaren Muster leicht zu durchsuchen, machte jedoch nur einen geringen Prozentsatz der verfügbaren Gesamtdaten aus.

Zu den unstrukturierten Daten gehörten Video, Audio, s und Daten, die auch von sozialen Medien und Mobilgeräten stammen. Es war zweifellos die größte verfügbare Rohinformationsreserve, aber niemand war in der Lage, diese Ressource zuverlässig zu nutzen.

Die Dinge haben sich jedoch geändert, als die erhöhte Verfügbarkeit von Speicher und überlegene Verarbeitungskapazitäten eine unstrukturierte Datenanalyse hervorbrachten - eine neue und damit unausgereifte Form der Technologie. Bessere Business Intelligence nutzt diese Gelegenheit in vollem Umfang, und es werden erhebliche Investitionen getätigt, um strukturierte und unstrukturierte Datenanalysen zu aggregieren, um auf diese scheinbar endlose Goldmine von Informationen zuzugreifen.


Schauen wir uns diese beiden Datenformate an, um zu verstehen, welche Unterschiede bestehen und was die Zukunft für alle Datenanalysten bereithält.

Was sind strukturierte Daten?

Strukturierte Daten sind von Menschen oder Maschinen erzeugte und hochorganisierte Informationen, die leicht in Zeilendatenbankstrukturen gespeichert werden können, die als relationale Datenbanken (RDBs) bezeichnet werden. Es ist alles vorhanden, was in einem Format vorliegt, das leicht erfasst, gespeichert und in einer RDB-Struktur organisiert werden kann, um später analysiert zu werden. (Weitere Informationen zu Datenbanken finden Sie in unserer Einführung in Datenbanken.)

Beispiele hierfür sind Postleitzahlen, Telefonnummern und Benutzer-Demografien wie Alter oder Geschlecht. In diesen Datenbanken gefundene Daten können mit SQL- (Structured Query Language) oder VLOOKUP-Funktionen in Excel-Arbeitsblättern abgefragt werden. Es können auch Algorithmen erstellt werden, um Daten, die in den verschiedenen Feldern gefunden wurden, anhand ihrer Indizes oder ihrer numerischen und alphabetischen Daten schnell zu suchen. Alle Daten sind jedoch in Bezug auf Feldtyp und -name streng definiert, und die Möglichkeit, sie zu speichern, abzufragen und zu analysieren, ist daher in gewissem Maße eingeschränkt.


Zu den typischen Anwendungen, die strukturierte Daten verwenden, gehören Krankenhausverwaltungssoftware, CRM-Anwendungen (Customer Relationship Management) und Flugreservierungssysteme. Strukturierte Daten sind aufgrund ihrer übersichtlichen Organisation und einfachen Zugänglichkeit bei der Verarbeitung großer Informationsmengen nützlich und effizient. Beim Bohren nach dem schwarzen Öl, das in der unendlichen Menge an Daten verborgen ist, die die Menschheit täglich produziert, ist das Suchen nach strukturierten Daten jedoch nichts anderes als ein Kratzer auf der Oberfläche.

Was sind unstrukturierte Daten?

Die überwiegende Mehrheit der in einer Organisation gefundenen Daten ist unstrukturiert, und einige schätzen, dass sie bis zu 80 Prozent der derzeit verfügbaren Gesamtdaten ausmachen. Per Definition sind unstrukturierte Daten alles, was keine identifizierbare interne Struktur aufweist. Einige Arten von Daten fallen jedoch in diese Kategorie haben Eine Form von vager interner Struktur, die jedoch keiner Datenbank oder Kalkulationstabelle entspricht.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören


Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Die meisten Geschäftsdaten sind unstrukturiert und reichen von Kundendienstinteraktionen, Dateien, Webprotokollen, Videos und anderen Multimedia-Inhalten über Verkaufsautomatisierung bis hin zu Beiträgen in sozialen Medien. Es muss nicht erklärt werden, wie wertvoll diese Daten sein könnten, wenn sie gewonnen, organisiert und analysiert werden könnten.

Die meisten unstrukturierten Daten werden von Menschen generiert und sind daher für andere Menschen verständlich. Dies bedeutet, dass die übersichtlichere Computerintelligenz diese Art von Informationen nicht versteht, da sie zu weit von der Linearität der Maschinensprache und der strukturierten Datenbanken entfernt ist.

Dazwischen liegen: semi-strukturierte Daten

Halbstrukturierte Daten sind ein dritter Datentyp, der einen viel kleineren Teil des gesamten Kreises darstellt (5 bis 10 Prozent). Halbstrukturierte Daten, die buchstäblich zwischen beiden Welten liegen, enthalten interne semantische Tags und Markierungen, die separate Elemente identifizieren, aber nicht die Struktur haben, die erforderlich ist, um in eine relationale Datenbank zu passen.

Beispielsweise können s wie strukturierte Daten aussehen, da sie nach Datum, Dateigröße oder Uhrzeit kategorisiert werden können. Dies ist jedoch nicht der Fall, da die wertvollste Information in ihnen zu finden ist, sondern in ihren relativ einfachen Bezeichnungen. Es kann nicht wirklich nach Inhalt und Thema geordnet werden, da Menschen nicht in so strengen Mustern sprechen, dass eine Maschine sie eindeutig versteht. Weitere Beispiele für semistrukturierte Daten sind NoSQL-Datenbanken, der offene Standard JSON und die Markup-Sprache XML.

Halbstrukturierte Daten werden normalerweise mithilfe der Metadatenanalyse abgefragt und zur Analyse katalogisiert. Ein Röntgenscan besteht beispielsweise aus einer großen Anzahl von Pixeln, die das Bild bilden. Dabei handelt es sich um unstrukturierte Daten, auf die nicht zugegriffen werden kann. Die Scandatei enthält jedoch weiterhin einen Metadatenteil, der Informationen darüber enthält, z. B. Anmerkungen und Benutzer-ID.

Können unstrukturierte Daten in strukturierte Daten umgewandelt werden?

Die grundlegende Herausforderung, der sich jeder Datenanalyst stellen muss, besteht darin, die vorliegenden Informationen auf eine ordentliche Weise zu organisieren, damit auf sie zugegriffen und sie verstanden werden können. Data-Mining-Tools sind normalerweise nicht zum Analysieren von Informationen ausgestattet, die per Definition der menschlichen Sprache zu ähnlich sind, sodass nur ein anderer Mensch sie sammeln und kategorisieren kann.

Das schiere Volumen unstrukturierter Daten macht jedoch den Versuch, diese zu speichern oder zu organisieren, äußerst mühsam und teuer. Der Informationspool, der beispielsweise von einer webbasierten Suchmaschine stammt, ist so umfangreich, dass die meisten Elemente einen enormen Aufwand an Arbeit und Ressourcen erfordern, um die grundlegendsten zu extrahieren. Selbst bei den effizientesten Data Mining-Techniken fehlen immer noch erhebliche Mengen an Informationen, die im Web und, noch schlimmer, im Deep Web zu finden sind.

Aber es gibt Techniken. Und sie werden mit einer erstaunlichen Geschwindigkeit entwickelt. Beispielsweise könnten Metadaten verwendet werden, um strukturierte und unstrukturierte Daten miteinander zu verbinden. Die gesammelten Informationen können sowohl von Benutzern als auch von Algorithmen gefiltert und indiziert werden, um nur relevante Daten zu analysieren. Andere Lösungen umfassen "Daten-Wrangling", einen Prozess, bei dem komplexe Daten von nicht-technischen Benutzern schrittweise nacheinander organisiert werden. (Weitere Informationen zum Umgang mit Daten durch normale Benutzer finden Sie unter Wie Big Data bei Self-Service-Analysen helfen kann.)

Irgendwann werden wir in der Lage sein, diese massiv unorganisierten Informationsmengen effizient in ein organisierteres und umstrukturierteres Format umzuwandeln. Vielleicht nicht heute, vielleicht nicht morgen, aber bald können wir den größten Tresor der Menschheit überfallen, den es je gab: Big Data.