Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Autor: Roger Morrison
Erstelldatum: 28 September 2021
Aktualisierungsdatum: 21 Juni 2024
Anonim
Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Technologie
Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren? googletag.cmd.push (function () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Technologie

Inhalt

Q:

Was sind einige wichtige Möglichkeiten, um datenwissenschaftliche Prozesse zu automatisieren und zu optimieren?


EIN:

Datenwissenschaftliche Prozesse im Kontext von maschinellem Lernen und KI können in vier verschiedene Phasen unterteilt werden:

  1. Datenerfassung und -erkundung,
  2. Modellbau,
  3. Modellbereitstellung und
  4. Online-Auswertung und Verfeinerung.

Nach meiner Erfahrung sind die Phasen der Datenerfassung und der Modellbereitstellung in jedem maschinell lernbasierten Data Science-Prozess am hinderlichsten. Sie können auf zwei Arten optimiert werden:

1. Richten Sie einen Datenspeicher mit hohem Zugriff ein.

In den meisten Organisationen werden Daten nicht an einem zentralen Ort gespeichert. Nehmen wir nur Informationen in Bezug auf Kunden. Sie verfügen über Kundenkontaktinformationen, Kundenunterstützung, Kundenfeedback und Kundenbrowserverlauf, wenn es sich bei Ihrem Unternehmen um eine Webanwendung handelt. All diese Daten sind auf natürliche Weise verstreut, da sie unterschiedlichen Zwecken dienen. Sie können sich in verschiedenen Datenbanken befinden und einige können vollständig strukturiert und einige unstrukturiert sein und können sogar als einfache Dateien gespeichert werden.


Leider ist die Streuung dieser Datensätze auf datenwissenschaftliche Arbeiten als Grundlage aller NLP-, maschinellen Lern- und KI-Probleme stark eingeschränkt Daten. Daher ist es für die Beschleunigung der Modellentwicklung und -bereitstellung von größter Bedeutung, alle diese Daten an einem Ort zu haben - dem Datenspeicher. Da dies für alle datenwissenschaftlichen Prozesse von entscheidender Bedeutung ist, sollten Unternehmen qualifizierte Dateningenieure einstellen, die sie beim Aufbau ihrer Datenspeicher unterstützen. Dies kann leicht als einfaches Daten-Dump an einem Ort beginnen und langsam zu einem durchdachten Daten-Repository werden, das vollständig dokumentiert und mit Hilfsprogrammen abfragbar ist, um Teilmengen von Daten für verschiedene Zwecke in verschiedene Formate zu exportieren.

2. Stellen Sie Ihre Modelle als Service für eine nahtlose Integration zur Verfügung.

Es ist nicht nur wichtig, den Zugriff auf Daten zu ermöglichen, sondern auch die von Datenwissenschaftlern entwickelten Modelle in das Produkt zu integrieren. Es kann äußerst schwierig sein, in Python entwickelte Modelle in eine Webanwendung zu integrieren, die unter Ruby ausgeführt wird. Darüber hinaus weisen die Modelle möglicherweise viele Datenabhängigkeiten auf, die Ihr Produkt möglicherweise nicht bereitstellen kann.


Eine Möglichkeit, damit umzugehen, besteht darin, eine starke Infrastruktur um Ihr Modell herum einzurichten und die für Ihr Produkt erforderlichen Funktionen bereitzustellen, um das Modell als „Webdienst“ zu verwenden. Wenn Ihre Anwendung beispielsweise eine Stimmungsklassifizierung für Produktüberprüfungen benötigt Alles, was es tun muss, ist, den Webdienst aufzurufen, der die relevanten Informationen bereitstellt, und der Dienst würde die entsprechende Stimmungsklassifizierung zurückgeben, die das Produkt direkt verwenden kann. Auf diese Weise erfolgt die Integration einfach in Form eines API-Aufrufs. Das Entkoppeln des Modells und des Produkts, das es verwendet, macht es neuen Produkten wirklich leicht, diese Modelle auch mit wenig Aufwand zu verwenden.

Das Einrichten der Infrastruktur für Ihr Modell ist eine ganz andere Sache und erfordert eine hohe Anfangsinvestition Ihrer Ingenieurteams. Sobald die Infrastruktur vorhanden ist, müssen lediglich Modelle so erstellt werden, dass sie in die Infrastruktur passen.