7 Schritte zum Erlernen von Data Mining und Data Science

Autor: Eugene Taylor
Erstelldatum: 12 August 2021
Aktualisierungsdatum: 22 Juni 2024
Anonim
Data Science - Erfolgreiche Projekte aus der Praxis
Video: Data Science - Erfolgreiche Projekte aus der Praxis

Inhalt


Quelle: Paul Fleet / Dreamstime.com

Wegbringen:

Data Science lernt man am besten, aber eine gute Grundlage für Statistik und maschinelles Lernen ist auch wichtig.

Ich werde häufig gefragt, wie man Data Mining und Data Science lernt. Hier ist meine Zusammenfassung.

Sie können am besten Data Mining und Data Science erlernen, indem Sie beginnen, Daten so schnell wie möglich zu analysieren! Vergessen Sie jedoch nicht, die Theorie zu lernen, da Sie eine gute statistische und maschinelle Lerngrundlage benötigen, um zu verstehen, was Sie tun, und um echte Wertschöpfungsnuggets im Rauschen von Big Data zu finden.

Hier sind sieben Schritte zum Erlernen von Data Mining und Data Science. Obwohl sie nummeriert sind, können Sie sie parallel oder in einer anderen Reihenfolge ausführen.

  1. Sprachen: Lernen Sie R, Python und SQL
  2. Tools: Erfahren Sie, wie Sie Data Mining- und Visualisierungstools verwenden
  3. Bücher: Lesen Sie einführende Bücher, um die Grundlagen zu verstehen
  4. Ausbildung: Sehen Sie sich Webinare an, nehmen Sie an Kursen teil und erwägen Sie ein Zertifikat oder einen Abschluss in Datenwissenschaften.
  5. Daten: Überprüfen Sie die verfügbaren Datenressourcen und suchen Sie dort nach etwas
  6. Wettbewerbe: Nehmen Sie an Data Mining-Wettbewerben teil
  7. Interagieren Sie mit anderen Datenwissenschaftlern über soziale Netzwerke, Gruppen und Meetings

In diesem Artikel verwende ich Data Mining und Data Science synonym. In meinem Vortrag Analytics Industry Overview beschäftige ich mich mit der Entwicklung und Popularität verschiedener Begriffe wie Statistik, Wissensermittlung, Data Mining, Predictive Analytics, Data Science und Big Data.


1. Sprachen lernen

Eine kürzlich durchgeführte KDnuggets-Umfrage ergab, dass die beliebtesten Sprachen für Data Mining R, Python und SQL sind. Es gibt viele Ressourcen für jede, zum Beispiel:

  • Kostenloses E-Book zu Data Science mit R
  • Erste Schritte mit Python For Data Science
  • Python für die Datenanalyse: Agile Tools für reale Daten
  • Ein unverzichtbarer Python: Data Sourcing für Data Science
  • W3-Schulen lernen SQL

2. Tools: Data Mining-, Data Science- und Visualisierungssoftware

Es gibt viele Data Mining-Tools für verschiedene Aufgaben. Am besten lernen Sie jedoch, wie Sie eine Data Mining-Suite verwenden, die den gesamten Prozess der Datenanalyse unterstützt. Sie können mit Open Source (kostenlosen) Tools wie KNIME, RapidMiner und Weka beginnen.

Für viele Analytics-Jobs müssen Sie jedoch SAS kennen, das führende und weit verbreitete kommerzielle Tool. Andere beliebte Analyse- und Data-Mining-Software umfasst MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler und Rattle.


Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Die Visualisierung ist ein wesentlicher Bestandteil jeder Datenanalyse. Erfahren Sie, wie Sie Microsoft Excel (gut für viele einfachere Aufgaben), R-Grafiken (insbesondere ggplot2) und Tableau - ein hervorragendes Paket für die Visualisierung - verwenden. Andere gute Visualisierungstools sind TIBCO Spotfire und Miner3D.

3. Bücher

Es sind viele Data Mining- und Data Science-Bücher verfügbar. Sie können jedoch Folgendes überprüfen:

  • Data Mining und Analyse: Grundlegende Konzepte und Algorithmen, kostenloser PDF-Download (Entwurf), von Mohammed Zaki und Wagner Meira Jr.
  • Data Mining: Praktische Tools und Techniken für maschinelles Lernen, von Ian Witten, Eibe Frank und Mark Hall, von den Autoren von Weka, und ausgiebige Verwendung von Weka in Beispielen
  • Die Elemente des statistischen Lernens, Data Mining, Inferenz und Vorhersage, von Trevor Hastie, Robert Tibshirani, Jerome Friedman. Eine großartige Einführung für die mathematisch orientierten
  • LIONbook: Lernen und intelligente Optimierung, von Roberto Battiti und Mauro Brunato, Kapitel für Kapitel im Internet frei verfügbar
  • Mining of Massive Datasets Book, von A. Rajaraman, J. Ullman
  • Das StatSoft Electronic Statistics-Buch (kostenlos) enthält viele Data-Mining-Themen

4. Ausbildung: Webinare, Kurse, Zertifikate und Abschlüsse

Sehen Sie sich zunächst einige der vielen kostenlosen Webinare und Webcasts zu den neuesten Themen in den Bereichen Analytics, Big Data, Data Mining und Data Science an.

Es gibt auch viele kurze und lange Online-Kurse, von denen viele kostenlos sind. (Siehe KDnuggets Online-Bildungsverzeichnis.)

Überprüfen Sie insbesondere diese Kurse:

  • Maschinelles Lernen bei Coursera, unterrichtet von Andrew Ng
  • Lernen aus Daten bei edX, unterrichtet von Caltech-Professor Yaser Abu-Mostafa
  • Offener Online-Kurs in angewandter Datenwissenschaft von Syracuse iSchool
  • Data Mining mit Weka, kostenloser Online-Kurs
  • Schauen Sie sich auch kostenlose Online-Folien aus meinem Data-Mining-Kurs an, einem semesterlangen Einführungskurs in Data-Mining

Erwägen Sie abschließend, Zertifikate für Data Mining und Data Science oder fortgeschrittene Abschlüsse zu erwerben, z. B. einen Master-Abschluss in Data Science.

5. Daten

Für die Analyse benötigen Sie Daten - siehe KDnuggets-Verzeichnis der Datensätze für Data Mining, einschließlich:

  • Websites und Portale für Regierungs-, Bundes-, Landes-, Stadt-, lokale und öffentliche Daten
  • Daten-APIs, Hubs, Marktplätze, Plattformen, Portale und Suchmaschinen
  • Kostenlose öffentliche Datensätze

6. Wettbewerbe

Auch hier lernst du am besten, wenn du an Kaggle-Wettbewerben teilnimmst. Beginnen Sie mit Wettbewerben für Anfänger, z. B. Voraussagen des Titanic-Überlebens mithilfe maschinellen Lernens.

7. Interaktion: Meetings, Gruppen und soziale Netzwerke

Sie können vielen Peer-Gruppen beitreten. Sehen Sie sich die Top 30 LinkedIn-Gruppen für Analytics, Big Data, Data Mining und Data Science an.

AnalyticBridge ist eine aktive Community für Analytics und Data Science.

Sie können an einigen der zahlreichen Meetings und Konferenzen zu den Themen Analytics, Big Data, Data Mining, Data Science und Knowledge Discovery teilnehmen.

Ziehen Sie auch in Betracht, sich ACM SIGKDD anzuschließen, das die jährliche KDD-Konferenz organisiert - die führende Forschungskonferenz auf diesem Gebiet.

Dieser Artikel stammt von KDNuggets.com. Es wurde mit Genehmigung des Autors verwendet.