Wahl der besten Programmiersprachen für Daten Wissenschaft

Die Codierung ist eine der wichtigsten Fähigkeiten in einem Daten Wissenschaftlers Toolbox. Einige unglaublich leistungsstarke Anwendungen haben mit der Notwendigkeit, erfolgreich beseitigt in einigen Daten-Wissenschaft Kontexten zu codieren, aber Sie sind nie auf diese Anwendungen für individuelle Analyse und Visualisierung zu verwenden, gehen zu können. Für komplexere Aufgaben, Sie gehen die Dinge für sich selbst zu codieren zu haben auf, entweder die Programmiersprache Python oder die R-Programmiersprache.

Menu

Verwendung von Python für die Daten Wissenschaft

Python ist eine einfach zu erlernende, menschenlesbaren Programmiersprache, die Sie für erweiterte Daten munging verwenden können, Analyse und Visualisierung. Sie können es es unglaublich einfach installieren und einrichten, und Sie können leichter Python lernen als die R-Programmiersprache. Python läuft auf Mac, Windows und UNIX.

IPython bietet eine sehr benutzerfreundliche Schnittstelle Codierung für Menschen, die von der Befehlszeile Codierung nicht mögen. Wenn Sie das Herunterladen und Installieren Anaconda Python-Distribution, Sie erhalten Ihre IPython Umgebung, sowie die NumPy Stack, der die NumPy, SciPy, matplotlib und Pandas Bibliotheken enthält, die Sie wahrscheinlich in Ihrer Daten Sinnesfassungsverfahren müssen.

Die Basis NumPy Paket ist eine hervorragende Vermittler für das wissenschaftliche Rechnen in Python, weil es bietet Container / Array-Strukturen, die Sie beide mit Berechnungen zu tun, Vektoren und Matrizen verwenden können (wie in R) .SciPy ist die Python-Bibliothek, die am häufigsten für die wissenschaftliche verwendet wird und Technical Computing. Es bietet jede Menge mathematischer Algorithmen, die einfach nicht in anderen libraries.Popular Funktionalitäten verfügbar sind, umfassen Clustering, lineare Algebra und Matrix Mathematik, Sparse Matrix-Funktionalitäten, die räumliche Analyse und statistics.MatPlotLib ist Python Premiere Datenvisualisierung Bibliothek. Schließlich ist die Panda-Bibliothek für Daten munging Aufgaben nützlich.

Mit R für die Daten Wissenschaft

R ist eine weitere beliebte Programmiersprache, die für statistische und wissenschaftliche Rechnen verwendet wird. Schreiben Analyse und Visualisierung Routinen in R ist bekannt als R scripting. R wurde für statistische Berechnungen speziell entwickelt, und damit hat es eine reichliche Angebot an Open-Source-statistische Berechnungen Pakete als Python-Angebote. Auch R Datenvisualisierungsfunktionen sind anspruchsvoller als Python. Davon abgesehen, ist Python ein gutes Stück leichter zu erlernen und zu bedienen.

R hat eine sehr große und sehr aktive User-Community. Entwickler kommen mit (und Sharing) neue Pakete die ganze Zeit - um nur einige zu nennen, die Prognose Verpackung, die ggplot2 Paket, und die statnet / IGRAPH Pakete. Wenn Sie in R prädiktive Analyse und Prognose zu tun, die Prognose Paket ist ein guter Anfang. Dieses Paket bietet die ARMA, AR, und exponentielle Glättung Methoden.

Für die Datenvisualisierung, können Sie mit dem ggplot2 Paket, das alle Standard-Datengrafiktypen hat, und vieles mehr. Schließlich sind, R-Netzwerk Analysepakete ziemlich auch etwas Besonderes. Zum Beispiel können Sie verwenden IGRAPH und StatNet für die Analyse sozialer Netzwerke, genetische Kartierung, Verkehrsplanung und sogar hydraulische Modellierung.

Menü