Scikit-Learn ist ein Brennpunkt für die Daten Wissenschaft Arbeit mit Python, so lohnt es sich, die Methoden, die Sie am meisten wissen müssen. Die folgende Liste gibt Ihnen einen kurzen Überblick über die wichtigsten Methoden für die Datenanalyse verwendet.
feature_extraction.FeatureHasher
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Der Hashing-Trick, mit dem Sie eine große Anzahl von Funktionen in Ihrem Daten-Set aufnehmen
preprocessing.Binarizer
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Erstellen Sie Binärgrößen (Merkmalswerte zu 0 oder 1)
preprocessing.Imputer
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Fehlende Angaben Anrechnungs
preprocessing.MinMaxScaler
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Erstellen Sie Variablen gebunden durch einen Minimal- und Maximalwert
preprocessing.OneHotEncoder
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Trans kategorische integer Funktionen in binäre Einsen
preprocessing.StandardScaler
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Variable Standardisierung durch die mittlere Entfernung und Skalierung auf Einheitsvarianz
feature_extraction.text.CountVectorizer
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Konvertieren von Textdokumenten in eine Matrix von Zähldaten
feature_extraction.text.HashingVectorizer
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Direkt konvertieren Ihren Text den Hashing-Trick
feature_extraction.text.TfidfVectorizer
Verwendung: Vorbereiten Ihrer Daten
Beschreibung: Erstellt einen Datensatz von TF-IDF-Funktionen.
feature_selection.RFECV
Verwendung: Die Featureauswahl
Beschreibung: Automatische Feature-Auswahl
decomposition.PCA
Verwendung: Dimensionalitätsreduktion
Beschreibung: Hauptkomponentenanalyse (PCA)
decomposition.RandomizedPCA
Verwendung: Dimensionalitätsreduktion
Beschreibung: Hauptkomponentenanalyse (PCA) randomisiert SVD mit
cross_validation.cross_val_score
Verwendung: Kreuzvalidierungsphase
Beschreibung: Schätzen Sie die Kreuzvalidierung Punktzahl
cross_validation.KFold
Verwendung: Kreuzvalidierungsphase
Beschreibung: Teilen Sie die Datenmenge in den k Falten für Kreuzvalidierung
cross_validation.StratifiedKFold
Verwendung: Kreuzvalidierungsphase
Beschreibung: Stratifizierte Validierung, die die Verteilung der Klassen berücksichtigt man vorhersagen
cross_validation.train_test_split
Verwendung: Kreuzvalidierungsphase
Beschreibung: Teilen Sie Ihre Daten in Trainings- und Testsets
grid_search.GridSearchCV
Verwendung: Optimierung
Beschreibung: Erschöpfende Suche, um eine Maschine Lernalgorithmus zu maximieren
linear_model.LinearRegression
Verwendung: Prognose
Beschreibung: Lineare Regression
linear_model.LogisticRegression
Verwendung: Prognose
Beschreibung: Linear logistische Regression
neighbors.KNeighborsClassifier
Verwendung: Prognose
Beschreibung: K-Nachbarn Klassifikation
naive_bayes.MultinomialNB
Verwendung: Prognose
Beschreibung: Multinomiale Na # 239-ve Bayes
metrics.accuracy_score
Verwendung: Lösung Auswertung
Beschreibung: Genauigkeitsklasse-Score.
metrics.f1_score
Verwendung: Lösung Auswertung
Beschreibung: Berechnen Sie die F1-Score, Auswuchtgenauigkeit und Rückruf
metrics.mean_absolute_error
Verwendung: Lösung Auswertung
Beschreibung: Die mittlere absolute Fehler Regressionsfehler
metrics.mean_squared_error
Verwendung: Lösung Auswertung
Beschreibung: Mittlere quadratische Fehler Regressionsfehler
metrics.roc_auc_score
Verwendung: Lösung Auswertung
Beschreibung: Berechnen Sie Fläche unter der Kurve (AUC) von Vorhersage-Scores