Die Grenzen der Probenahme in Hadoop

Statistische Analysen ist weit davon entfernt ein neues Kind auf dem Block zu sein, und es ist sicherlich alte Nachrichten, die es auf die Verarbeitung großer Datenmengen abhängig neue Erkenntnisse zu gewinnen. Allerdings ist die Datenmenge, die durch diese Systeme traditionell verarbeitet wird lag im Bereich zwischen 10 und 100 (oder hunderte) Gigabytes - nicht die terabyte oder petabyte Bereiche heute gesehen, mit anderen Worten.

Und es oft erforderlich, eine teure symmetrische Multiprocessing (SMP) Maschine mit so viel Speicher wie möglich die Daten zu halten, die analysiert werden. Das ist, weil viele der durch die analytischen Ansätze verwendeten Algorithmen waren recht # 147-berechnen intensive # 148- und wurden im Speicher ausgeführt werden entworfen - wie sie mehrere erfordern und oft häufig, die Daten durchlaufen.

Konfrontiert mit teurer Hardware und einem ziemlich hohen Engagement in Bezug auf Zeit und RAM, versuchten Leute die Analytik zu machen Workload ein wenig sinn nur um eine Stichprobe der Daten zu analysieren. Die Idee war, die Berge auf Berge von Daten in Datenlagern sicher verstaut zu halten, nur eine statistisch signifikante Stichprobe der Daten aus ihren Depots zu einer statistischen Motor bewegt.

Während Probenahme eine gute Idee in der Theorie ist, dies in der Praxis ist oft ein unzuverlässiger Taktik. eine statistisch signifikante Probenahme zu finden, kann für spärliche und / oder schiefe Datensätze, die sind recht häufig schwierig sein. Dies führt zu schlecht beurteilt Samplings, die Ausreißer und anomale Datenpunkte einführen können, und kann wiederum, Bias die Ergebnisse Ihrer Analyse.

Menü