Laufende Statistische Modelle in Hadoop MapReduce der

statistische Modelle konvertieren parallel laufen zu lassen ist eine anspruchsvolle Aufgabe. Im traditionellen Paradigma für die parallele Programmierung wird Speicherzugriff durch die Verwendung von geregelt Themen - Teilprozesse durch das Betriebssystem erzeugt einen einzelnen gemeinsam genutzten Speicher auf mehrere Prozessoren zu verteilen.

Faktoren wie Rennbedingungen zwischen konkurrierenden Threads - wenn zwei oder mehrere Threads versuchen, gemeinsam genutzte Daten in der gleichen Zeit zu ändern - die Leistung Ihres Algorithmus beeinflussen können, sowie Auswirkungen auf die Genauigkeit der statistischen Ergebnisse Ihrer Programmausgaben - vor allem für die langfris Analysen von großen Probensätzen ausgeführt wird.

Ein pragmatischer Ansatz für dieses Problem ist anzunehmen, dass nicht viele Statistiker werden die Ins und Outs von MapReduce (und umgekehrt) kennen, noch können Sie erwarten, werden sie bewusst alle Fallen, die parallele Programmierung bringt. Mitwirkende der Hadoop-Projekt (und weiter zu entwickeln) statistische Instrumente mit diesen Realitäten im Auge behalten.

Das Fazit: Hadoop bietet viele Lösungen für die Algorithmen, die Umsetzung erforderlichen statistischen Modellierung und Analyse durchzuführen, ohne dass die Statistiker mit nuancierten parallelen Programmierung Überlegungen zu überlasten.

Menü