Big Data-Workflows

Um große Datenworkflows zu verstehen, müssen Sie verstehen, was ein Prozess ist und wie es in den Workflow in datenintensiven Umgebungen betrifft. Prozesse sind in der Regel so hoch Niveau, End-to-End-Strukturen nützlich für die Entscheidungsfindung konzipiert werden und die Normalisierung, wie die Dinge in einem Unternehmen oder einer Organisation zu erledigen.

Im Gegensatz dazu Workflows sind aufgabenorientiert und erfordern oft mehr spezifische Daten als Prozesse. Die Prozesse werden von einem oder mehreren Workflows relevant für das übergeordnete Ziel des Verfahrens besteht.

In vielerlei Hinsicht sind große Datenworkflows ähnlich wie Standard-Workflows. In der Tat, in jedem Arbeitsablauf ist notwendigen Daten in die verschiedenen Phasen, die Aufgaben zu erfüllen. Betrachten Sie den Workflow in einer medizinischen Situation.

Eine elementare Arbeitsablauf ist der Prozess der # 147-Zeichnung Blut. # 148- Zeichnung Blut ist eine notwendige Aufgabe, die gesamte Diagnoseprozess abzuschließen erforderlich. Wenn etwas passiert, und Blut wurde nicht die Daten aus dieser Blutprobe gezogen oder verloren gegangen ist, wird es eine direkte Auswirkung auf die Richtigkeit oder Wahrhaftigkeit der gesamten Tätigkeit sein.

Was passiert, wenn Sie einen Workflow vor, die auf einem großen Datenquelle abhängt? Obwohl Sie bestehende Workflows zu verwenden, möglicherweise in der Lage, kann man nicht davon ausgehen, dass ein Prozess oder Workflow wird nur durch Substitution eines großen Datenquelle für eine Standardquelle korrekt funktionieren. Dies kann nicht funktionieren, da Standard-Datenverarbeitungsverfahren, die Komplexität der großen Daten nicht über die Verarbeitungsansätze oder die Leistung haben zu behandeln.

Der Gesundheits Beispiel konzentriert sich auf die Notwendigkeit, eine Analyse durchzuführen, nachdem das Blut aus dem Patienten gezogen wird. In der Standard-Daten-Workflow wird das Blut getippt und dann bestimmte chemische Tests basieren auf den Anforderungen des Arztes durchgeführt.

Es ist unwahrscheinlich, dass dieser Workflow der Prüfung versteht, die für spezifische Biomarker oder genetische Mutationen zu identifizieren. Wenn Sie große Datenquellen für Biomarker und Mutationen geliefert, die Workflow fehlschlagen. Es ist nicht groß Daten bewusst und müssen geändert oder neu geschrieben werden große Datenmengen zu unterstützen.

Die Best-Practice-Workflows für das Verständnis und die Wirkung der großen Daten ist folgendes zu tun:

  • Identifizieren Sie die großen Datenquellen, die Sie verwenden müssen.

  • Ordnen Sie die großen Datentypen zu Ihren Workflow-Datentypen.

  • Stellen Sie sicher, dass Sie die Verarbeitungsgeschwindigkeit und Speicherzugriff haben Ihren Workflow zu unterstützen.

  • Wählen Sie den Datenspeicher am besten geeignet, um die Datentypen.

  • Ändern Sie den vorhandenen Workflow große Daten aufzunehmen oder neue große Daten-Workflow erstellen.

Nachdem Sie Ihre große Daten Workflows haben, wird es notwendig sein, diese für die Feinabstimmung, so dass sie nicht Ihre Analyse überwältigen oder verunreinigen. viele große Datenquellen enthalten keine gut definierten Datendefinitionen und Metadaten über die Elemente dieser Quellen zum Beispiel. Manchmal haben diese Datenquellen nicht gereinigt worden. Sie müssen sicherstellen, dass Sie das richtige Maß an Wissen über die Quellen haben Sie verwenden möchten.

Menü