Datensätze, die Daten einschließen

Sie sehr selten über ein Daten-Set ausführen, die Daten nicht enthalten. Kaufdaten, Geburtsdaten, aktualisieren Daten, Kursdaten, und die Liste geht weiter. In fast jedem Kontext ist eine Art Datum ein vollständiges Bild von der Situation zu analysieren Sie versuchen zu bekommen benötigt.

Der Umgang mit Daten kann ein bisschen schwierig, zum Teil wegen der Vielzahl von Möglichkeiten, um sie zu speichern. Aber auch, je nachdem, was Sie versuchen zu tun, können Sie nur einen Teil des Datums benötigen. Hier sind ein paar gemeinsame Situationen zu achten ist.

Der Umgang mit Datetime-Formate

Für den Anfang haben die meisten Datenbank-Management-Systeme eine extrem präzise Daten intern zu speichern: Sie verwenden ein Terminzeit. Das ist genau das, was es klingt: ein Mashup des Datums und der Uhrzeit. Zum Beispiel sieht ein gemeinsames Format wie folgt aus:

2014-11 - 2414: 25: 44

Das heißt, 25 Minuten und 44 Sekunden nach 14.00 Uhr am 24. November 2014.

Die scheinbar zu sehr ins Detail hier wird selten voll genutzt. Bei weitem die häufigste Benutzer des vollen Detail ist die Datenbankverwaltungssystem selbst. Es ist eine gängige Praxis für Datenbanken auf jedem Datensatz ein Datetime-Stempel aufzudrücken, um anzuzeigen, wenn der Datensatz erstellt wurde und wann es zuletzt aktualisiert wurde. Die New York Stock Exchange Systeme tatsächlich halten Spur von Handelszeitmarken zu noch mehr Präzision.

Für die meisten analytischen Anwendungen ist dies jedoch näher als Sie wollen.

Wenn Sie eine Aktie Schlusskurs im Laufe der Zeit zu analysieren, werden Sie nicht in mehr als nur den Tag interessiert sein oder vielleicht den Monat mit jedem Schlusskurs verbunden. Wenn Sie eine demografische Analyse der Altersverteilung tun, kann das Geburtsjahr sein alles, was relevant ist.

Geburtsdaten liefern ein gutes Beispiel für etwas, das Sie mit Datetime-Daten auftreten können. Auch wenn Daten in einem Datetime-Feld gespeichert werden können, kann es sein, dass nur ein Teil des Feldes wirklich verwendet wird. Geburtsdaten haben in der Regel der Zeitanteil für jeden Datensatz auf 00:00:00 vorbelegt.

Zum Glück haben die beiden Datenbanksysteme und analytische Software integrierten Funktionen, die Sie nur den Teil des Datetime zu extrahieren lassen, die für Sie relevant sind. Sie können wählen, nur das Datum Teil zu extrahieren, nur den Monat und das Jahr, nur das Jahr, und so weiter. Und in der Tat, dies wird oft für Sie getan, bevor Sie jemals die Daten zu sehen.

Unter Berücksichtigung der Geographie

In der schönen neuen Welt der globalen Wirtschaft, werden Sie wahrscheinlich Daten auftreten, die von vielen verschiedenen Orten gesammelt wurden. Wer schon einmal versucht hat, eine internationale Konferenz zu planen, ist sich der beteiligten Logistik mit mehreren Zeitzonen zu tun haben. Immer häufiger sind heute nach Mitternacht Konferenz mit Indien nennt.

Eine typische große Daten Beispiel beinhaltet das Supply Chain Management. Leitung der Lieferkette ist der laufende Prozess Rohstoffe, Vorräte, Verteilung und alle anderen relevanten Aspekt des Geschäfts eines Unternehmens zu verwalten, zu versuchen. Es ist, wie Wal-Mart hält Regalen bestückt, wie UPS Spur der Pakete hält, und wie Amazon schafft vorstellbar fast überall fast alles zu liefern.

In diesen Beispielen, dass die Analyse Supply Chain Management zugrunde liegt, muss berücksichtigt werden, dass die Daten aus verschiedenen Zeitzonen kommt. Wenn sie mit Situationen wie dieser konfrontiert, Datetime-Daten müssen sorgfältig behandelt werden.

Angenommen, ein Paket aus Kalifornien bei 10.00 Uhr am Mittwoch ausgeliefert wird und an seinem endgültigen Bestimmungsort in New York am Donnerstag um 10.00 Uhr geliefert Wenn Sie bei der Analyse von Lieferzeiten interessiert sind, müssen Sie die Zeitzone ändern zu berücksichtigen. In diesem Beispiel beträgt die Lieferzeit tatsächlich 21 Stunden, nicht 24.

Wenn mit Datetime-Daten gesammelt aus verschiedenen Zeitzonen zu tun, können Sie nicht nur verschiedene Datenpunkte zu vergleichen, auf der Basis der Rohdaten. Sie müssen zuerst sicherstellen, dass alle Datetimes in einer gemeinsamen Zeitzone vertreten sind. Welche Zeitzone Sie verwenden, ist etwas willkürlich, solange alle Datenpunkte die gleiche verwenden.

Es gibt eine andere geographisch - oder, genauer, kulturell zu sein - im Zusammenhang Tatsache, dass Sie sich bewusst sein müssen. Nicht alle Länder vertreten Daten in der gleichen Weise. Die US-ist eigentlich etwas einzigartig in Daten als Monat / Tag / Jahr entspricht. Kanada und den meisten Ländern Europas bevorzugen die Konvention Tag / Monat / Jahr zu verwenden. Sie können auch über Variationen laufen beginnend mit dem Jahr.

Wie Sie Ihre Software denkt über Termine

Daten werden in einer Vielzahl von Wegen in die Datenanalyse verwendet. Manchmal, wie mit Aktienkursanalyse, deren primäre Funktion ist es, die Beobachtungen, um von der frühesten bis spätestens zu setzen. Aber in anderen Fällen werden sie verwendet, Zeitintervalle zu messen.

In der Technik, vor allem in der Qualitätskontrolle, ein Schlüssel Statistik ist mittlere Zeit bis zum Ausfall. Dies ist einfach die durchschnittliche Lebensdauer eines Teils oder Produkts. Für langlebige Produkte, wie Autoteile und Glühbirnen, erfordert diese Berechnung den Vergleich der Daten.

Auf den ersten Blick scheint, 15. August 2013 minus 1. Januar 2010 nicht viel Sinn mathematisch machen. Wir alle wissen, was damit gemeint ist, aber es dauert einige denken, die Antwort zu bekommen. Aus diesem Grund, wenn viele statistische Pakete mit Daten konfrontiert, sie sofort in eine Zahl konvertieren, um Vergleiche zu erleichtern. Sie tun dies, indem Sie einige Ausgangspunkt Kommissionierung und die Anzahl der Tage zwischen dem Ausgangspunkt der Berechnung und dem Datum, das konvertiert wird.

Zum Beispiel, eine große statistische Software-Hersteller, SAS, verwendet das Datum 1. Januar 1960 als Ausgangspunkt. Dieses Datum hat den Wert 0. Es jeden Tag wie die Anzahl der Tage, speichert es weg von diesem Ausgangspunkt. So denkt SAS zum 1. Januar 1961 als 366 (zur Erinnerung: 1960 war ein Schaltjahr, und am 1. Januar ist Tag 0, nicht Tag 1). Der Ausgangspunkt ist willkürlich und verschiedene Software-Hersteller unterschiedliche Ausgangspunkte verwenden, aber die Idee ist die gleiche.

Eine seltsame Folge dieser Konvention ist, dass wenn man sich den Rohdaten sehen, sind nicht nur alle Termine ganzen Zahlen, aber sie haben nicht einmal positive ganze Zahlen sein. Im SAS Beispiel 1. Januar 1959 würde als -365 darstellen.

In jedem Fall ist diese Art und Weise das Datum Handhabung erleichtert Berechnungen. Durch die Umwandlung des Datums auf eine Anzahl an Input, vermeidet das System, durch Reifen zu springen jedes Mal eine Berechnung dieses Datum Beteiligung durchgeführt.

Menü