Soziale Sentiment Analysis mit Hadoop

Social Sentiment-Analyse ist es einfach am bewertet des Hadoop verwendet, die keine Überraschung sein sollte, da die Welt immer wieder verbunden und die aktuelle ausdrucks Bevölkerung. Dieser Anwendungsfall nutzt Inhalte aus Foren, Blogs und andere Ressourcen, Social Media, ein Gefühl dafür zu entwickeln, was die Menschen tun (zum Beispiel Lebensereignisse) und wie sie auf die Welt um sie herum sind Umsetzung von (Stimmung).

Da textbasierte Daten natürlich nicht in eine relationale Datenbank passen, ist Hadoop ein praktischer Ort zu erkunden und führen Analysen dieser Daten.

Die Sprache ist schwer zu interpretieren, auch für den Menschen manchmal - vor allem, wenn Sie Text von Menschen in einer sozialen Gruppe geschrieben sind zu lesen, die von der eigenen unterscheidet. Diese Gruppe von Menschen können Sie Ihre Sprache sprechen, aber ihre Ausdrücke und Stil sind völlig fremd, so dass Sie keine Ahnung haben, ob sie über eine gute Erfahrung oder einem schlechten sprechen.

Zum Beispiel hören, wenn Sie das Wort Bombe in Bezug auf einen Film, könnte es bedeuten, dass der Film war schlecht (oder gut, wenn Sie einen Teil der Jugendbewegung, interpretiert sind # 147-Es ist da bomb # 148- als Kompliment) - natürlich nur, wenn Sie in der Airline-Sicherheit Geschäft sind, das Wort Bombe hat eine ganz andere Bedeutung. Der Punkt ist, dass die Sprache in vielen variablen Weise verwendet wird und wird ständig weiterentwickelt.

Wenn Sie die Stimmung auf Social Media zu analysieren, können Sie aus mehreren Ansätzen wählen. Die grundlegende Methode analysiert programmatisch den Text extrahiert Strings und Regeln anwendet. In einfachen Fällen ist dieser Ansatz sinnvoll. Aber die Anforderungen entwickeln und Regeln werden immer komplexer, manuell Codierung Text-Extraktionen schnell wird nicht mehr möglich aus der Perspektive der Codepflege, insbesondere für die Performance-Optimierung.

Grammatik- und regelbasierte Ansätze zur Textverarbeitung sind rechenintensiv, was in Hadoop eine wichtige Überlegung in Groß Extraktion ist. Je mehr beteiligt, die Regeln (die für komplexe Zwecke wie die Stimmung Extraktion unvermeidlich ist), desto mehr Verarbeitung, die benötigt wird.

Alternativ wird ein Statistik-basierten Ansatz immer für Sentiment-Analyse immer häufiger. Anstatt manuell komplexe Regeln schreiben, können Sie die Klassifizierung orientierte Maschinen-Learning-Modelle in Apache Mahout verwenden. Der Haken dabei ist, dass Sie Ihre Modelle mit Beispielen für positive und negative Stimmung trainieren müssen. Je mehr Trainingsdaten Sie (zum Beispiel Text von Tweets und Ihre Klassifizierung), desto genauer Ihre Ergebnisse liefern.

Der Anwendungsfall für soziale Sentiment-Analyse kann in einem breiten Spektrum von Branchen angewendet werden. Betrachten wir zum Beispiel die Lebensmittelsicherheit: Der Versuch, extrem wichtig, um vorherzusagen oder den Ausbruch von lebensmittelbedingten Erkrankungen, so schnell wie möglich zu identifizieren ist für die Gesundheit Beamten.

Die folgende Abbildung zeigt eine Hadoop-verankerte Anwendung, die Extraktoren Tweets mit auf der Grundlage der potentiellen Krankheit ingests: FLU oder Lebensmittelvergiftung.

bild0.jpg

Haben Sie die erzeugte Wärme Karte sehen, die die geographische Lage der Tweets zeigt? Ein Charakteristikum der Daten in einer Welt der großen Daten ist, dass der größte Teil davon ist räumlich angereichert: Es hat Ortsinformation (und zeitlichen Eigenschaften, auch). In diesem Fall wurde die Twitter-Profil Reverse Engineering von der veröffentlichten Lage nach oben.

Wie sich herausstellt, haben viele Twitter-Konten geografische Standorte im Rahmen ihrer öffentlichen Profile (sowie Haftungsausschlüssen eindeutig hervorgeht, dass ihre Gedanken, ihre eigenen sind wie für ihre Arbeitgeber zu sprechen gegenüber).

Wie gut einer Vorhersage-Engine kann Social Media für den Ausbruch der Grippe oder einer Lebensmittelvergiftung Vorfall? Betrachten Sie die anonymisierten Beispieldaten gezeigt. Sie können sehen, dass Social-Media-Signale alle anderen Indikatoren erfundenen einen Grippe-Ausbruch in einem bestimmten US-Grafschaft im Spätsommer für die Vorhersage und in frühen Herbst.

image1.jpg

Dieses Beispiel zeigt einen weiteren Vorteil, der aus der Analyse der sozialen Medien auflaufen: Es Sie eine noch nie dagewesene Möglichkeit gibt, in Plakaten Profile auf Attributinformationen zu suchen. Zugegeben, was die Leute sagen über sich selbst in ihren Twitter-Profilen oft unvollständig ist (zum Beispiel wird der Standortcode nicht ausgefüllt) oder nicht sinnvoll (die Ortscode könnte sagen, Wolke neun).

Aber man kann viel über die Menschen im Laufe der Zeit lernen, auf das, was sie sagen. Zum Beispiel kann ein Client tweeted (Veröffentlicht auf Twitter) die Ankündigung der Geburt ihres Babys, Instagram-Bild von ihr neuestes Gemälde oder ein Facebook-Posting die besagt, dass sie nicht Walter White das Verhalten in der letzten Nacht glauben kann Wandlung zum Bösen Finale.

In diesem allgegenwärtigen Beispiel kann Ihr Unternehmen über ein Ereignis im Leben zu extrahieren, die eine familien Graph auffüllt (ein neues Kind ist ein wertvolles Update für eine Person-basierten Master Data Management-Profil), ein Hobby (Malerei), und ein Interesse Attribut (Sie lieben die Show Wandlung zum Bösen).

Durch die Analyse von sozialen Daten auf diese Weise haben Sie die Möglichkeit, persönliche Attribute mit Informationen zu konkretisieren wie Hobbys, Geburtstage, Ereignisse im Leben, geografischen Standorten (Land, Staat und Stadt, zum Beispiel), Arbeitgeber, Geschlecht, Familienstand, und Mehr.

Nehmen wir für einen Moment, dass Sie den CIO einer Fluggesellschaft sind. Sie können die Buchungen von glücklich oder wütend Vielreisende nutzen, um nicht nur die Stimmung festzustellen, sondern auch Kundenprofile für das Treueprogramm abrunden mit Social-Media-Informationen.

Stellen Sie sich vor, wie viel besser Sie potenzielle Kunden mit den Informationen zielen könnte, die nur geteilt wurde - zum Beispiel eine E-Mail an den Client zu sagen, dass Staffel 5 von Wandlung zum Bösen ist jetzt auf dem Mediensystem des Flugzeugs oder der Ankündigung, dass die Kinder unter dem Alter von zwei Jahren kostenlos fliegen zur Verfügung.

Es ist auch ein gutes Beispiel dafür, wie die Systeme der Aufzeichnung (sagen wir, im Vertrieb oder Abonnement-Datenbanken) Systeme des Eingriffs treffen können (zum Beispiel Support-Kanäle). Obwohl die Geschichte der Treue Mitglieder Erlösung und Reisen in einer relationalen Datenbank ist, kann das System des Eingriffs Datensätze zu aktualisieren (zum Beispiel eine Spalte).

Menü