Sichern Sie Ihre Daten in Hadoop

Als Hadoop die IT-Mainstream betritt und beginnt in einem großen Weg in Produktionsumgebungen eingesetzt zu werden, werden die gleichen Sicherheitsbedenken, die IT-Systeme wie Datenbanken gelten auch für Hadoop sein. In seinen frühen Jahren war Hadoop berühmt nicht

entwickelt, um mit Sicherheit im Auge, aber die Zugabe von Enterprise-Stärke Sicherheitsfunktionen ist ein wichtiger Teil der Volljährigkeit des Hadoop. Es ist ein notwendiger Teil auch: Für viele Anwendungen (wie Finanzen), wenn Sie nicht Sicherheitsgarantien zur Verfügung stellen kann, können Sie das Gesetz brechen.

Dieser Artikel konzentriert sich auf drei Hauptaspekte der Informationen zu sichern - Aspekte, wie sie andere IT-System würde gelten für Hadoop:

  • Perimeter-Management

  • Zugangskontrolle

  • Verschlüsselung

Perimeter-Management

Das erste Prinzip in der IT-Sicherheit ist zu eng, die Grenzen zwischen dem System und der Außenwelt zu kontrollieren. Da Hadoop ein verteiltes System über viele Computer ist, ist dies weitgehend ein Netzwerkproblem. Als verteilte Computing-Plattform, hat ein Hadoop-Cluster viele einzelne Computer, wobei jeder Computer eine Reihe von offenen Ports und Dienste haben.

Wie zu erwarten, ist dies ein Unsicherheitsfaktor, eine, die die meisten Administratoren, indem sie den Cluster in einem isolierten Netzwerk behandeln. Die Herausforderung kommt, wenn die Benutzer benötigen Anwendungen gegen Hadoop selbst zu laufen. Betrachten Randknoten bereitstellen, mit Shared Networking, als Gateway zwischen Hadoop und der Außenwelt zu handeln. Diese Strategie stellt Sicherheitsprobleme, aber. Um dieser Herausforderung gerecht zu werden, hat sich die Hortonworks Teamentwicklung des Apache-Knox-Projekt gestartet, die einen sicheren Zugriff auf die Hadoop-Cluster die Dienste ermöglicht.

Zugangskontrolle

Ein großer Teil der Sicherheitsdiskussion ist die Kontrolle des Zugangs. Wo Umfang Steuerung Access Points zu minimieren, Zugangskontrolle stellt sicher, dass jeder Zugriff, die sicher passiert ist.

Beglaubigung

An der Frontlinie der Zugriffskontrolle Authentifizierung, die, kurz gesagt, ist die Validierung, die Ihre Benutzer sind, die sie sagen, sie sind. Die Open-Source-Community hat eine enorme Menge an Arbeit in diesem Bereich setzen, um die verschiedenen Komponenten in der Apache Hadoop Ökosystem ermöglicht mit Kerberos arbeiten, die gut angesehen Computer-Netzwerk-Authentifizierungsprotokoll. Ab Frühjahr 2014 sind beide Hadoop 1 und Hadoop 2 Veröffentlichungen vollständig Kerberos-fähig ist. (Nicht jeder IT-Shop verwendet Kerberos, aber auch andere Protokolle wie LDAP, angewendet wurden von einigen Hadoop Distribution Anbieter in ihren proprietären Angeboten zu Hadoop.)

Genehmigung

Nach dem Authentifizierungsdienste, die Identität eines Benutzers überprüft haben, ist die Bestimmung, die nächste Frage, welche Informationen und Verhaltensweisen der Nutzer berechtigt ist - Genehmigung, mit anderen Worten.

Derzeit Genehmigung in Hadoop ist eher primitiv, und ist mit dem POSIX-Stil Lese beschränkt, Schreib- und Ausführungsrechte auf Dateisystemebene. Sind jedoch erhebliche Anstrengungen unternommen, um Benutzerklassen zu definieren (zB Benutzerrollen) und die Verwaltung von Zugriffskontrolllisten (ACLs).

The Hive-Projekt, zum Beispiel, wird bald Zuschuss haben / Wegnahme der Befehle können Administratoren festlegen, welche Benutzer bestimmte Tabellen oder Ansichten zugreifen können. Zu diesem Zweck hat die Cloudera-Team die Apache Knox Projekt wurde anführt, die Definition von Benutzerrollen und deren Berechtigungen für den Zugriff auf Daten in Impala und Hive zu verwalten.

Wirtschaftsprüfung

Das letzte Stück des Zugangskontroll Puzzle ist Datenzugriffsereignisse Tracking, die eine zentrale Anforderung für eine Reihe von Informations-Management-regulatorischen Standards ist, wie der Health Insurance Portability and Accountability Act (HIPAA) und der Payment Card Industry Data Security Standard (PCI DSS). Hadoop macht einen guten Job Audit-Informationen zum Speichern von Daten Zugriffsereignisse zu erfassen, so dass eine zentrale Anforderung ist bereits vorhanden. Zum Schutz und zu verwalten, die Audit-Daten, sind Tools von Drittanbietern zur Verfügung, wie Cloudera Navigator oder IBM Guardium.

Verschlüsselung

Nachdem er sich vergewissert, dass Ihre Daten Abwehrkräfte vorhanden sind, durch den Umfang der Verwaltung und den Zugang regeln, können Sie noch mehr, falls Sie eine Verletzung geschieht. Die Verschlüsselung kann die letzte Verteidigungslinie sein. Für Daten auf der Festplatte, nimmt die aktive Arbeit in der Hadoop-Community-Verschlüsselung als Option für alle Daten in HDFS gespeichert zu integrieren. Intels Verteilung hat einen frühen Sprung auf das, weil es für die Daten in HDFS aktiviert Verschlüsselung wurde von in Hadoop Slave-Knoten verwendet Vorteil spezialisierter Verschlüsselung Anweisungen in Intel-CPUs nehmen. Tools von Drittanbietern sind auch Daten in HDFS zu verschlüsseln.

Da Hadoop ein verteiltes System ist stark auf Netzwerk-Kommunikation angewiesen, Verschlüsseln von Daten, wie sie durch das Netz bewegt, ist ein wichtiger Teil dieser Geschichte. Zurück in Hadoop 1, die Hadoop Remote Procedure Call (RPC) System wurde verbessert, die Verschlüsselung zu unterstützen. Dies umfasst die Kommunikation in der Datenverarbeitung beteiligt sind, wie MapReduce, sondern auch für die Datenbewegung und die Web-Schnittstellen, Hadoop verwendet auch TCP / IP und HTTP. Beide haben auch gesichert: Hadoop des HTTP-Servers jetzt HTTPS unterstützt, und HDFS Transferoperationen können so konfiguriert werden, verschlüsselt werden.

Menü