Welche SQL Zugriff eigentlich bedeutet

Eine Reihe von Unternehmen investieren stark Open-Source-Projekten und proprietären Lösungen für SQL-Zugriff auf Hadoop-Daten zu fahren. Wenn Sie den Begriff hören SQL-Zugriff, Sie sollten wissen, dass Sie auf ein paar grundlegende Annahmen angewiesen sind:

  • Sprache Normen: Der wichtigste Standard, natürlich bringt die Sprache selbst. Viele # 147-SQL-ähnliche # 148- Lösungen existieren, obwohl sie in der Regel messen nicht in bestimmten grundlegenden Möglichkeiten - Möglichkeiten, die auch typische SQL-Anweisungen von der Arbeit verhindern würde.

    Das American National Standards Institute (ANSI) SQL als offizieller technischer Standard etabliert, und die IT-Industrie nimmt die ANSI SQL-92-Standard als Vertreter der Maßstab für die grundlegende SQL-Compliance. ANSI hat eine Reihe von zunehmend fortgeschrittenere Versionen im Laufe der Jahre erschienen als Datenbank-Technologien entwickelt haben.

  • Treiber: Eine weitere wichtige Komponente in einer SQL-Access-Lösung ist die Treiber - die Schnittstelle für Anwendungen und Datenaustausch mit dem Datenspeicher zu verbinden. Ohne Fahrer, gibt es keine SQL-Schnittstelle für alle Client-Anwendungen oder Werkzeuge für die Einreichung von SQL-Abfragen zu verbinden.

    Als solche hat jede SQL auf Hadoop-Lösung JDBC und ODBC-Treiber zumindest zu haben, weil sie die am häufigsten verwendeten Datenbank-Interface-Technologien sind.

  • Echtzeit-Zugang: Bis Hadoop 2, MapReduce-basierte Ausführung war die einzige verfügbare Option für die Analytik gegen in Hadoop gespeicherten Daten. Für relativ einfache Abfragen einen vollständigen Scan-Daten in einer Tabelle beteiligt war Hadoop recht schnell im Vergleich zu einer traditionellen relationalen Datenbank.

    Denken Sie daran, dass dies eine Chargenanalyse Anwendungsfall ist, wo schnell bedeuten kann Stunden, je nachdem, wie viele Daten beteiligt ist. Aber wenn es um komplexere Abfragen kam, Teilmengen von Daten, fielen in Hadoop nicht gut tun. MapReduce ist eine Stapelverarbeitung Rahmen, so hohe Leistung für die Echtzeit-Abfragen zu erzielen, bevor Hadoop 2 architektonisch unmöglich war.

    Ein frühes Motivator für GARN, die neue Ressourcen-Management und Scheduling-System auf den Block, war dieser Bedarf eine andere Verarbeitung Frameworks zu unterstützen Echtzeit-Workloads zu ermöglichen, wie interaktive SQL-Abfragen. Tatsächlich sollte eine richtige SQL-Lösung nicht verlassen Menschen für einen vernünftigen Anfragen warten.

  • Veränderliche Daten: Eine häufig gestellte Frage in vielen Diskussionen um SQL-Unterstützung auf Hadoop ist ? # 147-Können wir, und Aussagen, wie wir in einer typischen relationalen Datenbank # 148- Für jetzt zu tun wäre in der Lage, die Antwort ist nein, welche die Natur des HDFS reflektiert - es konzentriert sich auf große, unveränderliche Dateien. Technologien wie Hive bieten Lesezugriff auf diese Dateien. Unabhängig davon ist der Arbeit laufend im Projekt Hive Apache.

Menü