MongoDB Connector für Hadoop aktualisiert

Hartmut Schlosser

Für die Dokumenten-orientierte Datenbank MongoDB steht ein überarbeiteter Hadoop-Connector zur Verfügung. Der Connector verspricht die Kombination der analytischen Fähigkeiten von Hadoops MapReduce-Mechanismus mit den Anwendungsdaten aus MongoDB. MongoDB wird als Hadoop-kompatibles Dateisystem dargestellt, sodass MapReduce Jobs Echtzeitdaten von MongoDB lesen und verarbeiten können.

Neu ist die Unterstützung für Apache Hive mit SQL-ähnlichen Abfragen über MongoDB-Datensätze. Ad-Hoc-Analysen lassen sich mittels inkrementeller MapReduce-Jobs durchführen. Außerdem bietet der neue Connector Support für MongoDB BSON-Daten im Hadoop Distributed File System (HDFS), was für weniger Datenverkehr sorgen soll. Die Zugriffsmöglichkeit auf MongoDB Backupdateien soll darüber hinaus die Auslastung stark beanspruchter MongoDB-Cluster verringern.

Laut MongoDB CEO Max Schireson ist der Connector auf vielfachen Wunsch der Community entstanden:

MongoDB wird im Markt häufig für operative Big Data-Aufgaben in Echtzeit eingesetzt, während Hadoop eher für tiefgreifende Offline-Analysen zur Anwendung kommt. Es war der Wunsch der Community, dass wir diese Tools besser miteinander verzahnen.

Der MongoDB Connector for Hadoop wird auf GitHub entwickelt. Eine Einführung gibt es auf der Projektseite.

Geschrieben von
Hartmut Schlosser
Hartmut Schlosser
Hartmut Schlosser ist Redakteur und Online-Koordinator bei Software & Support Media. Seine Spezialgebiete liegen bei Java-Enterprise-Technologien, JavaFX, Eclipse und DevOps. Vor seiner Tätigkeit bei S & S Media studierte er Musik, Informatik, französische Philologie und Ethnologie.
Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.