JAXenter: Was ist die größte Herausforderung, die Hadoop in Zukunft noch zu bewältigen hat? Oder reicht es im Grunde schon, so weiterzumachen wird wie bisher?

Doug Cutting: Die Herausforderung ist es, dem Hype gerecht zu werden. Bisher haben wir uns ganz gut angestellt: Man kann Daten wirklich speichern und effektiv verarbeiten. Aber es handelt sich um eine junge Technologie, der die Vorstellungen schnell vorauseilen. Also müssen wir die Erwartungen einerseits im Zaum halten, andererseits aber ein offenes Ohr dafür haben und sehen, ob wir ihnen gerecht werden können – wenn nicht schon in diesem Jahr, dann eben im nächsten.

Bislang sind wir damit ziemlich gut gefahren. Immerhin wenden viele die Technologie schon an. Aber es besteht noch Verbesserungspotential. Da wäre zum einen das Thema Sicherheit: Wir müssen überall Verschlüsselung unterstützen. Wir müssen Online-Systeme besser unterstützen, interaktive Queries ausführen können, genauso wie komplexere Online-Queries; kurz gesagt, eine Menge Integration mit etlichen Tools. Also noch viel Arbeit.

JAXenter: Ist die Hadoop-2.0-Codebasis bezüglich der gerade genannten Aufgaben ein Schritt in die richtige Richtung?

Doug Cutting: Ja, es wurde viel an der Performance im Dateisystem und an der Sicherheit gearbeitet. Die Richtung wird ja definitiv vom Bedarf der User vorgegeben, also gehe ich davon aus, dass wir auf jeden Fall in die richtige gehen [lacht]. Cloudera und andere hören auf die Kunden, und wir machen das, was die Kunden als nächstes am dringendsten brauchen. Es ist also bedarfsorientiert. Ich hoffe, wir hören auf die richtigen Leute, aber ich glaube schon, dass wir das tun.

JAXenter: Du hast Hadoop neulich als „Kerntechnologie“ der Plattform beschrieben. Welche anderen Big-Data-Technologien hast du zurzeit im Auge? Im Inkubator der Apache Software Foundation werden ja einige ausgebrütet.

Doug Cutting: Ich finde es ziemlich aufregend, dass Hadoop zu dieser Kerntechnologie geworden ist. Ich denke, Bigtop wird zum Knotenpunkt, an dem diese ganzen Teiltechnologien koordiniert werden. Ich denke auch an das YARN-Projekt innerhalb von Hadoop, das die Runtime des Kernels verallgemeinert, so dass verschiedene Arten der Datenverarbeitung möglich werden. Projekte wie Giraph zur Datenverarbeitung werden sehr nützlich sein. Dann ist da noch der ganze Bereich der Datenverarbeitung in Echtzeit, eine Art separater Entwicklungsstrang, der nicht ganz so stark in den Hadoop-Stack integriert ist. Das ist interessant zu beobachten und nichts, woran ich beteiligt gewesen bin. Storm und F4 sollten mehr hinzugezogen werden. HBase war lange das primäre Onlinesystem innerhalb dieses Stacks. Ich denke, dass wir nächstes Jahr viel mehr sehen werden, was wirklich mit Hadoop integriert ist und interaktive Queries liefern kann, über die einfachen Key Values von HBase hinaus. Es wird also aller Wahrscheinlichkeit nach mehr interaktive SQL-Queries geben, im Lucene-Lager außerdem das Lucene-ähnliche Solr Cloud, das skalierbare Suchen ermöglicht. Man kann also Petabytes von Daten mit sehr geringer Latenz und ziemlich gutem Durchsatz durchsuchen und dabei mehrere Queries simultan laufen lassen. In beiden Bereichen werden sehr große Fortschritte erzielt werden.

JAXenter: Ich möchte noch auf deine Rolle bei der Apache Software Foundation eingehen. Was gedenkst du, dort in dieser Rolle zu erreichen?

Doug Cutting: Ich bin seit einigen Jahren im Vorstand von Apache. Es ist nicht wirklich eine Machtposition – Apache ist eine Organisation von Ehrenamtlichen. Es gibt also keine Hierarchie wie in einem Unternehmen. Vielmehr kommt es auf die Koordination an. Wenn wir unsere Muskeln spielen lassen, dann nur in „Polizei-Aktionen“, das heißt, wenn eine Community nicht nach den Prinzipien handelt, die uns wichtig sind.

Wir machen uns sehr für Chancengleichheit innerhalb den Communities stark, so dass jeder dazukommen und sich an einem Projekt beteiligen kann. Die, die sich einbringen, werden allein aufgrund ihrer technischen Verdienste beurteilt. Wir wollen auch nicht, dass einzelne Firmen zu viel Einfluss auf ein Projekt ausüben oder dass sie die Projekte im Hinblick auf ihre kommerziellen Eigeninteressen kontrollieren, statt Rücksicht auf die technischen Erfordernisse der Community zu nehmen. Wenn wir sehen, dass so etwas geschieht, schreiten hier und da ein. Es ist nicht klar, ob sich diese Freiwilligen-Struktur endlos skalieren lässt – das funktioniert seit über einem Jahrzehnt, aber irgendwann müssen wir vielleicht mehr Leute einstellen. Die Anzahl der Partnerunternehmen, die systemadministrative Aufgaben übernehmen, ist gestiegen. Wir haben einen Partner für Marketing und Kommunikation und einen Assistenten, der einiges an Papierkram erledigt.

Irgendwann werden wir uns also vergrößern – wie und wie wir das dazu notwendige Fundraising aufziehen, das werden noch etwas knifflige Aufgaben. Bisher war unser Fundraising relativ passiv – wir haben große Firmen, die die ASF zu schätzen wissen, und die geben uns Geld. Das ist wunderbar, da an keine Bedingungen geknüpft, und bis jetzt hat es ausgereicht. Ob wir mehr aktives Fundraising machen und im Zuge dessen mehr Leute einstellen, werden wir dann sehen.

Die Größe der ASF ist ziemlich beeindruckend. Wir haben 3000 Committer und über 100 aktive Projekte in der Entwicklung – eine Menge Software, die aus einer Grassroots- oder basisdemokratisch geführten Stiftung hervorgeht.

JAXenter: Es muss unglaublich toll sein, so viele Projekte zu beobachten, die innovative Dinge beisteuern.

Doug Cutting: Und das alles läuft autonom, so ist es vorgesehen. Wir verlagern die Entscheidungsgewalt nach unten, einfach deshalb, weil wir es uns nicht leisten können, das Ganze top-down zu führen. Das würde nicht nur gegen unsere Prinzipien verstoßen, sondern wir haben auch gar keine bezahlten Manager, die das übernehmen würden. Außerdem würden wir gar nicht von den Leuten erwarten können, dass sie darauf reagieren.

JAXenter: Eine letzte Frage: Kannst du auf die Rolle von Cloudera näher eingehen und auf das neueste Release CDH4? Welche Probleme löst es für Unternehmen?

Doug Cutting: Bei Cloudera bin ich Chief Architect, also eine Art James Bond mit der Lizenz zum Hacken [lacht]. Meistens arbeite ich an Apache-Sachen, an Software, helfe, die ASF zu managen und unterstütze Cloudera bei der Erfüllung ihrer Mission, indem ich Zeit bei Kunden verbringe und dabei meist Hadoop und Apache erkläre.

CDH4 ist das kommerzielle Packaging der nächsten Generation des Hadoop-Ökosystems. Es basiert auf dem Open-Source-Projekt Bigtop – der Version, die kommerziellen Langzeitsupport bietet. Cloudera wird weiterhin an kritischen Bugfixes und Security Fixes an CDH arbeiten, was im Bigtop-Projekt bis jetzt fehlte. In diesem Zusammenhang gibt es auch das kommerzielle, proprietäre Angebot Cloudera Enterprise, mit dem sich Hadoop-Cluster managen lassen. Die Grenze, die wir zwischen unseren Open-Source- und proprietären Lösungen gezogen haben, ist die: Die APIs, mit denen man eine Applikation programmiert, sind Open-Source. Was man zur Konfiguration, zum Betrieb und Monitoring der Software braucht, ist meist proprietär. Das bekommt man bei uns zusammen mit Support.

JAXenter: Klingt nach einer ausgewogenen Lösung. Danke für das Gespräch, Doug!

Die Fragen stellte Chris Mayer.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.