W-JAX Countdown

Big Data für die Kleinen

© Software & Support Media

Gigantische Rechenzentren, endlose Serverracks – solche und ähnliche Bilder bringen wohl die meisten mit dem Begriff „Big Data“ in Verbindung. Aber auch ohne großes Hardwareaufgebot kann man sich einen Eindruck von Big-Data-Technologien – allen voran Hadoop – verschaffen: Ramon Wartala gibt in seiner Session auf den Big Data Days eine Selbstbauanleitung für ein Hadoop-Cluster auf Basis des Raspberry-Pi-Klons Cubieboard. Besonders geeignet ist ein solches Cluster Marke Eigenbau für Forschung und Lehre. Wir sprachen mit dem Speaker-Neuling über die Faszination Big Data, Hadoop und die Freude am Cluster-Basteln.

JAXenter: Sie sind zum ersten Mal als Speaker auf einer JAX/W-JAX. Was erwarten Sie von dem Event bzw. worauf freuen Sie sich?

Ramon Wartala: Obwohl ich vor einigen Jahren viele Anwendungen im Java-Umfeld betreut habe, war es mir zeitlich nicht möglich, an dieser wichtigen deutschen Konferenz teilzunehmen. Ich bin auf die Stimmung und den Austausch mit Gleichgesinnten gespannt. Und natürlich auf die Reaktionen auf meine Präsentation auf den Big Data Days.

JAXenter: Im Hadoop-Umfeld sind Sie allerdings alles andere als ein Neuling. 2012 erschienen Ihr Buch „Hadoop – Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen“, und auch im Java Magazin sind Sie bisher als Autor von Big-Data-Artikeln in Erscheinung getreten. Was fasziniert Sie an großen Datenmengen?

Ramon Wartala: Hadoop bietet als eines der wichtigsten Open-Source-Frameworks im Umfeld von Big Data die Möglichkeit, große Datenmengen mithilfe einfacher Hardware zu verarbeiten. Googles bewährter MapReduce-Algorithmus und viele andere Entwicklungen der letzten Zeit, Stichwort „Realtime SQL mit Hadoop“, haben die Tür für Datenanalysen auf vielen tausend Servern aufgestoßen. Dabei fungiert Hadoop immer öfter als Art „Betriebssystem“ für Big-Data-Anwendungen; als Metacomputer mit verteiltem Dateisystem und verteilter Prozessverarbeitung. Einem solchen Metacomputer bei der Arbeit zuzusehen fasziniert mich. Dabei muss es gar nicht ein ganzes Rechenzentrum sein. Auch wenige Server mit Hadoop können so manches Problem einfacher und vorhersehbarer lösen, als es mit relationalen Datenbanksystemen möglich wäre.

JAXenter: In Ihrer W-JAX-Session bei den Big Data Days demonstrieren Sie, wie man ein Personal Hadoop Cluster aufbaut – Big Data für die Kleinen sozusagen. Wie kamen Sie auf die Idee?

Ramon Wartala: Wer heutzutage Serveranwendungen entwickelt, kann sich mithilfe von virtuellen Maschinen jede erdenkliche Konfiguration auf seinem Entwicklungsrechner zusammenstellen. Auch die Entwicklung von Anwendungen auf der Basis von Hadoop kann auf einer oder mehreren virtuellen Maschinen erfolgen. Bei einer hat man allerdings schnell das Problem, dass die zu entwickelnde Parallelität nicht wirklich abgebildet werden kann. Bei mehreren virtuellen Maschinen, wie sie zum Beispiel von Cloud-Anbietern dargeboten werden, sind die Schnittstellen zum Starten, Stoppen, Deployen von Instanzen meistens anders, als man es von seinem eigenen Rechnercluster gewohnt ist. Hier ist das Personal Hadoop Cluster eine günstige Alternative – nicht nur für Firmen, sondern auch für Forschung und Lehre.

JAXenter: Warum verwenden Sie dazu ausgerechnet Cubieboards und nicht verbreitetere Einplatinenrechner wie etwa den Raspberry Pi?

Ramon Wartala: Cubieboards haben gegenüber dem beliebten Raspberry Pi den Vorteil, dass sie neben gängigen SD-Karten auch einen SATA-Controller besitzen, um eine Festplatte zu verwalten. Da die Hadoop-Dienste innerhalb einer Java VM laufen, ist der Hauptspeicher bei Einplatinenrechnern der Flaschenhals. Hier bietet das Cubieboard 1 GB Hauptspeicher statt der 256 MB (Modell A) oder den 512 MB (Modell B).

JAXenter: Ein Cluster Marke Eigenbau – das klingt erstmal nach anstrengender Bastelarbeit. Für wen lohnt sich die Mühe?

Ramon Wartala: Das Tolle an den Einplatinencomputern ist ja, das hier gar nicht so viel zu basteln ist. Die kommen bereits fix und fertig geliefert. Das Einzige, was man dann noch tun muss, ist, die nötige Software zu installieren. Dies geschieht aber genauso einfach wie bei normalen Servern und kann dank Paketmanagern unter Debian oder anderen Linux-Distributionen erfolgen. Einzig der Aufbau mehrerer Systeme gestaltet sich etwas fummelig, da man hier mit allerlei Kabeln (Netzwerk, SATA, Stromversorgung) zu kämpfen hat. Hier würde ich mir ein Racksystem für Einplatinencomputer wünschen.

JAXenter: Vielen Dank für das Gespräch!

Ramon Wartala

Ramon Wartala ist Diplom-Informatiker und arbeitet als Director Technology für die Online-Marketing-Agentur Performance Media Deutschland GmbH. Anfang 2012 erschien sein Buch „Hadoop – Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen“.

Kommentare

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.