Big Data

Kubernetes & Apache Spark: Das perfekte Duo für Data Science & Machine Learning

Irgendwann mussten sich die Bereiche Kubernetes bzw. Container und Machine Learning ja treffen. In seinem Artikel erklärt Terry Shea, Chief Revenue Officer bei Kublr, wie man beim Maschinellen Lernen und im Internet of Things von Kubernetes profitieren kann. Schlüsselelement ist dabei die neueste Version von Apache Spark (2.3), die den nativen Support für die Orchestrierungsplattform bereitstellt.

Machine Learning mit Apache Spark: „Ein maschinelles Lernmodell ist nur so gut wie sein Input!“

Zu Beginn des Jahres wurde Apache Spark 2.3 veröffentlicht und bildet einen bedeutenden Meilenstein für das Structured Streaming. Es gab allerdings noch viele weitere, interessante Features, die ebenso wichtig sind. Wir sprachen daher mit Reynold Xin, dem Mitgründer und Chief Architect von Databricks, über die Databricks Runtime und andere Verbesserungen in Apacke Spark 2.3.

Data Science in der Industrie: Nicht reden, sondern loslegen!

Glaubt man vielen Zukunftsszenarien, so ist die Arbeitswelt von morgen vorgezeichnet: Der Mensch wird im Rahmen der technischen Datenevolution zunehmend entmündigt. Doch ist die datengestützte Technologie nur negativ zu bewerten? Anlässlich der Internet of Things Conference in München sprachen wir zu diesem spannenden Thema mit dem Speaker und Data Science-Spezialisten Dr. Tobias Brombach.

Ein paar Studien, etwas Testing und Hadoop 3 – unser Wochenrückblick

In der letzten Woche flatterten der JAXenter-Redaktion gleich mehrere Studien ins Haus. Der State of JavaScript 2017 ist da und Joblift hat herausgefunden, dass App-Entwickler nach wie vor heiß begehrt sind. Daneben haben wir auch einen Blick auf ein von Entwicklern ziemlich ungeliebtes Thema geworfen: Testing. Schließlich trudelte nach fünf Jahren dann auch noch Hadoop 3 ein.

Hadoop 3.0: Weit jenseits der Batch-Verarbeitung

Fünf Jahre hat Hadoop von der Version 2.0 auf die 3.0 gebraucht. Andrew Wang, Release Manager von Apache Hadoop 3, spricht vom größten Release aller Zeiten des Open-Source-Projekts. Dementsprechend lang ist die Liste der Änderungen und neuen Features. Wie immer geht es um mehr Effizienz, Skalierbarkeit und Zuverlässigkeit.

Container 2.0: Big Data, Fast Data & Persistent Data optimal nutzen

Anwendungslandschaften werden seit einigen Jahren zunehmend in Container verpackt, um Anwendungen gegeneinander zu isolieren und sie leicht verschiffen zu können. Frameworks für Big Data und Fast Data laufen allerdings oft in separaten Clustern, da sie nicht ohne weiteres Zutun gut in Containern skalieren. Die Folge: Cluster werden nicht optimal ausgenutzt und Skalierungseffekte können nicht genutzt werden. In seiner Session von der JAX 2017 verdeutlicht Johannes Unterstein, Distributed Applications Engineer bei Mesosphere, die aktuelle Problemstellung und zeigt, wie man mit DC/OS und Apache Mesos die Probleme richtig adressiert.

nuclio: Ein Serverless Framework für Echtzeitdaten

Und noch ein Serverless Framework: nuclio betritt die Bühne. Der Fokus des Frameworks liegt auf der Echtzeitverarbeitung von Daten. Dafür kann es auf verschiedene Datenquellen zugreifen, auch mit ein und derselben Funktion. Außerdem sind die Datenquellen vom Funktionscode getrennt, damit der Code einfach wiederzuverwenden ist.

Docker Container fest im Griff: DC/OS für Java-Entwickler

In Zeiten von Docker, Big Data und Microservices wird es immer wichtiger, verteilte Anwendung sinnvoll und dynamisch auf Cluster verteilen zu können und dabei trotzdem noch den Überblick zu behalten. Daher werden Cluster-Managementsysteme wie Apache Mesos und DC/OS immer wichtiger. Dabei geht es nicht nur um die Orchestrierung von Containern, sondern auch um die Verwaltung von persistenten Daten, die fehlertolerante Auslegung der Anwendungslandschaft und die optimale Auslastung der Ressourcen im Cluster.

Datenarchitekturen (nicht nur) für Microservices

Microservices sollen keine gemeinsame Datenbank haben. Warum eigentlich? Und was ist mit der dabei entstehenden Redundanz? Eberhard Wolff klärt in seiner Session von der JAX 2017, welche Ansätze für die Datenhaltung für Microservices-Systeme sinnvoll sind. En passant lernen Sie moderne Best Practices kennen, die auch in anderen Anwendungsszenarien nützlich sind.

Der Weg zum datengetriebenen Unternehmen: Herausforderungen und Best Practices

Die Digitalisierung verändert die Unternehmen und die Gesellschaft von innen heraus und hat großen Einfluss auf Geschäftsmodelle. Die Fähigkeit, aus vorhandenen Daten Mehrwert zu ziehen, wird zum Wettbewerbsfaktor. Unzureichendes Datenmanagement ist gleichzeitig ein Risiko in der Informationssicherheit. Die erforderliche Transformation zum datengetriebenen Unternehmen stellt hohe Anforderungen an Unternehmen. Es hilft, Best Practices für die erfolgreiche Einführung zu folgen.