Big Data

nuclio: Ein Serverless Framework für Echtzeitdaten

Und noch ein Serverless Framework: nuclio betritt die Bühne. Der Fokus des Frameworks liegt auf der Echtzeitverarbeitung von Daten. Dafür kann es auf verschiedene Datenquellen zugreifen, auch mit ein und derselben Funktion. Außerdem sind die Datenquellen vom Funktionscode getrennt, damit der Code einfach wiederzuverwenden ist.

Docker Container fest im Griff: DC/OS für Java-Entwickler

In Zeiten von Docker, Big Data und Microservices wird es immer wichtiger, verteilte Anwendung sinnvoll und dynamisch auf Cluster verteilen zu können und dabei trotzdem noch den Überblick zu behalten. Daher werden Cluster-Managementsysteme wie Apache Mesos und DC/OS immer wichtiger. Dabei geht es nicht nur um die Orchestrierung von Containern, sondern auch um die Verwaltung von persistenten Daten, die fehlertolerante Auslegung der Anwendungslandschaft und die optimale Auslastung der Ressourcen im Cluster.

Datenarchitekturen (nicht nur) für Microservices

Microservices sollen keine gemeinsame Datenbank haben. Warum eigentlich? Und was ist mit der dabei entstehenden Redundanz? Eberhard Wolff klärt in seiner Session von der JAX 2017, welche Ansätze für die Datenhaltung für Microservices-Systeme sinnvoll sind. En passant lernen Sie moderne Best Practices kennen, die auch in anderen Anwendungsszenarien nützlich sind.

MS-Office-Dokumente mit Apache POI erzeugen – so geht’s!

Allen Alternativen zum Trotz werden in der großen und weiten Unternehmenswelt Daten, Dokumente und Dateien mit Microsoft Office erstellt, gespeichert, bearbeitet und ausgetauscht. Seien es nun lange Texte und Analysen als Word-Dokument, PowerPoint-Präsentationen oder ver-Excelte Zahlen und Datenkolonnen. Gerade Excel dient oft als Quelle für weitere Analysen oder Statistik. Apache POI ist eine Java-Bibliothek, die dem Entwickler hilft, Daten in MS-Office-Dokumente zu schreiben, Dokumente zu bearbeiten oder auszulesen.

Flyway 4.1.0 vereinfacht Datenbankmigration weiter

Flyway 4.1.0 vereinfacht die Datenbankmigration für PostgreSQL und MYSQL. Bei der einen Datenbank machen nicht-transaktionale Statements kein Problem mehr, bei der anderen tauchen bei Replikaten jetzt keine Warnungen mehr auf. Außerdem aktualisieren sich große Projekte mit mehreren tausend Migrationen nun schneller.

Hazelcast Jet: Datenverarbeitung fast in Echtzeit

Hazelcast hat Hazelcast Jet vorgestellt, eine Engine für verteilte Datenströme in Big-Data-Umgebungen. Die Engine ist ein neues Open-Source-Projekt, das Prozesse parallel ausführt, um datenintensiven Applikationen Operationen nahezu in Echtzeit zu ermöglichen.

Wie Tech helfen kann das Trump-Netzwerk zu entwirren

Seit letzten Freitag ist es Fakt: Donald Trump ist der 45. amerikanische Präsident. Er beginnt sein Amt mit einem riesigen Netzwerk an Unternehmen, Investitionen und Verbandelungen. Deswegen haben Journalisten des Nachrichtenportals Buzzfeed Daten zum Trump-Netzwerk zusammengetragen. Das Ergebnis umfasst über 1.700 Personen und Unternehmen. Michael Hunger von neo4j hat die hauseigene Graphendatenbank genutzt, um das Datenknäuel zu entwirren.

Apache Spark 2.1: Structured Streaming, neue SQL Features und Support für Apache Kafka

Für Version 2.1 des Cluster-Computing-Framework Apache Spark konzentrierte sich das Entwicklerteam vor allem auf Stabilität und Nutzerfreundlichkeit. Über 1200 Verbesserungen und Bugfixes beinhaltet das Update, dazu gehören unter anderem eine erweiterte SQL-Funktionalität und neue Algorithmen für das Maschinelle Lernen in R. Auch die native Unterstützung von Apache Kafka ist an Bord.

Maschinelle Bilderkennung mit Big Data und Deep Learning

Die Arbeit mit unstrukturierten Daten dient gerne als Paradebeispiel für Big Data, weil die technologischen Möglichkeiten das Speichern und Verarbeiten großer Datenmengen erlauben und die Mehrheit dieser Daten unstrukturiert ist [1]. Allerdings ist im Zusammenhang mit unstrukturierten Daten meist von der Analyse und der Extraktion von Informationen aus Texten die Rede. Viel weniger hingegen wird das Thema der Bildanalyse thematisiert. Diese gilt aber nach wie vor als eine Königdisziplin der modernen Computerwissenschaft.