Big Data

Docker Container fest im Griff: DC/OS für Java-Entwickler

In Zeiten von Docker, Big Data und Microservices wird es immer wichtiger, verteilte Anwendung sinnvoll und dynamisch auf Cluster verteilen zu können und dabei trotzdem noch den Überblick zu behalten. Daher werden Cluster-Managementsysteme wie Apache Mesos und DC/OS immer wichtiger. Dabei geht es nicht nur um die Orchestrierung von Containern, sondern auch um die Verwaltung von persistenten Daten, die fehlertolerante Auslegung der Anwendungslandschaft und die optimale Auslastung der Ressourcen im Cluster.

Datenarchitekturen (nicht nur) für Microservices

Microservices sollen keine gemeinsame Datenbank haben. Warum eigentlich? Und was ist mit der dabei entstehenden Redundanz? Eberhard Wolff klärt in seiner Session von der JAX 2017, welche Ansätze für die Datenhaltung für Microservices-Systeme sinnvoll sind. En passant lernen Sie moderne Best Practices kennen, die auch in anderen Anwendungsszenarien nützlich sind.

Der Weg zum datengetriebenen Unternehmen: Herausforderungen und Best Practices

Die Digitalisierung verändert die Unternehmen und die Gesellschaft von innen heraus und hat großen Einfluss auf Geschäftsmodelle. Die Fähigkeit, aus vorhandenen Daten Mehrwert zu ziehen, wird zum Wettbewerbsfaktor. Unzureichendes Datenmanagement ist gleichzeitig ein Risiko in der Informationssicherheit. Die erforderliche Transformation zum datengetriebenen Unternehmen stellt hohe Anforderungen an Unternehmen. Es hilft, Best Practices für die erfolgreiche Einführung zu folgen.

Advanced JPA: Persistenztricks für Fortgeschrittene

Aus diversen Projekterfahrungen haben sich beim Einsatz des Java Persistence API für die Entwicklung von Applikationen einige Best Practices herauskristallisiert, die sich als äußerst nützlich erwiesen haben. Die Erweiterung des DAO-Patterns, ein weiterführendes Konzept zum Schreiben von Testfällen und die Möglichkeit, mit Entitätsobjekten eine Vererbung abzubilden, sind Punkte, die an dieser Stelle diskutiert werden.

MS-Office-Dokumente mit Apache POI erzeugen – so geht’s!

Allen Alternativen zum Trotz werden in der großen und weiten Unternehmenswelt Daten, Dokumente und Dateien mit Microsoft Office erstellt, gespeichert, bearbeitet und ausgetauscht. Seien es nun lange Texte und Analysen als Word-Dokument, PowerPoint-Präsentationen oder ver-Excelte Zahlen und Datenkolonnen. Gerade Excel dient oft als Quelle für weitere Analysen oder Statistik. Apache POI ist eine Java-Bibliothek, die dem Entwickler hilft, Daten in MS-Office-Dokumente zu schreiben, Dokumente zu bearbeiten oder auszulesen.

Flyway 4.1.0 vereinfacht Datenbankmigration weiter

Flyway 4.1.0 vereinfacht die Datenbankmigration für PostgreSQL und MYSQL. Bei der einen Datenbank machen nicht-transaktionale Statements kein Problem mehr, bei der anderen tauchen bei Replikaten jetzt keine Warnungen mehr auf. Außerdem aktualisieren sich große Projekte mit mehreren tausend Migrationen nun schneller.

Hazelcast Jet: Datenverarbeitung fast in Echtzeit

Hazelcast hat Hazelcast Jet vorgestellt, eine Engine für verteilte Datenströme in Big-Data-Umgebungen. Die Engine ist ein neues Open-Source-Projekt, das Prozesse parallel ausführt, um datenintensiven Applikationen Operationen nahezu in Echtzeit zu ermöglichen.

Wie Tech helfen kann das Trump-Netzwerk zu entwirren

Seit letzten Freitag ist es Fakt: Donald Trump ist der 45. amerikanische Präsident. Er beginnt sein Amt mit einem riesigen Netzwerk an Unternehmen, Investitionen und Verbandelungen. Deswegen haben Journalisten des Nachrichtenportals Buzzfeed Daten zum Trump-Netzwerk zusammengetragen. Das Ergebnis umfasst über 1.700 Personen und Unternehmen. Michael Hunger von neo4j hat die hauseigene Graphendatenbank genutzt, um das Datenknäuel zu entwirren.

Apache Spark 2.1: Structured Streaming, neue SQL Features und Support für Apache Kafka

Für Version 2.1 des Cluster-Computing-Framework Apache Spark konzentrierte sich das Entwicklerteam vor allem auf Stabilität und Nutzerfreundlichkeit. Über 1200 Verbesserungen und Bugfixes beinhaltet das Update, dazu gehören unter anderem eine erweiterte SQL-Funktionalität und neue Algorithmen für das Maschinelle Lernen in R. Auch die native Unterstützung von Apache Kafka ist an Bord.

Maschinelle Bilderkennung mit Big Data und Deep Learning

Die Arbeit mit unstrukturierten Daten dient gerne als Paradebeispiel für Big Data, weil die technologischen Möglichkeiten das Speichern und Verarbeiten großer Datenmengen erlauben und die Mehrheit dieser Daten unstrukturiert ist [1]. Allerdings ist im Zusammenhang mit unstrukturierten Daten meist von der Analyse und der Extraktion von Informationen aus Texten die Rede. Viel weniger hingegen wird das Thema der Bildanalyse thematisiert. Diese gilt aber nach wie vor als eine Königdisziplin der modernen Computerwissenschaft.