Suche
#Big Data

Flyway 4.1.0 vereinfacht Datenbankmigration weiter

Flyway 4.1.0 vereinfacht die Datenbankmigration für PostgreSQL und MYSQL. Bei der einen Datenbank machen nicht-transaktionale Statements kein Problem mehr, bei der anderen tauchen bei Replikaten jetzt keine Warnungen mehr auf. Außerdem aktualisieren sich große Projekte mit mehreren tausend Migrationen nun schneller.

Hazelcast Jet: Datenverarbeitung fast in Echtzeit

Hazelcast hat Hazelcast Jet vorgestellt, eine Engine für verteilte Datenströme in Big-Data-Umgebungen. Die Engine ist ein neues Open-Source-Projekt, das Prozesse parallel ausführt, um datenintensiven Applikationen Operationen nahezu in Echtzeit zu ermöglichen.

Wie Tech helfen kann das Trump-Netzwerk zu entwirren

Seit letzten Freitag ist es Fakt: Donald Trump ist der 45. amerikanische Präsident. Er beginnt sein Amt mit einem riesigen Netzwerk an Unternehmen, Investitionen und Verbandelungen. Deswegen haben Journalisten des Nachrichtenportals Buzzfeed Daten zum Trump-Netzwerk zusammengetragen. Das Ergebnis umfasst über 1.700 Personen und Unternehmen. Michael Hunger von neo4j hat die hauseigene Graphendatenbank genutzt, um das Datenknäuel zu entwirren.

Apache Spark 2.1: Structured Streaming, neue SQL Features und Support für Apache Kafka

Für Version 2.1 des Cluster-Computing-Framework Apache Spark konzentrierte sich das Entwicklerteam vor allem auf Stabilität und Nutzerfreundlichkeit. Über 1200 Verbesserungen und Bugfixes beinhaltet das Update, dazu gehören unter anderem eine erweiterte SQL-Funktionalität und neue Algorithmen für das Maschinelle Lernen in R. Auch die native Unterstützung von Apache Kafka ist an Bord.

Maschinelle Bilderkennung mit Big Data und Deep Learning

Die Arbeit mit unstrukturierten Daten dient gerne als Paradebeispiel für Big Data, weil die technologischen Möglichkeiten das Speichern und Verarbeiten großer Datenmengen erlauben und die Mehrheit dieser Daten unstrukturiert ist [1]. Allerdings ist im Zusammenhang mit unstrukturierten Daten meist von der Analyse und der Extraktion von Informationen aus Texten die Rede. Viel weniger hingegen wird das Thema der Bildanalyse thematisiert. Diese gilt aber nach wie vor als eine Königdisziplin der modernen Computerwissenschaft.

Vorhandenes Wissen richtig nutzen

Unter Analysten gilt das automatisierte Auswerten, Verknüpfen und gewinnbringende Aufbereiten von Informationen aus sämtlichen Datenquellen im Unternehmen als das nächste große Ding. Moderne Enterprise-Search-Lösungen vereinen schon heute Techniken wie Web Harvesting, Entities, Machine/Deep Learning oder Methoden der künstlichen Intelligenz, um das im Unternehmen vorhandene Wissen in seiner gesamten Breite und Tiefe nutzbar zu machen. Alle Unternehmensebenen profitieren von leichter zugänglichen Informationen, die Geschäftsprozesse beschleunigen und fundiertere Entscheidungsgrundlagen liefern.

Die Highlights der Graphdatenbank Neo4j 3.0

In den vergangenen fünfzehn Jahren hat sich für Neo4j viel getan und die einstige Java-Bibliothek zur Verwaltung von Datennetzen ist jetzt eine weltweit genutzte Datenbank. Die Version 3.0 hat in drei Kernbereichen einen Sprung nach vorne gemacht: Leistung, Anwenderfreundlichkeit und Infrastruktur.

Zehn SQL-Tricks, die du nicht für möglich gehalten hättest [Video]

SQL ist die Sprache von Big Data. Egal, ob eine klassische relationale Datenbank, ein Column Store (“NewSQL”) oder ein nicht relationales Speichersystem (“NoSQL”) verwendet wird, eine starke, deklarative, SQL-basierte Abfragesprache verschafft den entscheidenden Vorteil. In seinem rasanten Vortrag auf der JAX 2016 zeigt Lukas Eder einige eigenartige, jedoch sehr interessante Datenprobleme und wie sie mit SQL zu lösen sind.

Yahoos Messaging-System Pulsar fordert Kafka heraus

Yahoo brauchte für seine verteilten Systeme ein Messaging-System, das hohe Performance und Skalierbarkeit liefern kann. Das Unternehmen fand aber keine passende Lösung und entwickelte das Publish-and-Subscribe-Messaging-System Pulsar. Jetzt stellt Yahoo seine Entwicklung Open Source der Community zur Verfügung.

Netflix Tool NDBench zeigt, was der Datenspeicher aushält

In der freien Welt der Netflix-Microservices weiß der Videostreamer nicht immer, was bei seinen Speicher-Systemen so los ist. Deswegen musste ein Framework her, dass dabei hilft, das Verhalten des Datenspeicher bei verschiedenen Workloads, Wartungsoperationen und Instanztypen zu ermitteln. Netflix hat dazu NDBench entwickelt und Open Source gestellt.