Suche
#Big Data

Apache Spark 2.1: Structured Streaming, neue SQL Features und Support für Apache Kafka

Für Version 2.1 des Cluster-Computing-Framework Apache Spark konzentrierte sich das Entwicklerteam vor allem auf Stabilität und Nutzerfreundlichkeit. Über 1200 Verbesserungen und Bugfixes beinhaltet das Update, dazu gehören unter anderem eine erweiterte SQL-Funktionalität und neue Algorithmen für das Maschinelle Lernen in R. Auch die native Unterstützung von Apache Kafka ist an Bord.

Maschinelle Bilderkennung mit Big Data und Deep Learning

Die Arbeit mit unstrukturierten Daten dient gerne als Paradebeispiel für Big Data, weil die technologischen Möglichkeiten das Speichern und Verarbeiten großer Datenmengen erlauben und die Mehrheit dieser Daten unstrukturiert ist [1]. Allerdings ist im Zusammenhang mit unstrukturierten Daten meist von der Analyse und der Extraktion von Informationen aus Texten die Rede. Viel weniger hingegen wird das Thema der Bildanalyse thematisiert. Diese gilt aber nach wie vor als eine Königdisziplin der modernen Computerwissenschaft.

Vorhandenes Wissen richtig nutzen

Unter Analysten gilt das automatisierte Auswerten, Verknüpfen und gewinnbringende Aufbereiten von Informationen aus sämtlichen Datenquellen im Unternehmen als das nächste große Ding. Moderne Enterprise-Search-Lösungen vereinen schon heute Techniken wie Web Harvesting, Entities, Machine/Deep Learning oder Methoden der künstlichen Intelligenz, um das im Unternehmen vorhandene Wissen in seiner gesamten Breite und Tiefe nutzbar zu machen. Alle Unternehmensebenen profitieren von leichter zugänglichen Informationen, die Geschäftsprozesse beschleunigen und fundiertere Entscheidungsgrundlagen liefern.

Die Highlights der Graphdatenbank Neo4j 3.0

In den vergangenen fünfzehn Jahren hat sich für Neo4j viel getan und die einstige Java-Bibliothek zur Verwaltung von Datennetzen ist jetzt eine weltweit genutzte Datenbank. Die Version 3.0 hat in drei Kernbereichen einen Sprung nach vorne gemacht: Leistung, Anwenderfreundlichkeit und Infrastruktur.

Zehn SQL-Tricks, die du nicht für möglich gehalten hättest [Video]

SQL ist die Sprache von Big Data. Egal, ob eine klassische relationale Datenbank, ein Column Store (“NewSQL”) oder ein nicht relationales Speichersystem (“NoSQL”) verwendet wird, eine starke, deklarative, SQL-basierte Abfragesprache verschafft den entscheidenden Vorteil. In seinem rasanten Vortrag auf der JAX 2016 zeigt Lukas Eder einige eigenartige, jedoch sehr interessante Datenprobleme und wie sie mit SQL zu lösen sind.

Yahoos Messaging-System Pulsar fordert Kafka heraus

Yahoo brauchte für seine verteilten Systeme ein Messaging-System, das hohe Performance und Skalierbarkeit liefern kann. Das Unternehmen fand aber keine passende Lösung und entwickelte das Publish-and-Subscribe-Messaging-System Pulsar. Jetzt stellt Yahoo seine Entwicklung Open Source der Community zur Verfügung.

Netflix Tool NDBench zeigt, was der Datenspeicher aushält

In der freien Welt der Netflix-Microservices weiß der Videostreamer nicht immer, was bei seinen Speicher-Systemen so los ist. Deswegen musste ein Framework her, dass dabei hilft, das Verhalten des Datenspeicher bei verschiedenen Workloads, Wartungsoperationen und Instanztypen zu ermitteln. Netflix hat dazu NDBench entwickelt und Open Source gestellt.

Machine Learning Experten-Check: 6 Tipps für den Einstieg in das maschinelle Lernen

Machine Learning ist die neue Formel dafür, was man einmal Künstliche Intelligenz genannt hat. In unserem Themen-Dossier spüren wir dem neuen Trend nach und stellen aktuelle ML-Lösungen vor, darunter die Numenta-Plattform für intelligentes Computing, die Machine Learning Library Spark MLlib, das Natural-Language-Processing-Projekt Cortical.io , das ML-Framework Apache Mahout, das Bilderkennungs-API CognitiveJ und das Data-Mining-System ADAMS. Vorab haben wir die Leiter der Projekte gebeten, uns ihre Faszination für intelligente Maschinen genauer zu erklären und Tipps für den Einstieg in die ML-Welt zu geben.

Hybrid Storage Engine Apache Kudu ist jetzt Top-Level-Projekt

Die Storage Engine Kudu will eine Brücke schlagen zwischen traditionellen Datenbankanwendungen und der neuen Welt der Big und Fast Data. Dazu hat es bei der Apache Software Foundation jetzt den Weg vom Inkubator zum Top-Level-Projekt hinter sich gebracht. Wann Version 1.0 erscheint, steht aber noch nicht fest.

Datenverarbeitung im NASA-Stil mit Apache OODT

Apache OODT ist ein Daten-Management- und Verarbeitungs-Toolkit. Es wurde zunächst von NASAs Jet Propulsion Laboratory entwickelt und danach der Apache Software Foundation gestiftet. Es kommt vor allem bei Forschungsprojekten zum Einsatz, aber darauf ist es längst nicht beschränkt Tom Baber, Vice President von Apache OODT, hat sich die Zeit genommen uns das Projekt kurz vorzustellen.