Big Data

Machine Learning Experten-Check: 6 Tipps für den Einstieg in das maschinelle Lernen

Machine Learning ist die neue Formel dafür, was man einmal Künstliche Intelligenz genannt hat. In unserem Themen-Dossier spüren wir dem neuen Trend nach und stellen aktuelle ML-Lösungen vor, darunter die Numenta-Plattform für intelligentes Computing, die Machine Learning Library Spark MLlib, das Natural-Language-Processing-Projekt Cortical.io , das ML-Framework Apache Mahout, das Bilderkennungs-API CognitiveJ und das Data-Mining-System ADAMS. Vorab haben wir die Leiter der Projekte gebeten, uns ihre Faszination für intelligente Maschinen genauer zu erklären und Tipps für den Einstieg in die ML-Welt zu geben.

Hybrid Storage Engine Apache Kudu ist jetzt Top-Level-Projekt

Die Storage Engine Kudu will eine Brücke schlagen zwischen traditionellen Datenbankanwendungen und der neuen Welt der Big und Fast Data. Dazu hat es bei der Apache Software Foundation jetzt den Weg vom Inkubator zum Top-Level-Projekt hinter sich gebracht. Wann Version 1.0 erscheint, steht aber noch nicht fest.

Datenverarbeitung im NASA-Stil mit Apache OODT

Apache OODT ist ein Daten-Management- und Verarbeitungs-Toolkit. Es wurde zunächst von NASAs Jet Propulsion Laboratory entwickelt und danach der Apache Software Foundation gestiftet. Es kommt vor allem bei Forschungsprojekten zum Einsatz, aber darauf ist es längst nicht beschränkt Tom Baber, Vice President von Apache OODT, hat sich die Zeit genommen uns das Projekt kurz vorzustellen.

Apache Bahir wird Top-Level-Projekt: Extensions für Apache Spark

Ein weiteres Big-Data-Projekt hat den Schritt aus dem Inkubator der Apache Foundation gemacht: Apache Bahir ist eines der neuen Top-Level-Projekte aus der Projektgruppe für die Verarbeitung großer Datenmengen. Diese ist mit nunmehr 37 von etwa 300 Projekten die derzeit drittgrößte der Apache Foundation. Für den Anfang können sich vor allem Nutzer von Spark über die Erweiterungen durch Bahir freuen.

Das ist neu in Neo4j 3.0

Im April wurde die neueste Version 3.0 von Neo4j der Öffentlichkeit vorgestellt. Knapp sechs Monate nach dem vorherigen Release 2.3, ist dieser Versionssprung gerechtfertigt, denn die 3-er Version von Neo4j bringt eine große Menge von neuen Features, Verbesserungen und Änderungen mit. Michael Hunger von Neo Technology erklärt im Detail, was die Version ausmacht.

OpenZika-Projekt: IBM sagt Zika-Virus den Kampf an

IBM will mit dem Projekt OpenZika die Forschung am Zika-Virus vorantreiben. Das Virus hat sich im vergangenen Jahr in Teilen Südamerikas rasant verbreitet und ist wegen der Übertragung durch infizierte Moskitos nur schwer zu kontrollieren. IBM macht sich bei dem Projekt die Prinzipien des Grid-Computings zunutze.

Mehr Query-Optionen mit Hibernate OGM 5.0

Um die Kommunikation mit der Datenbank zu vereinfachen, setzt Hibernate OGM auf das Java Persistence API. In der Version 5.0 wurde das Open-Source-Persistenz-Framework auf den neusten Stand der Hibernate-Familie gebracht und bekam einige Updates bei der Unterstützung neuer Daten- und Query-Typen.

Named Querys – Umständlich war gestern

Trotz eines viel gepriesenen Vorteils gegenüber den meisten anderen Persistenz-APIs führen Named Querys ein Schattendasein. Der Programmier-Overhead schreckt viele Entwickler ab. Doch Boilerplate Code kann ab jetzt keine Ausrede mehr sein!

Neo4j 3.0 ist da

Als erstes Release der 3.x-Serie basiert Neo4j 3.0 auf einer komplett überarbeiteten Architektur und bietet nun laut eigener Aussage „the world’s most scalable graph database“. Zudem sorgt die aktuelle Version für eine verbesserte Developer-Produktivität und bringt eine Reihe von Deployment-Vereinfachungen mit sich.

Apache Spark: Mehr als ein Hadoop-Ersatz

Hadoop wird in verschiedenen Branchen erfolgreich zur Analyse großer Datenmengen eingesetzt. Sein Erfolg ist begründet durch sein einfaches Programmiermodell MapReduce, das fehlertolerant, skalierbar und kosteneffektiv für unterschiedlich große Datenmengen genutzt werden kann. Ein Nachteil von MapReduce ist allerdings dessen hohe Latenz, sodass man für die Durchführung von Abfragen vergleichsweise lange warten muss. Unter diesem Gesichtspunkt wurde Spark von der Apache Software Foundation zur Beschleunigung von Datenverarbeitungsprozessen entwickelt.

Große Datenmengen in Echtzeit verarbeiten mit Apache Storm 1.0.0

MapReduce und Hadoop haben die Verarbeitung von großen Datenmengen revolutioniert. Was diese Technologien aber nicht leisten können ist Daten in Echtzeit zu verarbeiten. Dieses Ziel hat sich das Apache-Projekt Storm auf die Fahne geschrieben und macht mit der Version 1.0.0 jetzt den offiziellen Schritt in die Öffentlichkeit.