Data Science

Daten in den Griff bekommen: Mehrdimensionale Arrays für Machine Learning

Für viele Verfahren im Bereich Datenanalyse und Machine Learning werden mehrdimensionale Arrays benötigt. Da oft mit großen Datenmengen gearbeitet wird, ist es, neben anderen Optimierungen, wünschenswert, eine Arrayimplementierung zu verwenden, die auf hohe Performance und geringen Speicherverbrauch optimiert ist. Viele Frameworks setzen deshalb auf ndarrays von NumPy oder eigene Implementierungen, statt die Standard-Listen- oder Arrayimplementierungen von Python zu verwenden.

Finde die Ausreißer: Anomalieerkennung in Echtzeit mit Kafka und Isolation Forests

Anomalien – oder auch Ausreißer – sind in Daten allgegenwärtig. Sei es durch Messfehler der Sensoren, unerwartete Ereignisse in der Umwelt oder fehlerhaftes Verhalten einer Maschine. In vielen Fällen ist es sinnvoll, solche Anomalien in Echtzeit zu erkennen, um unmittelbar darauf reagieren zu können. Das nötige Rüstzeug dafür gibt uns die Data-Streaming-Plattform Apache Kafka sowie die Python-Bibliothek scikit-learn an die Hand.