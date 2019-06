JAXenter: Für all diejenigen, die nicht mit dem Begriff vertraut sind: Was ist die grundlegende Idee des Reinforcement Learnings?

Hidber: Beim Reinforcement Learning lernen Computer komplexe Verhaltensweisen durch clevere Trial-and-Error-Strategien. Das ist ähnlich wie bei einem Kind, das ein neues Spiel lernt: Sie beginnen mit dem Drücken einiger zufälliger Tasten und sehen, was passiert. Nach einer Weile verbessern sie kontinuierlich ihre Spielstrategie und werden immer besser. Außerdem muss man einem Kind nicht erklären, wie das Spiel funktioniert, da es Teil des Spaßes ist, es herauszufinden. Algorithmen für das Reinforcement Learning versuchen im Wesentlichen zu lernen, indem sie dieses Verhalten nachahmen.

JAXenter: Reinforcement Learning benötigt keine großen Datensätze für das Training. Auf welchem Weg wird das erreicht?

Hidber: Diese Algorithmen lernen durch die Interaktion mit einer Umgebung. Im obigen Spielbeispiel ist die Spiel-Engine, die alle Spielregeln enthält, die Umgebung. Die Algorithmen beobachten, welche Spielsequenzen gute Ergebnisse liefern und versuchen dann daraus zu lernen. In gewisser Weise generiert das Reinforcement Learning seinen Datensatz direkt aus der Umgebung und erzeugt so viele Trainingsdaten wie nötig – sehr praktisch!

JAXenter: Wie gut schneidet die Genauigkeit des Reinforcement Learnings im Vergleich zu anderen Arten des maschinellen Lernens ab?

Hidber: Reinforcement Learning befasst sich mit Problemen für maschinelles Lernen, die für andere Arten davon — und vice versa — nur schwer zu lösen sind. Deswegen ist man seltener in einer Situation, in der man die Genauigkeiten direkt vergleichen könnte. Die Genauigkeit beim Reinforcement Learning kann für das gleiche Problem sehr unterschiedlich sein, je nach Modell, Daten und Algorithmenwahl. Das ist daher dem klassischen maschinellen Lernen sehr ähnlich.

JAXenter: In deiner Session auf der ML Conference gibst du einen Einblick in die Anwendung von Reinforcement Learning auf Dachentwässerungssysteme mit Siphonrohr. Warum hast du dich in diesem Anwendungsfall für das Reinforcement Learning entschieden?

Hidber: Eigentlich benutzen wir das Reinforcement Learning auf ergänzende Art. Unsere Berechnungs-Pipeline verwendet sowohl traditionelle Heuristiken als auch überwachte Methoden, wie neuronale Netze und Support Vector Machines. An einem bestimmten Punkt mussten wir feststellen und konnten auch beweisen, dass wir unsere klassische Machine-Learning-Lösungen nicht weiter verbessern konnten. Mit dem Reinforcement Learning als zusätzlichem Schritt in unserer Pipeline konnten wir unsere bisherige Ausfallquote um mehr als 70 % senken.

JAXenter: In welchen Bereichen könnte Reinforcement Learning zukünftig eine zentrale Rolle spielen?

Hidber: Es gibt bereits einige reale Anwendungen in der Produktion, wie die Kühlung eines Rechenzentrums oder die Steuerung von Roboterbewegungen. Ich persönlich denke, dass das Reinforcement Learning besonders bei Problemen mit der industriellen Steuerung von Bedeutung ist. In diesen Fällen können wir oft die Umgebung simulieren, aber es gibt keinen eindeutigen Weg, wie man zu einer guten Lösung kommt. Das war auch bei unserem Problem der hydraulischen Optimierung der Fall. Ich erwarte daher noch viele weitere industrielle Anwendungen.

JAXenter: Fällt dir irgendein typischer Fehler ein, der beim Einstieg in die Arbeit mit dem Reinforcement Learning häufig gemacht wird?

Hidber: Oh ja, absolut, denn wir haben ja selber viele Fehler gemacht. Einige davon führten zu sehr witzigen und überraschenden Strategien. Es ist immer eine große Versuchung, die Belohnungsfunktion besonders clever gestalten zu wollen. Die Belohnungsfunktion ist dafür verantwortlich, zu definieren, welches Ergebnis als „gut“ und welches als „schlecht“ gilt. Die Algorithmen sind unglaublich intelligent darin, Abkürzungen und Schlupflöcher zu finden, was zu hohen Belohnungen für Verhaltensweisen führt, die definitiv „schlecht“ sind. Es scheint, dass umso man mehr Überraschungen erlebt, je cleverer man die Belohnungsfunktion gestaltet.

JAXenter: Was ist das wichtigste Take-away für Teilnehmer deiner Session?

Hidber: Mein Ziel ist es, den Teilnehmern eine gutes Gespür dafür zu vermitteln, wie diese Algorithmen funktionieren. Die Teilnehmer können dann selbst entscheiden, ob ein vorliegendes Problem für das Reinforcement Learning geeignet ist oder nicht. Und ich würde mich natürlich freuen darüber zu hören, wenn ein Teilnehmer bereits eine Idee für eine Anwendung hat.

JAXenter: Vielen Dank für das Interview!

