Q-Team: Roboter Lernen Dribbeln

Fußball-Roboter nao dribbelt den Ball um einen Hindernis.

Fußball-Roboter nao dribbelt den Ball um einen Hindernis.

Erstes Treffen: Fr., 12 April, 11:00 c.t. in RUD 25, 3.110 (Bitte kontaktiere mich, falls DU interessiert bist, aber zu diesem Termin keine Zeit hast)
Kontakt: Heinrich Mellmann, mellmann@informatik.hu-berlin.de
Weitere Informationen auf AGNES

Diese Veranstaltung ist ein Forschungsprojekt bei dem die Teilnehmer eigenständig die Frage bearbeiten, wie sich grundlegende Verhaltensweisen eines humanoiden Fußballroboters, wie Dribbeln und Schießen, mit verstärkendem Lernen (reinforcement learning) erlernen lassen und dabei erste reale Forschungserfahrungen sammeln.

Im Rahmen von RoboCup spielen humanoide Roboter bereits seit Jahren Fußball. Koordinierte Bewegungen, wie etwa präzises Dribbeln eines Balls, sind aber nach wie vor eine große Herausforderung. Beim Dribbeln soll der Roboter dynamisch und stabil laufen und dabei die Trajektorien einzelner Schritte so wählen, dass der Ball in die gewünschte Richtung bewegt wird. Um die Komplexität des Problems zu meistern soll hier das Reinforcement Learning Verfahren eingesetzt werden. Die Lösung wird auf einem realen Roboter umgesetzt und getestet. Das Projekt wird als ein Teilprojekt von “Nao Team Humboldt” durchgeführt und stützt sich auf die vorhandene Codebasis. Neben dem eigentlichen Projektinhalt gewinnen die Teilnehmer Erfahrungen mit den grundlegenden Praktiken des wissenschaftlichen Arbeitens. Dazu gehören unter anderem das selbständige Aneignung von Wissen, Arbeiten im Team an einem größeren Projekt, Dokumentation des Fortschritts etc..

Spezifisches Vorwissen spielt hier eine Nebenrolle, im Vordergrund steht der Wille sich neues Wissen eigenständig anzueignen. Diese Veranstaltung richtet sich an die, dich sich fordern wollen, Interesse an Forschung und eigenständigem Arbeiten haben.

Was bedeutet Lernen für den Roboter?

Ein humanoider Roboter ist ein äußerst komplexes System. Bereits die Kontrolle eines vergleichsweise kleinen Roboters wie der Nao stellt eine große Herausforderung dar. So müssen pro Sekunde 30 mal das Kamera-Bild, 100 mal jeweils über 50 Sensorwerte ausgewertet werden und 100 mal über 42 Kommando-Werte berechnet werden die die Bewegungen des Roboters steuern. Die Umwelt stellt sich dem Roboter mit einer schier unendlichen Menge an möglichen Situationen entgegen, die schnelle und richtige Entscheidungen fordern. Die gesamte Verarbeitung erfolgt dabei auf dem Roboter selbst, das heißt nur mit seinen eigenen Energie- und Rechenkapazitäten. Hinsichtlich dieser Komplexität erscheint es unmöglich dem Roboter jede Entscheidung „per Hand“ ein zu programmieren. An dieser Stelle sollen maschinelle Lernverfahren eingesetzt werden. Sie sind eine Klasse von Algorithmen die es dem Roboter ermöglichen, sich an seine Umwelt und seine Aufgaben anzupassen ohne dass jeder Schritt manuell vorgegeben werden muss. Verstärkendes Lernen ist eine Familie von Lernverfahren die für die Robotik sehr vielversprechend scheinen und aktuell intensiv erforscht werden.

Forschungsfragen des Q-Teams

In dem Kontext von RoboCup soll in folgenden isolierten Szenarien untersucht werden, wie mit Hilfe des Verstärkenden Lernens grundlegende Verhaltensweisen verbessert werden können. Abhängig von der Teilnehmerzahl können dabei beide oder nur eines der Szenarien bearbeitet werden. Dokumentation und Wiederholbarkeit der Ergebnisse als zentrale Elemente der wissenschaftlichen Praxis stellen neben dem Erkenntnisgewinn die wichtigsten Schwerpunkte in diesem Projekt dar.

  1. Adaptives Schießen: Der Roboter ist in der Lage aus dem Stand den Ball in verschiedene vorgegebene Richtungen zu schießen. Hier soll durch Lernverfahren eine hohe Schussgenauigkeit erzielt werden.
  2. Präzises Dribbling: Während des Laufens kann der Roboter die Form (Geometrie) seiner Schritte verändern. Darauf aufbauend soll er lernen den Ball zu kontrollieren. Dabei sollen die Schritte dynamisch so angepasst werden, dass der Ball in die gewünschte Richtung mitgenommen (gedribbelt) wird.