
Um einem großen Teil der Gesellschaft die Teilhabe an lernfähigen Robotern zu ermöglichen, ist es dabei essenziell, dass Roboter in der Lage sind, auch von Alltagsnutzenden ohne Programmiervorkenntnisse neue Aufgaben zu erlernen.

Lernen von Demonstrationen und Feedback
Zwei vielversprechende Ansätze, wie Roboter von Menschen lernen können, sind das Lernen von Demonstrationen und das interaktive Reinforcement-Lernen. Beim Lernen von Demonstrationen können Roboter entweder vom Menschen an die Hand genommen und durch die Aufgabe geführt werden oder sie beobachten Menschen, die selbst eine Aufgabe durchführen, versuchen anschließend das Gesehene zu verstehen und zu kopieren. Menschliche Demonstrationen können dabei zum einen genutzt werden, um bekannte Teilaufgaben wiederzuerkennen und in neuer Rheinfolge auszuführen sowie um komplett neue Bewegungs- und Aufgabenabläufe zu erlernen.
Beim interaktiven Reinforcement-Lernen hingegen nutzen Roboter durch Interaktion mit Menschen gewonnenes Feedback, um vorher Erlerntes iterativ zu verbessern. Menschen können dabei Roboter während der Ausführung ihrer Aufgaben bewerten. So können Roboter zusätzlich auch persönliche Präferenzen ihrer Nutzer für Aufgabendurchführungen lernen. Feedback kann hierbei entweder explizit z.B. über Tablet oder Spracheingabe gegeben werden oder Roboter lernen durch implizites Feedback, also dadurch, wie ihr Verhalten menschliches Verhalten oder den Erfolg der Aufgabendurchführung beeinflusst.
Menschliche Fehlerquellen beim Lernen
Lernfähige Robotiksysteme, die durch direkte Interaktion mit Menschen lernen und zuvor Gelerntes verbessern können, verfügen über großes Potenzial in vielen Einsatzbereichen. Voraussetzung: Die Roboter sind sicher. Eine wichtige Frage aktueller Forschung ist daher, wie man Roboter und die von ihnen genutzten Algorithmen gegen fehlerhafte oder unerwünschte menschliche Demonstrationen absichern kann. Im Gegensatz zu klassisch programmierten Robotern sollte bei lernfähigen Robotiksystemen z.B. sichergestellt werden, dass sie potenzielle Unsicherheiten oder Inkonsistenz in menschlichem Feedback verstehen. Ebenso wichtig ist es, dass die Roboter einen zuvor definierten Kernaufgabenbereich auch durch menschliche Demonstrationen nicht verlassen können.
Die Entwicklung von sicheren und menschenzentrierten zukünftigen Lernalgorithmen erfordert deswegen insbesondere interdisziplinäre Forschung aus Kognitionswissenschaften, Robotik und maschinellem Lernen. Ziel ist es zu verstehen, wie Menschen Demonstrationen und Feedback geben und geben wollen und zu erkunden, wie die Roboter der Zukunft davon am besten lernen können.
Roboter für eine bessere Trennung von Wertstoffen
Für die Mülltrennung existieren bereits gut funktionierende technische Lösungen. Menschen müssen dabei aber oft immer noch mithelfen, was meist zumindest belastend, manchmal auch gesundheitsschädlich oder gar gefährlich ist. Die Mülltrennung erreicht jedoch oft nicht die gewünschte Qualität und stößt dabei auch oft an Kapazitätsgrenzen, was die Qualität einer sauberen Mülltrennung zusätzlich senken kann. Pick&Place-Roboter werden heute schon breit eingesetzt und sind vergleichsweise günstig. Im Zusammenspiel mit geeigneter Sensorik könnten sie das manuelle Herausgreifen von Objekten in den Sortieranlagen automatisieren.
Zukunftsperspektiven mit KI
Lernen durch Interaktion kann dazu beitragen, dass über Zwischenschritte der Teilautomatisierung (Stichwort: variable Autonomie), höhere Autonomiegrade im Recycling erreicht werden und sukzessive mit jeder Interaktion auch die Robustheit der nötigen KI-Modelle gestärkt wird. Ein auf diese Weise verbessertes Recycling kann zu einem zentralen Bestandteil einer Kreislaufwirtschaft werden, insbesondere aufgrund multimodaler Sensorik wie z.B. der Detektion verborgener oder zu demontierender Objekte. Zudem stellt es eine Vorstufe zu weiteren Betriebsstationen dar, wie der Demontage, in der aussortierte Wertstoffe zerlegt und auch Rohstoffe wiedergewonnen werden. Innerhalb von bereits bestehenden Anlagen, in denen klassische Methoden der Müllsortierung angewandt werden, können lernfähige Robotiksysteme komplementär eingesetzt werden (z.B. zur Qualitätssteigerung und -sicherung).
So werden in mehrfacher Hinsicht Potenziale frei:
- Freisetzung von Arbeitskraft für Aufgaben mit höherer Wertschöpfung durch Rationalisierung von unattraktiven, unangenehmen oder potenziell gefährlichen Arbeitsprozessen
- Erhöhte Sicherheit für Menschen vor Gefahrstoffen und gefährlichen Objekten
- Betriebswirtschaftliche Vorteile bei perspektivischer Vollautomatisierung: Günstigere Betriebsbedingungen sowie gegebenenfalls Wegfall von an Menschen angepasste (Sicherheits-) Bedingungen (Lüftung, Arbeitsraum, Unfallschutz etc.)
Quellen des Lernens
- Beobachten menschlicher Aktivitäten, z.B. Lernen durch Demonstration (Was greift der Mensch wie?)
- Hinweise des Menschen auf entferntere, zu sortierende Objekte, z.B. Zeigen mit einem Laserpointer oder auf übertragenen Kamerabildern des Förderbandes
- Kommentierung durch den Menschen in der Lernphase, z.B. Benennung von Objekten, Materialien.
- Menschliche (verbale) Kommentierung oder Instruktion, um Affordanzen (Objekt ist greifbar, anhebbar etc.) oder Greiffähigkeiten zu lernen
- Simultanes Lernen von allen menschlichen Instruktoren an mehreren Förderbändern; so kann jede Roboterinstanz von den gelernten Fähigkeiten anderer Instanzen profitieren, z.B. Erkennen eines Objekts oder Ausführen eines Griffs
Methoden des Lernens
- Reinforcement Learning (bestärkendes Lernen)
- Ensemble-Lernen (gemeinsames Lernen, z.B. föderiertes Lernen)
- Few-shot Learning (KI-Modelle entwickeln mit geringen Datenmengen)
- Lernen im Team (bei mehreren Robotern)
- Transfer Learning (verschiedene Domänen, z.B. zwischen örtlich getrennten Recyclinganlagen)
- Selbstlernen/Weiterlernen ab einer gewissen Ergebnisqualität des Robotereinsatzes






































