Verstärkung lernen

Inhalt

Definition - Was bedeutet Reinforcement Learning?
Eine Einführung in Microsoft Azure und die Microsoft Cloud | In diesem Handbuch erfahren Sie, worum es beim Cloud-Computing geht und wie Microsoft Azure Sie bei der Migration und Ausführung Ihres Unternehmens aus der Cloud unterstützen kann.
Techopedia erklärt das Reinforcement Learning

Definition - Was bedeutet Reinforcement Learning?

Reinforcement Learning im Kontext der künstlichen Intelligenz ist eine Art dynamisches Programmieren, bei dem Algorithmen mithilfe eines Systems der Belohnung und Bestrafung trainiert werden.

Ein Verstärkungslernalgorithmus oder Agent lernt durch Interaktion mit seiner Umgebung. Der Agent erhält Belohnungen durch korrektes Ausführen und Strafen für falsches Ausführen. Der Agent lernt ohne Intervention von einem Menschen, indem er seine Belohnung maximiert und seine Strafe minimiert.

Eine Einführung in Microsoft Azure und die Microsoft Cloud | In diesem Handbuch erfahren Sie, worum es beim Cloud-Computing geht und wie Microsoft Azure Sie bei der Migration und Ausführung Ihres Unternehmens aus der Cloud unterstützen kann.

Techopedia erklärt das Reinforcement Learning

Reinforcement Learning ist ein Ansatz für maschinelles Lernen, der von der behavioristischen Psychologie inspiriert ist. Es ist ähnlich, wie ein Kind lernt, eine neue Aufgabe auszuführen. Reinforcement Learning unterscheidet sich von anderen Ansätzen des maschinellen Lernens dadurch, dass dem Algorithmus nicht explizit mitgeteilt wird, wie er eine Aufgabe ausführen soll, sondern dass er das Problem von sich aus löst.

Ein Agent, bei dem es sich um ein selbstfahrendes Auto oder ein Schachprogramm handeln kann, interagiert mit seiner Umgebung und erhält je nach seiner Leistung einen Belohnungsstatus, z. B. sicher ans Ziel fahren oder ein Spiel gewinnen. Umgekehrt erhält der Agent eine Strafe für fehlerhafte Ausführung, z. B. wenn er von der Straße abfährt oder schachmatt gesetzt wird.

Der Agent trifft im Laufe der Zeit Entscheidungen zur Maximierung seiner Belohnung und Minimierung seiner Strafe mithilfe dynamischer Programmierung. Der Vorteil dieses Ansatzes für künstliche Intelligenz besteht darin, dass ein KI-Programm lernen kann, ohne dass ein Programmierer angibt, wie ein Agent die Aufgabe ausführen soll.