Alpha Go & Co.: So schnell lernt die Google-KI

Erst im vergangenen Jahr schlug AlphaGo von Google DeepMind große Wellen in der Welt der Künstlichen Intelligenz, indem es zeigte, dass ein Computerprogramm die besten menschlichen Go-Spieler der Welt schlagen kann.

Wie rasend schnell der Fortschritt in der modernen KI-Forschung voranschreitet, zeigen Details, die die Fachzeitschrift Nature vor wenigen Wochen veröffentlicht hatte. Hier wurde eine verbesserte Version des Programms namens AlphaGo Zero präsentiert. Mit weniger Rechenleistung und nur drei Tagen Trainingszeit schlug AlphaGo Zero das originale AlphaGo in einem 100-Satz Spiel mit 100 zu Null. Eine menschliche Aufsicht war dafür nicht vonnöten.

Das Go-Spielen erlernen

Go ist ein Strategiespiel, in dem zwei Spieler abwechselnd Steine auf ein Spielbrett mit 19 x 19 Feldern platzieren. Das Ziel des Spiels ist es, einen größeren Bereich des Bretts zu umringen als der Gegenspieler.

Go zu meistern, hat sich für Computer als eine bedeutend größere Herausforderung erwiesen als Schach. So gibt es deutlich mehr mögliche Züge in den einzelnen Positionen bei Go als bei Schach. Ebenso wie es deutlich mehr mögliche Spielvarianten gibt.

Das originale AlphaGo erlernte die KI dadurch, dass sie mehr als 30 Millionen Züge von menschlichen Experten studierte. Sie verbesserte sich anschließend auch außerhalb der menschlichen Expertise, indem sie über einen Zeitraum von mehreren Monaten unzählige Spiele gegen sich selbst spielte.

Im Gegensatz dazu sah AlphaGo Zero niemals Menschen beim Spielen zu. Stattdessen begann das Nachfolgeprogramm das Training, indem es lediglich die Spielregeln lernte. Durch eine verhältnismäßig geringe Anzahl von fünf Millionen Spielen gegen sich selbst, für die das Programm nur drei Tage auf einem schwächeren Computer als das originale AlphaGo benötigte, brachte es sich anschließend eine Leistungsfähigkeit jenseits von AlphaGo bei.

Faszinierend ist, dass der Lernprozess des Programms grob einige der Stationen des menschlichen Fortschrittsprozesses beim Meistern des Go-Spielens imitierte. AlphaGo Zero lernte zügig, allzu kurzsichtige Züge zu ignorieren, und entwickelte stattdessen strategischere Denkweisen, durch die es viele der Schemata und Spielzüge generierte, derer sich auch menschliche Weltklasse-Experten häufig bedienen. Bemerkenswerterweise begann es dann, einige dieser Schemata abzulegen und durch neue Strategien zu ersetzen. Die waren so noch nie zuvor in menschlichen Spielen zu sehen.

Jenseits des menschlichen Spiels

Dieses Kunststück gelang AlphaGo Zero dadurch, dass es das Problem anders anging als das originale AlphaGo. Beide Versionen verwenden eine Kombination aus den beiden aktuell leistungsfähigsten KI-Algorithmen: Deep Learning und Bestärkendes Lernen.

Um ein Spiel wie Go zu spielen, muss das Programm zunächst zwei grundlegende Dinge lernen. Das erste ist ein Grundsatz: die Wahrscheinlichkeit, jeden der möglichen Züge in einer gegebenen Position zu machen. Das zweite ist eine Wertigkeit: die Wahrscheinlichkeit, von jeder gegebenen Position aus zu gewinnen.

In dem ausschließlich auf Abwehr basierendem Ansatz von AlphaGo Zero war die einzige Information, die zum Erlernen von Grundsätzen und Wertigkeiten zur Verfügung stand, eine Vorab-Voraussage darüber, wer letztendlich gewinnen wird. Die Grundlage für diese Voraussage bildeten jeweils die aktuellen Grundsätze und Wertigkeiten, wobei diese zu Beginn noch willkürlich gesetzt waren.

Dieser Ansatz ist zwar zunächst deutlich herausfordernder als der des originalen AlphaGo, das sich durch das Beobachten menschlicher Experten-Züge einen Startvorteil für den eigenen Lernprozess verschaffte. Dafür erlernte die frühere Version jedoch Grundsätze und Wertigkeiten auf der Basis separater neuraler Netzwerke.

Der algorithmische Durchbruch bei AlphaGo Zero bestand schließlich daraus, herauszufinden, wie diese zu einem einzigen Netzwerk kombiniert werden können. Dies eröffnete die Möglichkeit, den Trainingsprozess durch das Spielen mit sich selbst deutlich zu vereinfachen. So ermöglichte die KI einen unbeschwerten Neubeginn ihrer Taktiken – frei von den Strategien menschlicher Experten.

Wie AlphaGo Zero das Go-Spiel zu meistern lernte

Beim Elo-Rating handelt es sich um ein weit verbreitetes Messinstrument für die Leistungsstärke von Go- oder Schach-Spielern. Der bisher beste menschliche Go-Spieler namens Ke Jie hat momentan ein Elo-Rating von ca. 3.700. Alpha Go Zero trainierte drei Tage lang und erreichte ein Elo-Rating von mehr als 4.000. Eine erweiterte Version desselben Algorithmus trainierte 40 Tage lang und erzielte ein Rating von beinahe 5.200.

Dies ist ein erstaunlich großer Leistungsunterschied im Vergleich zum besten menschlichen Spieler – deutlich größer als der zwischen dem besten menschlichen Schach-Spieler Magnus Carlsen (ca. 2.800) und dem momentan leistungsstärksten Schach-Programm (ca. 3.400).

Die nächste Herausforderung

Für die Künstliche Intelligenz markiert AlphaGo Zero einen wichtigen Schritt nach vorne, weil es die Umsetzbarkeit eines einzig auf Bewehrung basierenden Lernens demonstriert, das völlig befreit von jeglicher menschlichen Lenkung ist. Auf diese Weise erübrigt sich eine große Ansammlung von menschlichem Expertenwissen, das oft nur schwer zugänglich sein kann, um die KI in Gang zu bringen.

Es bedeutet außerdem, dass der Algorithmus in der Lage ist, völlig neue Ansätze zu entwickeln, die möglicherweise deutlich schwerer zu finden gewesen wären, solange er von Vornherein in einer menschlichen Denkweise verankert sein musste. Bemerkenswerterweise erweist sich diese Strategie auch noch als effizienter im Hinblick auf die benötigte Rechenleistung.

Go ist jedoch ein anspruchsvolles Spiel, das auf perfekter Information basiert. Es kommt ohne die Unordnung aus, die die meisten Probleme in der echten Welt auszeichnet. Das Training von AlphaGo Zero benötigte die akkurate Simulation von Millionen von Spielen, die den Regeln des Go-Spiels folgten. Für viele praktische Probleme sind derlei Simulationen entweder rechnerisch nicht umzusetzen oder die Regeln selbst sind weniger klar definiert.

Bevor eine KI kreiert werden kann, die allgemeinen Zwecken dient, die ein weites Feld an praktischen Problemen ohne bereich-spezifische menschliche Intervention in Angriff nehmen kann, müssen noch viele weitere Probleme gelöst werden.

Doch auch wenn die Menschheit für den Moment den Kampf gegen die Go-Algorithmen verloren hat: Künstliche Intelligenz ist – im Gegensatz zu Go – kein Nullsummen-Spiel. Viele Spiele von AlphaGo Zero wurden jetzt veröffentlicht und bieten eine ganze Lebenszeit inspirierender Studien für menschliche Go-Spieler.

Wichtiger ist allerdings, dass AlphaGo Zero einen Schritt in Richtung einer Welt repräsentiert, in der Menschen leistungsstarke KIs zu Rate ziehen können, um für Menschen unvorstellbare kreative Lösungen für komplizierte Probleme zu finden. In der Welt der Künstlichen Intelligenz gab es niemals eine bessere Zeit, um es einfach einmal zu versuchen.

Dieser Artikel erschien zuerst auf „The Conversation“ unter CC BY-ND 4.0. Übersetzung mit freundlicher Genehmigung der Redaktion.


Image (adapted) „P2121011“ by Strelban (CC0 Public Domain)


The Conversation

Schlagwörter: , , , , , , , ,