AlphaZero

By Roland del Rio Date 2017-12-08 21:46

Hallo Peter.
Aber nein, die 4 Stunden Training (reinforcement learning) bestanden ausschließlich in Spielen gegen sich selbst! Gerade das ist doch der faszinierenden Grundgedanken des Systems. Papier (https://arxiv.org/pdf/1712.01815.pdf) gelesen?

By Peter Martan Date 2017-12-08 23:08 Edited 2017-12-08 23:14

Ich glaube, das siehst du falsch, Roland. Das Selfplay ist schon viel länger vorher mit 5000 TPUs gewesen, die 4 Stunden, von denen die Rede im Papier ist, waren Lernen gegen SF.

By Roland del Rio Date 2017-12-09 01:47 Edited 2017-12-09 02:25

Hallo Peter.
Habe gesehen, dass du in einigen anderen Post AlphaZero eine viel längere Trainigsphase mit gezielter Vorbereitung gegen SF unterstellst.
Das Selbsttraining für Schach insgesamt 9 Stunden gedauert (700000 Iteration stets) und nach 4 Stunden hatte man die Spielstärke von Stockfish erreicht (wurde zwischendurch in 1sek/Zug Matches ermittelt). Alle Spiele des Trainings /Reinforcement Learning waren gegen sich selbst.
Aber noch mal, selbst wenn es anders wäre, würde es nicht viel ändern.

By Peter Martan Date 2017-12-09 08:29 Edited 2017-12-09 08:34

Roland del Rio schrieb:

Aber noch mal, selbst wenn es anders wäre, würde es nicht viel ändern.

Naja, ich finde halt schon, wenn sich die AI explicit in ihrem Lernen auf die gegnerische buchlos spielende Engine "einschießen" kann, bevor sie dann im Match sowieso auch immer noch weiter lernt, macht das schon einen Unterschied.

Stell dir vor, du dürftest ein Fernschach- oder Freestyle- Match gegen eine dir bekannte Hardware- Software- Entität, von der du auch noch weißt, dass sie ohne Buch spielt, eine Woche gegen genau diese dir bekannte Entität vorbereiten (ein bisschen länger als 4 Stunden sollte man als Mensch schon haben vielleicht

).
Glaubst du nicht auch, das würde dir stark helfen, dir dein eigenes Buch ein bisschen maßzuschneidern?

Du hast vielleicht doch recht mit den 4 Stunden, eigentlich geht es aus dem Papier nicht wirklich schlüssig hervor, wo da jetzt der eigentliche Unterschied zu den vorhergehenden Lernphasen war, (vielleicht kommen unsere Interpretationsunterschiede, was deren Länge angeht, auch daher, dass nirgends wirklich steht, wieviele Vorversionen, DeepChess und Giraffe eventuell auch mitgerechnet, es schon gab und ab wo es AZ hieß) aber woher wollten denn die Tester wissen, dass AZ nach dieser letzten Phase die Spielstärke von SF erreicht hatte?
Elomessungen nur aus Selbstplay ohne Gegner, der die Leistung eicht? Wie soll das gehen?

Ich bin halt ein argwöhnischer Mensch.

By Roland del Rio Date 2017-12-09 10:33

Peter Martan schrieb:

Ich bin halt ein argwöhnischer Mensch.

Da hast du wohl recht und dagegen ist ja auch nichts zu sagen. Aber ich würde mir wünschen, dass Du deine Skepsis auf etwas fundierte Füße stellen würdest.

Peter Martan schrieb:

Du hast vielleicht doch recht mit den 4 Stunden, eigentlich geht es aus dem Papier nicht wirklich schlüssig hervor, wo da jetzt der eigentliche Unterschied zu den vorhergehenden Lernphasen war, (vielleicht kommen unsere Interpretationsunterschiede, was deren Länge angeht, auch daher, dass nirgends wirklich steht, wieviele Vorversionen, DeepChess und Giraffe eventuell auch mitgerechnet, es schon gab und ab wo es AZ hieß) aber woher wollten denn die Tester wissen, dass AZ nach dieser letzten Phase die Spielstärke von SF erreicht hatte?
Elomessungen nur aus Selfplay ohne Gegner, der die Leistung eicht? Wie soll das gehen?

Du scheinst dir völlig falsche Vorstellungen von AlphaZero zu machen und ich bin hier wirklich nicht in missionarischer Mission unterwegs. Dafür fehlt mir vermutlich selbst der zugehörige allumfassende Enthusiasmus, als Informatiker bin ich nur vom Erfolg des algorithmischen Ansatzes fasziniert. Denk was du willst und abschließend nur nochmal einige Punkte, die du hier ansprichst und die sehr wohl aus dem Papier hervorgehen:

- Die Lernphase dauerte 9 Stunden, benutzt wurde sehr viel Hardware (für die Spiele hat man dann deutlich weniger Hardware verwendet). Zur Lernphase zählen ausschließlich Spiele gegen sich selbst, selbstverständlich gegen ein sich ständig verbesserndes/dazulernendes Selbst. Die Programmierphase und was hier ein Matthew Lai an Code von Giraffe nach AZ (oder auch umgekehrt?) eingebracht hat ist nicht Bestandteil dieser Phase. So was ist (vor allem ja auch bei SF) kaum messbar und auch nicht Messziel des Tests. Google will nicht eigen, dass man mit weniger Manpower als SF etwas geschaffen hat, sondern, dass man etwa geschaffen hat, dass nun selbstständig sehr schnell lernend an SF herankommt.

- Die 9 Stunden Lernphase sind völlig getrennt von den Spielen gegen SF. Aus den Spielen gegen SF hat die SF nichts dazugelernt! Die neun Stunden Lernphase kannst du dir vorstellen wie die fast 5 Jahre SF Entwicklung im Framework.
Während dieser 9 Stunden hat man zu bestimmten Zeitpunkten quasi Codefreezes, also Kopien des KI-Systems gezogen und diese Kopien hat man dann anschließend gegen SF8 spielen lassen. Genauso wie im SF-Framework die Dev-Build-Regressiontest gegen den Master. Die Ergebnisse dieser Matches lagen erst nach Abschluss der Lernphase vor und wurden dann zu der ELO-Graphik gegen SF8 zusammengefasst.

Peter Martan schrieb:

Stell dir vor, du dürftest ein Fernschach- oder Freestyle- Match gegen eine dir bekannte Hardware- Software- Entität, von der du auch noch weißt, dass sie ohne Buch spielt, eine Woche gegen genau diese dir bekannte Entität vorbereiten (ein bisschen länger als 4 Stunden sollte man als Mensch schon haben vielleicht

).
Glaubst du nicht auch, das würde dir stark helfen, dir dein eigenes Buch ein bisschen maßzuschneidern?

Das ist genau die Herausforderung, die in im vergangenen Freestyle-Turnier hatte, wo der Großteil der Gegner mehr oder weniger gut berechenbare Engines waren. Und natürlich ist die Vorbereitung hier möglich und hilfreich, am Ende wurde das Turnier sogar sehr stark durch sie beeinflusst leider waren meine Mühen in dieser Richtung nicht so erfolgreich wie gewünscht, aber dass hat nur damit zu tun, dass eben doch gehörig "gewürfelt" wird, wenn es darum geht vorherzusehen, welche Varianten aus den Büchern aufs Brett kommen. Aber nochmal: AZ hat sich das im SF-Match nicht zu nutze gemacht! Die Matches und deren Erkenntnisse flossen nicht ins Wissen der KI ein, sondern man hat in jedem Matches den gleichen Startzustand des Testsystems verwendet.
Das soll es nun für mich in deine Richtung hier aber erstmal gewesen sein, mach daraus was du möchtest und bleibt gerne argwöhnisch. Das könnte eine meschliche Eigenschaft sein, die sich in der Zukunft der KI noch als absolut notwendig herrausstellen könnte.

By Peter Martan Date 2017-12-09 10:53 Edited 2017-12-09 11:03

Roland del Rio schrieb:

Peter Martan schrieb:

Ich bin halt ein argwöhnischer Mensch.

Da hast du wohl recht und dagegen ist ja auch nichts zu sagen. Aber ich würde mir wünschen, dass Du deine Skepsis auf etwas fundierte Füße stellen würdest.
...
Aber nochmal: AZ hat sich das im SF-Match nicht zu nutze gemacht! Die Matches und deren Erkenntnisse flossen nicht ins Wissen der KI ein, sondern man hat in jedem Matches den gleichen Startzustand des Testsystems verwendet.

Du hast vollkommen recht, Roland, es ist einerseits immer ausdrücklich vom self-playing reinforcement die Rede, in dem haben sie eine eigene Elo- Kurve für die Steps gehabt und gefunden, dass AZ SF nach 4 Stunden "outperformed" hat.

Auch ist in den vielen Folgeartikeln in verschiedenen Zeitschriften, die sich schon damit beschäftigt haben, immer von 4 Stunden Selfplaying die Rede.
Mir gefällt übrigens von vielen Statements, die ich dazu schon gelesen habe, das von Tord Romstad am besten, das sich hier im Ende der Meinungen der GM findet:
´
https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author

Jetzt muss ich dann halt trotz allem noch einmal boshaft und sophisticated sein: wo steht, dass nach dem self-playing reinforcemet und vor dem Match nicht noch sicherheitshalber die Elo- Eichung, die angeblich bis dahin auf gar nichts anderem als Google's schierer Elovermutung bestand (woher wussten sie, dass die Elokurve des Selbstlernens auch nur annäherungsweise irgendetwas mit den Celo von SF zu tun haben würde und AZ SF outperformed hatte?) ein bisschen gegen SF selbst getestet wurde?

Und dann, wenn jetzt AZ auf den buchlosen SF trifft und 100 Partien gegen ihn spielt, sollte die besonders starke Leistung dieser AI- Anwendung nicht immer noch gerade darin bestehen, das bisschen, was SF immer wieder ähnlich eröffnet, erst recht besser und besser zu lernen?

In deinem Freestyle- Turnier waren die gegnerischen Engines, auch wenn du wusstest, welche es waren, wohl nicht ohne Buch unterwegs und du hattest nicht im Vorfeld schon genau die buchlose Hardware- Software- Kombi zum Gegenbuchbauen, nein?

Das Würfeln, von dem du sprichst, war eben meiner Meinung nach genau das, was dem Match und SF gefehlt hat, von der Grundstellung aus würfelt SF ohne Buch eben doch sehr viel weniger als mit einem Buch, selbst wenn das auf nichts anderes als Würfeln, also Breite, angelegt ist.

Ok, ein Schelm, wer Böses dabei denkt, mea culpa, in Wirklichkeit will ich einfach nur nicht zugeben, dass ich mich in der Interpretation des Textes geirrt habe.

By Benno Hartwig Date 2017-12-09 11:05

> Die neun Stunden Lernphase kannst du dir vorstellen wie die fast 5 Jahre SF Entwicklung im Framework.

Zustimmung!
Mancher nennt den enormen Hardware-Einsatz um Kritik am Text zu begründen.
Ich denke aber, dieser Hardware-Einsatz muss parallel zum Hardware-Einsatz im Fishtest gesehen werden. Da wurde ja auch geklotzt.

Vielleicht hat Google bewusst so formuliert, als sei die Spielstärke schnell (und mit wenig Power) entstanden.
Herzchen sind das eben auch.
Das Ergebnis ist trotzdem ungemein verblüffend.

Die Lernkurve flachte dann ja stark ab.
Länger lernen lassen, bringt dann nichts mehr.
Ggf. lässt sich aber die Logik, die das Lernen steuert, noch verbessern, sodass die Lernerfolge sich dann erst gegen eine noch höher liegende Grenze annähern.
Sehr spannende Optionen könnten da jetzt bestehen!
Ich bin gespannt.

Benno

By Benjamin Bahnsen Date 2017-12-08 14:56 Upvotes 1

Roland del Rio schrieb:

Was hier gezeigt wurde ist (und ja, nur darum ging es Google), dass ein Computersystem mit KI-Techniken sich selbst innerhalb von 4(!) Stunden soviel Schachwissen beibringen kann, wie es die Stockfishgemeinde in vielen Jahren getan hat. Und vergessen wir nicht, dass die Spielstärke von Stockfish neben dem Hirnschmalz vieler Menschen aktuell auf über 873 Jahren CPU-Zeit beruht. Das ist es, was Google zeigen will und daran hätte auch eine knapp Niederlage gegen SF8 nichts geändert. Um das Ganze medial optimal in Szene zu setzten kann es gut sein, dass ein Sieg her musste.

Was hier gezeigt wurde ist eine Tabelle mit Ergebnissen, die Stockfish als Verlierer ausweisen sowie einen Auszug von 10 Partien. Wenn irgendwo mehr zu sehen ist, bitte ich um einen entsprechenden Link.

Roland del Rio schrieb:

Um die Aufmerksamkeit der Schachgemeinde hierauf zu lenken wäre es sicherlich besser gewesen sich mit einer knappen Niederlage zu begnügen, aber natürlich hat Google ein viel breiteres Zielpublikum im Sinn. Mit AlphaGo wurde gezeigt, dass KI dem Menschen auf der vermeintlich letzten komplexen Brettspiel-Bastion Go überlegen ist. Damals noch unter erheblichem Aufwand vieler Neuentwicklungen. Nun zeigte man, dass man unter dem verhältnismäßig geringen Aufwand einer Anpassung der Algorithmen und nur vier Stunden Selbsttraining ohne Wissensbasis eine System bekommt, dass sich mit dem langjährig getunten Mensch-Computer-Team messen kann. Das ist es, was mich sehr beeindruckt und nicht weniger nachdenklich macht.

Um die Aufmerksamkeit der Schachgemeinde hierauf zu lenken, wäre es sicherlich besser gewesen wenn Google einfach mal bei einer Computerschach-WM antritt. Warum aber macht man das nicht?

PS: Meine Kommentare sind nicht persönlich gemeint und sollen deine Antwort nicht durch den Kakao ziehen. Ich möchte an dieser Stelle nur überspitzt aufzeigen, dass wir auf Basis eines PDFs diskutieren, das außer ein paar Ergebnissen überhaupt nichts präsentiert. Eine wissenschaftliche Arbeit sieht anders aus.

By Roland del Rio Date 2017-12-08 17:34 Edited 2017-12-08 17:37

Hallo Benjamin.

Benjamin Bahnsen schrieb:

Um die Aufmerksamkeit der Schachgemeinde hierauf zu lenken, wäre es sicherlich besser gewesen wenn Google einfach mal bei einer Computerschach-WM antritt. Warum aber macht man das nicht?

Da hast du recht, dass hätte die Diskussionen bzgl. der "unfairen" Testbedingungen vermieden. Warum man das nicht gemacht hat? Weil es für DeepMind (noch?) nicht von Interesse war der Schachgemeinschaft zu zeigen, dass AlphaZero das Zeug zum Computerschach-WM hat.

Benjamin Bahnsen schrieb:

PS: Meine Kommentare sind nicht persönlich gemeint und sollen deine Antwort nicht durch den Kakao ziehen. Ich möchte an dieser Stelle nur überspitzt aufzeigen, dass wir auf Basis eines PDFs diskutieren, das außer ein paar Ergebnissen überhaupt nichts präsentiert. Eine wissenschaftliche Arbeit sieht anders aus.

Eine wissenschaftliche Arbeit von DeepMind, die darlegt, dass AlphaZero besser spielt als SF, oder dass Caro-Kan zwangsweise zum Remis führt würde ich von DeepMind nicht erwarten. Vielleicht ist beides ja auch falsch, ich will hier gar nichts in der Richtung behaupten. AlphaZero ist eine KI, die mit Go groß geworden ist. Dort lernte man jüngst, dass das Wegwerfen von anfangs implementiertem menschlichen Expertenwissen das System ab einem bestimmten Punkt sogar nochmal stärker machte. Nun hat man innerhalb kurzer Zeit die Algorithmen auf Schach und Shogi übertragen und gezeigt, dass man auch dort ganz oben mitspielen kann. Nicht mehr und nicht weniger zeigen die "paar Ergebnisse", die mich, scheinbar anders als Dich, durchaus beeindrucken. Aber eben auch sehr nachdenklich machen, denn meine Gedanken verlassen hier sehr schnell Thema Schach.

By Guenter Stertenbrink Date 2017-12-07 11:23 Edited 2017-12-07 11:40

ich hab das nicht so verfolgt, aber ich denke mir, dass Alpha die aktuelle Stellung
mit Ideen und Bewertungen irgendwie mit anderen gespeicherten Stellungen
vergleicht. Dabei muss es wohl auch direkt oder indirekt dir Kloetzchen zaehlen
und zu einer Bewertung kommen, die aehnlich denen der "Engines" ist ?!!?

--------edit-----------
Hamming distance between two positions
snicolet committed 6 days ago
https://github.com/snicolet/Stockfish/commit/c17f356f2d624098da8e090b56fe1b3d2be4c5e8
--------------------------

By Roland Riener Date 2017-12-07 11:48

In dem Chess.24-Link findet sich folgendes Schreiben eines "Composers" an das Team:

Zitat:

Dec. 7. 2017

Dr Demis Hassalbis
Inventor DeepMind Alpha Go

Sir:

With modesty. please see if DeepMind can solve this 30 years in the making chess puzzle of mine (the time solved) . White mates black in 9 moves.

Position: White: Pa2, Ka3, Pa4, Ba7, Ba8, Pb5, Pc2, Pd6,Pe2, Nf3, Ng1, Pg5

Black Pc3. Kc4, Pc5, B-c8, N-d5,Pd7, Pe3, P-g3, P-f6, Pg7, Ph6

Please inform . My email is jsaldea12@yahoo.com. Regards.

Jose S. Aldea
Composer

Da komme ich nicht dran vorbei. Es scheint tatsächlich eine schwierige (oder fehlerhafte?) Aufgabe zu sein. Der dafür prädestinierte Matefinder kommt in vernünftiger Zeit nur auf ein Matt in 22. Andere Eingeber auf Let's Check kommen bislang auch nicht weiter.

Roland

By Olaf Jenkner Date 2017-12-07 12:44

Einen Komponisten mit Namen Aldea kenne ich nicht. In den Datenbanken PDB und YACPDB gibt es keine einzige Aufgabe von diesem Komponisten.

By Achim Müller Date 2017-12-07 13:28 Edited 2017-12-07 13:37

Vielleicht kann mir in dem Zusammenhang jemand weiterhelfen. Ich habe aus Interesse den matefinder von Stockfish als UCI-Engine installiert, die Engine wird mir auch in »Engines verwalten« angezeigt, ich kann sie aber nicht über »Engine laden« hinzufügen. Gleiches gilt für das ältere mate 2.2. Weiß jemand Rat?

Ciao

Achim

Ergänzung: in Arena läuft sie ohne Probleme, aber, wie oben beschrieben, in CB14 oder DF16 nicht.

By Stefan Pohl Date 2017-12-07 14:15 Upvotes 2

Achim Müller schrieb:

Ich glaube mal gelesen zu haben, daß der Name das Problem ist. Wenn "Mate" im Enginenamen vorkommt, tritt dieses Problem wohl in Chessbase-Produkten auf. Den Namen einfach mal mit einem HEX-Editor in dem Engine.exe file entsprechend ändern und es nochmal probieren, würde ich also raten.

By Achim Müller Date 2017-12-07 17:19 Upvotes 1

Whew, ich bin beeindruckt, das war es. Danke, da wäre ich nie im Leben drauf gekommen. Wissen die das bei Chessbase nicht? Ich meine, mate 2.1/2.2 wird doch von denen mitausgeliefert.

Ciao

Achim

By Peter Martan Date 2017-12-07 15:12 Edited 2017-12-07 15:26

Hallo Roland!

Roland Riener schrieb:

In dem Chess.24-Link findet sich folgendes Schreiben eines "Composers" an das Team:

Zitat:

Also ich komme da vorläufig nicht unter #20:

B1b5/B2p2p1/3P1p1p/1Ppn2P1/P1k5/K1p1pNp1/P1P1P3/6N1 w - - 0 1

Analysis by Stockfish MateFinder 64 POPCNTI:

1.gxh6 gxh6 2.b6 La6 3.b7 Lxb7 4.Lxb7 Sf4 5.Sh4 Sd5 6.Sg2 Sb4 7.Sxe3+ Kd4 8.Sf3+ Kxe3 9.Lxc5+ Kf4 10.Kxb4 g2 11.Lc6 g1D 12.Lxg1 h5 13.Lxd7 h4 14.Lh3 Kg3 15.d7 Kxh3 16.d8D Kg2 17.Dd4 Kh3 18.Dxh4+ Kg2 19.Dh2+ Kf1 20.Df2#
+- (#20) Tiefe: 42/40 00:00:07 228MN

Das dürfte dafür mit 1.gxf6 ziemlich gleich lang sein und mit 1.Se1 und 1.b6 nicht wesentlich länger.
Eine namhafte veröffentlichte Aufgabe kann das damit schon deshalb nicht sein, weil das 4 Major Duals wären, den Namen des Komponisten kenne ich auch nicht.

Das #9 müsste der Autor jedenfalls schon herzeigen, damit ich's ihm glaubte. Umso mehr, als Gustav im Brute Force- Modus auch ziemlich schnell sagt, dass das als #9 nicht lösbar ist.

By Roland Riener Date 2017-12-07 15:59

Also wohl ein Fake eines Trolls. Schon die unfachmännische Positionsangabe läßt von vornherein Zweifel aufkommen.

By Peter Martan Date 2017-12-07 16:10

Ja, die ist grausam.
Kann natürlich sein, er hat seine eigene Stellung selber nicht ganz genau richtig wiedergegeben, ich habe mich eigentlich auch nur auf deine Fen verlassen, so auf einen Blick schien sie mir dem Zitat übereinzustimmen.
Sein wir aber froh, dass wir kein #9 gefunden haben, sonst stünden wir jetzt vor dem Dilemma, es nicht veröffentlichen zu dürfen, weil das Google AlphaZero natürlich sonst sofort beibringen könnte.

By Peter Martan Date 2017-12-08 13:52 Edited 2017-12-08 13:54

Hallo Benjamin!

Benjamin Bahnsen schrieb:

Das Paper selbst hat aber ein paar Seiten und kommt mit keinen neuen Erkenntnissen daher. Es ist dieser "Sensation" komplett unwürdig. Keine widerlegten Eröffnungen, keine brillianten Züge (die sonst kein Schachprogramm findet), kein neues Endspielwissen - nichts. Das einzige, was wir haben, sind 10 Gewinnpartien gegen Stockfish. Und das von einem Unternehmen, was sein Geld zu 95% mit Werbung verdient und in der Vergangenheit viel angekündigt hat, um dann nichts zu liefern. Man wird das Gefühl nicht los, dass solche Paper nicht dafür da sind, um neue wissenschaftliche Erkenntnisse zu publizieren, sondern nur um Schlagzeilen zu machen und den Aktienkurs nach oben zu treiben.

Einerseits ganz deiner Meinung, andererseits muss einem schon auch immer klar sein bei wissenschaftlichen Veröffentlichungen (die müssten dann aber auch erst einmal in einem Journal, möglichst einem mit einem gewissen Impactfactor, erscheinen und nicht nur irgendwo als .pdf herunterladbar sein), woher sie kommen und wie sie finanziert wurden.
Wenn ein Unternehmen wie Google in so ein Projekt so viel Geld, Hardware und Manpower investiert, ist der Grund wohl selten bis nie pures wissenschaftliches Interesse allein.
Dass hier Marketing- Werte im Vordergrund stehen, muss einem klar sein, und es muss ja auch nicht einmal primär und nur schlecht sein.

Aber mich stört nach wie vor am meisten, dass man nicht wenigstens gleich die Selbstkritik aufbringt, die Aussagekraft etwas an den Bedingungen zu relativieren und in Aussicht zu stellen, was man an weiteren Tests für sinnvoll hielte.
So etwas sollte eben normaler Weise von Seiten der Veröffentlicher kommen und nicht vom fachkundigen Publikum. In Publikationen, die sich mit neuen Verfahren mit wenig Vorveröffentlichungen befassen, liest man dann in der Summary gerne etwas wie, weitere Untersuchungen in bestimmte Richtungen sollten folgen.

Der Worst Bias ist für mich das Match der Lernmaschine gegen die buchlose Engine, von der man ja auch weiß, dass sie in Hinblick auf Buchunterstützung programmiert ist.

Auch die von dir angesprochenen Weiß- Schwarz- Erfolgsraten erklären sich für mich hauptsächlich aus diesem Prinzip:
AZ hatte gelernt und lernte während des Matches weiter, wie man gegen den buchlosen (und daher in seiner Eröffnung relativ stark determinierten) SF8 (noch dazu unter genau diesen Bedingungen am erfolgreichsten für genau diese Bedinungen gezielt lernbar) erfolgreich eröffnet.
Und das ist mit Weiß einfach rein schachlich leichter als mit Schwarz, in diesem Fall noch krasser als sonst, weil der eine Halbzug mehr, der sogenannt Anzugsvorteil, hier noch einmal einfach einen weiteren (und besonders stark zählenden) Halbzug an Varianz abschneidet.

By Ingo Althöfer Date 2017-12-09 09:03

Lieber Herr Bahnsen,

Benjamin Bahnsen schrieb:

Bestimmte Dinge glaubt man erst, wenn man sie mit eigenen Augen gesehen hat.
Ein Schachprogramm, dass gerade einmal 80.000 Stellungen pro Sekunde
untersucht und 100 Elopunkte stärker als Stockfish spielt, gehört definitiv dazu...

das hat mich auch beeindruckt.
In dem NATURE-Paper von Ende Oktober zu AlphaGo Zero war eine Aussage,
die aber (für die Go-Szene) noch viel heftiger war: Die "nackte" Stellungs-Bewertung
von AlphaGo Zero soll, ohne jede weitere Baumsuche, eine Spielstärke geben,
die deutlich über der der besten deutschen Go-Spieler liegt.

Welche Spielstärke man wohl im Schach ganz ohne Baumsuche hinkriegen könnte?

Ingo Althöfer.

By Peter Martan Date 2017-12-08 19:49

Starke Ansage, Timo!

Wenn sich Google wirklich erst so richtig ins Schach einmischt, kann ich mir solche und ähnliche Pläne durchaus auch gut vorstellen, gemeinsame Herausforderungen durch namhafte Programmierer und Hardware- Spezialisten kämen in der Öffentlichkeit vielleicht auch wirklich besonders gut an, allein schon so als Spektakel.
Da wäre natürlich auch einiges aus dem Weg zu räumen dafür, denke ich, aber warum nicht gleich größer denken, kleiner geben kann man's dann ja immer noch.

Ich würde nur zuerst mal einfach noch sehen wollen, wie AlphaZero mit einem guten Buch und vielleicht am besten doch noch einmal SF allein umgeht bei besseren TCs, dann könnte man direkter vergleichen, was das Buch bei AZ als Gegner an eigenen Eröffnungsleistungen wirklich hervorbringt, das wäre ja auch für alle weiteren Versuche eine wichtige Voraussetzung zur Vorbereitung, die die Computerschachszene zu treffen hätte.

Wovon das alles momentan aber praktisch einzig und allein abhängt, ist die Bereitschaft von Google, Schach als wissenschaftliche und sportliche Herausforderung überhaupt weiter zu verfolgen, und das wird wieder, schätze ich, davon abhängen, wie schwer oder leicht sich die internen weiteren Erfolge unter Berücksichtigung der Eröffnungstheorie, die bereits da ist, einstellen werden.

Entweder da kommt bald der nächste Schritt in der Öffentlichkeit, oder es wird so klar eben momentan doch noch nicht sein gegen gute Engine- Buch- Kombis.

By Ingo Althöfer Date 2017-12-09 09:06

Lieber Timo,

Timo Haupt schrieb:

Deshalb habe ich einen simplen Vorschlag: Wir starten eine Herausforderung
an das AlphaZero-Team, quasi die Computerschach-Community vs. DeepMind.
Vorbereitungszeit ein Jahr für beide Seiten...

eine sehr interessante Idee.

Zwar könnte ich technisch nichts (oder nicht viel) dazu beitragen.
Aber einen entsprechenden Herausforderungsbrief an DeepMind würde
ich definitiv mit unterschreiben.

Ingo.

By Peter Martan Date 2017-12-10 07:48

Morgähn, Timo!

Timo Haupt schrieb:

Deshalb habe ich einen simplen Vorschlag: Wir starten eine Herausforderung an das AlphaZero-Team, quasi die Computerschach-Community vs. DeepMind. Vorbereitungszeit ein Jahr für beide Seiten.

Um die Sache bis auf Weiteres (das natürlich auch erstmal von Google kommen muss, ob da überhaupt Bereitschaft besteht, über Rematch- Bedingungen zu verhandeln) für mich persönlich abzuschließen, hab ich mal im CCC noch ein bisschen rumgestänkert, was meine Einwände gegen das Match, so wie es stattgefunden hat, zu deponieren.

http://www.talkchess.com/forum/viewtopic.php?p=742341#742341

By Peter Martan Date 2017-12-17 00:28

Im CCC geht's mittlerweile auch schon um direkte Kontaktaufnahme mit DeepMind.

http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=743436&t=66005

Für mich sind die 100 Partien als Gesamtdownload zunächst mal essentiell, weil man schon an denen klar sehen würde, wie oft immer wieder dieselben Eröffnungen gespielt wurden.
Vielleicht bin ich da wirklich einfach zu misstrauisch, aber für mich steht in dem Papier halt nirgends klar, dass A0 während der Partien nicht mehr gelernt hat.

Zitat:

We evaluated the fully trained instances of AlphaZero against Stockfish, Elmo and the previous
version of AlphaGo Zero (trained for 3 days) in chess, shogi and Go respectively, playing
100 game matches at tournament time controls of one minute per move. AlphaZero and the
previous AlphaGo Zero used a single machine with 4 TPUs. Stockfish and Elmo played at their

(here is the performance- table within the text)

strongest skill level using 64 threads and a hash size of 1GB. AlphaZero convincingly defeated
all opponents, losing zero games to Stockfish and eight games to Elmo (see Supplementary Material
for several example games), as well as defeating the previous version of AlphaGo Zero.

hab ich schon hier

http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=743420&t=66005

zitiert, weil es für mich die einzige Stelle ist, aus der man ableiten könnte ("We evaluated the fully trained instances..."), dass das neuronale Netz im Match nicht mehr "gelernt" hat.
Dass das allein aber schon als klare Ansage in diese Richtung verstanden werden muss, sehe ich einfach nicht so.

Und hat A0 aber während der laufenden Partien das neuronale Netz weiter adjustiert, zählen für mich diese 100 Partien mit vielleicht insgesamt nur 4 oder 5 verschiedenen Eröffnungen (in den 10 bekannten sind's 3, wer weiß, ob's insgesamt viel mehr waren) umso weniger.

Duncan Roberts hat in dem Posting vom ersten Link noch diesen zu einem heise online Artikel gesetzt:

https://www.theregister.co.uk/2017/12/14/deepmind_alphazero_ai_unfair/

Daraus geht hervor, dass die Arbeit zum Peer Review eingereicht ist, und man erst danach wieder etwas hören wird.

Zitat:

A spokesperson from DeepMind told The Register that it could not comment on any of the claims made since “the work is being submitted for peer review and unfortunately we cannot say any more at this time.”

By Michael Scheidl Date 2017-12-17 11:07

Zitat:

Vielleicht würde eine Serie von Wettkämpfen
zur Klärung helfen:
Stockfish(fix) vs Houdini(normal),
Stockfish(normal) vs Houdini (fix),
Stockfish(fix) vs Houdini(fix),
Stokfish(normal) vs Houdini(normal).

Dabei besteht ein praktisches Problem, nämlich daß kein - mir bekanntes - Interface unterschiedliche Zeitkontrollarten innerhalb desselben Wettkampfes oder Turnieres gestatten. Cutechess-cli auch nicht soweit ich sehe. Vielleicht Aquarium?

Das einzige in dieser Richtung das ich kenne, sind Prozent-Abschläge von der Zeit je Engine in Arena, aber das wäre hier nicht zweckdienlich.

By Peter Martan Date 2017-12-17 11:55

Michael Scheidl schrieb:

Zitat:

Dabei besteht ein praktisches Problem, nämlich daß kein - mir bekanntes - Interface unterschiedliche Zeitkontrollarten innerhalb desselben Wettkampfes oder Turnieres gestatten.

Wüsste ich auch nix derartiges.
Da müsste man zwei GUIs gegeneinander spielen lassen mit einem Autoplayer, das hab ich ewig lang nicht mehr probiert.
Oder man könnte vielleicht 2 GUIs oder Einstellungen davon über einen gemeinsamen Server spielen lassen.
Ehrlich gesagt ist mir das alles etwas zu mühsam für den zu erwartenden Erkenntnisgewinn.
Vergleichbar mit dem, was A0 an Hardware- Nutzungsvorteil hatte, wäre es sowieso nicht.
Das ist ja gerade der Witz an der Sache, reproduzierbar wird das alles nicht, daher kann sich Google auch ruhig erlauben, zu veröffentlichen, was sie wollen.
Dann sollten sie aber wenigstens die Partien alle herzeigen.

Schon in den 10 vorhandenen sind mir da einfach verdächtige SF- Züge genug drin. Leider kann man nicht einmal die reproduzieren, weil man sonst manuell im Minutentakt dem auf 1'/Zug eingestellten SF die Züge eingeben müsste. Backward wäre ohnehin wieder ganz was anderes.

War ponder on wenigstens? Steht das wo? Auf die Schnelle hab ich's jetzt gerade wieder nirgends gesehen, aber ich mag das "Paper" auch schon gar nicht mehr lesen, hoffentlich gibt's wenigstens bald ein ordentliches.

By Klaus S. Date 2017-12-17 13:35

Peter Martan schrieb:

...
Schon in den 10 vorhandenen sind mir da einfach verdächtige SF- Züge genug drin. Leider kann man nicht einmal die reproduzieren, weil man sonst manuell im Minutentakt dem auf 1'/Zug eingestellten SF die Züge eingeben müsste. Backward wäre ohnehin wieder ganz was anderes.
...

Reproduzieren kann man es eh nicht Peter, schon allein wegen der benutzten 64 cores. Nondeterministic bei MP

By Jörg Oster Date 2017-12-17 12:36

Michael Scheidl schrieb:

Zitat:

Selbsverständlich kann Cutechess das.
Zeitkontrolle gehört zu den Engine-Optionen und kann somit jeder Engine
individuell zugeordnet werden.

Bei Xboard/Winboard weiß ich es nicht.
Es würde mich aber sehr wundern, hätte HGM dies nicht auch dort integriert.

Ich wünsche allen einen schönen 3. Adventssonntag.

By Mythbuster Date 2017-12-06 22:27

Warum braucht es dafür jetzt einen extra Thread? Ist Dir der andere Thread zu profan?

By Robert Richter (Mod.) Date 2017-12-07 00:41

Mythbuster schrieb:

Warum braucht es dafür jetzt einen extra Thread? Ist Dir der andere Thread zu profan?

Sehe ich genau so! Habe es mal hier angehängt

By Kurt Utzinger Date 2017-12-08 20:09

Tom Paul schrieb:

Warum wurde Stockfish auf 64 Kerne beschränkt und spielte nicht mit 128 Kernen?
Hatte Google Angst zu verlieren?

-Das waren hoffentlich wirklich 64 Kerne und nicht 32 Kerne/64 Threads.

Schließlich kann Stockfish mit 128 Kernen (das Doppelte) umgehen und ist deutlich stärker.

Stockfish/ASMFISH könnte nach einer Verbesserung auch problemlos mit 256 Kernen antreten.

In beiden Fällen würde AlphaZero den Kürzeren ziehen!!!

Hier wird reines Wunschdenken vorgebracht. Wenn man die Partien seriös betrachtet, dann
wird klar, dass (leider) auch ein Stockfish mit 256 Kernen keine Chance gegen AlphaZero
hätte. Was hier AlphaZero auf Spielstufe 1m/Zug gezeigt hat, ist schon fast Schach von
einem anderen Stern.
Gruss
Kurt

By Thorsten Czub Date 2017-12-17 01:08

Danke Kurt. So weit würde ich nicht gehen. Es waren ja alles für Menschen durchaus nachvollziehbare Motive.
Was ich nicht verstehe ist, warum stockfish alle diese doch leichten Themen nicht gesehen hat.
Hat der überhaupt noch bewertungsfunktionen im Programm, oder wurde das auch über Bord geworfen ?

By Thorsten Czub Date 2017-12-17 01:05

Also die Partien sahen nicht danach aus das stockfish da jemals eine Partie gewinnen könnte.
Es sah mehr danach aus als ob stockfish gar nicht weiß wie man Schach spielt.
Der musste ja froh sein das er nach soundsoviel Zügen nicht alle Figuren wieder in der grundstellung
Hätte, oder alle bewegungsunfähig gepinnt oder eingesperrt.
Das Schach von stockfish erinnerte stellenweise an Mühle, wo der Gegner diverse Zwickmühlen hatte.
Bislang war man ja davon ausgegangen das stockfish Schach spielt.
So ein Match kann da natürlich neue Erkenntnisse bringen.
Gut das es keine kommerzielle Engine getroffen hat. Die wirtschaftlichen Verluste wären ja immens.
Habt ihr nicht alle die Partien auf euren Rechnern nachgespielt ?
Hat stockfish nicht absolut keine Ahnung gehabt was Lc8, Te1, lg5 oder Lxg6 anging ?

By Walter Eigenmann Date 2017-12-17 01:38 Edited 2017-12-17 02:06

Thorsten Czub schrieb:

Der musste ja froh sein das er nach soundsoviel Zügen nicht alle Figuren wieder in der grundstellung
Hätte, oder alle bewegungsunfähig gepinnt oder eingesperrt.
Das Schach von stockfish erinnerte stellenweise an Mühle, wo der Gegner diverse Zwickmühlen hatte.

Das ist jetzt lustig, exakt diese Assoziation drängte sich mir ebenfalls auf beim Nachspielen der 10 Partien:
Da spielt jemand Mühle mit Stockfish!
Wobei ich weniger an Zwickmühlen als ans systematische "Einsperren" dachte: Sukzessive wird dem Gegner quasi
ein Feld nach dem anderen genommen, bis er nur noch Phantomzüge hat und schliesslich Steine opfern muss.
Sozusagen eine Form von Zugzwang bei vollem Brett.

Das ist eine wirklich bestialische Art Schach zu spielen... ;-( Und sie trifft auf einen Engine-Zirkus, der darauf
in keiner Weise vorbereitet ist...

Ich bin gerade dabei ein Dutzend AZ-TopShots zusammenzustellen, die diese These untermauern sollen.
Die schlechten Match-Bedingungen für Stockfish sind eine Sache; das extreme Niveau von AlphaZero eine andere...

Gruss: Walter

.

By Thorsten Czub Date 2017-12-17 11:01

Ich nehme an AZ berechnet das absichtlich . Es gab einige ganz wenige Schachprogramme die das auch drauf hätten. Die anderen scheinen diesen Aspekt halbwegs vernachlässigt zu haben.
The king von Johan de Koning konnte sowas auch. Der hatte dafür eine bewertungsfunktion die räum extrem mit einbezog. Und breakthrough von Werner Koch hat mal bis zur soundso vielten tiefe im suchbaum die felderkontrollen berechnet und daraufhin gespielt.

Als Kind habe ich auch gerne so Mühle gespielt das der Gegner sich nicht mehr bewegen konnte.

By Peter Martan Date 2017-12-17 07:43

Thorsten Czub schrieb:

Hat stockfish nicht absolut keine Ahnung gehabt was Lc8, Te1, lg5 oder Lxg6 anging ?

Das sind genau die 4 Züge, die jetzt seit Tagen herumgereicht werden, wären die in Fernschachpartien vorgekommen, hätte sich das keine verlorene Seele in einem Forum zu posten getraut, weder als Teststellungen noch als menschliche Glanzleistungen, es hätte sich sofort jemand gefunden, der geantwortet hätte, ja, nicht schlecht, aber der Dank gebührt schon hauptsächlich dem Gegner, der diese Züge zugelassen hat und dann nicht optimal geantwortet.

Ich bin mittlerweile wahrscheinlich wirklich schon etwas googlephob in der Sache, aber ich sehe in den 10 Partien immer noch hauptsächlich einen grottenschlecht spielenden SF und die Gegenseite nutzt das ganz gekonnt aus.
Period.

Mal sehen, was Walter noch an Gustostückchen von A0 herbringen mag, vielleicht überzeugt mich ja davon was.

Wovon ich nicht werde abgehen, ist, dass man zumindest alle 100 Partien zum Download anbieten sollte, mich würde nach wie vor allein schon brennend interessieren, wie oft die paar Eröffnungen, die man da in den 10 gesehen hat, und wie weit ins Mittlespiel hinein da was alles immer wieder vorkam.

Und dann muss ein Rematch irgendeiner Art einfach gefordert werden, von den Schachspielern, von den Computerschächern und von den Wissenschaftlern, sonst rührt DeepMind kein weiteres Ohrwaschel mehr in der Sache.
Dass ein Match gegen einen mit vernünftiger TC spielenden SF mit vernünftigem Buch eine auch nur annähernd so gute Performance erbrächte wie dieses erste Match, glaube ich ganz sicher nicht, das werden die Herrschaften mittlerweile (oder vielleicht auch schon vor dem Veröffentlichten, ein Schelm, wer Schlimmes dabei denkt, wohl schon selbst herausgefunden haben.

Bin neugierig, was bei dem Peer Review rauskommt, zu dem das Papier jetzt eingereicht worden ist, mag ja auch sein, das ist schon eine ganz andere Version davon.

Was das Lernen während des Matches angeht, werde ich mich wohl schon einfach verrannt gehabt haben.

BTW:
http://www.talkchess.com/forum/viewtopic.php?p=743476#743476