Peter Martan schrieb:
Ich bin halt ein argwöhnischer Mensch.
Da hast du wohl recht und dagegen ist ja auch nichts zu sagen. Aber ich würde mir wünschen, dass Du deine Skepsis auf etwas fundierte Füße stellen würdest.
Peter Martan schrieb:
Du hast vielleicht doch recht mit den 4 Stunden, eigentlich geht es aus dem Papier nicht wirklich schlüssig hervor, wo da jetzt der eigentliche Unterschied zu den vorhergehenden Lernphasen war, (vielleicht kommen unsere Interpretationsunterschiede, was deren Länge angeht, auch daher, dass nirgends wirklich steht, wieviele Vorversionen, DeepChess und Giraffe eventuell auch mitgerechnet, es schon gab und ab wo es AZ hieß) aber woher wollten denn die Tester wissen, dass AZ nach dieser letzten Phase die Spielstärke von SF erreicht hatte?
Elomessungen nur aus Selfplay ohne Gegner, der die Leistung eicht? Wie soll das gehen?
Du scheinst dir völlig falsche Vorstellungen von AlphaZero zu machen und ich bin hier wirklich nicht in missionarischer Mission unterwegs. Dafür fehlt mir vermutlich selbst der zugehörige allumfassende Enthusiasmus, als Informatiker bin ich nur vom Erfolg des algorithmischen Ansatzes fasziniert. Denk was du willst und abschließend nur nochmal einige Punkte, die du hier ansprichst und die sehr wohl aus dem Papier hervorgehen:
- Die Lernphase dauerte 9 Stunden, benutzt wurde sehr viel Hardware (für die Spiele hat man dann deutlich weniger Hardware verwendet). Zur Lernphase zählen ausschließlich Spiele gegen sich selbst, selbstverständlich gegen ein sich ständig verbesserndes/dazulernendes Selbst. Die Programmierphase und was hier ein Matthew Lai an Code von Giraffe nach AZ (oder auch umgekehrt?) eingebracht hat ist nicht Bestandteil dieser Phase. So was ist (vor allem ja auch bei SF) kaum messbar und auch nicht Messziel des Tests. Google will nicht eigen, dass man mit weniger Manpower als SF etwas geschaffen hat, sondern, dass man etwa geschaffen hat, dass nun selbstständig sehr schnell lernend an SF herankommt.
- Die 9 Stunden Lernphase sind völlig getrennt von den Spielen gegen SF. Aus den Spielen gegen SF hat die SF nichts dazugelernt! Die neun Stunden Lernphase kannst du dir vorstellen wie die fast 5 Jahre SF Entwicklung im Framework.
Während dieser 9 Stunden hat man zu bestimmten Zeitpunkten quasi Codefreezes, also Kopien des KI-Systems gezogen und diese Kopien hat man dann anschließend gegen SF8 spielen lassen. Genauso wie im SF-Framework die Dev-Build-Regressiontest gegen den Master. Die Ergebnisse dieser Matches lagen erst nach Abschluss der Lernphase vor und wurden dann zu der ELO-Graphik gegen SF8 zusammengefasst.
Peter Martan schrieb:
Stell dir vor, du dürftest ein Fernschach- oder Freestyle- Match gegen eine dir bekannte Hardware- Software- Entität, von der du auch noch weißt, dass sie ohne Buch spielt, eine Woche gegen genau diese dir bekannte Entität vorbereiten (ein bisschen länger als 4 Stunden sollte man als Mensch schon haben vielleicht
).
Glaubst du nicht auch, das würde dir stark helfen, dir dein eigenes Buch ein bisschen maßzuschneidern?
Das ist genau die Herausforderung, die in im vergangenen Freestyle-Turnier hatte, wo der Großteil der Gegner mehr oder weniger gut berechenbare Engines waren. Und natürlich ist die Vorbereitung hier möglich und hilfreich, am Ende wurde das Turnier sogar sehr stark durch sie beeinflusst leider waren meine Mühen in dieser Richtung nicht so erfolgreich wie gewünscht, aber dass hat nur damit zu tun, dass eben doch gehörig "gewürfelt" wird, wenn es darum geht vorherzusehen, welche Varianten aus den Büchern aufs Brett kommen. Aber nochmal: AZ hat sich das im SF-Match nicht zu nutze gemacht! Die Matches und deren Erkenntnisse flossen nicht ins Wissen der KI ein, sondern man hat in jedem Matches den gleichen Startzustand des Testsystems verwendet.
Das soll es nun für mich in deine Richtung hier aber erstmal gewesen sein, mach daraus was du möchtest und bleibt gerne argwöhnisch. Das könnte eine meschliche Eigenschaft sein, die sich in der Zukunft der KI noch als absolut notwendig herrausstellen könnte.