Waynes intressiert... 6core Turnier

By Ingo B. Date 2015-02-07 12:06

Clemens Keck schrieb:

Komodo 1365 mit drawscore 0 sehr überzeugend.

Ja, so habe ich den auch auf Playchess spielen lassen. Da dort praktisch nur noch SFs zu finden sind macht das auch durchaus Sinn.

Gruß
Ingo

By Benno Hartwig Date 2015-02-08 07:51

Stimmt wohl.
In Clemens' Teilnehmerfeld hätte ich ab schon vermutet, dass eine "selbsbewusstere" Einstellung vorteilhafter ist.
Hier sind die meisten Engines schon wirklich unterlegen.
Benno

By Benno Hartwig Date 2015-02-08 06:16

Wie viele Runden hast du denn geplant?
Benno

By Clemens Keck Date 2015-02-08 08:56

Moin moin

es ist ein doppelrundiges Turnier. eigentlich müsste jetzt noch als letzte Partie Komodo gegen DF14 gespielt werden.
Tuts aber nicht? das Spiel steht auch nicht in der Datenbank, dafür die letzte Stockfish Partie 2 mal....
Das soll einer verstehen. Ich vermute es liegt an DF14, hatte schon einmal einen Absturz in diesem Turnier mit DF14.

Die Partie ändert nichts mehr... Somit lasse ich es mal so stehen.

Gruß, Clemens

By Benno Hartwig Date 2015-02-08 13:12

Thanx!
Nachdem bereits einige Tests die besondere Spielstärke von SF6 bei 1 Kern und kurzen Zeiten bestätigt hatten, sind Berichte darüber, was bei recht vielen Kernen uns längeren Zeiten passiert, schon sehr interessant.
Bei dir hat Komodo ja deutlich (OK, sehr wenig Partien) die Nase vorn behalten.
Ist der von dir eingesetzte Komodo 1365.00 eigentlich deutlich anders als der allgemein erhältliche Komodo 8?
(und wo bekommt man den ggf. her?)

Benno

By Michael Scheidl Date 2015-02-08 13:52

Zitat:

Bei dir hat Komodo ja deutlich (OK, sehr wenig Partien) die Nase vorn behalten.

Stocki hat wieder einmal oft und gerne remisiert, wo Komodo den vollen Punkt holte. Kann natürlich "Turnierpech" gewesen sein und nächstes Mal umgekehrt ausgehen. Schwer zu sagen, ob und wieviel ein kleiner Contempt bewirken hätte können.

Unter solchen Top-Bedingungen ist es natürlich schwer, gute statistische Verläßlichkeit bzw. entsprechende Partienzahlen zu genenrieren... Dennoch, wenn wir mehrere solcher Turniere sehen werden und Komodo immer vor Stockfish landen sollte, sähe ich keinen Grund das Gegenteil anzunehmen. Rein intuitiv rechne ich damit aber nicht, bzw. nehme an daß hin und wieder auch Stocki 6(+) sowas gewinnt.

Von Komodo 9 erwarte ich keine Wunder und irre mich hoffentlich dabei

Obwohl, ist es nicht fast schon obszön noch mehr zu erwarten als bereits in wunderbarer Weise von mehreren Engines erreicht wurde? Wenn das "schon" der Plafond ist, kann man sich m.E. auch nicht beschweren. Aber es geht ja eh munter weiter...

By Benno Hartwig Date 2015-02-08 14:37

> Wenn das "schon" der Plafond ist, kann man sich m.E. auch nicht beschweren. Aber es geht ja eh munter weiter...

Beschweren, nein.
Aber wir haben keinen Hinweis darauf, dass hier annähernd das Optimum wäre.
Ich habe nicht mal den Eindruck, dass sich die Entwicklung auch nur irgendwie verlangsamt.
Wir sind noch voll dabei.

Auch wenn Schach wohl nie durchgerechnet wird: ich habe keine Ahnung davon, in welchen fernen schachlichen Sphären die Entwicklung enden wird.

Benno

By Michael Scheidl Date 2015-02-08 15:12

Zitat:

Ich habe nicht mal den Eindruck, dass sich die Entwicklung auch nur irgendwie verlangsamt.

Ja, es ist ein fortwährendes Phänomen. - Hier noch ein Einzelresultat bezüglich SF6 gegen viel schwächere Gegner: Ein CCC-Poster hat ein 10m+3s-Match, Singlecore/ponder off, über 500 Partien gegen Zappa Mexico II abgehalten:

http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=607957&t=55257

Die Elodifferenz von 472 hierbei entspricht nahezu exakt denen auf IPON (475) oder CEGT 40/20 (480), d.h. die beiden Engines performten gegeneinander genau nach "Papierform".

By Benno Hartwig Date 2015-02-08 16:42

Ich finde das immer wieder faszinierend, dass sich die größeren ELO-Differenzen tatsächlich so bestätigen lassen.
Faszinierend, das es gelungen war, die für Menschen so zurealisiren,
und eigentlich erstaunlich, dass es auch bei Engines so greift.

Selbstverständlich, oder eben mit einem "Das muss so sein" , ist das meiner Meinung nach nicht.

Benno

By Peter Martan Date 2015-02-09 09:08 Edited 2015-02-09 09:20

Was dich daran allerdings wundert, dass das reproduzierbare Ergegnisse liefert, wenn eine Statistik mit großen Datenmengen und genau umschriebenen Versuchsabläufen eigentlich nichts anderes tut als Prozente eines Gewinnanteils in "Elo" umzurechnen"?

Ich würde das eigentlich auch gar nicht als Statistik bezeichnen, es ist das Einsetzen von abgezählten ganzen und halben Punkten in eine Formel, die man zum Auswerten dieses Ergebnisses überhaupt nicht bräuchte, die Gewinnwahrscheinlichkeit allein hätte genau denselben Gehalt.

Es würde halt die Elosion fehlen, die sich aber ohnehin dadurch sofort wieder ad absurdum führt, dass du daraus allein noch absolut keine "Rangliste" ableiten kannst, jetzt nämlich als das, wozu sie ihrerseits gedacht war, engines auf Plätze in der Reihenfolge ihrer Spielstärke zueinander zu verteilen, welche da welchen Platz einnähme, hinge nämlich erst wieder allein davon ab, wen du "mitspielen" lässt.

Nachdem du das bei dem momentan schon unüberschaubaren Angebot an engines nur nach völlig eigenem Gutdünken auswählen kannst, so what?

Dass die Gewinnwahrscheinlichkeiten einer beliebigen engine a gegen eine andere b berechenbar sind, wenn man sie oft genug gegeneinander spielen lässt, beeindruckt mich relativ wenig, wenn du eben wie gesagt immer mehr oder weniger konstante Bedingungen einhältst, dass die Elo an der Spitze hingegen auch mehr und mehr davon abhängen, was dein Teilnehmerfeld an Bandbreite an solchen Wahrscheinlichkeiten relativ zueinander hat, vermiest das Maß als solches einerseits, und dass du einfach viel zuviele engines auflisten müsstest, um eine wirklich aussagekräftige Rangliste zu kriegen, ist das andere.

Es ist einfach auch dem gesunden Menschenverstand zugänglich, der sich nicht nur primär an mathematischen Verwirrspielen entzücken wollte, dass es nicht egal ist, ob eine engine auf Platz 17 in einer Liste von 50 engines rangiert oder auf Platz 17 von 500, selbst wenn sie dabei genau gleiche (wenn es sich um dieselbe engine handelt) oder völlig andere Celo hätte.

Dass die Mathematik als solche funktioniert, mag auch immer wieder erstaunen, hat aber überhaupt nichts mit schachlicher Spielstärke, und wie man sie messen will, zu tun.

By Benno Hartwig Date 2015-02-09 13:05

>Was dich daran allerdings wundert, dass das reproduzierbare Ergegnisse liefert, wenn eine Statistik mit großen Datenmengen und genau umschriebenen Versuchsabläufen eigentlich nichts anderes tut als Prozente eines Gewinnanteils in "Elo" umzurechnen"?

Mich erstaunt und ggf. auch manchen anderen: Die ELO-Formel basiert beispielsweise auf dem unterstellten Zusammenhang:

   Wenn eine Gruppe B etwa gleichstarker Spieler gegen eine andere derartige Gruppe A nur 30% holt
   dafür aber gegen eine Gruppe C stattliche 70%
   (beides heute beschrieben als ELO-Differenz ca. 150. Aber das nur am Rande erwähnt)
   dann wird A gegen C ungefähr 85% holen. (heute eben beschrieben als 300 ELO Differenz)

Dieser Zusammenhang ist ja nicht naturgegeben!
Er kann nur durch Beobachtung erkannt werden und dann passend mathematisch beschrieben werden.
Dass dies für menschliches Spiel so versucht wurde, und dass das auch gelang, ist schon interessant.

Dass das aber so auch für das Engine-Spiel greift, ist alles andere als selbstverständlich.

Benno

By Peter Martan Date 2015-02-09 15:44

Benno Hartwig schrieb:

Dieser Zusammenhang ist ja nicht naturgegeben!
Er kann nur durch Beobachtung erkannt werden und dann passend mathematisch beschrieben werden.
Dass dies für menschliches Spiel so versucht wurde, und dass das auch gelang, ist schon interessant.

Dass das aber so auch für das Engine-Spiel greift, ist alles andere als selbstverständlich.

Der Zusammenhang ist einfach die Transitivität des Schachspiels.
Beobachtung kannst du das auch nennen, wenn du Unmengen von Spielen zwischen ja doch immer sehr ähnlichen Gegnern abwickelst. Für das menschliche Spiel kommen dabei allerdings zwei wesentliche Faktoren dazu, die du bei Maschinen vergessen kannst: Nerven (Müdigkeit, mehr oder weniger Respekt bzw. Angst vor bestimmten Gegnern, "Tagesverfassung") und Kenntnisse die der eine Gegner spezifisch über den anderen hat (Eröffnungsrepertoire, Stärken und Schwächen in bestimmten Stellungen, Vorpartien).

Und dann kannst du natürlich zwischen Menschen niemals ein vergleichbar großes Kollektiv an Partiemengen erreichen.
All das macht die Eloformel für Menschen sinnvoll, auch wenn die Intransitivität sicher viel größer ist als bei Maschinen, jetzt natürlich wieder nur auf ein und dasselbe Spiel Schach bezogen, sofern man es überhaupt noch als dasselbe Spiel betrachten will.

Drum hat sich Arpad Elo diese Formel für Menschen ausgedacht, für Maschinen ist sie völlig unnötig, jetzt auch wieder von der offenbar höheren Transitivität abgesehen, genügte da die simple Gewinnwahrscheinlichkeitsangabe vollauf, soviele Partien wie du sowieso spielen musst heutzutage, um die Errorbar überhaupt noch in den Griff zu kriegen.

Dass es dich erstaunt, dass engine- Schach so transitiv zu sein scheint, kann ich ja noch irgendwie verstehen, die Nützlichkeit von Eloberechnungen, um nichts weiter als dennoch absolut relativ bleibende Spielstärkeangaben zum Vergleich zwischen bestimmten engines und nur diesen ausgesuchten solchen anzustellen, ist damit aber eher zusätzlich in Frage gestellt und jedenfalls erst recht nicht begründeter.

By Benno Hartwig Date 2015-02-09 16:28 Edited 2015-02-09 16:31

> Der Zusammenhang ist einfach die Transitivität des Schachspiels.

Die ist ja tatsächlich in jener sehr konkreten Form (es wären zwanglos unzählige andere vorstellbar) gegeben.
Es gilt z.B.: 2 mal eine 70:30-Überlegenheit resultiert in einer 85:15-Überlegenheit. Warum nicht 80:20 oder 90:10?
Mit welchen ELO-Werten das nun beschrieben wird, ist natürlich nebensächlich. Klar. Diesen Zusammenhang setzt Prof. Elo aber konkret so voraus.
Und dass das bei Engines genau so ist, war vor der Beobachtung der tatsächlichen Engine-Ergebnisse sicher nicht mal zu ahnen.

Es hätte hier durchaus passieren können, dass wir lernen müssen:
2 mal eine 70:30-Überlegenheit resultiert bei Engines in einer 99:1-Überlegenheit, und wir hätten es einfach zu Kenntnis nehmen müssen.

Benno

PS:
Wenn die Transitivität entsprechend der ELO-Formel bestätigt ist, auch für Computer, dann erscheint mir die ELO-Angabe schon sehr sinnvoll.
Dann ist ja letztlich bestätigt, dass es egal ist, gegen welche Gegnerspielstärke, gegen welchen Gegnermix man antritt, sofern es denn wenigstens ausreichend viele verschiedene sind.

By Peter Martan Date 2015-02-09 16:58 Edited 2015-02-09 17:07

Benno Hartwig schrieb:

Wenn die Transitivität entsprechend der ELO-Formel bestätigt ist, auch für Computer, dann erscheint mir die ELO-Angabe schon sehr sinnvoll.
Dann ist ja letztlich bestätigt, dass es egal ist, gegen welche Gegnerspielstärke, gegen welchen Gegnermix man antritt, sofern es denn wenigstens ausreichend viele verschiedene sind.

Eben genau nicht, Benno.
Die Transitivität ist eine dem jeweiligen Spiel, wenn es sich um ein solches handelt, immanente Größe, die du mit keinem Ratingsystem bestätigst oder widerlegst, du ignorierst sie einfach, wenn du ein Ranking erstellst, was auch keine Rolle spielt, so lange es sich um ein und dasselbe Spiel handelt, das scheint beim Menschen- und beim Maschinenschach eben immer weniger der Fall zu sein.

Nun könnte man sich ja auch einfach im Klaren darüber sein, dass die Elo, die man im Menschenschach bestimmt, immer weniger mit denen des Computerschachs zu tun haben, aber ist man sich das?

Worauf ich hinaus will, ist, dass du eine komplizierte Formel wie die von Arpad Elo fürs Computerschach nie gebraucht hättest, hättest du nicht Vergleiche zur Spielstärke von Menschen damit herstellen wollen, je mehr Partiemengen du sowieso brauchst, um die Unterschiede in den oberen Regionen noch statistisch erfassen zu können, umso weniger sinnvoll ist es, an der Formel festzuhalten, womit natürlich auch nicht gesagt ist, dass sie schlechter als eine andere wäre, sie ist nur unnötig kompliziert und suggeriert immer fälschlicher, dass es sich um etwas der menschlichen Spielstärke Vergleichbares handelte, was gemessen wird.

Und egal, gegen welche Gegnerspielstärke selbst ausschließlich innerhalb der engines du vergleichst, ist es auch umso weniger, je weiter oben du das Ranking wie genau erstellen willst.
Dass du zwischen Zappa und Stockfish große und daher leichter reproduzierbare Unterschiede hast als zwischen Stockfish und Komodo ist das eine, was deine Elosion von den fixen Abständen zerstört, und dass du Zappa und noch viele andere Underdogs (ich rede nur von den Ranglistenunterschieden genannt Elo) mitspielen lassen musst, um ganz oben überhaupt noch was in vernünftigen Partiemengen unterscheiden zu können, ist das andere.

Das wirkliche Dilemma ist dabei das: je mehr die engines werden und je mehr sie einander ähneln, je mehr "verschiedene" es im Spitzenbereich werden, die in Wirklichkeit immer weniger verschieden sind, umso mehr Oldies und Newbies musst du zusätzlich als Gegengewicht mitspielen lassen, die nicht mehr oder noch nicht so recht mithalten können (wieder nur mit den Ranglistenplätzen und den Celo wie gesagt, das sagt eben auch immer weniger über "echte" immer weniger leicht messbare Spielstärke aus, je mehr sich der Ranglistensport innerhalb des Computerschachs innerhalb des Schachs verselbständigt und vom Rest abhebt).

Der Irrtum, dass die Celo übertragbar wären, könnte durchaus innerhalb deines geschlossenen Systemes als völlig irrelevant betrachtet werden und fiele so lange absolut nicht auf, so lange dein System ein wirklich geschlossenes wäre, ist es das aber?

Dass systemimmanente Fehler nicht zum Tragen kommen, so lange du mit deinen Beobachtungen systemimmanent bleibst, das ist ein sogenanntes NoNa. Es handelt sich um das typische Beispiel einer self fulfilling prophecy.

By Benno Hartwig Date 2015-02-09 18:05

Ich denke, du irrst (sofern ich dich richtig verstand).
Mein Beispiel "Zwei mal eine 70%-Überlegenheit resultiert in einer 85%-Überlegenheit" ist eine Erkenntnis, die unabhängig von der ELO-Berechnung durch die Erfahrung im menschlichen Schach bestätigt wird. Und die ELO-Formel wurde dann wohl entsprechend gestrickt. Zumindest gibt sie dies ja u.a. genau wieder.

Vermutlich könnten wir auch Spiele mit Spielregeln erfinden, wo die Transition anders aussieht, wo hier z.B. nur eine 70% oder auch eine 90%-Wahrscheinlichkeit herauskäme. (Mal drüber nachdenken)
Hier wäre die ELO-Formal dann sehr unzweckmäßig, müsste modifiziert werden.

Im Übrigen finde ich es sehr schön und im Ergebnis auch sehr passend, dass man versucht, die mittleren Spielstärkedifferenzen in einem Enginefeld durch Zahlenwerte (CELO-Werte) auszudrücken, die man den Engines zuordnet. Und mir hat nun doch noch niemand eine bessere Methode geboten (wobei: BayesELO sollte ich mir mal genauer ansehen)
Es ist eine Simplifizierung, klar, insofern wird nicht jeder Fassette gerecht, und Effekte wie "Angstgegner" oder "Lieblingsgegner" und wie oft gegen diese gespielt wurde, blieben vernachlässigt.

Aber wenn man dieses Ziel hat, dann hat man mit der ELO-Berechnung schon eine sehr angemessene Lösung.
Hättest du ein anderes Ziel? Die Überlegenheit jeder einzelnen Paarung anzugeben wäre schon sehr "unübersichtlich".

BTW:
Wenn Engine A gegen Engine B 100 ELO mehr hat, und einige Menschen X gegen A ausgeglichen spielen, andere Y gegen B, haben dann die X-Menschen im Mittel auch 100 ELO mehr als die Y-Menschen? Weiß nicht.

Benno
(Heute mit ELO eigentlich glücklicher als vor einiger Zeit noch, als ich von der Gültigkeit der durch ELO postulierten Art der Transition nicht recht überzeugt war.)

By Benno Hartwig Date 2015-02-09 18:18

PS:

> (Mal drüber nachdenken)

Oh, das ist ggf. gar nicht so einfach, wenn man nicht auf unangenehm zickige Lösungen ausweichen will.
Noch mal länger drüber nachdenken...

Benno

By Peter Martan Date 2015-02-09 18:44

Benno Hartwig schrieb:

Ich denke, du irrst (sofern ich dich richtig verstand).

Ich denke, ich irre mich nicht, und du verstehst mich nicht richtig.

Benno Hartwig schrieb:

Vermutlich könnten wir auch Spiele mit Spielregeln erfinden, wo die Transition anders aussieht,

Und ich vermute einfach, dass wir mit Computerschachranglistensport ein solches Spiel erfunden haben, Benno, es hat, was die Transition und was die Spielregeln angeht, immer weniger mit Computerschach an sich (z.B. mit Fernschach oder einer anderen Anwendung, bei der der Mensch mitspielt) und noch weniger mit Schach an sich gemein.

By Clemens Keck Date 2015-02-08 14:11

HAllo Benno

Komodo 1365 wurde extra erstellt für das Team "german Tigers" welches beim Infinity Chess Team Cup 2015 mit dieser engine teilnimmt.
Es gibt sehr wohl ein paar neu features und Parameter. Ich habe allerdings stillschweigen gelobt. Würde auch sagen das kt-1365 nicht "deutlich" anders ist als Komodo 8.
Stärker spielt sie schon allerdings.
Naja.... wenn ich das so lese was ich gerade geschrieben habe..... nix gwies weis mer net.....

Gruß, Clemens

PS. DAs HS Buch hatte sicherlich auch einen Anteil an der TAbelle. Auffällig viele ECO- E Partien. Die sind sonst eher selten.

Code:

ECO A =      2 Games ( 1.8 %)
ECO B =     26 Games (23.9 %)
ECO C =     18 Games (16.5 %)
ECO D =     30 Games (27.5 %)
ECO E =     33 Games (30.3 %)