Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT-Zwischenstände
- - By Benno Hartwig Date 2015-05-01 20:41
Bei CEGT ist inzwischen auch einiges an interessanten K9-Ergebnissen zusammengekommen:
http://cegt.forumieren.com/t326-testing-komodo-9-0

Bei 40/4 auf 1 Kern steht es
Komodo 9.0 x64 1CPU         ELO 3199 out of 1500 games +56 to Komodo 8 / -4 to Stockfish 6.0
Komodo 8.0 x64 1CPU         ELO 3143 out of 3000 games

Knapp SF6-Spielstärke hätte K9 dann, bei immerhin 1500 Partien.

Interessant finde ich aber auch
K9 12CPU vs Stockfish 6 12CPU 48.67% after 150 games
und
It's very close but if the scores don't pick up a bit I think Komodo 9 12CPU will debut in 2nd place on the 40/4 list.
Ein Dämpfer für die Hoffnung, dass K9 ganz besondere Qualitäten bei vielen Kernen hätte.

Mal schauen, wie es weiter geht.
Benno
Parent - - By Frank Qy. Date 2015-05-01 21:46
Hallo Benno,

es schaut eher so aus als wenn Komodo mit mehr Zeit zumindest nicht an Spielstärke zulegt, wahrscheinlich eher minimal abnimmt. Mehr Cores ist ja nur ein Zeitfaktor wie auch Ponder.

Es ist und bleibt schwierig ...
Viele Gegner und unterschiedliche Zeitfaktoren beeinflussen.

Was mich nach wie vor nicht zufrieden stellt sind die Elo Berechnungen selbst.

Die Anzahl der Gegner wird nicht berücksichtigt und die Berechnungen bei sehr wenigen Partien stehen nicht in einem gesunden Verhältnis zu mehr werdenden Partien. Meine wenn z. B. 100 Partien vorliegen und es klar ist das z. B. fünf Punkte mehr oder weniger (die mitten im Rahmen liegen, meine z. B. 5 Punkte) dann direkt zu 40 Elo Unterschied führen, sollte die Berechnung das mit ein beziehen. Sprich, wenn z. B. 100 Partien vorliegen, sollten nicht die gleichen Formeln benutzt werden als wenn z. B. 1.000 Partien vorliegen.

Es geht auch ohne Elo ...
zum Beispiel anhand der Prozentzahl oder er erzielten Punkte.
Das wird ja sehr schön aus dem laufenden Vergleich bei mir deutlich.

Schaue da derzeit eigentlich nur auf die Punkte die die Gegner von Stockfish und Komodo erzielt haben und weiß wie eng die beiden auseinanderliegen. Die erzeugten Elo Zahlen sind einfach Murks. Komodo hatte nach 165 Partien 5 Punkte weniger und lag 36 Punkte hinter Stockfish. Hatte bei 330 Partien dann aufgeholt und nur noch 3 Punkte Rückstand und es waren dann 11 Punkte Differenz. Da stimmt einfach das Verhältnis nicht weil alles immer über einen einzigen Berechnungskamm geschoben wird. Wenn ich das mit einer Verhältnisberechnung kalkuliere in Anbetracht der durchschnittlichen Abweichungen bei 100 Partien waren es keine 36 Elo sondern 20 nach 165 Partien und 360 Partien sind es 8 Punkte Differenz.

Das ist so logisch ...
Wenn 5 Punkte Unterschied zu 36 Elo Differenz bei 165 Partien führen können 3 Punkte Unterschied nach 330 Partien nicht zu 11 Elo Differenz führen.
Da sträuben sich bei jedem Mathematik Lehrer die Nackenhaare. Die "Mehr-Partien" können niemals zu solchen Unterschieden führen.

Das ist genauso ein Schmarrn wie das die Anzahl der Gegner nicht die Berechnungen eingehen. Und genau das kann so schön hochgerechnet werden.

Mir gefällt das einfach nicht.
Und ich überlege ernsthaft Elo auszublenden weil einfach nicht gut genug bzw. werden meine Ansprüche damit nicht gerecht.

Gruß
Frank
Parent - - By Benno Hartwig Date 2015-05-01 22:21

> Mehr Cores ist ja nur ein Zeitfaktor wie auch Ponder.


Das sehe ich sehr anders.
- Zeitfaktor "schnelle CPU" wird von der Engine genutzt, ohne dass der Entwickler sich besonders anstrengen musste.
- Zeitfaktor "Ponder" wird ggf. meist genutzt, indem der 2. Zug der Hauptvariante vermutet wird.
   Oder gibt andere Realisierungen heute? Das wäre zumindest denkbar.
- Zeitfaktor "Mehr Cores" gestattet den Entwickler immer noch eine Spielwiese, auf der für viele Kerne deutlich bessere und
   schlechtere Realisierungen gelingen. Gerade Stockfish gab es doch vor Kurzem in dieser Hinsicht eine Heureka-Meldung.

Deine ELO-Beispiele wirken schon verwirrend.
Da muss ich och mal drüber nachdenken.

> Das ist genauso ein Schmarrn wie das die Anzahl der Gegner nicht die Berechnungen eingehen.


In welchem Sinne sollte sich denn der ELO-Wert unterscheiden, wenn gegen gleiche Gegnerschaft 60,0:40,0 und 600,0 zu 400,0 gewonnen wurde?
Ich möchte dann schon gleiche ELO-Werte erwarten. Einen Unterschied gibt es nur in der Verlässlichkeit, der Breite des Fehlerintervalls.
Oder meinst du was anderes?

Benno
Parent - - By Frank Qy. Date 2015-05-02 04:50
Hallo Benno,

Zeitfaktor:
Ob eine Engine mit mehr Cores (Beispiel 2 Cores) nun um Faktor 1.8 oder um 1.7 zulegt. Das kann doch leicht mit ein paar Stellungen herausgefunden werden. Dafür brauche ich doch keine x Tausend Partien spielen zu lassen. Natürlich ist das interessant aber doch nicht für die Messung der Grundspielstärke sondern max. als Ergänzung zur Grundspielstärke. Nachteilig bei vielen Cores ist, dass Züge nicht reproduzierbar sind. Insofern völlig ungeeignet für den Test der Grundspielstärke und nichts verloren in einer Ratingliste, sehr viel verloren beim Einsatz im Turnier!

Ponder:
Führt leider zu unterschiedlichem Ausspielverhalten da beeinträchtigend auf die gewählte Zeit. Sprich, bei Ponder = on ist bei einigen Engines zu beobachten, dass die Zeiteinteilung nicht korrekt ist. Die Implementierung ist nicht immer gleich gut und ich habe mich in den ganzen Jahren Computerschach so oft darüber geärgert und so viele Mails an Programmierer geschrieben das ich den Nerv verloren habe. Natürlich macht testen mit Ponder = on mehr Spaß weil es realistischer ist. Ich finde es besser wenn mit Ponder getestet wird und habe das auch bis zu der gerade laufenden Ratingliste auch immer gemacht. Die erste eigene Winboard Ratingliste war schon eine mit Ponder = On auf Dual Pentium III 733 MHz. Gerhard Sonnabend machte dann auch etwas kurze Zeit später auf Dual Pentium III 800 MHz. Der komplette Gandalf 4 Test lief auf Ponder = on.

Was Du beschriebst zum Zeitfaktor sind Vorteile die auf der Hand liegen aber nicht viel mit reiner Spielstärke einer Engine zu tun haben. Ich kann nur das messen was vergleichbar ist. Wird etwas nicht mehr vergleichbar ist es nicht messbar. Wenn "Gleiches" zu unterschiedlichen Faktoren führt mag das ja interessant sein aber der Einsatz von mehreren Cores verändert doch nicht das Schachprogramm selbst. Die Suche ist die gleiche bis auf den negativen Faktor das nicht reproduzierbar.

Anzahl der Gegner bei der Elo Berechnung ist logisch:
Beispiel:

Engine A spielt gegen Engine B und erreicht nach 5.000 Partien 3.000 Elo.
Glaubst Du nun das im Vergleich nach 5.000 Partien die erzielte Elo die Gleiche ist wenn Engine A nicht nur gegen Engine B gespielt hätte sondern gegen 50 andere Engines? Wenn Du das glaubst dann würden nach Deiner Denke alle Engines gleich spielen.

Kasparov und Karpov spielen 5.000 mal gegeneinader wäre das gleiche als wenn Kasparov gegen Anand 2.500x und gegen Ivantschuk 2.500x spielt. Das heißt das Ergebnis wäre gleich. Wie gut das wir ganz weit davon weg sind, sonst würden wir keine 1.000 verschiedene Engines brauchen, weil ja alle gleich sind.

Je mehr Gegner desto weniger Partien notwendig für die Berechnung eines Ratings (ein Rating nach 1.000 Partien gegen 10 Gegner ist genauer als ein Rating nach 1.000 bei nur einen Gegner).
Je höher der Zeitfaktor desto höher die Remisquote, desto weniger Partien notwendig für die Berechnung eines Ratings.

Das muss ein Berechnungsprogramm simulieren können.
Das können unsere Berechnungsprogramme aber nicht, die machen einfach keinen Unterschied daraus und deswegen sind die Ratings sehr ungenau.

Was die Berechnungsprogramme können ist festzustellen, dass bei mehr Partien die Ratings genauer werden aber ohne die Beeinflussungsfaktoren dabei zu bedenken bzw. zu berücksichtigen. Die Ausgaben sind ob nun bei einem Gegner oder bei mehreren Gegner ob nun bei 40 Züge in 1 Minute oder bei 40 Züge in 10 Minuten die Gleichen. Murks, Murks, Murks völliger Käse ...

Mit immer stärker werdender Hardware und Software meinen wir noch daneben sitzen zu müssen mit einem Feuerstein der Neandertaler anstatt endlich mal ein Feuerzeug einzusetzen. Das ist so lächerlich und das ist der Punkt warum Statistik mal endlich anders eingesetzt werden sollte, da wo es interessant ist. Das Problem ist nur das dies ein Thema ist wo sich niemand so wirklich ran traut weil das gerade bei unserem Hobby auch sehr schwierig ist darzustellen.

Die ganzen erarbeiteten Erfahrungswerte gehen bei der Elo-Berechnung einfach nicht in neues ein.
Wir entwickeln die Schachprogramme und bleiben stehen in der Bewertungsmethode.

Das heißt wir bewerten noch modernes mit veralteten Mitteln obwohl wir wissen das dies nicht korrekt ist. Weil es immer schon so war und eifern den Sprüchen unserer Großeltern hinterher ... aber Kind das war doch schon immer so ... wo keine Entwicklung da auch kein Fortschritt. Entwicklung im Bereich Statistik beim Schach gibt es nicht. Weil wir nicht wirklich gute Sachen haben womit wir etwas darstellen können. Hätten wir die würden hier in diesem Forum ganz andere Sachen abgehen und zur Diskussion stehen.

Also, lasse uns weiter rumlaufen mit einer Schildern und Rüstungen anstatt mit einer kugelsicheren Weste. Wir sind halt im Computerschach nicht intelligent genug und so wie es ausschaut dauert es auch noch ein paar Jahrzehnte bis wir intelligenter werden.

Gruß
Frank

Anhang:

- Grundspieltstärke 1 Core ...
+ Prozessoroptimierungen ... SSE42, AVX, BMI2 ... Zeitfaktor
+ Core Einsatz
+ Ponder ...

Auf der Jagd nach der Superlativen lassen wir nichts aus. Die maximale Leistung verleitet uns dazu Dinge zu vergleichen die nicht vergleichbar sind weil wir es gerne so hätten. Und warum hätten wir es gerne, weil wir doch besitzen ... warum besitzen wir ... weil doch verfügbar und wir es uns leisten können. Wenn wir uns schon ein System mit 16 Cores leisten dann wollen wir auch wissen wie die Spielstärken auf 16 Cores sind.

Denkfehler ...

Gegen:
Kam hier irgend jemand mal auf die Idee das zu beanspruchen in Zeiten von DOS?

Aber interessant ...
Heute kommt niemand auf die Idee mehr zu tun hinsichtlich genauerer Spielstärkeberechnung.
Hätten wir diese würden wir uns die Frage nicht stellen.

Folglich:
Wir sind und bleiben Menschen ... das ist das Hauptproblem ... ein Computer würde uns auslachen vor lauter Logik wenn wir morgens aus dem Haus gehen und Appetit auf eine Mohnschnitte haben. Das Computerschach in uns würde berechnen ... am besten wäre jetzt ein Birnenjoghurt nach Deinen derzeitigen körperlichen Werten ...

Im Computerschach produziert unser Gehirn mit vorliegender Hardware laufen Schokocroissant. Und da wir schon zu viele davon gegessen haben ...
Parent - - By Benno Hartwig Date 2015-05-02 19:02

> Ob eine Engine mit mehr Cores (Beispiel 2 Cores) nun um Faktor 1.8 oder um 1.7 zulegt. Das kann doch leicht mit ein paar Stellungen herausgefunden werden.


Das sehe ich anders. Uns allen ist bekannt, dass die Ergebnisse bei >1 thread nicht reproduzierbar sind, dass mithin also suboptimale Züge gefunden werden, dies allerdings sehr schnell. In welchem Maße dieses Suboptimale zuschlägt kann nicht mit der Stoppuhr gemessen werden, darfür braucht es reichlich Partieergebnisse.
Vermutlich ist es nicht schwer, mit vielen Kernen schnell auf Tiefe zu kommen, wenn man bei der Zugqualität nicht so ganz genau hinsieht.

> ...nicht nur gegen Engine B gespielt hätte sondern gegen 50 andere Engines?


Wenn Partien gegen verschiedene(!) Gegner gespielt werden, dann spielt deren Stärke natürlich eine Rolle und auch, wie groß der Anteil der Partien gegen die eine und die andere ist.
Wenn du das meinst, hast du natürlich recht.
Und wird das praktisch denn nicht anständig berücksichtigt??

Benno
Parent - - By GS Date 2015-05-03 15:26
Benno Hartwig schrieb:

Das sehe ich anders. Uns allen ist bekannt, dass die Ergebnisse bei >1 thread nicht reproduzierbar sind,
[...snip...]


Dies stimmt mit meinen Erfahrungen nicht überein !
Ich habe für meine frühere QBRL insgesamt 7 Matches
mit jeweils 100 Spielen (aus Versehen und/oder mit
Absicht) wiederholt. Die grösste Abweichung lag bei
1.5 Punkten. Ergebnisse aus SMP-Matches sind also
durchaus reproduzierbar und dies selbst bei recht
wenig Spielen (hier wie geschrieben gerade mal 100).
Bei einzelnen Stellungen jedoch kann dies selbstredend
anders aussehen, muss es jedoch nicht zwingend.
Parent - By Benno Hartwig Date 2015-05-03 16:20

> Ergebnisse aus SMP-Matches sind also durchaus reproduzierbar und dies selbst bei recht wenig Spielen


Das bezweifele ich sicher nicht.
Die einzelnen Züge sind aber weniger reproduzierbar.
Und ob nun bei diesen Zügen 'mit Zufälligkeitsmoment' nicht eine Schwächung eintritt, die die am Ende dann etwas weniger Spielstärke produziert, als es dem 'gemessenen' Faktor 1,7 entspricht, dass kann dann eben nur ein Turnier mit vielen Partien zeigen. Und dies für jede Engine in anderer Weise!
Darum mein Wunsch, es wirklich auch mit vielen Threads auszutesten.

Weil ich mir selbst unsicher war, ob ich hier auch zu 'ängstlich' bin, habe ich gestern abend ein Turnier "SF6-1Thread vs. SF6-2Threads vs. SF6-4Thread" gestartet, und es wird jeweils stets genau 15 Halbzüge tief gerechnet.
Wenn meine Befürchtung falsch ist, sollten die Engines in etwas gleich erfolgreich sein (die mit mehr Threads brauchen dafür eben weniger Zeit)
Ich schreibe hier das Ergebnis, wenn ein wenig mehr Partien zusammengekommen sind...

Benno
Parent - - By Frank Qy. Date 2015-05-04 10:22
Hi Benno,

mit vielen Kernen auf schnelle Tiefe kommen ...
Das kannst Du auch mit einem Kern
Bei vielen Kernen wird nur unnötig Prozessorleistung verschenkt, je mehr es werden desto mehr Rechnerleistung geht verloren.

Nein es wird gar nicht berücksichtig.
Das kannst Du ja leicht selbst sehen wenn alle Berechnungen gleich sind, ob nun bei einem Gegner mit 1.000 Partien oder bei 20 Gegner mit 1.000 Partien.

Genau das ist der Punkt.

Vermutlich, hatte ja damit sehr viel experimentiert ...
Noch nicht mal 2.000 Partien mit 10 Gegner können so genaue Ergebnisse produzieren wie 1.000 Partien mit 20 Gegner.
Bei der Simulation von Ergebnissen ... kann ja aus einer Datenbank heraus sehr leicht gemacht werden ... wird es sehr deutlich.

Gruß
Frank
Parent - - By Benno Hartwig Date 2015-05-04 10:47 Edited 2015-05-04 10:50

>Bei vielen Kernen wird nur unnötig Prozessorleistung verschenkt, je mehr es werden desto mehr Rechnerleistung geht verloren.


ja, trotzdem erhält bei vielen Kernen die einzelne Zugberechnung pro Zeiteinheit mehr Rechenleistung.
Und wie die Ratinglisten zeigen, wird diese auch zu einer signifikanten Spielstärkesteigerung genutzt. Es wird also zumindest zum Teil sehr sinnvoll verwendetet Mehr-Rechenleistung sein.

> Noch nicht mal 2.000 Partien mit 10 Gegner können so genaue Ergebnisse produzieren wie 1.000 Partien mit 20 Gegner.


Wie könnte man diese These begründen?
Und wie könnte man praktisch erkennen, dass solch ein 20-Gegner-Ergebnis 'genauer' in irgendeinem Sinne ist?

Benno
Parent - - By Mythbuster Date 2015-05-04 11:04
Benno Hartwig schrieb:

Wie könnte man diese These begründen?
Und wie könnte man praktisch erkennen, dass solch ein 20-Gegner-Ergebnis 'genauer' in irgendeinem Sinne ist?


Das gab es schon zu Zeiten der Brettcomputer. Es gibt immer Gegner, die einem Programm "besonders gut liegen". Da kommt es schnell zu einem extremen Ergebnis.

Beispiel: Du willst einen neuen Computer testen.

Gegner A (Elo 2000): 20 Partien, Ergebnis 19:1 für Gegner A!

Jetzt könnte man denken, die Kiste muss ja grottig spielen. Dann geht es weiter:

Gegner B (gleicher Autor wie A, Elo 2050): 20 Partien, Ergebnis 18:2 für Gegner B!

Man sollte jetzt davon ausgehen, der neue Computer ist hiermit schon gestorben, ein Reinfall. Würde man jetzt ein Fazit ziehen wollen, würde man der Kiste vielleicht 1.200 Elo zubilligen.

Aber der Test geht weiter:

Gegner C (anderer Autor, komplett anderer Stil, Elo 2.200): 20 Partien, Ergebnis 11:9 für den neuen Computer!

Nun wird es interessant ...

Und ja, solche Fälle gab es in der guten alten Zeit und die gibt es auch heute noch. Darum gilt grundsätzlich: Willst Du ein genaues Ergebnis, zählt nicht nur die absolute Zahl der gespielten Partien, sondern auch die Anzahl der Gegner.
Parent - - By Benno Hartwig Date 2015-05-04 12:48 Edited 2015-05-04 13:01

> Es gibt immer Gegner, die einem Programm "besonders gut liegen"


Und sind die Effekte wirklich so stark??
Bei 20 Partien spielt im Einzelfall der Zufall stark rein. Weit mehr, als dass ein Gegner einem  besonders gut oder schlecht liegt.
Aber wie stark ist erfahrungsgemäß dieses Gut-liegen? Bei ausreichend vielen Partien, versteht sich.

Zum Beispiel für Stockfish ganz praktisch:
Welche Gegner spielen (bei ausreichend großer Partienzahl) wirklich(!) deutlich besser als es ihrer gegen viele ermittelte ELO-Differenz entspricht?
Wie groß ist denn dieses "deutlich besser" tatsächlich?
Und welche Gegner spielen (bei ausreichend großer Partienzahl) wirklich deutlich schlechter als es ihrer ELO-Differenz entspricht?
Wie viel denn tatsächlich schlechter?
Ich denke die Abweichungen sind nicht sehr groß, ich halte die so entstehenden verzerrenden Auswirkungen daher für gering.

Im Prinzip mag hier eine Quelle für Verzerrungen liegen, OK, ich halte sie aber eher für klein.
Andererseits ist aber bei sehr vielen Gegnern zu bedenken, dass dann ggf. die deutliche Mehrheit der Gegner zu einer schwächeren Spielstärkeklasse gehört, die einen vielleicht eher weniger interessiert, oder die zumindest gegenüber den Stärkeren nicht auch noch ein deutliches anzahlmäßiges Übergewicht(!) haben sollte.
Auch hierher kommen sonst ggf. Verzerrungen, die man eigentlich nicht möchte.

Benno
Parent - - By Frank Brenner Date 2015-05-04 13:36

> Und sind die Effekte wirklich so stark??


Die Stärke der Effekte liegt einmal an den Engines und zum anderen an dem Spiel.

Es ist vermutlich möglich zu jedem beliebigen großen Wert M  ein Spiel  zu erfinden und 3 Engines zu programmieren die dieses M toppen:  Also Engine a < b < c  aber c ist im direkten Vergleich gegen a um M Elo stärker als a.

In der heutigen Zeit und beim Schach sind die Unterschiede aber bei weitem nicht mehr so groß wie von Myth aus der historischen Vergangenheit beschrieben
Parent - - By Frank Qy. Date 2015-05-04 13:52
Hallo Frank,

aber wie gut das es doch jeder täglich bei jedem Round Robin nachvollziehen kann, oder?
Müssen ja nur die Ergebnisse verglichen werden ...

Wenn der Stil bekannt ist, könnte ich durch die Auswahl der Gegner bei sage ich mal 20 Gegner ... jede Spielstärke einer beliebigen Engine um ca. durchschnittlich 30 Elo beeinflussen wenn ich wollte. Egal wie viele Partien dann vorliegen.

Nehme ich doch einfach mal Fire aus dem Komodo Round Robin und die Welt schaut für die Komodo 9 Fans doch schon viel besser aus.
etc. Könnte ja Houdini rein nehmen ... und die Welt schaut noch besser für die Komodo 9 Fans aus.

Hätte dann nur 2 von 32 Engines verändert mit ganz gewaltigen Auswirkungen.
Keine Sorge, mache ich nicht

Alles ist immer relativ.
Anzahl der Gegner und Stil der Gegner ... ist sehr wichtig.
Picke ich direkt 5 Derivative ein wenn die einer anderen liegen ... freut sich der Fan oder ... der Fan ärgert sich.

Im Grunde können wir wirklich mit Elo Veränderungen spielen, je nach Gegnerauswahl.
Natürlich auch nur in einem gewissen Grad.

Gruß
Frank
Parent - - By Benno Hartwig Date 2015-05-04 14:20 Edited 2015-05-04 15:15

> Nehme ich doch einfach mal Fire aus dem Komodo Round Robin und die Welt schaut für die Komodo 9 Fans doch schon viel besser aus.
> etc. Könnte ja Houdini rein nehmen ... und die Welt schaut noch besser für die Komodo 9 Fans aus.


Nachträglich bestimmte Ergebnisse (oder auch nur bestimmte Engines) rauszupicken, lässt natürlich beliebige Verzerrungen zu.
Wenn ich nur die Wochen nehme, in denen ich im Lotto gewann, werde ich auch sagen können, dass ich mit unglaublich hoher Quote im Lotto gewann.
Wenn ich besonders lange Menschen aus meiner Umfrage streiche, werde ich die Durchschnittskörpergröße nicht gut ermitteln können.
So geht es natürlich nicht.

Welche Engines spielen denn nach deiner Rechnung besonders gut oder besonders schlecht gegen Komodo?
Nimm das einfach als Kriterium nur für die Auswahl der Kandidaten.
Und dann lass uns aber bitte gucken, wie diese Engines im Durchschnitt der anderen(!) Listen gegen Komodo abschnitten.
Wenn sich da dieses "besonders gut" oder "besonders schlecht" bestätigt, hättest du recht.
Und was meinst du: wie deutlich (welche ELO-Differenz) könnte die Bestätigung dann tatsächlich ausfallen? Wirklich relevant?

Benno

PS:
Auch wenn eine Engine in deiner Liste z.B. gegen etliche Stockfishe stets besonders viel oder wenig Erfolg hatte, könnte das natürlich interessant sein und auf besondere gegen-Stockfish-Eigenschaften hindeuten. Gibt es sowas?
Parent - By Frank Qy. Date 2015-05-05 04:42
Hi Benno,

zu Deinen vielen Fragen ...
Ist auch nicht immer einfach die Fragen zu beantworten, stelle mir aber oft gleiche Fragen und beantworte mittels den Daten die vorliegen.
Die komplette Daten biete ich ja zum Download an, inklusive der kompletten Doku seit Partie 1 meiner Ratingliste.

Es ist einfach selbst zu experimentieren und z. B. Partien herausnehmen um zu sehen wie sich das auf das Gesamtergebnis auswirkt.
So ist es auch einfach Ergebnisse anderer zu erklären ... kann einfach mit einer Datenbank mit vielen Engines alles simulieren und mithin nach nachvollziehen warum anderer Tester hier und dort auch schon mal leicht unterschiedliche Ergebnisse haben. Das ist fast immer so (nachvollziehbar) ohne das ich jetzt sage ... liegt in der Fehlertoleranz weil genau die einfach bei so vielen Partien der unwichtigste Faktor ist. Abweichungen zwischen den Ergebnisse der Tester liegen meist immer am Teilnehmerfeld und nur in den wirklich seltenen Fällen kann das vielleicht mit "zu wenigen Partien" erklärt werden.

Bei Komodo ...
Die Frage ist für mich noch nicht zu beantworten weil ich mir noch nicht sicher bin ob der Spielstil durch die Veränderungen deutlich verändert wurde. Das geht bei mir noch hin und her ... warum ... in diesem Fall ... es liegen wirklich noch zu wenige Partien vor und ich habe in den letzten Tagen auch kaum analysiert ... bin zeitlich außer Gefecht gesetzt durch berufliche Arbeit. Bin froh wenn dieser Zweikampf um ist, weil die Updates auf den Seiten viel Arbeit machen (mit Buchoptimierungen, wenn zwei Engines gleichzeitig laufen).

Später ...

Gruß
Frank
Parent - By Frank Brenner Date 2015-05-04 14:30

> Wenn der Stil bekannt ist, könnte ich durch die Auswahl der Gegner bei sage ich mal 20 Gegner ... jede Spielstärke einer beliebigen Engine um ca. durchschnittlich 30 Elo beeinflussen wenn ich wollte. Egal wie viele Partien dann vorliegen.


Das glaub ich dir nicht.

zeig mir doch mal drei Top Engines a < b  < c  mit    a-30 > c

Cheating mit zu wenig Partien und zu wenig Startstellungen soll ja ausgeschlossen werden, d.h. die Intransivität muss auch bei sehr vielen Spielen je Begegnung (zb 10.000) und bei sehr vielen Startstellungen (mehr als 1000) vorliegen.
Parent - - By Benno Hartwig Date 2015-05-04 14:11 Edited 2015-05-04 14:49

>Es ist vermutlich möglich zu jedem beliebigen großen Wert M  ein Spiel  zu erfinden und 3 Engines zu programmieren die dieses M toppen:  Also Engine a < b < c  aber c ist im direkten Vergleich gegen a um M Elo stärker als a.


Ja, das erinnert an
http://de.wikipedia.org/wiki/Intransitive_W%C3%BCrfel
Und dann wäre eben wichtig, ob man als Spieler a viel gegen b oder viel gegen c zu spielen hätte. OK.

Mich interessierten aber die realen heutigen Verhältnisse im Computerschach.
Und du deutetest ja an, dass solche Effekte hier tatsächlich eher gering wären.

Benno
Parent - - By Frank Brenner Date 2015-05-04 14:21
Die Würfel wurden ja vor vielen Jahren einmal auch im CSS Magazin vorgestellt.

Bei den heutigen Schachengines ist der effekt - wie schon gesagt - nur sehr schwach. Ein Grund dafür ist die extrem starke Ähnlichkeit der Engines.
Parent - - By Benno Hartwig Date 2015-05-04 14:28

>Bei den heutigen Schachengines ist der effekt - wie schon gesagt - nur sehr schwach. Ein Grund dafür ist die extrem starke Ähnlichkeit der Engines.


Ist der Effekt bei den Menschen eigentlich größer?
Da hier auch psychologische Aspekte eine Rolle spielen "gegen den kann ich einfach nicht gewinnen!" könnte das sein.
Und Menschen mögen wirklich unterschiedlicher sein.
Ist das mal irgendwie mit einer Ergebnisauswertung belegt worden?

Benno
Parent - - By Frank Brenner Date 2015-05-04 14:36

> Ist das mal irgendwie mit einer Ergebnisauswertung belegt worden?


Versuch doch mal einen Menschen zu überreden 1000 Spiele gegen einen anderen Menschen zu spielen, oder meinetwegen auch nur 200 Spiele.

Bei Menschen - vor allem bei nicht profis -  ist die Varianz der Spielstärke viel größer als bei Engines. Du musst also sehr viele Spielen um genaue meßwerte zu erhalten  und dann verlieren die Menschen die Motivation und brechen das Experiment ab, bzw ich tippe mal du wirst  keinen Menschen finden der sich auf das Experiment einlässt.
Parent - By Onkel Otto Date 2015-05-06 09:21
Good Post
Parent - By Frank Qy. Date 2015-05-05 04:35
Hi Frank,

also ich denke eher, dass die Unterschiede zwischen den Engines eher groß sind ... meine hinsichtlich Spielstil. Es gibt nur wenige Spielstile die gleich sind (z. B. Naum / Rybka). Wenn gleich dann oftmals auch eher zufällig gleich ... muss ja nicht direkt eine derivative sein.

Genau das ist auch wichtig.
Recht gebe ich Dir, dass bei den Engines die ziemlich weit oben stehen die Unterschiede geringer sind aber das liegt auch daran das einige Engines auf gleiches aufbauen und zu der Gruppe der Derivativen oder gar Clones gehören.

Zum Beispiel Sting SF ... beruht auf ältere Stockfish Version aber hat wenig mit dem Stil von Stockfish alt oder Stockfish neu zu tun.
Equinox war sehr gleich zu frühen Versionen von IvanHoe aber mittlerweile geht es zu weit auseinander.

Critter und Houdini ...  gibt so viele die gleich sind.
Wenn ich Critter drin habe muss kein Houdini rein, habe ich Naum drin muss kein Rybka rein.
Auch wenn Critter im taktischen Bereich Houdini klar unterlegen ist, so ist Houdini aber im späteren Mittelspiel Critter nicht mehr stark überlegen. Dennoch ist der Stil sehr gleich.

Und schaue ich auf die Auswahl der Engines in meiner Liste bin ich sehr zufrieden mit den vielen unterschiedlichen Spielstilen. Auch wenn es natürlich viele Engines gibt die in den jeweiligen Partienphasen gleiche Stärken haben aber es gibt da keine Engines die überall gleiche Stärken und Schwächen haben.

Und genau aus diesem Grund ist die Verteilung auch eine bessere. Je mehr unterschiedliche Spielstile desto besser wird die Liste.
Die Anzahl der Partien ... klar auch wichtig ... aber die Anzahl von Partien wird weniger wenn mehr verschiedene Engines eingepickt werden um ein gutes Ergebnis zu erzielen. Das allein wird ja schon aus meine 100er Auswertungen oder 160 Partiestatistiken während der Round Robins klar. Je mehr Engines desto sicherer das Resultat mit weniger Partien ... das kann sehr schön statistisch nachvollzogen werden.

Gruß
Frank
Parent - - By GS Date 2015-05-02 09:01
Bleibt festzuhalten, dass alle wichtigen Ranglisten (IPON, CEGT) Komodo 9.0 dicht
bei Stockfish 6.0 sehen, und zwar in einem Bereich von -5 bis +15 Punkten, je nach
Bedingungen und Anzahl der bisherigen Spiele. Und ja, es gibt schon Stockfish Devs,
welche etwas stärker als die Version 6.0 sind. Dies allerdings gilt bereits auch
ebenso für Komodo.
Parent - By Benno Hartwig Date 2015-05-02 11:44

> Und ja, es gibt schon Stockfish Devs, welche etwas stärker als die Version 6.0 sind. Dies allerdings gilt bereits auch ebenso für Komodo.


Stimmt, aber:
Und ja, es sind schon Stockfish Devs für den Normalanwender verfügbar, welche etwas stärker als die Version 6.0 sind. Dies allerdings gilt nicht für Komodo.

Vielleicht bietet das Subscriptionspaket von Komodo eine Milderung dieses Umstands, wenn denn tatsächlich hier immerhin ca. vierteljährlich die neuesten Verbesserungen gezeigt werden.

Die superdupergute Engine, die allein (und auch nur vielleicht) in den Labors der Entwickler werkelt, kann nicht wirklich faszinieren, oder?
Benno
Parent - By Krug Peter Date 2015-05-03 01:13
Letzter Zeit habe ich mich doch entschlossen, Stockfish 6 und Komodo 6 herunterzuladen.
Und muss sagen, dass ich von Stockfish begeistert bin. Auch die Werte sind nun viel stimmiger.

Ich habe Komodo 6 gegen Hiarcs 12 spielen lassen und jedesmal beeindruckte mich Komodo, weil
er seine Figuren bilderbuchmäßig aufzustellen versteht und Hiarcs der allerdings auch nicht die Rechentiefe
erreicht, völlig  überspielte. 2x kam Komodo 6 in eine ungünstige Stellung und ich glaubte Komodo 6
verloren, aber Hiarcs konnte es einfach nicht zum vollen Punkt schaffen.

Komodo 6 scheint eine faszinierende Engines zu sein, die das Stellungspiel liebt.

  Komodo 9 macht mich neugierig.
Was sind eure Erfahrung bezüg. Spielstil?


Peter
- By Benno Hartwig Date 2015-05-05 14:26
Bislang hat K9 auf CEGT 40/4 gar nicht so schlecht abgeschnitten:
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html

Pl Engine                     ELO    +  - Games  Score Av.Op1 Draws
--------------------------------------------------------------------
1  Komodo 9.0 x64 12CPU       3359  28 28   400  60.9%  3277  57.3%
2  Stockfish 6.0 x64 12CPU    3356  18 18  1300  64.0%  3250  57.5%

6  Komodo 9.0 x64 4CPU        3302  24 24   600  65.7%  3172  49.3%
8  Stockfish 6.0 x64 4CPU     3293  15 15  2150  72.0%  3095  43.7%

25 Stockfish 6.0 x64 1CPU     3204  13 13  2200  63.0%  3102  48.0%
26 Komodo 9.0 x64 1CPU        3202  17 17  1500  77.4%  2970  34.6%


K9 und SF6 sind auch bei recht kurzen Zeiten auf Augenhöhe.
Mal gucken, wie es sich dann bei mehr Partien entwickelt.

Benno
- By Benno Hartwig Date 2015-05-05 14:33
Und auch bei den etwas längeren 40/20 ist Komodo 9 bei CEGT recht gut gestartet:

Pl Engine                     ELO    +  - Games  Score Av.Op1 Draws
--------------------------------------------------------------------
1  Komodo 9.0 x64 4CPU        3309  31 31   300  60.3%  3234  57.3%
2  Stockfish 6.0 x64 4CPU     3297  13 13  2687  72.4%  3102  46.0%

8  Komodo 9.0 x64 1CPU        3199  33 33   300  67.8%  3063  45.0%
11 Stockfish 6.0 x64 1CPU     3185  16 16  1539  69.4%  3029  49.6%


Aber das soll sich bei mehr Partien auch erst mal so bestätigen.

Benno
- - By Benno Hartwig Date 2015-05-05 14:47 Edited 2015-05-05 14:50
Und bei CCRL haben wir bislang
bei 40/4
http://www.computerchess.org.uk/ccrl/404/rating_list_all.html
Pl Engine                      ELO   +   -   Score  Av.Op.  Draws Games
-------------------------------------------------------------------------
1  Stockfish 6 64-bit 4CPU    3386  +17 −17  72.8%  −151.7  44.0%  1167  
2  Komodo 9 64-bit 4CPU       3377  +18 −18  73.0%  −152.5  43.8%  1100

3  Stockfish 6 64-bit         3313  +14 −14  76.8%  −190.8  36.4%  1968
6  Komodo 9 64-bit            3237  +29 −29  57.3%   −46.7  48.7%   349


und bei 40/40
http://www.computerchess.org.uk/ccrl/4040/rating_list_all.html
Pl Engine                      ELO   +   -   Score  Av.Op.  Draws Games
-------------------------------------------------------------------------
   Komodo 9 64-bit 4CPU       3328  +38 −38  64.4%   −84.0  60.8%   194  
1  Stockfish 6 64-bit 4CPU    3309  +17 −17  68.8%  −116.4  53.9%  1039

3  Stockfish 6 64-bit         3239  +22 −22  73.4%  −148.9  46.8%   686
   Komodo 9 64-bit            3227  +79 −75  67.9%  −111.9  41.5%    53


Hier sind die meisten K9-Wertungen aber noch kaum mehr als als die Prognose am Wahlabend.
Mal sehen...

In der 40/4-FRC-Liste erscheint K9 noch nicht.

Benno
Parent - - By GS Date 2015-05-05 16:17
Parent - - By Benno Hartwig Date 2015-05-05 16:49
Ja, klar, insbesondere weil K9 hier bereits seine 1400 Partien absolviert hat!
1  Komodo 9.0 x64       3215   19 19    1400   84.3%    2890    26.8%
2  Stockfish 6.0 x64    3198   17 17    1400   83.0%    2890    29.6%


Benno
Parent - - By GS Date 2015-05-05 17:35
Und der Webmaster hat es auch schon gesehen:
http://www.komodochess.com
!
Parent - By Benno Hartwig Date 2015-05-06 09:29
und er hätte auch gern noch lauter trommeln können,
denn K9 ist tatsählich in allen drei CEGT-Listen, die K9 führen, an der Tabellenspitze!  
Benno
Parent - - By Frank Brenner Date 2015-05-06 14:10
Ihr macht bei der CEGT sehr gute Arbeit.

Zwei Verbesserungen fallen mir noch ein:

Für jede Engine sollte das Eintrittsdatum, also das Datum wo die Engine releast wurde bzw wo ihr angefangen habt zu testen mitgeführt werden und zwar am besten in jeder Liste als eigenständige Spalte.

Besonders bei historischen Engines ist dieses Datum interessant.

Eine zweite Verbesserung die mir einfällt:  Ihr schreibt immer die Bedenkzeitregelung an jede Liste zb 5' + 3''

Hier sollte noch dazukommen auf welche Hardware sich diese Bedenkzeit bezieht und ob bei tests auf verschiedener hardware diese Zeiten jeweils justiert werden oder ob stets immer die gleiche genommen wird.
Parent - By GS Date 2015-05-06 14:53
Der zweite Vorschlag ist bereits realisiert für die
CEGT 5'+3" pb=on Liste ---> http://www.husvankempen.de/nunn/rating5plus3pbon.htm
und für die
CEGT 40/120 Liste ---> http://www.husvankempen.de/nunn/rating120.htm

Für den ersten Vorschlag sehe ich schwarz ...
Up Topic Hauptforen / CSS-Forum / CEGT-Zwischenstände

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill