Dauerthema: ChessTiger 2007 ALT gegen NEU

By Frank Quisinsky Date 2011-09-08 07:43 Edited 2011-09-08 07:52

Hallo,

viele fragen sich ob sich Ratings, erzeugt durch eine komplett andere neue Gegnerschaft, sich wirklich verändern.

Vor kurzer Zeit hatte ich den CEGT zu SWCR gepostet.
Zu dem speziellen Vergleich von ChessTiger 2007 hatte niemand etwas hinzugefügt.
Schauen wir uns den Vergleich nochmals an!

http://www.amateurschach.de/swcr/swcr-to-cegt-30082011.htm

Und gezielt auf die Nummer 158 der SWCR, ChessTiger 2007.

In der CEGT spielte ChessTiger 2007 über 3.400 Partien gegen Gegnerschaft die vor einigen Jahren aktuell war. In der SWCR wurden die über 3.000 Partien gegen aktuelle Engines erspielt. Fabien schrieb mir vor ein paar Monaten mal, dass es ja ungerecht wäre, ChessTiger 2007 heute bei meinen Turnieren, Spießroutenläufen mitlaufen zu lassen, die Engine wäre zu weit hinten. Tja, genau das war der Grund warum ich das gemacht habe. ChessTiger 2007 hatte im Unterschied, wie seinerzeit zur CEGT, also mit deutlich stärkeren Programmen zu kämpfen.

Schauen wir uns den Vergleich an, stellen wir fest, ein ganz sicher messbares Ergebnis nach je über 3.000 Partien aufgrund 20 Punkte Differenz. ChessTiger 2007 spielt gegen stärkere Gegnerschaft 20 ELO besser. Grundsätzlich ist es durchschnittlich so, dass die Schwächeren den klar Stärkeren durchschnittlich 3 ELO rauben. Zumindest ist es bei den aktuellen Engines in der SWCR der Fall. Verbleiben aber noch 17 ELO.

Wie sind die 17 ELO zu erklären?
Wahrscheinlich durch die ...

A)
komplett anderen Gegner, immerhin hat ChessTiger bei mir 3.040 Partien : 40 Partien Matches = 76 verschiedene Engine Versionen gehabt bzw. 40 verschiedene Gegner. Weitere Partien kommen durch das SWCR Oldie Mix Turnier sehr bald hinzu.

B)
ChessTiger 2007 hat besondere Stärken im Mittelspiel. Das fällt auch heute auf, denn die Ergebnisse gegen deutlich schwächere sind besser als bei anderen aktuellen Engines dieser Spielstärke. ChessTiger 2007 erreicht mehr Remispartien gegen deutlich schwächere. Aufgrund meiner Statistiken kommt dieses mehr an Remispartien in der Partiephase 45 - 65 Züge zu Stande. Geht ChessTiger 2007 mit leichten Nachteilen oder ausgeglichen in ein Endspiel gegen aktuelle TOPs, ist die Engine wie auch die anderen Engines dieser Spielstärke chancenlos (kein statistischer Unterschied zu sehen).

Insofern kann die Frage dennoch nicht so ganz beantwortet werden.

Sind es die besonderen Stärken, die ChessTiger auch seinerzeit zu einer TOP-Engine machten (die Sourcen sind ja bekanntlich nicht frei) und mit ca. 15-20 Vorsprung seinerzeit zu Engines mit freien Sourcen zu betrachten wären oder ist es die komplett andere Gegnerschaft an sich. Ich kann das nicht beurteilen, müsste von allen Engines SWCR Engines ca. 3.000 Partien haben um versuchen zu differenzieren welcher der beiden Punkten mehr ausschlaggebend ist.

Fest steht, vermutlich einer dieser beiden Punkte sorgt für 20 ELO.

Sind es die völlig anderen Gegner, so liegt die Vermutung Nahe, dass die Inzucht durch Eng-Eng Matches Engines um ca. 15 ELO nach vorne getrieben hat (Verwendung gleicher Ideen, durch bekannte Sourcen). Um das natürlich zu bestätigen müsste ein vergleichbarer Test mit weiteren anderen Engines wiederholt werden -> die brennend heiße Frage an sich !

Kein Problem:
Sehr bald läuft das Oldie-Mix Turnier. Anschließend sind diesbezügliche Statistiken problemlos möglich.
Kleiner Vorgeschmack auf das was im Oktober bei der SWCR laufen wird.

Viele Grüße
Frank

Die Beschäftigung mit etwas tieferen Themen als blanke Zahlen ist einer der Reize an einer organisierten Ratingliste. Die Daten, sprich Partien, lassen jede erdenkliche Statistik zu ... der Fantasie ist hier keine Grenze gesetzt. Ob die gemutmaßten Rückschlüsse dann immer richtig sind ist eine andere Frage. Aber zumindest mal welche versuchen zu entwickeln ist interessanter als die blanken Zahlen verpuffen zu lassen.

By Frank Quisinsky Date 2011-09-08 07:57

B)
ChessTiger 2007 hat besondere Stärken im Mittelspiel. Das fällt auch heute auf, denn die Ergebnisse gegen deutlich schwächere sind besser als bei anderen aktuellen Engines dieser Spielstärke. ChessTiger 2007 erreicht mehr Remispartien gegen deutlich schwächere.

Umgekehrt!

B)
ChessTiger 2007 hat besondere Stärken im Mittelspiel. Das fällt auch heute auf, denn die Ergebnisse gegen deutlich stärkere sind besser als bei anderen aktuellen Engines dieser Spielstärke. ChessTiger 2007 erreicht mehr Remispartien gegen deutlich stärkere Gegnerschaft.

So ist es richtig!

By Frank Quisinsky Date 2011-09-08 08:07 Edited 2011-09-08 08:12

Hi,

gibt auch noch Punkt C:
Die ELO Berechnung wird immer ungenauer (bekanntest ELO Problem).
GMs spielen ungerne gegen stark schwächere Gegner.
Statistisch gesehen zu Recht, Gefahr ist groß das durch Remispartien die eigene ELO fällt.
So schaufeln sich die Super GMs in Ihren Turnieren immer höher, spielen bevorzugt gegeneinander.
- ELO-INFLATION -

Liegt das daran, dass Spieler heute mehr Wissen zu Spielern vor ca. 20 Jahren haben?
Auch das kann ich nicht erkennen, denn nach meinen Infos ist dem Schachsport kein hoher Zuwachs an TOP Spielern wieder fahren. Dagegen spricht, dass es deutlich mehr jüngere Schachspieler mit höheren Leistungen als früher gibt.

Ich glaube weltweit gesehen, gibt es weniger die organisiert Schach spielen als noch vor 20 Jahren.

Vermutung liegt Nahe? Eher nicht?
So viele Spieler über 2.700 gab es vor 20 Jahren nicht.

Nicht direkt vergleichbar mit Computerschach, hinzu kommt ja die Tatsache ... Eine Engine spielt immer gleich, egal wie alt!

Gruß
Frank

Glaube Punkt C kann vernachlässigt werden, daher hatte ich das im Vorposting nicht aufgeführt. Punkt D wären die Beeinflussungsfaktoren der beiden Listen. z. B. Ponder = On in der SWCR und = OFF in der CEGT. Aber bei je über 3.000 Partien ... glaube nicht das ChessTiger deutlicher vom Pondern profitiert oder von der Zeiteinteilung bei Ponder = on.

By Werner Schüle Date 2011-09-08 11:41

Hallo Frank,
es gab bei uns mal die Aussage, es gäbe Engines, die gegen schwächere Gegner profitieren und welche, die gegen stärkere Gegner profitieren. Aber statistisch nachweisen konnten wir das mit unserer Datenbank nicht. Wahrscheinlich sind andere Einflüsse größer (z.B. die ausgewählten Startpositionen).
Gruß
Werner

By Frank Quisinsky Date 2011-09-08 18:05

Hi Werner,

ja, diese Eindrücke habe ich auch, wobei die Liste derer die gegen schwächere eher Punkte verlieren ist meines Erachtens größer. Hatte mich damit mal beschäftigt und grob errechnet das das obere Drittel durchschnittlich 3 ELO verliert und das untere Drittel durchschnittlich 3 ELO hinzugewinnt. Nun gut diese Statistik kann mit mehr Engines die hinzukommen werden dann auch wieder anders ausschauen.

Zusammengefasst kann aber gesagt werden, dass es keine wirklichen Auswirkungen auf eine Liste hat. Als wir in Winboard Zeiten die ersten Ratinglisten erstellen, waren wir der Meinung, dass die Nummer 1 einer Liste vom letzten Platz nicht mehr als 300 ELO entfernt liegen sollte. Heute kann ich das nicht mehr bestätigen. Ist einfach wichtig, dass wirklich viele Gegner vorhanden sind, nach meinen Auswertungen wirklich genau so wichtig wie die Anzahl der Partien. Irgendwann macht die Anzahl der Partien keinen Sinn mehr, genau wie die Anzahl der Gegner. Bei 1.000 Partien sind es zwischen 24-26 Gegner (Mittelwert) die dann meinen Anspruch von einem sehr genauen Rating abdecken. Danach orientiere ich mich dann auch bei der SWCR. Ob ich das aber mit meiner Datenbank-Simulation richtig berechnet habe ist aber so eine Sache.

Datenbank-Simulation:
Vorhandene Partien einfach erneut rein kopieren, Engines anderen Namen geben und erneut rein kopieren. Experimentiere mit Datenbanken die größer als 1 Million Partien sind.

Viele Grüße
Frank

By Kurt Utzinger Date 2011-09-08 08:12

Lieber Frank
Netter Beitrag, den man sorgfältig studieren sollte.
Gruss
Kurt

By Stefan Pohl Date 2011-09-08 11:30

[quote="Frank Quisinsky"]
liegt die Vermutung Nahe, dass die Inzucht durch Eng-Eng Matches Engines um ca. 15 ELO nach vorne getrieben hat (Verwendung gleicher Ideen, durch bekannte Sourcen).
[/quote]

Hi Frank,

das ist eben die Frage. Ich bin da nicht so sicher. Wie schon in meinem letzten Test-Posting ausgeführt, hat z.B. Fire 2.2 sich im Spiel- und auch im Suchverhalten sehr weit von Ursprung (Robbolito/Ippolit) entfernt. Für Houdini gilt m.E. selbiges. Und falls der Ippolit-Code auf einer Rybka 4 Beta basiert (bisher kein Beweis, aber es spricht doch einiges dafür) ist auch Rybka 4.1 davon schon wieder etwas entfernt und der Fruit-Code, der wahrscheinlich direkt oder indirekt (über Rybka->Ippolit->Ivanhoe->Fire->Houdini) praktisch allen neueren Engines irgendwie zugrunde liegt, ist dafür auch kein Argument, weil sich die einzelnen Engines doch sehr weit davon wegentwickelt haben und der Fruit-Code eigentlich wenig bis keine brillanten Neuerungen enthält, aber sehr sauber und effizient programmiert wurde - weswegen er ja auch die ideale Ausgangsbasis für alle Engineprogrammierer war, die (verständlicherweise) nicht bei Null anfangen wollten.
Ob bei so weitläufigen Verwandschaftsverhältnissen bzw. einem so langen Stammbaum noch ein Inzucht-Elo-Effekt auftritt ist m.E. fraglich. Bei echten Lebenwesen würde man jedenfalls gar nicht mehr von Inzucht sprechen können.

Gruß - Stefan

P.S: Daß Du Rybka und Houdini nicht mehr testen willst halte ich aus den oben gennanten Gründen ebenfalls für falsch und eine Rangliste ohne Houdini 2 (der ja auch ein wichtiger Gegner für andere Engines ist, es interessiert ja nicht nur die eigene Elozahl!) ist für mich nur noch sehr begrenzt interessant. Gleiches gilt für ein irgendwann kommendes Rybka 5.

By Frank Quisinsky Date 2011-09-08 17:57

Hallo Stefan,

stimme Dir zu das die Engines der IPP Serie hinsichtlich Spielverhalten nicht gleich sind. Es entstehen andere Spielstile aber fest steht auch, dass alle diese Engines ein besonders guten Übergang zum Endspiel haben. Das ist bei allen TOP-7 SWCR Engines der Fall. Und gerade hier werden die Punkte im Vergleich zu früher erzielt. Das sich diese Engines auch gegenseitig nach oben schaufeln durch besonders viele Remispartien gegeneinander könnte in der Tat sein und könnte in der Tat auch um die Runde 20 ELO ausmachen. Wie dem auch ist, so genau festzustellen ist das nicht aber fest steht ...

So groß kann eine "Inzucht" nicht sein wenn wir ChessTiger wie beschrieben vergleichen.

Und zu Houdini 2.0 und Rybka 5.
Ich mag diese Engines aus diversen Gründen einfach nicht. Warum sollte ich die dann kaufen nur um diese in die Ratingliste einzuflegen. Kostet alles schon genug. Habe hierzu auch eine ausführliche News geschrieben.

Viele Grüße
Frank

PS: Würde ich jetzt z. B. nicht die Daten offiziell zur Verfügung stellen, würde ich von den 42 getesteten SWCR Engines, 14 sicher herausnehmen, weitere 18 weil mir die Spieleigenschaften nicht so gut gefallen bzw. ich die Stärken und Schwächen auch bei anderen finde. Verbleiben 10, mit diesen würde ich mich dann intensiver beschäftigen, meist schaue ich mir auch nur Partien dieser 10 an.

By Stefan Pohl Date 2011-09-09 09:47

[quote="Frank Quisinsky"]

Und zu Houdini 2.0 und Rybka 5.
Ich mag diese Engines aus diversen Gründen einfach nicht. Warum sollte ich die dann kaufen nur um diese in die Ratingliste einzuflegen. Kostet alles schon genug. Habe hierzu auch eine ausführliche News geschrieben.

[/quote]

Hi Frank,

Sicher kostet das alles genug, und ist alles ein Riesen-Aufwand. Genau deshalb habe ich auch nur mal recht kurzfristig eine eigene Rangliste betrieben und bald wieder aufgehört. Aber wenn man eine Rangliste betreibt, gehört es nun mal dazu alle Top-Engines zu testen, auch die, die man nicht mag. Und eben gerade auch die kommerziellen, denn potentielle Käufer wollen ja auch von Ranglisten wissen, wie gut eine Engine ist. Sonst hat man eben keine Rangliste mehr, sondern nur einen wahnsinnig großen Lust- und Laune-Test, so wie ich sie (im viel kleineren Maßstab) immer durchführe...Auch das kann erhellende Einsichten nach sich ziehen, aber eine echte Rangliste ist es dann eben nicht mehr. Bedenke: Eine Rangliste ohne den aktuellen Houdini und Rybka??? Das ist wie ein Formel1 Rennen ohne Red Bull und Ferrari, oder einGrand Slam Tennisturnier ohne Djokovic und Nadal oder die Fußball-Bundesliga ohne Bayern (die mag auch keiner) und Dortmund! Wer soll das ernst nehmen? Wen soll das interessieren? Das ist der falsche Weg.

Gruß - Stefan

By Frank Quisinsky Date 2011-09-09 08:29

Stefan,

vielleicht hast Du Lust Houdini 2.0 in die SWCR zu bringen. Die SWCR Konfigurationen findest Du im Download-Bereich. Auch das eingesetzte Buch. Konfiguriert sind alle Engines die ich verwende in kurzer Zeit. Glaube Du hast die gleiche Hardware, dass würde passen. Allerdings dauern auf einem Quad Core ca. 1.200 Partien (30 Gegner bei 40 Partien pro Match) runde 17 Tage und ich weiß auch nicht welche der kommerziellen Engines Du hast.

Das wäre auch eine Möglichkeit für Interessierte eine Engine in die SWCR zu integrieren.
Hätte selbst damit kein Problem, müssen nur die Rahmenbedingungen (Zeiteinteilung, Hash, Tablebases, etc.) stimmen.

Nur ein Vorschlag!

Viele Grüße
Frank

By Stefan Pohl Date 2011-09-09 09:37

[quote="Frank Quisinsky"]
Stefan,

vielleicht hast Du Lust Houdini 2.0 in die SWCR zu bringen. Die SWCR Konfigurationen findest Du im Download-Bereich. Auch das eingesetzte Buch. Konfiguriert sind alle Engines die ich verwende in kurzer Zeit. Glaube Du hast die gleiche Hardware, dass würde passen. Allerdings dauern auf einem Quad Core ca. 1.200 Partien (30 Gegner bei 40 Partien pro Match) runde 17 Tage und ich weiß auch nicht welche der kommerziellen Engines Du hast.

Das wäre auch eine Möglichkeit für Interessierte eine Engine in die SWCR zu integrieren.
Hätte selbst damit kein Problem, müssen nur die Rahmenbedingungen (Zeiteinteilung, Hash, Tablebases, etc.) stimmen.

Nur ein Vorschlag!

Viele Grüße
Frank
[/quote]

Hi Frank,

bedaure, dafür ist mir der Rechenzeitaufwand und die damit verbundenen Stromkosten doch zu hoch oder mein Enthusiasmus zu niedrig. Meine gelegentlichen Tests mit Engines/Konfigurationen, die mich interessieren reichen mir. Trotzdem danke für das Angebot.

Gruß - Stefan