Qualifizierungsturniere für Schachengines

By Joe Boden Date 2014-09-27 11:55

Bei einer neuer Engine entsteht sofort die Frage: wo steht diese Engine?

Das TCEC versucht eine Einordnung zu erreichen, indem Engines in Ausscheidungswettkämpfen unter Turnierbedingungen gegeneinander antreten. Das ergibt seriöse Anhaltspunkte für die Spielstärke, wenn auch die Anzahl der Partien immer ein Faktor ist, der eine Rolle spielt (Statistikrelevanz). Da man natürlich nicht alle Zeit der Welt zur Verfügung hat, muss ein Modus gefunden werden, der möglichst realitätsnah ist.

Deswegen stelle ich einmal folgendes Modell in den Raum:

Wir lassen eine Engine in einem breiten Feld von sagen wir 36 und mehr Engines ein 3+3 Rapid-Blitz spielen. Damit sehen wir, wie sich eine Engine unter diesen Bedinungen einsortiert. Schnelle Bedenkzeiten sind ja auch das, was meistens in der Alltagspraxis jenseits von Analysen Anwendung findet.
In einem zweiten Durchgang spielen dann sagen wir die besten 28 Engines ein 1+1 Bullett, was ja nochmals eine Verschärfung des Zeitfaktors darstellt. Die ersten 14 spielen dann 15Min Partien und die besten 10 dann eine Anzahl Turnierpartien. Dann hätte man einen guten Mix, wo man ein klareres Bild von der Leistungsfähigkeit einer Engine erhält.

Welche Ansätze verwendet ihr bis dato?

By Michael Scheidl Date 2014-09-27 14:43

Vor mehreren Jahren hatte ich genau dieselbe Idee, mit...

Zitat:

dem Blitz-Vorschau-Index, dem BLIVORIX. Der Grundgedanke: Ein schneller Testdurchlauf, der eine erste Vorschau auf die Blitz-Spielstärke einer Engine ergibt.

http://computerschach.twoday.net/stories/3276822/ Der Blivorix entsteht
http://computerschach.twoday.net/stories/3279924/ Sinnvolle Atomstromnutzung

Anwendung mit diversen Engines:

http://computerschach.twoday.net/stories/3287568/
http://computerschach.twoday.net/stories/3352108/
http://computerschach.twoday.net/stories/3359924/
http://computerschach.twoday.net/stories/3330427/
http://computerschach.twoday.net/stories/2104107/

Das Konzept beinhaltete zwei verschiedene Interfaces und zwei unterschiedliche Zeitkontrolltypen, sowie zwei konstante Gruppen von Enginegegnern mit bekannter Spielstärke. Es war somit sehr "zeitgebunden" und erwies sich deshalb als nicht langfristig tragfähig, weil diese Gegner bald zu schwach für viele Neuerscheinungen wurden.

Im Prinzip kann man sich auch weniger systematisch, mit einfachen Engineturnieren die man halt auf aktueller Basis zusammenstellt, einen guten ersten Eindruck von jeder Engine verschaffen. Natürlich mit einer viel geringeren statistischen Verläßlichkeit als die Ranglistentests, aber krasse Fehlschüsse um 200 Elo daneben oder so erwarte ich bei einer vernünftigen Konfiguration nicht. Unlängst konnte ich so Fruit reloaded 2.1 ziemlich gut prognostizieren, bei leichter Unterschätzung: 2640 aus 64 Partien, und bei CEGT 40/4 wurden es dann 2664 aus 1.300 Partien.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=85355

Das größte Problem ist die Gegnerauswahl, deren Stärken idealerweise "um den Testkandidaten herum" angesiedelt wären, dessen Spielstärke man aber noch nicht kennt.

Da hab ich schon manchmal daneben gegriffen, indem ich durchschnittlich viel zu starke oder zu schwache Gegner ausgewählt habe. Aber sonst kein Problem.

By Joe Boden Date 2014-09-27 16:15 Edited 2014-09-27 16:19

Wie gut, dass man das Rad nicht immer neu erfinden muss.

Und das bringt mich auf einen Nebengedanken: wenn alles, was der Mensch je ersonnen, erfunden und erschaffen hat, das Werk eines sich in Entwicklung befindlichen menschlichen Gehirns ist, verteilt in unterschiedliche Körper, dann stellt sich die Frage nach dem soggenannten geistigen Eigentum. Mir schien es immer wie ein absurder Anachronismus, dass Menschen für sich reklamieren, irgendetwas, was es auch sei, erfunden zu haben. Alles ist doch letztlich nur ein Entdecken dessen, was längst schon da war. Ob es nun dieser oder jener zuerst findet ist dabei völlig irrelevant.

Wir leben immer noch im Mittelalter, wenn nicht sogar im Altertum des Geistes. Geistiges Eigentum ist ein Begriff, der dem Geist völlig fremd ist. Der Wind weht wo er will...wer könnte das jemals ändern?

Es ist sogar eine absurde Pervertierung des Geistes, die kulturspezfisch ist, dass wir uns voneinander unterscheiden und abheben möchten, anstatt unsere Einheit zu betonen.

By Clemens Keck Date 2014-09-27 16:18

Joe Boden schrieb:

Mein Konzept :
I lasse mit 6cpu spielen. Die Parallelisierung ist ein wesentlicher Faktor bei Schachengines
Der pool der engines ist mit 15 ganz ok.
Die Zeitkontrolle mit 10 +10 ergibt ca. 45 min je Partie .
700 Spiele muss jede engine machen.
Gruß, C.K.