[quote="Michael Scheidl"]
Eine mir nicht einleuchtende Überlegung, denn es ist nach derzeitigen Verhältnissen doch normal, daß Houdini gegen irgendwen besser als Rybka scort... Aber warum einfach, wenn es auch kompliziert geht?
[/quote]
Es ist gar nicht kompliziert. Also hier nun noch ein allerletztes Mal ein Selbst-Zitat zu diesem Thema - eigentlich sollte das mittlerweile bekannt sein, auch wenn die meisten Tester das Problem geflissentlich ignorieren:
(Zitatanfang)
"Die in der Sedat-Liste stärkeren Houdini-Settings basieren im Endeffekt alle auf der T3-Setting-Idee, nämlich mit höheren Pawnstormwerten eine höhere Aggressivität der Engine zu erreichen. Testet man nun so ein Setting gegen viele deutlich schwächere Engines, wird man leicht eine gewisse Elosteigerung feststellen (wie das ja in der Sedat-Rangliste auch der Fall ist). Das passiert, weil ein aggressiveres Setting die Verzerrung ein wenig minimiert, die üblicherweise auftritt, wenn man starke Engines gegen zu schwache Gegner testet. Das hatte ich hier schon mehrmach ausgeführt: Alle Engines sind Autisten und wissen nicht, wie gut bzw. schlecht ihr Gegner ist. Daher wird ein Houdini, wenn er leicht schlechter steht, gerne in ein mögliches Remis durch Dauerschach oder Zugwiederholung einschwenken, auch wenn der Gegner so viel schwächer ist, das er eigentlich die Partien dennoch gewinnen würde. Houdini weiß eben nicht, daß der Gegner so viel schlechter ist. Hat man nun ein aggressiveres Setting, erzeugt man mehr taktische Verwicklungen im Mittelspiel und die Chance erhöht sich, daß eine starke Engine dann früh einen taktischen Schlag gegen eine schwachen Gegner ausführen kann, bevor ein Remis durch Zugwiederholung o.ä. auftritt. Daher scheint ein aggressives Setting in einem solchen Test-Milieu plötzlich besser zu sein als die Default-Engine. Das ist aber eine Täuschung, die darauf basiert, das gegen zu viele zu schwache Gegner getestet wird (s.o.).
Das ist ja der Grund, warum ich weder von der IPON noch von der Sedat-Liste viel halte, wenn es darum geht, die allerbesten Engines zu testen: Es wird gegen zu viele, zu schwache Gegner getestet, was die Ergebnisse verzerrt (sehr starke Engines schneiden eben etwas schlechter ab). Das aggressive Setting reduziert nun diese Verzerrung ein wenig und dadurch scheint es dann besser zu sein als der default-Houdini. Aber das ist leider nur eine Illusion basierend auf falschen Test-Rahmenbedingungen. In meiner alten LS-Liste hatte ich ja auch mal Houdini-Settings getestet (t3 und z glaube ich) und dort konnte keines (trotz großer Partienzahl gegen diverse Gegner) besser scoren (nie außerhalb der Errorbar). Eben weil in der LS-Liste keine so schwachen Gegner vorkommen...
P.S: Den gleichen Effekt gab es vor einiger Zeit mit dem Stockfish PHQ-Setting in der SWCR-Liste. Auch das schien besser zu scoren, weil es aggressiver spielte. Das PHQ-Setting ist toll, weil Stocki damit super spielt, aber ein Elo-Gewinn ist es gegen gute Gegner mit Sicherheit nicht..." (Zitatende)
Diesen (von mir so getauften) Autismus-Effekt meine ich mit dem Verzerrungsproblem. Daher ist es prinzipiell falsch und ergebnisverzerrend, Engines mit zu großem Spielstärkeunterschied gegeneinander zu testen. Wenn man es dennoch tut (so wie ich es jetzt mit Protector und Hannibal überlege), muß man die Partien aus den Ergebnissen der Top-Engines auf jeden Fall wieder rausrechnen, um damit eine statistische Beschädigung der Ergebnisse der Top-Engines zu vermeiden...
Grüße - Stefan