Nachdem nun der offizielle FEOBOS Release efolgt ist, habe ich einen Praxistest gemacht, mit den identischen Bedingungen, unter denen ich auch meine SALC Eröffnungen seit längerer Zeit teste (daher die etwas veralteten Engines) und als Referenzwert auch das Standard 8-Züge Eröffnungsset aus dem Stockfish-Framework, das nun in keiner Weise was besonderes ist - eine 0815 Stellungssammlung mit 8 Züge tiefen Eröffnungslinien. Alle Ergebnisse gibt es auch auf meiner Website unter SALC openings (etwas runterscrollen).
Testbedingungen: 1000 Partien, 5'+3'', singlecore, kein pondern, keine Endspieldatenbanken, LittleBlitzerGUI, beide Engines mit Contempt=+15, asmFish 170426 gegen Komodo 10.4
Bei FEOBOS kam das Contempt 5 EPD Stellungsset zum Einsatz, welches die niedrigsten Remsiqouten bringen soll. Das enthält 23055 Stellungen. Nachdem ein erster Versuch im RoundRobin-Mode der LittleBlitzerGUI (in diesem wird für jede Partie eine der Stellungen vollkommen zufällig ausgewählt) nach einem Drittel der zu spielenden Partien sehr enttäuschend verlief, klärte mich Frank darüber auf, daß die Stellungen im EPD nach Qualität (möglicher Remisgefahr) sortiert seien und die besten Stellungen am Anfang stünden. Daher hab ich den Testrun dann noch mal neu gestartet, diesmal im Gauntlet-Modus der LBG, indem die Vorgabestellungen sequentiell (von Anfang des Files an) abgespielt und mit vertauschten Farben wiederholt werden. Es wurden also in diesem 1000er Testrun die besten 500 FEOBOS-Stellungen durchgespielt (doppelt).
Hier das Ergebnis und zum Vergleich darunter das Ergebnis der Standard 8-Züge Eröffnungen aus dem Stockfish Framework:
FEOBOS v20 Contempt 5 - Top500 Stellungen:
Games Completed = 1000 of 1000 (Avg game length = 1019.828 sec)
Settings = Gauntlet/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer\feobos_v20-contempt-5.epd(23055)
1. asmFish 170426 x64 586.5/1000 266-93-draws: 641 (L: m=0 t=0 i=0 a=93) (D: r=156 i=256 f=44 s=1 a=184)
2. Komodo 10.4 x64 413.5/1000 93-266-641 (L: m=1 t=0 i=0 a=265) (D: r=156 i=256 f=44 s=1 a=184)
Stockfish framework openings:
Games Completed = 1000 of 1000 (Avg game length = 1036.164 sec)
Settings = RR/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer3\34700_ok.epd(32000)
1. asmFish 170426 x64 603.0/1000 286-80-draws: 634 (L: m=0 t=0 i=0 a=80) (D: r=148 i=232 f=39 s=1 a=214)
2. Komodo 10.4 x64 397.0/1000 80-286-634 (L: m=0 t=2 i=0 a=284) (D: r=148 i=232 f=39 s=1 a=214)
SALC V5 10 moves half-closed openings (nur mal als Beispiel, was bzgl. Remsiqoute möglich ist (und das mit verbesserter Ergebnisspreizung)):
Games Completed = 1000 of 1000 (Avg game length = 925.121 sec)
Settings = RR/256MB/300000ms+3000ms/M 450cp for 4 moves, D 120 moves/EPD:C:\LittleBlitzer\SALC_V5_hc_10m.epd(25000)
1. asmFish 170426 x64 616.0/1000 370-138-draws: 492 (L: m=0 t=0 i=0 a=138)(D: r=133 i=200 f=29 s=0 a=130)
2. Komodo 10.4 x64 384.0/1000 138-370-492 (L: m=0 t=0 i=0 a=370)(D: r=133 i=200 f=29 s=0 a=130)
Tja, was soll man nun dazu sagen? Das Ergebnis von FEOBOS ist durchweg
schlechter, als das des 0815-Standard Vorgabesets (von den SALC V5 Ergebnissen will ich hier gar nicht reden, die sind in einer anderen Liga): Die Remisqoute ist höher (64.1% zu 63.4%). Die Zahl der 3fach-Remisen (die ja FEOBOS angeblich bekämpfen soll) ist ebenfalls höher (15.6% zu 14.8%) und - das ist am Schlimmsten - die Ergebnisspreizung ist geringer (58.7% zu 60.3%)(je näher die Ergebnisse/Erfolgsscores an der 50%-Marke liegen, desto geringer wären die ELO-Abstände in einer Rangliste oder Turniertabelle und desto wahrscheinlicher wäre es, daß Ergebnisse innerhalb der Errorbar liegen). Selbst, wenn man zugunsten von FEOBOS annähme, daß die statistische Restungenauigkeit bei "nur" 1000 Partien für FEOBOS hier unglücklich verlief, kann man doch sehr sicher sagen, daß FEOBOS auf keinen Fall bessere Ergebnisse liefert, als das Standard 8-Züge Vorgabeset aus dem Stockfsh Framework. Und daß, obwohl es sich um die Contempt 5 -Stellungssammlung von FEOBOS handelt und auch nur die besten 500 Stellungen abgespielt wurden - also das Beste vom Besten bzgl. Remisqoute, was FEOBOS zu bieten hat.
Ich habe immer bezweifelt, daß das Konzept von FEOBOS, nämlich viele Engines in der Schlußsstellung einer Eröffnungslinie eine Minute rechnen zu lassen und dann anhand von Filterungen dieser Stellungsbewertungen Stellungen qualitativ zu bewerten, funktionieren kann. Dafür sind diese Berechnungen auch auf einem schnellen PC viel zu flach und die Stellungsbewertungen schwanken viel zu stark. Würde man das Ganze mit etwas mehr oder weniger Bedenkzeit oder anderen Engines oder anderer Hardware neu durchrechnen, kämen völlig andere Bewertungen heraus, zumindest, wenn man so streng filtert (im Zehntel und Hundertstel Bereich) wie bei FEOBOS. Insofern filtert FEOBOS defacto Zufallsfluktuationen. Das kann nichts bringen. Nur eine Rückwärtsanalyse von Eröffnungen wie bei Cerebellum oder eine MonteCarlo-Ausspielung der Stellungen mit 1000 oder mehr Partien pro Stellung könnte wirklich verläßliche Werte ergeben. Meine ich zumindest. Und dieses desaströse Testergebnis bestätigt das leider auch - wobei ich nicht erwartet hätte, daß es so schlecht ausfallen würde.
Ich für meinen Teil schließe damit mit FEOBOS ab - der Praxistest ist grandios gescheitert. Schade um die viele Arbeit, die investiert wurde, aber wenn man während der Entwicklungsphase nie Praxistests macht, weil man überzeugt ist, auf dem richtigen Weg zu sein, dann kann so ein Desaster eben passieren. Das Gute ist, daß, wenn es mal einige Engines geben sollte, die MonteCarlo-Analysen erlauben, dann könnte man diese Daten in das excel-Tool von Klaus einspeisen und dann wäre wenigstens die Arbeit von Klaus nicht umsonst gewesen. Mit solchen MonteCarlo- Ausspielungs-Daten könnte dieses Tool noch sehr nützlich sein. Hoffe ich.
Auf meiner Website (Rubrik SALC openings) kann man sich die Partien des FEOBOS Testruns und beider SALC V5 Testruns runterladen (der Link ist gleich unter der Zusammenfassung der Ergebnisse). Die vom Framework Testrun und die vom älteren SALC V2 hab ich nicht mehr, da sich eine externe Festplatte leider vor einigen Monaten verabschiedet hat.
http://www.sp-cc.de/salc-openings.htm