Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish und der ELO-Hype
- - By Roland del Rio Date 2013-08-28 17:59
Nachdem ja beeindruckenden Fortschritten der letzten Wochen und Monate und einigen Gedanken hierzu in diesem Forum,
bin ich auch ins grübeln gekommen, inwieweit man diese so generierten Zahlen als objektives Spielstärkemaß interpretieren kann.
Nachdem wir ja bzgl. einer Spielstärkesteigerung (mangels Existenz) keinen objektiven Maßstab verwenden (wie es eine perfekte Testsuite wäre),
lassen wir also Spiele spielen, und unterwerfen uns somit evolutionären Prozessen. Grundsätzlich nicht gegen einzuwenden, wie weit man damit
kommt, sieht man ja, wenn man sich umschaut in der Welt.
Was ich aber bei der Stockfish Entwicklung, im Gegensatz zu vielen Ranglisten-Vergleichen, als problematisch einstufe, ist die Monokultur der Tests,
indem immer nur gegen sich selbst getestet wird. (Das neue Testframework finde ich hingegen eine super Sache und ich bin der festen Überzeugung,
dass uns das in der Engine-Entwicklung einen echten Schub geben wird, sprich wir viel schneller erleben werden wohin der Weg führen wird.)
In einem kürzlich heiß diskutierten Thread hier hat Frank Quisinsky schon angemerkt, dass es viel wichtiger anstatt die Tests in immer tiefere Tiefen gehen zu
lassen indem man die Anzahl der Partien erhöht, die Breite auszubauen und gegen mehr Engines testet. Ich denke das beides gemacht werden muss,
das mit den vielen Partien brauchen wir einfach um dem Monster Wahrscheinlichkeit Herr zu werden, aber das mit der Breite scheint mir ebenfalls unerlässlich,
wenn das Ziel ein perfektes Spiel sein soll. Selbst wenn eine starke Engine in Tests gegen eine um 1000 ELO schwächere Eingine ein Ergebnis von 950-49-1 spielt
(bitte jetzt keine Kommentare, dass es dann aber nicht 1000 Punkte, sondern nur xxxx wären, soll nur als Beispiel dienen), gilt es meiner Meinung nach trotzdem
weiter gegen die schwache Engine zu testen. Nicht wegen der 49 Remisen, denn aufgrund der hohen Remisbandbreite beim Schach wird auch eine perfekt
spielende Engine immer Punkteteilungen hinnehmen müssen und somit wäre die Zahl nur bedingt geeignet das eigene Spiel in Richtung Perfektion zu treiben.
Aber die verlorene Partie wäre ein klares Indiz für Verbesserungspotenzial, und eben aufgrund der hohen Remisbandbreite, vielleicht sogar für ein nicht Geringes.

Lange Rede kurzer Sinn, vermutlich gibts im Internet irgendwo auch schon entsprechende Test, zumindest hier im Forum habe ich keine gesehen und daher mal
meine ersten Tests zu dem Thema. Habe mal die letzten SF Versionen hergenommen und gegen Houdini spielen lassen.
Und siehe da, es ergibt sich ein etwas durchwachsenes Bild. Insbesondere das offizielle SF4 schneidet sehr mäßig ab.
Kann natürlich gut sein, dass das Monster Wahrscheinlichkeit bei meinen "nur" 14000 Partien wieder zuschlägt. Die berühmten Error-Margins können andere
sicherlich schneller berechnen. Rein gefühlsmäßig ist mir die Abweichung zu groß, aber Gefühl und Wahrscheinlichkeiten ist ja bekanntlich so eine Sache.

Und ja, die Bendenkzeit ist natürlich mit 400ms natürlich recht speziell und wenn mir jemand plausibel erklärt, dass das mit längeren Bedenkzeiten anders
aussehen wird, bin ich auch bereit die Stromkosten für den Nachweis zu investieren. Allerdings bliebe dann die Frage im Raum, warum das so ist und was
die Konsequenz für die weitere Testerei daraus wäre.

Testlauf 1:

Games Completed = 7000 of 7000 (Avg game length = 42.184 sec)
Settings = Gauntlet/32MB/333ms per move/M 300cp for 5 moves, D 100 moves/
Time = 26282 sec elapsed, 0 sec remaining
1.  HOU                       4158.5/7000  2854-1537-2609  (L: m=0 t=0 i=0 a=1537)  (D: r=1800 i=138 f=11 s=9 a=651)(tpm=343.2 d=13.44 nps=1085689)
2.  SF_13082619                391.5/1000  225-442-333    (L: m=2 t=0 i=0 a=440)  (D: r=217 i=22 f=0 s=2 a=92)  (tpm=400.1 d=14.36 nps=815294)
3.  SF 4                       393.0/1000  204-418-378    (L: m=2 t=0 i=0 a=416)  (D: r=255 i=23 f=2 s=1 a=97)  (tpm=400.4 d=14.60 nps=799657)
4.  SF 13081916                375.5/1000  207-456-337    (L: m=2 t=0 i=0 a=454)  (D: r=233 i=18 f=2 s=0 a=84)  (tpm=399.9 d=14.45 nps=789632)
5.  SF_13070908                441.5/1000  244-361-395    (L: m=0 t=0 i=0 a=361)  (D: r=264 i=22 f=2 s=3 a=104)  (tpm=400.6 d=14.42 nps=815611)
6.  SF_13060116                419.5/1000  219-380-401    (L: m=3 t=0 i=0 a=377)  (D: r=270 i=21 f=5 s=1 a=104)  (tpm=399.9 d=14.44 nps=796993)
7.  ComStock_3M_VEpop64        416.0/1000  219-387-394    (L: m=1 t=0 i=0 a=386)  (D: r=285 i=14 f=0 s=1 a=94)  (tpm=399.4 d=14.38 nps=773033)
8.  ComStock_3_VEpop64         404.5/1000  219-410-371    (L: m=5 t=0 i=0 a=405)  (D: r=276 i=18 f=0 s=1 a=76)  (tpm=399.3 d=14.10 nps=762011)

Testlauf 2:

Games Completed = 7000 of 7000 (Avg game length = 42.206 sec)
Settings = Gauntlet/32MB/333ms per move/M 300cp for 5 moves, D 100 moves/
Time = 26126 sec elapsed, 0 sec remaining
1.  HOU                       4120.0/7000  2825-1585-2590  (L: m=1 t=0 i=0 a=1584)  (D: r=1786 i=145 f=11 s=6 a=642)(tpm=342.6 d=13.40 nps=1083315)
2.  SF_13082619                429.0/1000  250-392-358    (L: m=5 t=0 i=0 a=387)  (D: r=247 i=15 f=0 s=0 a=96)  (tpm=400.9 d=14.49 nps=818790)
3.  SF 4                       352.5/1000  170-465-365    (L: m=2 t=0 i=0 a=463)  (D: r=244 i=24 f=2 s=0 a=95)  (tpm=400.9 d=14.39 nps=792539)
4.  SF 13081916                395.5/1000  206-415-379    (L: m=3 t=0 i=0 a=412)  (D: r=260 i=15 f=0 s=1 a=103)  (tpm=401.0 d=14.44 nps=799876)
5.  SF_13070908                444.5/1000  248-359-393    (L: m=2 t=0 i=0 a=357)  (D: r=275 i=26 f=3 s=0 a=89)  (tpm=400.9 d=14.48 nps=822614)
6.  SF_13060116                432.0/1000  250-386-364    (L: m=3 t=0 i=0 a=383)  (D: r=256 i=17 f=1 s=1 a=89)  (tpm=400.8 d=14.14 nps=797220)
7.  ComStock_3M_VEpop64        426.0/1000  243-391-366    (L: m=3 t=0 i=0 a=388)  (D: r=245 i=22 f=1 s=3 a=95)  (tpm=400.1 d=14.17 nps=774332)
8.  ComStock_3_VEpop64         400.5/1000  218-417-365    (L: m=2 t=0 i=0 a=415)  (D: r=259 i=26 f=4 s=1 a=75)  (tpm=400.7 d=14.13 nps=766780)


Viele Grüße
Roland
Parent - - By Benno Hartwig Date 2013-08-28 22:09
[quote="Roland del Rio"]Was ich aber bei der Stockfish Entwicklung, im Gegensatz zu vielen Ranglisten-Vergleichen, als problematisch einstufe, ist die Monokultur der Tests,
indem immer nur gegen sich selbst getestet wird.[/quote]Mit diesen Tests versucht man nicht eine echte Spielstärkeeinschätzung, auch wenn das so ein "+ 5,4 ELO" angegeben wird, es ist vielmehr ein praktikable Methode, zum Finden der Versionen, die allgemein Erfolg haben können. Die Spielstärke wird erst hinterher gegen eine breite Gegnerschaft  ermittelt. Die +5,4 ELO darf man dann vielleicht als "die ungefähre und vorläufige Erwartung der Entwickler" ansehen.
Benno
Parent - - By Roland del Rio Date 2013-09-03 13:05
Zitat:
es ist vielmehr ein praktikable Methode, zum Finden der Versionen, die allgemein Erfolg haben können. Die Spielstärke wird erst hinterher gegen eine breite Gegnerschaft  ermittelt


Ist das nicht widersprüchlich? Wie kann man eine Version finden, die ALLGEMEIN Erfolg haben könnte, wenn man nicht allgemein testet, sondern nur sehr speziell gegen genau eine andere Engine (in dem Fall obendrein noch die Vorgängerversion der gleichen Engine).
Mir geht es hier auch nicht um die Exaktheit von  ELO-Zahlen oder deren Zugewinn, das war ein anderer Thread.
Habe inzwischen weitere Tests gemacht, die zeigen dass die SF Entwicklung der vergangenen Monate ganz anders verlaufen wäre, wenn man nicht
gegen sich, sondern Houdini getestet hätte. Werde später mal ein paar Zahlen hierzu posten.

Viele Grüße
Parent - By Benno Hartwig Date 2013-09-03 13:15
[quote="Roland del Rio"]Ist das nicht widersprüchlich? Wie kann man eine Version finden, die ALLGEMEIN Erfolg haben könnte, wenn man nicht allgemein testet, sondern nur sehr speziell gegen genau eine andere Engine (in dem Fall obendrein noch die Vorgängerversion der gleichen Engine). [/quote]
Weil die Erfahrung genau dies bestätigt.
Das Spiel gegen den Konkurrenten hat ja den Vorteil, dass man Informationen gewinnt über den Testkandidaten und den Konkurrenten.
Dass man direkt etwas über das Spielstärkeverhältnis erfährt.

Ich habe bisweilen auch verschiedene Kandidaten immer wieder gegen eine gleiche Gegnerschar getestet.
Hatte auch Vorteile. Wenn ich dann aber zwei Testkandidaten vergleiche will muss ich akzeptieren, dass beide Ergebnisse unabhängig voneinander Fehler haben, die sich beim Vergleich 'addieren' (so ähnlich). Ich befürchte, dass solch ein Vergleich deutlich mehr als doppelt so viele Partien benötigt, um dieselbe Vergleichszuverlässigkeit zu erreichen. Dafür aber mit dem schon wünschenswerten Bezug auf die bunte Gegnerschaft.

Benno
Parent - By Michael Scheidl Date 2013-09-03 13:18
Verstehe ich nicht, das "Testen gegen sich" gibt den SF.-Entwicklern doch recht oder nicht? Außerdem hat SF. 4 sowohl bei IPON als auch bei CEGT-Blitz die Testmatches gegen Houdini 3 gewonnen.
Parent - - By Jörg Oster Date 2013-09-03 14:24
[quote="Roland del Rio"]
Zitat:
es ist vielmehr ein praktikable Methode, zum Finden der Versionen, die allgemein Erfolg haben können. Die Spielstärke wird erst hinterher gegen eine breite Gegnerschaft  ermittelt


Ist das nicht widersprüchlich? Wie kann man eine Version finden, die ALLGEMEIN Erfolg haben könnte, wenn man nicht allgemein testet, sondern nur sehr speziell gegen genau eine andere Engine (in dem Fall obendrein noch die Vorgängerversion der gleichen Engine).
Mir geht es hier auch nicht um die Exaktheit von  ELO-Zahlen oder deren Zugewinn, das war ein anderer Thread.
Habe inzwischen weitere Tests gemacht, die zeigen dass die SF Entwicklung der vergangenen Monate ganz anders verlaufen wäre, wenn man nicht
gegen sich, sondern Houdini getestet hätte. Werde später mal ein paar Zahlen hierzu posten.

Viele Grüße

Das wäre sehr interessant.
Im Grunde hast du nicht ganz unrecht. Immer nur gegen sich selbst zu spielen, birgt ein gewisses Risiko.
Z. B. Änderungen an der Königssicherheit. Die kann und sollte man nur gegen andere Engines testen.

Ein anderes Beispiel: Contempt Factor
Meine Änderung wurde nach 7708 Spielen verworfen.
Code:
TC: 15+0.05 th 1
LLR: -2.96 (-2.94,2.94)
Total: 7708 W: 1649 L: 1736 D: 4323

Change contempt depending on bestValue.


Im Spiel gegen andere Engines erzielt meine Codeänderung aber ein deutlich besseres Ergebnis.
Beide Gauntlets zusammengefasst:
Code:
Rank Name          Elo    +    - games score oppo. draws
   1 Critter1.6a   136   15   15   900   54%   107   46%
   2 SF-CF3        117   15   15  1200   70%   -80   28%
   3 SF-CF2        105   15   15  1200   69%   -80   27%
   4 SF-Master      99   15   15  1200   68%   -80   29%
   5 Komodo51r2     95   15   15   900   48%   107   42%
   6 Hiarcs13.2   -163   18   18   900   17%   107   19%
   7 Gaviota0.85  -389   29   33   900    4%   107    6%


Nur, der Testframework funktioniert halt nunmal so, und sowas mit mehreren fremden Engines aufzuziehen, ist halt wesentlich schwieriger.
Im Großen und Ganzen gibt der Erfolg dem SF-Team aber recht. Die Fortschritte der letzten Monate sind einfach bemerkenswert.
Parent - By Roland del Rio Date 2013-09-03 16:05
Will hier auf keinen Fall sagen, dass die Methode des SF Frameworks nicht funktionert.
Sonst würde SF ja nicht in den Ratinglisten steigen.
Nur wie in meinem Beitrag hier zu sehen, ist dieser evolutionäre inzüchtige Ansatz nicht der Weißheit letzter Schluss, wie du ja selbst sagst.
Die grossen Sprünge von Stockfish in letzer Zeit sind wohl kaum der Testmethode
"20.000mal stockfish.exe vs. base.exe" zuzuschreiben, sondern ein Erfolg des DC (distributet computing) Ansatzes.
Parent - - By Michael Bechmann Date 2013-08-29 00:57
Kurze Einschätzung, weil ich keine solchen Tests gemacht habe:
Wie ist Stockfish 4 im Vergleich der nach allgemeiner Einschätzung stärkste Engine Houdini 3 einzuschätzen?
Ist Stockfish 4 nun die stärkste Engine?

Ich hatte Stockfish mal angetestet und festgestellt dass diese Engine Schwierigkeiten mit Tablebases (Nalimov-Format) hat - Sie erkennt die Tablebases erst ab 6 Steinen aber nicht in der Voraussuche.
Das fand ich schon nicht besonders gut.

Grüße
Michael
Parent - By Benno Hartwig Date 2013-09-04 13:11 Edited 2013-09-04 13:14
[quote="Michael Bechmann"]Ist Stockfish 4 nun die stärkste Engine?[/quote]Nein, sicher nicht. Der Platzhirsch ist sicher immer noch Houdini3, es wird nur nicht mehr von gar so sehr weit unten zu ihm hochgeblickt.
Du magst die genauen Zahlen in den gängigen Ratings selbst nachsehen, aber ich schätze, so ca. 50 ELO hinkt SF4 dem H3 hinterher. Bei sehr langen Zeiten ggf. etwas weniger.
Das entspricht dann ungefähr einer 57:43-Überlegenheit von Houdini3 gegen Stockfish4.
(Und das erklärt auch, warum SF4 bei recht wenigen Partien gegen H3 durchaus auch mal die Oberhand behalten kann)

Benno

PS:
Stockfish ist aber sicherlich die stärkste OpenSource-Engine
und ggf. ist sie jetzt auch (gaaanz knapp) die stärkste Engine, die du umsonst bekommen kannst.
Parent - By Stefan Pohl Date 2013-08-29 03:57
Ich empfehle einen Blick in meine LS-Rangliste. Dort sind nicht nur die offiziellen Stockfishversionen gelistet, sondern auch 3 der neueren Development-Versionen. Zudem findest du in der aborted & problems Unterseite in der deleted-Rubrik noch weitere ältere Development-Versionen (mit ihrer Eloleistung), die ich aus der LS-Liste wieder gelöscht habe, um nicht zu viele Stockfische auf einmal in der Liste zu haben.
Alle diese Versionen haben mindestens 10000 Partien absolviert.

http://ls-ratinglist.beepworld.de

Der Test der Version vom 26.August läuft momentan und das Ergebnis wird voraussichtlich am Sonntag online gehen.

Stefan
Parent - - By Roland del Rio Date 2013-09-03 15:46 Edited 2013-09-03 15:52
Habe inzwischen weitere Tests laufen lassen, mit, wie ich finde, ganz interessanten Ergebnissen.
Ich will hier keine ELOs ausrechnen, nicht einmal Engines gegeneinander bewerten, sondern
lediglich die Messmethoden für Schachengines ein wenig beleuchten.

Wie zu erwarten war, hängen die Ergebnisse eines Enginetest eben sehr von den Bedingungen ab, als da hauptsächlich wären:

1.) Gegnerschaft

Darüber wird ja hier in einem anderen Thread gerade ausgiebig diskutiert. Diese Variable hat sicherlich einen
Einfluss, fragt sich nur wie groß der ist. Geben mal folgendes zu bedenken: Stockfish wird mit Tests weiterentwickelt,
die auf Spielergebnissen basiert, die einzig gegen die letzte Version der eigenen Engine produziert werden.
Wenn die Variable "Gegnerschaft" wirklich einen großen Einfluss auf die Spielstärkeverbesserung haben,
sollte das hier und da mal nach hinten losgehen. Ein Blick in Stefan Pohls LS-Ranglisten zeigt aber, dass sich
die Ergebnisse (also die Spielstärkeverbesserung von Version zu Version, nicht die ELO-Zahlen) quasi 1-1 mit der
gemischten Gegnerschaft wiederfinden.
Aber ganz so einfach ist es auch wieder nicht:


Settings = Gauntlet/32MB/333ms per move/M 300cp for 5 moves, D 100 moves/no opening book

Engine           games    %
Hou              48000    58.9 
SF_13082619       8000    41.1   
SF 4              8000    38.3 
SF_13081916       8000    37.8 
SF_13070908       8000    43.6 
SF_13060116       8000    43.9 
SF 3              8000    42.3    


Es sieht sehr so aus, als wäre einer der SF patches im Juli/August zwar positive Auswirkungen gegen sich selbst und die Mehrheit der TOP Engines,
aber fragwürdige Auswirkungen gegen Houdini.

2.) Eröffnungsbuch

Um gleich mal obigen Test nochmal herzunehmen, der übrigens ohne ein Eröffnungsbuch als Starthilfe gemessen wurde, hier mal die Ergebnises mit dem
Buch, das die SF Entwickler verwenden 8moves_GM, und anschliessend mit der NoomenTestsuite2012.

Settings = Gauntlet/32MB/333ms per move/M 300cp for 5 moves, D 100 moves/ Book: 8moves_GM.pgn(32000)

Engine      Games   %
Hou          7000   62.4
SF_130826    1000   39.3
SF 4         1000   40.0
SF 130819    1000   38.9
SF_130709    1000   37.9
SF_130601    1000   34.9
SF 3         1000   32.5

Settings = Gauntlet/32MB/333ms per move/M 300cp for 5 moves, D 100 moves/ Book: NoomenTestsuite2012.pgn

Engine     games   %
Hou        7000    64.6
SF_130830  1000    39.0
SF_130826  1000    38.2
SF 4       1000    36.7
SF 130819  1000    35.3
SF_130709  1000    33.0
SF_130601  1000    34.7
SF 3       1000    31.2



Zwei Dinge fallen auf: a) Der Einbruch des Juli/August patches ist hier nicht vorhanden
                                 b) SF schneidet mit Buch schlechter ab als ohne.
a) könnte erklären, warum das "Problem" mit dem Juli/August Patch nicht weiter aufgefallen ist (die Ranglistenbetreiber verwenden ja auch zumeist Bücher)
b) Dass SF mit eigenem Entwicklungsbuch besser abschneidet als mit Noomen überrascht nicht, aber warum der Unterschied ob mit oder ohne Buch so groß?
Meine Interpretation ist, dass Houdini sich wohl ohne Buch sehr schwer tut, sprich Stockfish hier besser punktet. Gäbe es Unterdisziplinen, wäre SF vielleicht
der Weltmeister der Eröffnung (ohne mit Buch an der Hand genommen zu werden). Könnte ein Verbesserungsansatz für Houdini sein, sieht so aus,
als sei die Startposition ein Stellungstyp mit der SF besser umgehen kann.

3.) Bedenkzeit

Auch hier Abhängigkeiten, SF testet nicht ohne Grund mit zwei Bedenkzeiten. Nicht selten funktioniert ein Patch nur bei einer der Beiden.
Auch bekannt und zu erwarten ist, dass längere Bedenkzeiten die Remisquote erhöhen, was leider quasi als Naturkonstante ein Grundrauschen
in Messergebnisse bringt. An der Stelle könnte man darüber nachdenken durch streichen der Remisen das Rauschen zu reduzieren.
Hier wird hauptsächlich die Effizienz des Suchalgorithmus auf den Prüfstand gestellt, bzw. "dank" der zumeist sehr kurzen Bedenkzeiten in den Test,
das Können des Programmierers bewertet. In jedem Fall bringt die Bedenkzeit eine neue Dimension in die Enginebewertung, Ergebnisse kann man
in der CEGT Liste sehen.

4.) Sonstige

Weitere Faktoren, die Einfluss haben sind sicherlich Endspieldatenbanken (sehe ich ähnlich wie Eröffnungsbücher), Hash Table Größen (Programmiereffizienz),
Ponder ON (Bedenkzeitverlängerung), ... tbc

cu
roland
Parent - - By Hauke Lutz Date 2013-09-03 20:18
Bei 2 Minuten Blitz auf meinem i7 2600k (Normaltakt) bei 3 Threads + 2 GB Hash (RAM = 1333 MHz) pro Engine herrscht nach den ersten 45 Teststellungen aus Stefans Arsenal ein +25/=40/-25 zwischen Houdini 3 Pro und SF 13-08-30.

Zuvor holte die Version vom 30.8. gegen die vom 26.8. ganze +40 ELO (nach 1000 Partien).

Gruß
Hauke
Parent - - By Roland del Rio Date 2013-09-03 21:32
Versuch mal die 13090211er Version. Scheint ein echter "Houdini-Killer" zu sein. Kommt bei mir aus der Grundstellung heraus fast an die 50% ran.
Die schwache Performance aus der Grundstellung heraus ist mir auch schon bei Gull aufgefallen, spielt deutlich performanter mit Buch.
Sowas vererbt sich halt.

Musst aber schauen, dass es ein paar mehr Partien werden, bei 100 lag in meinem Test die SF13090211 gegen Houdini sogar deutlich über 50%.

cu
roland
Parent - - By Michael Scheidl Date 2013-09-03 22:38
Ich lehne es ab Engines zu testen, die schon am nächsten Tag durch eine neue, (vermutlich) verbesserte Version ersetzt werden.
Parent - By Frank Quisinsky Date 2013-09-03 22:46
Hi Michael,

mache doch einfach Deinen eigenen Schnitt.
Sagst Dir ... für mich ist die Version von heute die Maßgebliche und die nächste schaue ich mir an wenn ich mich mit dieser beschäftigt habe.
Einfach einen Monat später, oder zwei Monate später.

Im Grunde gibt es keine Alpha, Beta, Release Versionen bei einem Schachprogramm, denn diese sind meist durchgehend in einer Entwicklung. Der ganze Versionswirrwarr macht die Computerschächler ja noch ganz irr. Ehrlich gesagt mich auch

Bin im Grunde immer noch mit Stockfish 2.1.1 PHQ dran. Diese Version spielt so schönes Angriffsschach ... ob nun 100 ELO mehr oder weniger. Auch alte Versionen können begeistern und Du bist ja da auch so ein Experte. Nimmst auch gerne mal ältere Versionen zum Testen wenn ich das so richtig verfolge.

Viele Grüße
Frank

Finde das richtig Klasse was die Stockfish Leute produzieren. Das kann nicht oft genug gelobt werden. Live dabei zu sein wie ein Schachprogramm entwickelt wird und was ein Programmierer laufend ändert um Verbesserungen zu erzielen finde ich spannend. Die unendliche Geschichte ...
Parent - By Roland del Rio Date 2013-09-04 08:23
Nur gut, dass das nicht jeder so sieht, sonst würde es keine Engineentwicklung mehr geben.
Parent - - By Frank Quisinsky Date 2013-09-03 23:18
Hi,

gibt keinen Grund der Monster Wahrscheinlichkeit Herr zu werden.
Die Spielstärke liegt eh über unseren Horizont.

Ob es nun 3 oder 5 ELO Verbesserung ist oder nicht ...
Das kann bei anderen Gegnern wieder ganz anders ausschauen.

Grundsätzlich muss ja ein Ansatz her um festzustellen, ob sich eine Version verbessert hat oder nicht. Wenn nun eine ältere Version gegen eine neuere deutlich besser oder schlechter abschneidet ist die Wahrscheinlichkeit sehr hoch das es zu Verbesserungen gekommen ist. Das in ELO festzuhalten ist schwierig bzw. gibt das die ungenaue Berechnung nicht her.

Gab ja vor ca. 2 Jahren das sehr gelungene Experiment mit den Rykba EXP Settings. Da wurden auch tausende von Partien gespielt und festgestellt das Setting x 60 ELO besser ist als Setting y. Ja, es waren Verbesserungen aber die lagen dann ca. bei der Hälfte in ELO wenn die Engines in eine Ratingliste aufgenommen wurden.

Nichts anderes passiert im Grunde bei dem Stockfish Test. Allerdings auf deutlich höherem Niveau.

Wenn wir als User den Anspruch entwickeln ein super genaues Rating zu ermitteln sind wir verloren in der Welt der Statistik.

Du kannst es doch selbst testen nach der Methode die ich beschrieben habe.

Nehme die Testbedingungen von IPON.
Suche Dir von mir aus 4 Engines aus und bilde die Durchschnitts ELO.
Teste nun Stockfish gegen die 4 von mir aus je 200 Partien.

Dann liegen Dir 800 Partien vor, das ist sehr gut!
Gibt Dir ein besseres Ergebnis als tausende von Partien gegen eine Engine.

Lasse weitere 800 Partien spielen und Du hast 1.600 Partien gegen 4 Gegner und eine Error Bar von +- 14

Dann teste mal gegen 5 andere die 1.600 Partien und wundere Dich

Aber was wirklich sehr interessant ist, ist folgendes ...
In jeder guten Ratingliste ist die Reihenfolge der Engines gleich.
Das ist TOP und spricht für die gute Arbeit und Ansätze der Ratinglistenbetreiber.
Nur die Differenzen in ELO sind im Grunde gar nicht wesentlich.

Finde eigentlich, das eine Spielstärke in einer vierstelligen Zahl beim Schach schon irreführend ist.
Eine zweistellige würde meines Erachtens für die Genauigkeit völlig ausreichen.

1. Houdini 3.0 Pro ... 57 FAQs
2. Stockfish x ... 55 FAQs
3. AnMon x ... 31 FAQs

Stelle Dir mal vor, die Golfer würden sich unserem Problem annehmen?
Ich habe Handicap 3.020 und ich habe Handicap 3.012 ... die würden sich ja dumm und dämlich streiten ob es nun 3.011 oder 3.012 ist.
Franz Beckenbauer würde den ganzen Tag vor seinen Berechnungsprogrammen sitzen und die Füße würden schmerzen so oft müsste er um den Golfplatz laufen um tausende von Golfbällen zu versenken.

Da würden noch mehr Foren zu den unterschiedlichsten Themen mit dem Statistik-Kram vollgemüllt werden.

Und um festzustellen ob Houdini dann die Spielstärke 57 oder 56 hat ... das wäre doch recht einfach!
Und ich bin mir sicher wenn das um sich greifen würde, würden heute die, die 15.000 Partien spielen lassen würde ... morgen bei einer sinnvolleren Berechnung denken ... warum haben wir seinerzeit eigentlich so viele Partien benötigt.

Der die ELO Formel erfunden hat müsste von den Stromwerken ein Verdienstkreuz erhalten.

Gruß
Frank
Parent - By Frank Quisinsky Date 2013-09-03 23:24
Und für die ganz harten Partiesammler bei dann vielleicht eine ganze Partie in einer Sekunde führen wir eine fünfstellige ELO ein.
Ganz überspitzt ... aber darüber sollten wir uns im Computerschach wirklich mal Gedanken machen.

Wir müssen nicht in ELO messen.
Das geht einfacher ich weiß nur nicht wie

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Stockfish und der ELO-Hype

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill