Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Wie viele Partien sind notwendig...
- - By Simon Gros Date 2012-08-09 19:07
... um eine ziemlich sichere Einschätzung der Spielstärke eines Schachprogrammes in Vergleich zu anderen zu erhalten?
Seit einiger Zeit beobachte ich den CEGT 40/4 Test mit Houdini 4-Core:
http://cegt.siteboard.eu/f6t324-testing-houdini-2-0c-x64-4cpu.html
Ganz unten stehen folgende Werte:
And a bit history:
Games    ELO    +  -    (95 %)
1700   3142   22 21 -> [3121,3164]
1600   3141   22 22 -> [3119,3163]
1500   3140   23 22 -> [3118,3162]
1400   3143   24 23 -> [3119,3166]
1300   3137   24 24 -> [3113,3162]
1200   3139   26 25 -> [3114,3165]
1100   3144   27 26 -> [3117,3171]
1000   3143   29 28 -> [3115,3172] 
900   3143   32 31 -> [3112,3174] 
800   3142   33 32 -> [3110,3175] 
700   3136   34 33 -> [3103,3170] 
600   3132   37 36 -> [3097,3169] 
500   3151   45 43 -> [3108,3196]
Seit der Anzahl von 1400 Spielen hat sich nicht mehr viel getan. Ist so etwas allgemein gültig oder schon beobachtet worden oder ist das von Test zu Test spürbar unterschiedlich? Gibt es gar zu diesem Thema (hier) etwas nachzulesen?
Simon_G
Parent - - By Stefan Pohl Date 2012-08-10 08:33
Hallo,

wie ich schon vor kurzem hier bzgl. des T3-Settingtests gepostet habe, beobachte ich Verschiebungen im +/-2%-Bereich des Erfolgsscores einer Engine beim Spiel gegen insgesamt 10 Gegner so etwa bis zur 4000-5000 Partien Marke. Danach gibt es bei mir nur noch Verschiebungen um die +/-0.5%. Ergo sag ich mal, so an die 3000 Partien sollte man schon absolvieren. IPON ist da also gerade so auf der halbwegs sicheren Seite. Aber das kommt halt immer darauf an wie genau man es haben will. Bei Engines die dicht beieinander liegen oder gar Setting-Tests sind 5000 Partien auf jeden Fall dringend zu empfehlen. Wenn ich nur rausfinden will, ob Houdini besser ist als Crafty, sollten auch deutlich weniger reichen...
Wichtig ist aber auch immer zu bedenken, gegen wie viele Gegner man eine Engine spielen läßt. Denn erst, wenn sich die Einzelvergleiche einpendeln, kann sich auch das Gesamtergebnis einpendeln. In einem Einzelvergleich reichen z.B. 500 Partien dicke aus - danach passiert meist nicht mehr viel (in Prozent des Ergebnisses). Habe ich 10 Gegner brauche ich idealerweise also mindestens 5000 Partien. Hätte ich 30 Gegner wären es eben 15000 usw...

Gruß - Stefan
Parent - - By Simon Gros Date 2012-08-10 09:40
Ich bin (war?) ja ebenfalls der Meinung, daß man sehr viel mehr Spiele benötigt als 1500, deshalb auch mein Posting seinerzeit: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=51865#pid51865. Aufgrund des CEGT-Tests jedoch kommen mir gerade Zweifel. Nun sind dort bereits 1800 Spiele absolviert worden und es ändert sich überhaupt nichts mehr seit die 1400 gespielt waren?!
Simon_G
Parent - - By Chess Player Date 2012-08-10 12:02
Ganz einfach!

Spielt man 1000 Partien, dann kann eine Elo Bestimmung eben nur auf der Basis von 1000 Partien erfolgen.
Geht man davon aus, dass der Elo Wert nicht plausibel erscheint, z.B. aufgrund eigener Beobachtung der Spiele,
dann müssen weitere Spiele ausgewertet werden. Mal angenommen man würde jetzt 2000 Spiele auswerten,
dann sind in dem jetzt ermittelten Elo natürlich auch die ersten 1000 "falsch" gewerteten Spiele enthalten! Mit anderen Worten:
das falsche Resultat geht mit 50% ein!!!! Will man die falschen Zahlenwerte in dem Pool auf unter 1% drücken, dann viel Spass mit der Testerei. Merke: es ist völlig sinnlos die Berechnung der Elo Zahlen unter dieser Prämisse zu veröffentlichen.
Parent - By Simon Gros Date 2012-08-10 20:02
[quote="Chess Player"]
Ganz einfach!

Spielt man 1000 Partien, dann kann eine Elo Bestimmung eben nur auf der Basis von 1000 Partien erfolgen.
Geht man davon aus, dass der Elo Wert nicht plausibel erscheint, z.B. aufgrund eigener Beobachtung der Spiele,
dann müssen weitere Spiele ausgewertet werden. Mal angenommen man würde jetzt 2000 Spiele auswerten,
dann sind in dem jetzt ermittelten Elo natürlich auch die ersten 1000 "falsch" gewerteten Spiele enthalten! Mit anderen Worten:
das falsche Resultat geht mit 50% ein!!!! Will man die falschen Zahlenwerte in dem Pool auf unter 1% drücken, dann viel Spass mit der Testerei. Merke: es ist völlig sinnlos die Berechnung der Elo Zahlen unter dieser Prämisse zu veröffentlichen.
[/quote]
Ehrlich gesagt verstehe ich noch nicht mal Bahnhof??! Weshalb sind solche Berechnungen sinnlos unter dieser (welcher?) Prämisse?
Simon_G
Up Topic Hauptforen / CSS-Forum / Wie viele Partien sind notwendig...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill