Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Enginetests, Einschätzung der Einzelergebnisse
- - By Clemens Keck Date 2010-09-20 09:50
Hallo zusammen, Hallo eifrige engine Tester

mal ne Frage:
Die engines ordnen sich ja in den Ranglisten in einer bestimmten Reihenfolge nacheinander ein. Es spielt jeder gegen jeden sozusagen.
Ich teste seit langem nur eine bestimmte engine(Loop 2010). Es findet immer nur ein Gauntlet mit dieser einen Engine statt.
Nun ordnen sich die Gegner oft sehr abweichend von der Ranglisten ein. Wie soll ich sowas interpretieren?
Wäre eine Messung "vertrauenswürdiger", wenn sich die Sparringsengines den Ranglisten entsprechend einordnen?
Oder ist das ermittelte Rating -unabhängig wie sich die anderen einordnen- schon "vertrauenswürdig" genug?
Ich spiele gegen 4 Sparringsengines, mit mind. 200 Partien je Gegner. 10+5 ZK. Ein Testlauf ca. 1000 Partien.

Was meint Ihr dazu?

Gruß, Clemens Keck
Parent - - By ernst happe Date 2010-09-20 10:28
deine testmethode taugt nichts!!!

p.s.:

eine elo zahl ist immer eine relative grösse die nur im zusammenhang der beteiligten gegner zu sehen ist!!!

merke daher:

ein spiessrutenlauf gegen nur vier gegner hat keinerlei zusammenhang mit irgendeiner der bekannten ranglisten
Parent - - By Gerhard Sonnabend Date 2010-09-20 13:11
[quote="ernst happe"]
deine testmethode taugt nichts!!!
[...snip...]
[/quote]

Hört, hört !

Wie war das noch mal:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=29945#pid29945
Houdini 1.03a 6.5 Punkte besser als Rybka 4 und deshalb
wurden "Rybka die Grenzen klar und deutlich aufgezeigt".

Und aktuell, siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=30331#pid30331
sind es plötzlich (logischerweise) nur noch +3.5 Punkte, welche Houdini
vor Rybka steht. Und es werden immer weniger.

Da ist selbst die bisherige Methode von Clemens noch deutlich
"genauer" resp. "taugt" deutlich besser !!
Parent - - By ernst happe Date 2010-09-20 13:36
hi gerhard,

dann lies bitte mal bei ingo nach und verifiziere bitte deine aussage auf plausibilität!

ernst
Parent - - By Gerhard Sonnabend Date 2010-09-20 16:02
[quote="ernst happe"]
dann lies bitte mal bei ingo nach und verifiziere bitte deine aussage auf plausibilität!
[/quote]

Muss ich nicht.

Und, da Du derart an Ingos Lippen hängst,
frage Ihn doch mal was er von Deiner Art
Auswertung hält.
104 Spiele und das auch noch mit 1'+1.5".
Ich kenne Ingos Antwort (Meinung) bereits.
Parent - - By Ingo Bauer Date 2010-09-20 17:56
Moin Gerhard,

mußt du wirklich nicht und wenn ich auf meine Liste sehe weiß ich auch nicht warum er auf mich verweist. 2 Elo Abstand sind wohl kaum ein Hinweis auf Dominanz! Zu seine 'Testmethoden' habe ich mich noch nie geäussert ... und du weißt warum

Ansonsten zitiert EH halt die IPON wie andere die CEGT erwähnen ... dafür kann ich nichts. Allerdings gibt er meiner Theorie recht, dass der Duchschnittsuser nur aufs Ranking schaut, und nicht auf Abstände oder gar Fehlerbalken!

Gruß
Ingo
Parent - By Frank Quisinsky Date 2010-09-20 23:51
Hi Ingo,

jemand der selbst schnelle Bedenkzeiten bevorzugt, wird sich für Listen mit längeren Bedenkzeiten weniger interessieren.
Auch das ist klar.

Gibt ja reichlich gute Listen, hast ja selbst eine

Bin mir sicher, dass sich mehr Personen für 40 in 5 als für 40 in 120 interessieren würden.
Dennoch würden viele sich eine 40 in 120 anschauen, weil das auch ein wenig damit zu tun hat, dass eine solche Liste kaum produziert werden kann und die Ergebnisse insofern schon reizen.

Bin immer noch am Überlegen ob ich die SWCR zum Jahresende einstelle und auf längere Bedenkzeiten umstelle.
Tendenz hierzu ist derzeit 30 : 70.

Wenn dann würde ich wohl 40 in 60 ohne Endspieldatenbanken und mal mit Aufgabefaktor erspielen lassen.
768 MB für Hash-Tables, sollten ausreichen.

Aber wie gesagt, bin derzeit mit der SWCR ganz zufrieden (wird ja auch immer spannender).

Gruß
Frank
Parent - By Clemens Keck Date 2010-09-20 19:04
HAllo Ernst

das war aber nicht nett von Dir

Mal im Ernst Ernst: Ich will ja gar keine RAtingliste erstellen. Ich will (mometan) nur eine bestimmte engine testen (wöchentliche updates). Und da ist mir schon klar , dass ich mit meiner Methode nur einen Ratingunterschied dieser einen engine ermitteln kann-auch nicht sonderlich genau, aber richtungsweisend.
DAs RAting ist also losgelöst von jeder Rangliste, aber trotzdem bei der EngineEntwicklung hilfreich.

Gruß, Clemens
Parent - - By Ingo Bauer Date 2010-09-20 10:35
Moin Clemens,

[quote="Clemens Keck"]
...
Ich teste seit langem nur eine bestimmte engine(Loop 2010). Es findet immer nur ein Gauntlet mit dieser einen Engine statt.
[/quote]

Genau so habe ich das ganz früher auch mit Shredder gemacht.

[quote="Clemens Keck"]
Nun ordnen sich die Gegner oft sehr abweichend von der Ranglisten ein. Wie soll ich sowas interpretieren?
[/quote]

Am besten gar nicht! Da die Reihenfolge der Gegner nur gegen Loop ermittelt wurde ist das Raring nicht vertrauenswürdig. Eine Spielstärke bekommst du so für die Gegner nicht. Selbst das Rating für Loop ist nicht richtig, allerdings ist der Spielstärkeunterschied verschiedener Loop Versionen korrekt ermittelt, und das ist in der Regel alles was den Programmierer interessiert.

[quote="Clemens Keck"]
Wäre eine Messung "vertrauenswürdiger", wenn sich die Sparringsengines den Ranglisten entsprechend einordnen?
Oder ist das ermittelte Rating -unabhängig wie sich die anderen einordnen- schon "vertrauenswürdig" genug?
[/quote]

Das kommt darauf an, willst du eine Rangliste aller Enignes erstellen ist dein Testaufbau zu dünn, willst du Spielstärkeunterschiede zw. verschiedenen Loops ermitteln ist es ausreichend. Was genau du willst mußt du entscheiden.
(Nimm einfach mal meine Detailliste im Downlaod und schau dir an wie unterschiedlich die verschiedenen Programme gegen Loop performt haben, eine Rangliste NUR aus den Loopergebnissen, oder jeder anderen Einzelengine, wird nie die "wirkliche" Rangfolge abbilden

[quote="Clemens Keck"]
Ich spiele gegen 4 Sparringsengines, mit mind. 200 Partien je Gegner. 10+5 ZK. Ein Testlauf ca. 1000 Partien.
[/quote]

Na ja, 4 Enignes a 200 Spiele sind halt wenig Gegner. Wenn du Pech hast sind das gerade 4 Enignes gegen die Loop besonders schlecht, oder besonders gut perfomt ... ich würde dann lieber 8 Gegner a 100 Spiele spielen. Was die Zeitkontrolle angeht ist das so eine Sache. Wenn du dir die Partien wirklich ansiehst um Schwächen zu ermitteln ist das OK, wenn es nur um die Statistik geht ist es wohl Zeitverschwndung. Ich selber sehe mir die Partien von Shredderbetas allerdings an, insofern will ich nicht unter 5 + 3 gehen.

Bei mir war es aber ganu so wie bei dir, ich habe genau so getestet. Irgendwann kam der Wille die möglichst beste Gegnerkombination für Shredder herrauszufinden. Dazu brauchte ich eine ordentliche Rangliste, also mußte ich auch Spiele spielen an denen kein Shredder beteiligt war ... und schwups hatte ich eine (wie ich finde gute) Rangliste die mir einfach dazu dient Gegner für einen Enginetest festzulegen ...

Gruß
Ingo
Parent - By Frank Quisinsky Date 2010-09-20 23:45
Hallo Ingo,

so ist es.

Bin früher auch so vorgegangen (Gandalf, Ruffian, Ktulu, AnMon etc..). Viele Gegner, Angstgegner ermitteln und dann bevorzugt gegen die Angstgegner.
Das geht nunmal nur so, in dem eine Ratingliste aufgebaut wird oder auf Ergebnisse bestehender Ratinglisten geschaut wird. Selbst wollte ich dann immer eigene Ergebnisse haben (immer besser wenn selbst eine Aktivität geplant ist, besser hier unabhänigiger zu sein). Aber wenn jetzt eine Engine getestet wird kann ruhig die Datenbasis bestehender Listen zu Grunde gelegt werden.

Gibt da echt viele interessante Kombinationen.
Die Eröffnungsschwäche älterer Fritz Versionen konnte Patzer sehr gut veranschaulichen. Im Mittelspiel gewann dann aber der gute Fritz meist die Oberhand. Oder, Fritz hatte seinerzeit ganz erhebliche Probleme gegen Gromit, verlor viele schnelle Partien gegen Gromit und überhaupt war Gromit immer der Angstgegner. Solche Geschichten stellst niemand fest wenn Fritz immer nur gegen Junior, Hiarcs oder Shredder spielt.

Wichtig ist ja auch Fehler zu finden und da müssen die Angstgegner selektiert werden und nicht die vermeidlich stärksten Programme. Das alles weiß der gute Clemens bei seinen vielen Erfahrungen aber alles. Die Frage ist nur, welche Angstgegner hat Loop.

Loop hat in neueren Versionen stark nachgelassen beim taktischen Spiel. Spielt positionell besser und dafür spielstärker. Allerdings blitzt die ehemals sehr gute Taktik immer wieder auf. Aus dem Stehgreif würde ich die Engine testen gegen Taktiker und starke Endspielengines. Da lag immer eine Schwäche bei Loop. Im Mittelspiel ist die Engine schwer niederzuringen.

01. Spark
02. Hiarcs
03. Hannibal
04. Junior
05. Thinker

Auch gegen Ktulu, Stockfish oder Rybka würde ich testen.
Ohne jetzt in die SWCR Ergebnisse zu schauen.

Vielleicht noch gegen Sjeng und Shredder und ein 10er Testfeld steht.
Aber wie gesagt, dass alles wird der gute Clemens sicherlich besser beurteilen können, da er viel mehr Loop Erfahrungen hat.

Viele Grüße
Frank
Parent - By Gerhard Sonnabend Date 2010-09-20 11:23
Hi Clemens !

Lasse erst mal Deine bisherigen 4 Sparringspartner alle Matches
untereinander austragen, also 6 Matches a 200 Games. Danach nimmst
Du am besten noch 2-4 weitere Engines dazu und schon wird alles
wesentlich genauer bezüglich der Messungen. Der zusätzliche Aufwand
ist auch nicht so viel grösser als bisher.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2010-09-20 15:42
Hallo Clemens,

nehme doch einfach die SWCR Datenbasis.
Partien und Berechnungen, auch die Bayesian Files sind im Download.

Füge Deine Testpartien hinzu und Du wirst ein aussagekräftigeres Ergebnis erhalten.

Nachteil:
Du solltest dann mit SWCR vergleichbaren Bedinungen spielen lassen.

Das ist einfach und macht dann auch für Dich mehr Spass (Deine ELO-Auswertungen).

Ansonsten bringen diese Auswertungen nichts.
Du solltest schon mindestens 10 Gegner haben. Je weniger Gegner desto mehr Partien pro Match sind erforderlich.

Beispiel:

Loop 2010 - Spark 0.4 ... 1.000 Partien
Loop 2010 - Hiarcs 13.1 ... 1.000 Partien

Du hast 2.000 Partien aber ein Rating welches nichts aussagt.
Je mehr Gegner desto weniger Partien und desto aussakräftiger ein Rating.

Ich weiß, sehen einige anders aber nach meinen statistischen Auswertungen ist das absolut klar.

Also, 10 wirklich unterschiedliche Gegner ... je 100 Partien ...
Die Partien zu der SWCR Datenbank geben und ein Rating steht.

Wobei 10x 50 Partien auch für diesen Zweck ausreichen.

Viel Spass beim Beta testen und viel Erfolg dem Loop Team ...

Gruß
Frank
Parent - - By Clemens Keck Date 2010-09-20 19:09
HAllo zusammen

danke für Eure hilfreichen Beiträge. Ich werd was damit anfangen. Mehr Sparringsengines evtl. Auch ein match der Sparringsengines untereinander dürfte es genauer werden lassen.
@Frank: haste schon gelesen von John Darts 4500erPGN? Das könnte auch ne gute Alternative für Tests sein. Über ein Einordnen in Deine Liste denke ich mal nach wenn wir ne richtig super beta haben, im Moment ist der Versionswechsel noch zu häufig.

machts gut,

Clemens
Parent - - By Werner Mueller Date 2010-09-20 21:33
[quote="Clemens Keck"]
HAllo zusammen

danke für Eure hilfreichen Beiträge. Ich werd was damit anfangen. Mehr Sparringsengines evtl. Auch ein match der Sparringsengines untereinander dürfte es genauer werden lassen.
@Frank: haste schon gelesen von John Darts 4500erPGN? Das könnte auch ne gute Alternative für Tests sein. Über ein Einordnen in Deine Liste denke ich mal nach wenn wir ne richtig super beta haben, im Moment ist der Versionswechsel noch zu häufig.

machts gut,

Clemens
[/quote]
Mehr Sparringspartner - ja (ist ja eine Binsenweisheit), aber wenn es Dir nur auf den Test einer Engine (Loop) ankommt, kannst Du auf Matches zwischen den verschiedenen Sparringspartnern getrost verzichten (wäre ja noch schöner, wenn der Loop-Programmierer an irgendwelchen Schrauben drehen müsste - nur weil z.B. Fritz gegen Shredder verliert, oder umgekehrt).

Bei einem gegebenen Pool an Sparringspartnern müsste die Elo dieser einen Engine (Loop) (aber natürlich nicht der Sparringspartner) - bis auf evtl. Rundungsfehler bei der Berechnung - unabhängig davon sein, ob die Sparringspartner untereinander die Klingen kreuzen oder nicht.

Jedenfalls zeigt dieses Beispiel sehr schön, dass die Elo einer Engine nicht vom Himmel gefallen ist, soll heißen: keine feste Größe oder gar im Prinzip beliebig genau messbar ist (da mögen die error bars der 100.000_Partien_Testorgien noch so klein werden und diese Illusion erwecken), sondern wesentlich (u.a. auch) von der Gegnerschaft abhängig ist.
Parent - By Frank Quisinsky Date 2010-09-20 23:52
Genau!
Parent - By Frank Quisinsky Date 2010-09-20 22:51 Edited 2010-09-20 22:56
Hallo Clemens,

ja, verfolge die TalkChess Einträge.
Habe mir die Datenbank von Jon Dart aber nicht angesehen.
Fest steht, das Jon schon seit vielen Jahren sehr interessante Beiträge zu Testsuits schreibt und auch selbst sehr gute Ideen hat.

Dennoch, ich bevorzuge die eigenen Stellungen die alle mittels einer 4-Core Langzeitanalyse von SF 1.7.1 JA x64 überprüft wurden.
Mit diesem hieraus erstellten Buch lies ich bislang ca. 8.000 SWCR Partien erspielen.

Partien die schnell, aufgrund von Buchzügen, entschieden wurden gab es keine.
Auch nur bislang insgesamt 14 Partien die unter 16 Zügen durch Remis mit dreifacher endeten.

Also, hier läuft alles perfekt mit einer eigenen Arbeit die offenbar richtig zufriedenstellend läuft. Bin wirklich sehr zufrieden und habe das Eröffnungsproblem für mich gelöst.
Kann auch auf meinen Webseiten heruntergeladen werden.

Ansonsten, nutze ruhig die SWCR Daten für solche privaten Beta Auswertungen.
Das machen derzeit 4 mir bekannte Programmierer auch und auch 2 mir bekannte Anwender ... nur zu!

Dafür stehen die Daten Online, habe selbst kein Problem damit.
Von mir aus kann die SWCR auch geklont werden, warum nicht ... wenn jemand andere Engines hinzufügen möchte.
Wäre doch prima wenn das passiert !!!

Umrechnungsformel zwecks Verwendung anderer Hardware findet sich auf meiner "Aktuell" Seite.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / Enginetests, Einschätzung der Einzelergebnisse

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill