Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / ELO-Einschätzung nach Testreihen gegen einige Gegner
- - By Benno Hartwig Date 2011-11-21 14:01
Angenommen Engine E hat gegen Engines A, B und C diverse Partien gespielt:
-  gegen A (2000 ELO) ein 50:30
-  gegen B (2200 ELO) ein 20:20
-  gegen C (2300 ELO) ein 30:40
Die Gegner haben also unterschiedliche Spielstärken (gem. Einschätzung aus großen Ratinglisten),
und die Anzahl der gespielten Parteien gegen die einzelnen Gegner ist unterschiedlich.

Wie komme ich dann möglichst sauber und mit dem ELO-System möglichst verträglich zu einer Einschätzung der Spielstärke (einer ELO-Zahl) für meine Engine E?
Welches Tool oder welche Internetseite hilft ggf. weiter?
Oder einfach welche Formel?

Thanx,
Benno

PS:
Falls das doch schwierig sein sollte, können wir auch erstmal jeweils ein gleiche Anzahl von gespielten Partien annehmen.
Parent - - By Simon Gros Date 2011-11-21 14:40
Einfach ELO-Stat nehmen. Im Beispiel ist der Gegnerdurchschnitt 2166, die erzielte Performance 52.6%. ELO-Stat ermittelt hierfür eine Zahl von 2184.
Simon_G
Parent - - By Benno Hartwig Date 2011-11-21 16:01
[quote="Simon Gros"]Einfach ELO-Stat nehmen. Im Beispiel ist der Gegnerdurchschnitt 2166, die erzielte Performance 52.6%. ELO-Stat ermittelt hierfür eine Zahl von 2184.
[/quote]Thanx, ja, ELO-Stat hilft mir wohl weiter.

Nur darf man ihn so anwenden? Da wird der Gegnerdurchschnitt berechnet (2000+2200+2300)/3, und es wird nicht berücksichtigt, gegen wen eigentlich wie oft gespielt wurde. Und schließlich darf doch nicht egal sein, ob ich vor allem gegen den schwächsten oder den stärksten gespielt habe, oder?

Müsste ich ggf. in meinem Beispiel die durchschnittliche Gegnerstärke folgendermaßen berechnen:
(2000*80 + 2200*40 + 2300*70)/(80+40+70) = 2153

ELO-Stat (sah ich mir jetzt erst genauer an) spuckt dann aus:
Code:
Wins   = 100
Draws  = 0
Losses = 90
Av.Op. Elo = 2153

Result     : 100.0/190 (+100,=0,-90)
Perf.      : 52.6 %
Margins    :
68 %      : (+  3.6,-  3.6 %) -> [ 49.0, 56.2 %]
95 %      : (+  7.1,-  7.1 %) -> [ 45.5, 59.7 %]
99.7 %    : (+ 10.7,- 10.8 %) -> [ 41.8, 63.3 %]

Elo        : 2171
Margins    :
68 %      : (+ 25,- 25) -> [2146,2196]
95 %      : (+ 50,- 50) -> [2122,2221]
99.7 %    : (+ 76,- 76) -> [2095,2248]


Sind diese 2171 ELO dann eine ungefähr seriöse Spielstärkeeinschätzung für E?
(natürlich unter der Annahme, dass A, B und C korrekt bewertet waren)

Benno
Parent - - By Simon Gros Date 2011-11-21 16:15
Vermutlich ist es genauer die unterschiedlich große Anzahl an Partien durch solch eine Maßnahme auszugleichen. Ich hatte schon mal was zu diesem Thema geschrieben, allerdings wurden seinerzeit immer 100 Spiele pro Kandidat ausgetragen/angenommen.
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41397#pid41397
Simon_G
Parent - By Benno Hartwig Date 2011-11-21 16:38
[quote="Simon Gros"]...Ich hatte schon mal was zu diesem Thema geschrieben, allerdings wurden seinerzeit immer 100 Spiele pro Kandidat ausgetragen/angenommen.[/quote]Oh, da war meine Fragestellung ja fast genau so schon einmal.
Und es ist auch noch gar nicht so lange her gewesen. Sorry, hatte ich nicht drauf.
Benno
Parent - - By Simon Gros Date 2011-11-21 16:22
Sorry, zu früh abgeschickt. Ob dies alles zu einer "seriösen Spielstärkeeinschätzung" führt hängt von weiteren Dingen ab. Vor allem von der Anzahl der Spiele, siehe auch die sehr großen Margins im o.g. Beispiel. Auch die Anzahl der möglichst unterschiedlichen Gegner sollte man nicht vergessen dabei.
Simon_G
Parent - By Benno Hartwig Date 2011-11-21 18:18
[quote="Simon Gros"]Ob dies alles zu einer "seriösen Spielstärkeeinschätzung" führt hängt von weiteren Dingen ab...[/quote]Klar. Ich wollte halt gern 'die seriöseste Schätzung' hinbekommen, die anhand der verfügbaren Daten möglich ist.
Benno
Parent - - By Michael Scheidl Date 2011-11-22 10:06
Zitat:
Müsste ich ggf. in meinem Beispiel die durchschnittliche Gegnerstärke folgendermaßen berechnen:
(2000*80 + 2200*40 + 2300*70)/(80+40+70) = 2153

Meine ich auch, und anhand der Eloperformancetabelle, URL siehe unten, kommt man für 52,6% auf ca. +18 (Daumen-Interpolation ). 2153+18 ergibt die 2171 von EloStat als Gegenbestätigung. Paßt.

Vermutlich ist das dennoch eine "Näherung" bzw. hängt vom Ratingsystem ab, denn wie ich immer lese würde Bayesian Elo (anders) einberechnen, ob Punkte aus Siegen bzw. Niederlagen, oder aus Remis hervorgegangen sind. Ich glaube, Bayesian berücksichtigt auch die Farbe, was ich für besonders wichtig halte, wobei ich mich vielleicht irre...
Parent - - By Benno Hartwig Date 2011-11-22 13:16 Edited 2011-11-22 13:22
[quote="Michael Scheidl"]..., denn wie ich immer lese würde Bayesian Elo (anders) einberechnen, ob Punkte aus Siegen bzw. Niederlagen, oder aus Remis hervorgegangen sind. [/quote]Lässt sich kurz umreißen, was Bayesian so macht mit der remis-Quote?

In welcher Weise wird ein
     +50 =20 -30 (=60% Ausbeute)
anders bewertet als
     +40 =40 -20 (=60% Ausbeute)
oder
     +60 =00 -40 (=60% Ausbeute)
oder
     +20 =80 -00 (=60% Ausbeute)

Schmeißt Bayesian für diese Fälle eine unterschiedliche ELO-Differenz raus?
Gemäß
http://www.schach-computer.info/wiki/index.php/ELO-Zahl
würde ich für alle diese Fälle eigentlich schlicht 72 oder 73 ELO Differenz erwarten.
ELOstat präsentiert in diesen Fällen übrigens jeweils eine Differenz 70 ELO. (warum eigentlich nicht 72 oder 73?)

Benno
Parent - - By Benno Hartwig Date 2011-11-22 14:12
[quote="Benno Hartwig"]ELOstat präsentiert in diesen Fällen übrigens jeweils eine Differenz 70 ELO. (warum eigentlich nicht 72 oder 73?)[/quote]PS:
Gemäß der ELO-Formel wird für einen 60%-Erfolg folgende ELO-Differenz errechnet:
     EloDifferenz=-400*LOG(1/Erfolg-1;10) = 70,436
ELOstat hat also schon recht.
Die Tabelle liegt wohl ein wenig daneben.

Benno
Parent - - By Michael Scheidl Date 2011-11-25 10:25
Zitat:
Die Tabelle liegt wohl ein wenig daneben.

Ich bin nicht sicher, nehme aber an daß es eher die Formel ist, die eine (gute) Näherung macht.
Parent - - By Benno Hartwig Date 2011-11-25 10:54
[quote="Michael Scheidl"]Ich bin nicht sicher, nehme aber an daß es eher die Formel ist, die eine (gute) Näherung macht.[/quote]Die Formel hatte ich abgeleitet aus derjenigen, die ich auf http://de.wikipedia.org/wiki/Elo-Zahl fand.

      EA=1/(1+10^((RB-RA)/400))

Ich glaubte halt, dass dieser Zusammenhang der Festlegung des ELO-Systems zugrunde liegt. Tut er nicht?

Benno
Parent - By Michael Scheidl Date 2011-11-25 12:36
Offenbar wirklich... obgleich laut Anmerkungen nur Elodifferenzen von max. 400 eingesetzt werden dürfen. Vielleicht kommen davon die Unterschiede zur Tabelle? Ich habe das Gefühl immer weniger davon zu verstehen, je länger ich mich damit beschäftige. Ich muß stoppen, um mir letzte Reste von Halbwissen zu bewahren.

Doch noch etwas: Der engl. Wikipedia-Artikel zum Elosystem hat unter "Performance rating" eine andere(?) Formel anzubieten, und verweist auf die FIDE-Tabelle.

http://en.wikipedia.org/wiki/Elo_rating_system#Performance_rating

Diesem Artikel zufolge verwenden manche Schachverbände die Formel für eine Performanceberechnung, aber die FIDE benutzt die Tabelle.
Parent - By Simon Gros Date 2011-11-22 15:06
Es würde mich doch stark wundern wenn Bayesian etwas anderes als 70 Punkte melden würde. Dies wäre schlichtweg falsch nach der ELO-Formel!
Simon_G
Parent - By Ernest Bonnem Date 2011-11-22 21:22
[quote="Michael Scheidl"]anhand der Eloperformancetabelle, URL siehe unten, kommt man für 52,6% auf ca. +18 (Daumen-Interpolation ).[/quote]
Keine Eloperformancetabelle nötig:  
da 52,6 in der Nähe 50 ist (allerdings zwischen 40 und 60) geht die Annäherung gut:

2,6 mal 7  = 18 Elo
Parent - - By Gabriel Seiferl Date 2011-11-22 08:59
ELO-STAT kannst dir für den Zweck auch sparen.
Ich schätze das wie folgt ab.

Von der Erfogsquote (gewonnene Spiele/(gewonnene Spiele +verlorene Spiele)) werden 50% abgezogen und das dann mit 200 Multipliziert und auf den alten ELO-Wert aufaddiert ergibt den neuen ELO-Wert. Das wird mit allen Ergebnissen so und berechnet und anschliessend der (gerundete) Mittelwert aller neuen ELO-Werte ermittelt.
In deinem Beispiel :
gegen A (2000 ELO) :  (50/80-0,5) * 200 = 25 +2000 = 2025 ELO
gegeb B (2200 ELO) :   (20/40-0,5) *200 =   0 +2200 = 2200 ELO
geben C (2300 ELO) :  (30/70-0,5) *200  = -14+2300=  2286 ELO

(2025+2200+2286)/3= 2170,33 ELO -->  gerundet : 2170 ELO

Die ELO für E ist also : 2170

g.
=====================
Parent - - By Michael Scheidl Date 2011-11-22 09:53
Ich fürchte, das hat mit Elo nicht mehr viel zu tun. Laut der offiziellen Elo-Performancetabelle bei der FIDE bedeuten 62,5% ca. +90 Elo zum Gegner, und 43% -50 Elo. Des weiteren ist die Durchschnittsbildung zu stark vereinfacht, da die Matches ja ungleiche Partienzahlen aufweisen. Man müßte das entsprechend gewichten.

http://www.fide.com/fide/handbook.html?id=73&view=article

(die FIDE ändert leider gerne diese Deep-URL, also sorry wenn sie nächste Woche nicht mehr stimmt )
Parent - - By Chetan Reinhard Date 2011-11-24 22:17
Hi,

Ich finde  der Gabriel hat das ganz gut gerechnet. Sein Ergebnis stimmt ja soweit mit dem Ergebnis aus dem ELO-System auch überein. Warum also so kompliziert in ELOs rechnen mit Performance-Tabelle und Gewichtungen...

Nennen wir Gabriels Methode mal ein "GS-System" anstelle von "ELO-System". Dann ist die Idee des GS-System leicht zu verstehen. Ein Unterschied von 100 GS-Punkten bedeutet, das die Gewinnrate 100% ist (von dem Spieler mit der höheren GS-Zahl also alle Spiele gewonnen werden. Dieser Spiele ist dann EINE KLASSE STÄRKER)  Ein GS-Zahl Unterschied von 0 GS-Punkten bedeutet, das die Gewinnrate 50% ist. Zwischenwerte sind linear zu rechnen. Dann hat der Gabriel soweit richtig gerechnet. Allerdings sollte im GS-System berücksichtigt werden, das nur Spiele zwischen Gegnern gewertet werden können, deren GS-Punkte-Abstand 100 GS-Punkte nicht überschreitet. In der ersten Iteration einer rekursiven Berechnung werden alle Speile zunächst berücksichtigt. Die erste Iteration liefert 2170 . In der nächsten Iteraton (rekursive Berechnung) ist dann nur noch gegen B zu werten , weil nur B mit 2200 innerhalb der Grenzen 2170+-100 liegt !

Als seriöses Ergebnis für Engine E ergibt sich daraus die Wertungszahl 2200 !!
=========================================================
Grüsse
Che
Parent - - By Michael Scheidl Date 2011-11-24 23:55
Zitat:
Sein Ergebnis stimmt ja soweit mit dem Ergebnis aus dem ELO-System auch überein.

Stimmt überhaupt nicht überein. Laut FIDE-Tabelle bedeuten 100% eine Wertungsdifferenz von 800, nicht 100.

Zuerst fragst Du, "warum alles so kompliziert", aber dann kommst Du mit Iterationen und rekursiven Berechnungen daher?! Jedes weitere Wort sinnlos.
Parent - - By Chetan Reinhard Date 2011-11-25 07:59
Verstehe ich das FIDE-Bewertungssystem so richtig ?
Angenommen ein Spieler A hat 2600 ELO und der Spieler B hat 1400 ELO beide spielen ein Schachspiel.
Angenommen B gewinnt die Partie.
Verstehe ich das richtig,das dann nach FIDE der Spieler B 100% hat und nun also 800 ELO-Punkte dazu erhält, während A 0% hat und 800 ELOS abgezogen bekommt ????
 
Parent - By Michael Scheidl Date 2011-11-25 10:14 Edited 2011-11-25 10:23
Nein, bei der tatsächlichen Elowertung (im Gegensatz zu einer Elo-Einzelleistung) geschieht das erstens nur in Intervallen über längere Zeiträume bzw. mehrere oder viele Partien hinweg, und es ist komplizierter, mit Entwicklungsfaktor und so... Damit kenne ich mich nicht aus.

Allerdings ist es auf Schachservern ähnlich wie von Dir beschrieben, dort bewegt sich ein Rating mit jeder Partie... allerdings nicht um so viel. Da gibt es Obergrenzen wieviel man max. je Partie gewinnen oder verlieren kann. Ich kenne sie nicht, vermute aber ungefähr +/- 50 Punkte. Das sind aber keine Elowertungen á la FIDE, sondern an einen "live" Serverbetrieb angepaßte Systeme.

Auf Engine-Spielstärken ist das kaum anwendbar, da diese (bestimmte Version) ja im Prinzip keiner Entwicklung unterliegen, abgesehen von evtl. Lerneffekten mit eher geringer Auswirkung auf eine Gesamtspielstärke. Daher geht es hier einfach um die Performanzen, d.h. die Leistungen werden immer so betrachtet als wären sie zum selben Zeitpunkt erbracht worden. Sämtliche Partien die in eine Enginerangliste einfließen, stellen in diesem Sinn ein- und dasselbe riesige Turnier dar das für die Ratings ausgewertet wird.
Up Topic Hauptforen / CSS-Forum / ELO-Einschätzung nach Testreihen gegen einige Gegner

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill