Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Vergleichende Errorbar: korrekte Berechnung
- - By Stefan Pohl Date 2014-06-11 08:35 Edited 2014-06-11 08:41
Auf talkchess schrieb Larry Kaufman:
"It is nice to see Komodo 7 leading Houdini 4 by twenty points on your 40/20 four-cpu list, because the margin of error for the difference is 18.6 points (calculated by the square root of 15 squared plus 11 squared, which I believe is the correct way to do this). So we can now claim that we have passed Houdini 4 under these conditions with 95% confidence."

Ich habe ja immer gesagt, daß im schlimmsten Fall bei dem Vergleich zweier Elozahlen von zwei Engines die Ergebnisse auch jeweils am Rand der Errorbar liegen können, sodaß die Errorbar eines Vergleichs logischerweise größer ist, als die Errorbar nur einer Engine. Allerdings ist auch klar, daß es wesentlich unwahrscheinlicher ist, daß zwei Ergebnisse in eine bestimmte Richtung abweichen, als wenn man nur eine Errorbar allein (95%) betrachtet.
Allerdings war mir bisher die korrekte Berechnung dieser Vergleichs-Errorbar nicht klar, wenn man diese ebenfalls mit 95%-Wahrscheinlichkeit bestimmen will.
Hat Larry Kaufman Recht?
Falls ja, so wäre bei meinen Stockfish-Testruns mit der Einzelergebnis-Errorbar von 7 die Vergleichserrorbar 9.9 (also gerundet 10 Elo). Ergo müßte eine neue Dev-Version bei meinen Tests mindestens +10 Elo besser sein, damit man mit 95%-Wahrscheinlichkeit davon ausgehen kann, daß sie wirklich stärker ist.
Scheint mir ganz einleuchtend zu sein, aber evt. kann ja jemand mit fundierteren mathematischen Kentnissen sagen, ob die Formel von Larry Kaufman korrekt ist.

Stefan

PS: Im IPON RoundRobin sind die Ergebnisse mit Errorbars von 8 und 9 gelistet. Nimmt man also 8 und 9 als Wert für die genannte Formel, so ergäbe das im IPON RoundRobin eine Vergleichs95%Errorbar von 12 Elo (Wurzel aus 64+81). Also müßte dort eine Engine mindestens 12 Elo stärker sein, damit man mit 95%-Wahrscheinlichkeit sagen kann, daß sie wirklich besser ist.
Parent - By Joe Boden Date 2014-06-11 12:03 Edited 2014-06-11 12:07
So  sophisticated solche Fragestellungen auch sind: der Hausverstand sagt, dass Stockfish mit genügend deutlichem Abstand an der Spitze ist. Da brauch ich keine Errorbar. Es ist ebenso klar, dass Komodo 7 Houdini 4 überholt hat. Jedenfalls sagen mir das meine Turnierergebnisse. Wer andere Eindrücke hat, kann das gerne hier öffentlich vermelden.

Wer's natürlich "wissenschaftlich" genau eruieren will, dem sei unbenommen Lebenszeit dafür zu verschwenden. Wenn's Spaß macht, warum nicht?
Parent - - By Dirk Triebel Date 2014-06-11 13:13
Servus,

quadratische Überlagerung kann man machen, ist aber eine Vereinfachung und damit ungenauer. Additive Bestimmung des Wertes ist meiner Meinung nach erheblich genauer. 

http://www.crgraph.de/Toleranzrechnung.pdf

Gruß,
Dirk
Parent - - By Stefan Pohl Date 2014-06-11 14:20
Dirk Triebel schrieb:

Servus,

quadratische Überlagerung kann man machen, ist aber eine Vereinfachung und damit ungenauer. Additive Bestimmung des Wertes ist meiner Meinung nach erheblich genauer. 

<a class='ura' href='http://www.crgraph.de/Toleranzrechnung.pdf'>http://www.crgraph.de/Toleranzrechnung.pdf</a>

Gruß,
Dirk


Wäre schön, wenn du das mal mit irgendwelchen Elo-Daten aus einer beliebigen Rangliste hier kurz vorrechnen würdest, da ich aus den Ausführungen, die du hier verlinkt hast, nicht wirklich schlau werde. Dann könnte ich (oder du) das mit der rel. einfachen quadratischen überlagerung, die Larry Kaufman favorisiert, vergleichen und sehen, inwieweit die Ergebnisse wirklich voneinander abweichen.

Thanx in advance - Stefan
Parent - - By Dirk Triebel Date 2014-06-11 15:45
Zum Beispiel bei L. Kaufmans Berechnung. Wie ich es verstehe nimmt er die Größte Errorbar Abweichung beim Vergleich der 2 engines. In dem Fall ist es +15 und -11. Wenn ich diese addiere (als Betrag) komme ich auf 26 Elo (additive Betrachtung) größtmögliche Abweichung. Bei der berechneten quatratischen Betrachtung der Messabweichungen komme ich demzufolge auf 18.6 Elo. Mit dieser Berechnung ist er nun unter 20 Elo und wäre nach der Rechnung an H4 ran in dieser Liste.

In deinem Falle kommst Du bei der Addition der Beträge auf 7+7=14 Elo. Wenn du quatratische Betrachtung machst, bist Du bei 9.9 wie Du schon ausgerechnet hast. D.h. man kommt niedriger mit der quatratischen Betrachtungsweise.

Man verwendet quatratische Betrachtungen da diese Extremlagen in der Wirklichkeit jedoch „selten“ erreicht (mit geringer Wahrscheinlichkeit) werden, (wie du auch schon richtig geschrieben hast) kann man hier eine statistische Betrachtungsweise heranziehen und quatratisch betrachten. Weil statistische Fehler mit gleicher Wahrscheinlichkeit einen Wert verkleinern oder vergrößern, d.h. verschiedene in das Ergebnis eingehende statistische Fehler einander teilweise kompensieren, verwendet man eine Formel, die diesen Kompensationseffekt berücksichtigt.

Im Grunde denke ich, dass man bei den Errobars auch eine Abweichung (Toleranz) eines Elo Wertes nach festgelegter Eloberechnung misst. Jedoch hängt es hier auch von der Eloberechnungsmethode ab, die ja auch sehr unterschiedlich sein kann, wie hier bereits festgestellt wurde.

Gruß,
Dirk
Parent - - By Stefan Pohl Date 2014-06-11 16:43
Dirk Triebel schrieb:

Zum Beispiel bei L. Kaufmans Berechnung. Wie ich es verstehe nimmt er die Größte Errorbar Abweichung beim Vergleich der 2 engines. In dem Fall ist es +15 und -11. Wenn ich diese addiere (als Betrag) komme ich auf 26 Elo (additive Betrachtung) größtmögliche Abweichung. Bei der berechneten quatratischen Betrachtung der Messabweichungen komme ich demzufolge auf 18.6 Elo. Mit dieser Berechnung ist er nun unter 20 Elo und wäre nach der Rechnung an H4 ran in dieser Liste.

In deinem Falle kommst Du bei der Addition der Beträge auf 7+7=14 Elo. Wenn du quatratische Betrachtung machst, bist Du bei 9.9 wie Du schon ausgerechnet hast. D.h. man kommt niedriger mit der quatratischen Betrachtungsweise.

Man verwendet quatratische Betrachtungen da diese Extremlagen in der Wirklichkeit jedoch „selten“ erreicht (mit geringer Wahrscheinlichkeit) werden, (wie du auch schon richtig geschrieben hast) kann man hier eine statistische Betrachtungsweise heranziehen und quatratisch betrachten. Weil statistische Fehler mit gleicher Wahrscheinlichkeit einen Wert verkleinern oder vergrößern, d.h. verschiedene in das Ergebnis eingehende statistische Fehler einander teilweise kompensieren, verwendet man eine Formel, die diesen Kompensationseffekt berücksichtigt.

Im Grunde denke ich, dass man bei den Errobars auch eine Abweichung (Toleranz) eines Elo Wertes nach festgelegter Eloberechnung misst. Jedoch hängt es hier auch von der Eloberechnungsmethode ab, die ja auch sehr unterschiedlich sein kann, wie hier bereits festgestellt wurde.

Gruß,
Dirk


Jetzt habe ichs verstanden. Allerdings halte ich eben die reine Addition der beiden Errorbars für einen sehr unwahrscheinlichen Fall, da eben beide Meßwerte nicht nur am Rand der Errorbar liegen müßten, sondern zudem noch am einem bestimmten Rand (nämlich den jeweils voneinander wegweisenden Rändern). Damit wäre die Wahrscheinlichkeit für dieses (fast) WorstCase-Szenario sehr gering und daher m.E. nicht sehr praxisnah. Die quadratische Formel scheint mir doch sehr viel "wirklichkeitsnäher". Die Frage, die mich eigentlich umtreibt, ist, ob Larry Recht hat, wenn er dieser Berechnung eine 95%-Wahrscheinlichkeit auf Korrektheit (wie eben den beiden zugrunde liegenden Errorbars) zuschreibt...

Stefan
Parent - By Dirk Triebel Date 2014-06-11 18:43
Ich denke nicht, das es so einfach ist. Ich verstehe nicht wie er überhaupt auf diese 95% kommt, egal mit welcher Betrachtungsweise? Er bezieht sich hier wohl nur auf die Errorbars und die gespielte Partienanzahl denke ich.

Gruß,
Dirk
Parent - - By Benno Hartwig Date 2014-06-11 19:37 Edited 2014-06-11 19:42
Ich denke, Larry macht das schon richtig.

Die Ermittlung der ELO-Schätzwerte sind Zufallsvariablen Z1 und Z2 und damit auch Z1-Z2
Es gilt für die Varianzen:                  V(Z1) + V(Z2) = V(Z1-Z2)
Somit gilt für die Standardabweichungen     S(Z1)^2 + S(Z2)^2 = S(Z1-Z2)^2
oder eben                                   S(Z1-Z2) = Quadratwurzel(S(Z1)^2 + S(Z2)^2)

Der Radius der 95%-Intervalle ist dann jeweils einfach 2*1,96*Standardabweichung
und für diese Radien gilt dann              R(Z1-Z2) = Quadratwurzel(R(Z1)^2 + R(Z2)^2)

BTW: Wenn du 2 Schätzwerte mit 95%-Intervallen gleicher Breite b hast, dann hat das 95%-Intervall der Differenz die Breite 1,4*b.

Benno
Parent - By Stefan Pohl Date 2014-06-12 04:31
Benno Hartwig schrieb:

Ich denke, Larry macht das schon richtig.

Die Ermittlung der ELO-Schätzwerte sind Zufallsvariablen Z1 und Z2 und damit auch Z1-Z2
<code>Es gilt für die Varianzen:                  V(Z1) + V(Z2) = V(Z1-Z2)
Somit gilt für die Standardabweichungen     S(Z1)^2 + S(Z2)^2 = S(Z1-Z2)^2
oder eben                                   S(Z1-Z2) = Quadratwurzel(S(Z1)^2 + S(Z2)^2)
</code>
Der Radius der 95%-Intervalle ist dann jeweils einfach 2*1,96*Standardabweichung
<code>und für diese Radien gilt dann              R(Z1-Z2) = Quadratwurzel(R(Z1)^2 + R(Z2)^2)</code>

BTW: Wenn du 2 Schätzwerte mit 95%-Intervallen gleicher Breite b hast, dann hat das 95%-Intervall der Differenz die Breite 1,4*b.

Benno


Super! Das wollte ich wissen. Dann sollte Larry also Recht haben. Die Formel werde ich mir mal in meine Unterlagen notieren und im Bedarfsfall zu Rate ziehen. Denn dieser 95%-Intervall ist ja der eigentlich interessante. Man schaut ja bei keiner Engine in einer Rangliste primär auf eine einzelne Elozahl, die gewissermassen im luftleeren Raum schwebt, sondern interessant sind ja immer die Betrachtungen der Elo-Unterschiede, und damit macht man ja immer einen Vergleich zwischen Elowerten. Ergo ist ja diese Vergleichs-Errorbar die eigentlich maßgebliche und nicht die Errorbar des einzelnen Elowerts (den bayeslo oder auch Elostat etc. anzeigen).

Gruß - Stefan
Parent - - By Lars B. Date 2014-06-11 20:02
Hallo Stefan,

Stefan Pohl schrieb:

... immer gesagt, daß im schlimmsten Fall bei dem Vergleich zweier Elozahlen von zwei Engines die Ergebnisse auch jeweils am Rand der Errorbar liegen können ...


abseits Deines eigentlichen Themas mal ein bißchen Korinthenkackerei: Im schlimmsten Fall liegen beide Engines jeweils  außerhalb der Errorbars. Immerhin tut das  jede Engine mit fünfprozentiger Wahrscheinlichkeit.

Grüße
Lars
Parent - By Stefan Pohl Date 2014-06-12 04:24
Lars B. schrieb:

Hallo Stefan,

Stefan Pohl schrieb:

... immer gesagt, daß im schlimmsten Fall bei dem Vergleich zweier Elozahlen von zwei Engines die Ergebnisse auch jeweils am Rand der Errorbar liegen können ...


abseits Deines eigentlichen Themas mal ein bißchen Korinthenkackerei: Im schlimmsten Fall liegen beide Engines jeweils  außerhalb der Errorbars. Immerhin tut das  jede Engine mit fünfprozentiger Wahrscheinlichkeit.

Grüße
Lars


Stimmt. Ich hatte deshalb auch in einem späteren Post in diesem Thread den Begriff WorstCase umd den Zusatz "(fast)" ergänzt.
Diesen Fall (daß ein Ergebnis wirklich außerhalb der Errorbars liegt) lasse ich gedanklich immer außen vor, denn wenn dieser wirklich eintritt, sind sowieso alle Berechnungen und daraus gezogenen Schlußfolgerungen obsolet.

Stefan
Up Topic Hauptforen / CSS-Forum / Vergleichende Errorbar: korrekte Berechnung

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill