Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Level 1'+1" reicht einfach nicht aus ...
- - By GS Date 2014-04-30 20:04
... um vernünftige Spielstärkenmessungen durchzuführen !

Seit einiger Zeit führe ich quasi nebenher eine Ratingliste,
in welcher als Zeitstufe 1'+1" zur Anwendung kommt. Dies
bedeutet bei dem aktuellen Zugdurchschnitt von 86 Zügen eine
Partiedauer von knapp 5 Minuten, gespielt auf einem i5 @ 3.1GHz.

Siehe auch:
http://www.pcschach.de ---> UFRL und AKTUELL und KONDITIONEN

Bereits oberflächliche Vergleiche mit der CEGT 40/4 zeigen, dass
selbst Reihungen (von Abständen will ich gar nicht sprechen) nicht
korrekt abgebildet werden bei solch ultrakurzen Bedenkzeiten. Dies
gilt auch für Vergleiche mit allen anderen Liste, welche mit vernünftigen
Zeitvorgaben geführt werden.

Nachfolgend ein krasses Beispiel:
Code:

*** CEGT 40/4 (ca. 13 Minuten pro Spiel)
Protector 1.6.0 x64 1CPU   2880
Hannibal 1.4 x64 1CPU      2854  - 26

*** UFRL (ca. 5 Minuten pro Spiel)
Protector 1.6.0 x64 1CPU   2839
Hannibal 1.4 x64 1CPU      2840  + 1 (!!)


An der Anzahl der Spiele kann es nicht liegen, nach 2000 derer passiert
i.d.R. nichts messbares mehr.

Bleibt also nur die Spielstufe resp. die zu geringe Gesamtzeit für eine Partie.

Wenn ich darüber nachdenke, dass es Listen gibt in welchen eine Partie
gerade mal 1 Minute oder gar noch weniger andauert, dann ...

Trotzdem werde ich die UFRL weiterführen, auch als Warnung,  und ab und an
neue Engines einbauen, gerade habe ich den Testdurchlauf mit Stockfish 30042014
begonnen.
Parent - - By Benno Hartwig Date 2014-04-30 20:43 Edited 2014-04-30 20:52
Die ermittelte ELO-Differenz unterscheidet sich hier also um 27.

Das 95%-Intervall gibst du ungefähr mit +-12 an. (Richtig?) Jeweils(!) für Protektor und Hannibal.
CEGT gibt für Hannibal ein +-10-Intervall an und für Protector +-15

Die jeweils ermittelte Differenz wird verfälscht durch alle 4 Fehler, die gar nicht mal soo klein sind (Ok: manchmal wird der Differnzwert durch glücklich zusammentreffende Fehler auch besser )

Ich finde das sind noch ganz schön große Intervalle. Und sie versprechen auch nur 95%-Wahrscheinlicheiten? (-> jeder 20te wahre Wert liegt außerhalb des 'versprochenen' Intervalls)
Mit welcher Häufigkeit treten derartige in deinen Augen auffallend große Unterschiede auf?
Wieviele Vergleiche sind da möglich, und fallen nicht auf?

Ich vermute, deine Untersuchung sollte uns auch oder auch vor allem lehren, die Ungenauigkeit jeder Liste etwas deutlicher zu erkennen.
Sie mahnt uns ggf. nicht zu längeren Zeiten sondern zu solchen, die eben doch eine sehr große Anzahl von Partien ermöglichen.
Ansonsten wäre ein Reihenfolge bei Engines mit weniger als 20 ELO realer Differenz ggf. nicht auch nur leidlich vertrauenswürdig ermittelbar.

Nach meinem Eindruck sind die Fehler die man macht, wenn man 1+1-Ergebnisse auf längere Zeiten überträgt, geringer, als wenn man mit zu wenigen (womöglich nur 1000) Partien hantiert.
Ich hatte Stephans Pohls 10000 sehr zu schätzen gelernt, wenn man mehr als nur eine ungefähre Einschätzung will.

Benno
Parent - - By Stefan Pohl Date 2014-04-30 21:28
Benno Hartwig schrieb:

Die ermittelte ELO-Differenz unterscheidet sich hier also um 27.

Das 95%-Intervall gibst du ungefähr mit +-12 an. (Richtig?) Jeweils(!) für Protektor und Hannibal.
CEGT gibt für Hannibal ein +-10-Intervall an und für Protector +-15

Die jeweils ermittelte Differenz wird verfälscht durch alle 4 Fehler, die gar nicht mal soo klein sind (Ok: manchmal wird der Differnzwert durch glücklich zusammentreffende Fehler auch besser )

Ich finde das sind noch ganz schön große Intervalle. Und sie versprechen auch nur 95%-Wahrscheinlicheiten? (-> jeder 20te wahre Wert liegt außerhalb des 'versprochenen' Intervalls)
Mit welcher Häufigkeit treten derartige in deinen Augen auffallend große Unterschiede auf?
Wieviele Vergleiche sind da möglich, und fallen nicht auf?

Ich vermute, deine Untersuchung sollte uns auch oder auch vor allem lehren, die Ungenauigkeit jeder Liste etwas deutlicher zu erkennen.
Sie mahnt uns ggf. nicht zu längeren Zeiten sondern zu solchen, die eben doch eine sehr große Anzahl von Partien ermöglichen.
Ansonsten wäre ein Reihenfolge bei Engines mit weniger als 20 ELO realer Differenz ggf. nicht auch nur leidlich vertrauenswürdig ermittelbar.

Nach meinem Eindruck sind die Fehler die man macht, wenn man 1+1-Ergebnisse auf längere Zeiten überträgt, geringer, als wenn man mit zu wenigen (womöglich nur 1000) Partien hantiert.



So isses.
Die 4 Fehlermargen addieren sich logischerweise bei Vergleichen, wie sie hier angestellt wurden, weil sie im worst-case-Szenario alle "in die gleiche Richtung" (nämlich in die Richtung des größtmöglichen Fehlers) zeigen können (nicht müssen, aber ausschließen kann man es eben nicht). Was dann in der Summe eine Vergleichserrorbar/Gesamtunsicherheitsfaktor/worst-case-maximalAbweichung von (2*12)+10+15=49 ergibt. Und die gemessene Abweichung ist 27.
Also ist alles im Rahmen der Errorbars. Sogar weit innerhalb dieses Rahmens.
Nur mit mehr gespielten Partien kann man diese Unsicherheiten und möglichen Abweichungen bei Vergleichen reduzieren.

Stefan
Parent - - By Frank Brenner Date 2014-05-01 20:08

> Die 4 Fehlermargen addieren sich logischerweise bei Vergleichen,
> Also ist alles im Rahmen der Errorbars. Sogar weit innerhalb dieses Rahmens.


Bei weitem außerhalb, denn "Errorbars" lassen sich nicht addieren.
Parent - By GS Date 2014-05-02 19:24
+ 1!
Parent - - By GS Date 2014-04-30 21:55 Edited 2014-04-30 21:59
Benno Hartwig schrieb:

[...snip...]
Ich vermute, deine Untersuchung sollte uns auch oder auch vor allem lehren, die Ungenauigkeit jeder Liste etwas deutlicher zu erkennen.
Sie mahnt uns ggf. nicht zu längeren Zeiten sondern zu solchen, die eben doch eine sehr große Anzahl von Partien ermöglichen.
Ansonsten wäre ein Reihenfolge bei Engines mit weniger als 20 ELO realer Differenz ggf. nicht auch nur leidlich vertrauenswürdig ermittelbar.
[...snip...]


Wäre schön, ist aber nicht so. Ich hatte noch nicht
einen einzigen Fall bei welchem sich die Zahl jenseits
der 2000 Spiele um mehr als +- 4 geändert hat !
Und das geht bis hin zu über 12000 Spielen !
Vor einiger Zeit hatte ich das hier dargestellt, am
Beispiel der CEGT 40/4 und dies auch noch mit
z.T. sehr alten Engines, das System passt einfach.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=72443#pid72443

10000 Spiele durchführen ist nett, aber für die
Messung nicht notwendig !
Parent - - By Frank Quisinsky Date 2014-05-01 00:58 Edited 2014-05-01 01:06
Hi Gerhard,

jeder der sich auch nur ansatzweise ernsthaft mit diesem Thema beschäftigt hat, oder wirklich mit richtigem Blick verfolgt weiß es.
Ich kenne keinen, niemanden, bis auf ein paar Personen im Forum (oder Verfechter von ... ich will schnell eine Statistik erstellen ... die davon überzeugt sind, das viele Partien für ein gutes Rating notwendig sind. Wiederspricht jeder guten Arbeit wie CEGT oder auch andern Listen aus der Vergangenheit.

In der Regel reichen eigentlich schon 600 Partien aus (bei ca. +-12 in 97% aller Fälle ... nach meiner tatsächlichen Statistik ohne Auswertungsprogramme wie Elostat etc. die uns etwas anders vorgaukeln) wenn gegen viele unterschiedlichen Engines getestet wurde.
2.000 Partien sind schon zu viel ... aber wie gesagt kommt immer darauf an.

Aussage:
Gehst mit den Jahren auch immer etwas höher, gell
Waren bei Dir mal 800, dann 1.200 dann las ich von Dir mal was von 1.400

Nein, es sind ca. 600 Partien.
Aber es kommt auch immer darauf an.

Hast Du viele gleiche Gegner sind natürlich deutlich mehr Partien notwendig.
Spielst Du mit so kurzen Bedenkzeiten wie 1+1 werden es noch mehr Partien.

Egal ...
Ich komme auch nie zu anderen Ergebnisse, egal wie viele Ratinglisten ich noch aufbaue.
Finde das auch nicht so wichtig, denke eher jeder soll daran glauben woran er glauben möchte.
Manche glauben an große Zahlen wie 10.000 andere an Wahrscheinlichkeiten und Berechnungsprogramme.
Interessanter finde ich das was als Ergebnis vorliegt ... also die nackten Tatsachen.

Ich persönlich schaue mehr auf anderen Listen als auf die eigene und an diesen erkenne ich auch nichts anders als an den eigenen (wenn die Beeinflussungsfaktoren gut eingeschränkt sind).

1+1 ist völliger Unsinn ...
Kein Mensch kann solchen Partien folgen, hier geht es nur um eine unsichere Statistik die im Grunde nur den Ersteller oder anderen Erstellern solcher Listen interessiert.

Eine Schachpartie muss in einem vernünftigen Rahmen erfolgen.
Niemand wird heute LIVE 10 Turnierpartien in Folge sich ansehen und zum Nachspielen haben auch nicht alle die Lust.

Also werden Partien gespielt die schön zu verfolgen sind, vielleicht maximal 1 Stunde pro Partie.

Eine FCT1 Partie dauert ca. 50 Minuten ... das ist für mich die Schmerzgrenze beim konzentrierten Zusehen.

Wie gesagt, was interessieren mich 1+1 Partien ... würde ich mir nie ansehen und die Ergebnisse wären mir zu unsicher nach meinen Erfahrungen.
Interessant wird es meines Erachtens auf aktueller Hardware wenn eine Partie ca. ab 20 Minuten dauert.

Schaue Dir mal an wann Junior eine vernünftige Analyse ausgibt ... wie lange die Engine dafür braucht um mehr als einen Zug darzustellen. Quazar spielt schrecklich mit kurzen Zeiten auch Protector läuft nicht warm. Die kommen so schnell nicht zu vernünftigen Ergebnissen, andere Engines dann auch beim Endspiel etc.. Solche Partien machen keinen Sinn und dann direkt 10.000 davon ... mein Gott ... schade um den Strom.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-05-01 01:13
Das prickelnde Geheimnis beim Erstellen einer Liste ist nicht die Genauigkeit des Ergebnisses um Elo Pünktchen nach unten zu treiben (Elo = vierstellige Zahl, Spielstärkemessung regulär reicht drei Stellen, die vierte wäre die Kommastelle), sondern zu verfolgen wie sich eine Engine beim Aufbau der Elo mit niedrigen Partiezahlen verhält. Wann sich durchschnittlich ein Ergebnis stabilisiert. Das festzustellen ist spannend beim Verfolgen einer Rating. Interessant ist es ferner zu versuchen die Partiezahl nicht nach oben zu hiefen, sondern mit immer weniger Partien zu versuchen möglichst ein schnelles gutes Rating zu erzielen. Das gelingt meines Erachtens nur dann, wenn wirklich viele unterschiedliche Engines aktiv sind.

Das ist der Reiz beim Erstellen einer Liste.
Wann wird das Rating genau, nicht hat eine Engine nun nach 2.000 Partien 2.850 oder nach 10.000 Partien 2.855 um dann bei anderen Gegnern die hinzukommen nach 15.000 Partien wieder bei 2.850 zu landen. Ist zu aufwendig und für mich auch zu langweilig.

Auf der anderen Seiten ... unabhängig davon wie viele Partien für ein gutes Rating notwendig sind.
Interessant natürlich wenn 100.000 Partien pro Engine vorliegen, aber nicht wegen dem Rating sondern wegen ganz anderen viel interessanteren Statistiken.
Parent - - By Benno Hartwig Date 2014-05-01 06:51

> Ich hatte noch nicht einen einzigen Fall bei welchem sich die Zahl jenseits der 2000 Spiele um mehr als +- 4 geändert hat!


Ich weiß natürlich nicht, ob die Errorbars korrekt geschätzt wurden. Klar.
Aber ein +-12 bedeutet:
"Bei durchschnittlich jedem 20. Ergebnis wird der wahre Wert außerhalb dieses Intervalls mit Breite 24 sein."
Und das unabhängig davon, ob es einem schon mal aufgefallen ist oder nicht.
Und wenn du dann Abstände vergleichst, dann wirst du bei annähernd jedem 10. Paar wenigstens eine Engine dabei haben, deren Stärke so deutlich falsch bestimmt wurde.

Benno
Parent - - By GS Date 2014-05-01 13:17 Edited 2014-05-01 13:39
Benno Hartwig schrieb:

Ich weiß natürlich nicht, ob die Errorbars korrekt geschätzt wurden. Klar.
Aber ein +-12 bedeutet:
"Bei durchschnittlich jedem 20. Ergebnis wird der wahre Wert außerhalb dieses Intervalls mit Breite 24 sein."
Und das unabhängig davon, ob es einem schon mal aufgefallen ist oder nicht.
Und wenn du dann Abstände vergleichst, dann wirst du bei annähernd jedem 10. Paar wenigstens eine Engine dabei haben, deren Stärke so deutlich falsch bestimmt wurde.

Benno


Das sehe ich anders.
Beim 95er-Auswertungs-Modell können bis zu 5 Messungen per %
ausserhalb der Errorbars liegen, müssen es jedoch nicht zwingend !
Parent - - By Benno Hartwig Date 2014-05-01 14:41

> Beim 95er-Auswertungs-Modell können bis zu 5 Messungen per %
> ausserhalb der Errorbars liegen, müssen es jedoch nicht zwingend !


Es werden durchschnittlich 5% sein.
Mal sind es weniger, mal sind es aber auch mehr.

Wenn du 1000 Engines testest, dann werden ungefähr 50 Ergebnisse davon falsch sein (d.h. außerhalb des Intervalls)
Vielleicht hast du Glück, und es sind nur 45 'falsche' Ergebnisse.
Genauso kannst du Pech haben, und es sind 55.

Benno
Parent - - By GS Date 2014-05-01 14:59
ELO-Stat 1.3 bietet auch 99.7, vielleicht nehme ich das künftig ?!
Parent - By Benno Hartwig Date 2014-05-01 15:08
Dann ist das Intervall aber ca. um die Hälfte breiter.
Die Aussage ist also sicherer , dafür aber ungenauer .
http://de.wikipedia.org/wiki/Standardabweichung#Normalverteilung

Benno
Parent - - By Frank Quisinsky Date 2014-05-01 15:12 Edited 2014-05-01 15:17
Hi Gerhard,

wie bist Du auf 99,7 gekommen bzw. aufgrund welcher Erkenntnis.
Dort bin ich auch mal gelandet als ich die SWCR1 Daten ausgewertet habe.

Interessant ist folgendes:
Nehmen wir an wir hätten bei 1.000 Messungen 30 Ergebnisse die fragwürdig aufgrund der bekannten Auswertungsergebnisse wären, macht es Sinn, diese 30 Ergebnisse mal näher zu untersuchen. Ich gehe da recht simple vor. Ich habe eine Datenbank mit 10 Stellungen aus verschiedenen Spielphasen. Das sind Stellungen in dem mindestens 5 spielbare Züge vorhanden sind, die als gleich gut zu bewerten wären. Ich schaue mir dann an wie sich die Engines, die aus der Reihe tanzen, bei diesen Stellungen in einer Langzeitanalyse verhalten. Mache diesen Test schon seit ich mit den Ratinglisten angefangen haben. In etwa 70% der Fälle ist es so, dass genau diese Engines, die aus der Reihe tanzen, laufend zwischen den Zügen bei der Analyse überproportional oft springen. Im direkten Vergleich dagegen suche ich mir Engines die permanent mit stabilen Ergebnissen glänzen. Und auch hier, in über 80% der Fälle ändern diese Engines deutlich seltener den ersten Zug, gar den zweiten Zug in der Analyse ...

Im Grunde glaube ich, dass selbst bei den 30 Ergebnisse nochmals 20 Ergebnisse gestrichen werden können, weil die Schwankungen eher mit anderen Dingen zu tun haben, die eine Statistik gar nicht messen kann. Das ist z. B. ein ganz wichtiger Punkt der bei den Betrachtungen auch gar nicht beachtet wird weil einfach alles über eine zu einfache Statistik Schiene gestülpt wird.

Pure Statistik macht uns zu gläsernen Menschen. Denke wir sind immer noch intelligent genug um selbst etwas zu erkennen anstatt puren Statistiken hinterher zu hecheln die auf blanken Wahrscheinlichkeiten beruhen. Mir ist das zu einfach und dich denke beim Schach sind die Messungen viel einfacher als wir denken.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-05-01 15:32
Ach so ...

Engines die viel springen oder Engines die wenig springen sind dann auch immer auffällig bei sehr kurzen oder sehr langen Bedenkzeiten meist egal in welche Liste ich schaue. Es sind meist immer die gleichen Engines die durch Stabilität oder Unstabilität auffallen und das hat mit Einsicht nichts mit Statistik zu tun. Diese Schwankungen natürlich auch nur bis zu einer gewissen Anzahl von Partien, weil durch eine hohe Partieanzahl diese Schwankungen weitestgehend stabilisiert werden. Aber ich muss keine 10.000 Partien haben um das zu sehen.

Rein statistisch gesehen ... nehmen wir mal den Wert 5% stellt sich die Frage wie ein Wert X im Detail aufgeteilt werden kann in den Ursachen die zu diesen x% oder meinet wegen 5% führen. Diese Frage beantwortet uns dann nicht mehr die Statistik bzw. maximal in Ergänzung mit anderen Statistiken wird diese Frage beantwortet.

Letztendlich ist der besondere Fall immer interessant.
Kommt es zu einem nicht erklärbaren Ergebnis liegen die Gründe hierfür meist offensichtlich im Raum und das hat dann nichts mit Wahrscheinlichkeitstheorien zu tun weil sich die Statistiker mit den Detailfragen dann gar nicht weiter beschäftigen weil das wahrscheinlich über deren Horizont auf der Jagd nach ultimativen Formeln geht. Ist auch nicht deren Aufgabe wie ich finde.

Es ist nicht falsch nach Erklärungen zu suchen warum es sich nicht um ein Ufo gehandelt hat. Erst wenn sämtliche Erklärungsversuche fehlschlagen und auch keine weiteren Ideen vorliegen sollte die Sichtung dann einfach viele Jahre später nochmals untersucht werden, wenn einfach mehr Erkenntnisse vorliegen. Ist dann etwas 3x bewiesen, in unserem Fall ... drei verschiedene Listen kämpfen mit den gleichen Merkwürdigkeiten diverser Engines schreit das ja förmlich nach ... wir müssen umdenken und gerade hinsichtlich Fortschritt und Entwicklung mutig genug sein zu versuchen andere Wege zu gehen ... die Erkenntnisse müssen einfach einfließen in zukünftiges.

Gruß
Frank
Parent - - By Frank Brenner Date 2014-05-01 20:22

> wir müssen umdenken


Keineswegs. Das Elo Modell ist für das Schachspiel das bei weitem besten Modell um die Spielstärke abzubilden.

Alles andere ist bisher auf dem Nivau von mittelalterlichem aberglaube und geschwätz.

Die Elo Formeln sind kanonisch, d.h. auf einer anderen Welt im Universum würde ebenfalls genau die gleiche Eloformel gefunden werden und wenn Arpad ELO die Formeln nicht niedergeschrieben hätte, so hätten tausende andere Menschen die gleiche formel gefunden.

Die ausgangsvoraussetzung:
Ist A ein x:1-Favorit gegenüber B und B ein y:1-Favorit gegenüber C, so ist gemäß Elos Modell A ein xy:1-Favorit gegenüber C

ist exakt auf das Schachspiel anzuwenden und auf alle Spiele bei denen eine Partie aus ein abwechselndem Ziehen besteht wobei Zug um zug kleine Vorteile geschaffen oder aufgelöst werden und wenn die Summe aller Vorteile ein bestimmtes Maß überschreiten der Gewinn vorliegt.
Parent - By Chess Player Date 2014-05-01 20:34

> wir müssen umdenken


richtig wäre stattdessen: ich muss umdenken!
Parent - By Frank Quisinsky Date 2014-05-01 20:50 Edited 2014-05-01 20:58
Hi Frank,

das mag alles sein und ganz sicher ist die Formel gut.
Aber es gibt neben Formeln, Wahrscheinlichkeiten auch die tatsächlichen Resultate und die sprechen leider eine andere Sprache.

Sorry, aber ich bin der Praktiker, nicht der Theoretiker und glaube das was ich sehe, nicht das was passieren könnte.
Und der richtige Mix aus allem ist das was eigentlich auch gewollt ist ...

Die guten Formeln die wir haben entsprechend anzuwenden.
Und ganz sicher wurden die Formeln nicht fürs Computerschach entwickelt.

Wir sprechen hier über Programme die sich nicht wie Menschen in der Spielstärke entwickeln, sondern immer gleich spielen.
Und ich komme gar nicht zu anderen Ergebnissen als ... beim Computerschach herrschen andere Gesetze, auch wenn ich selbst erkenne und nicht abstreite das vorhandenes teilweise gut anwendbar ist.

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-05-01 19:29

> wie bist Du auf 99,7 gekommen


Die Standardabweichung σ ist ein Wert der die 'Steuung um den Mittelwert herum' beschreibt.
Und direkt mit diesem σ lässt sich in Abhängigkeit von der Breite des Intervalls die Wahrscheinlichkeit angeben, dass ein Zufallswert im Intervall landet.
http://de.wikipedia.org/wiki/Standardabweichung#Streuintervalle
68,3 % der Realisierungen im Intervall µ ± σ,
95,4 % im Intervall µ ± 2σ
99,7 % im Intervall µ ± 3σ

Ein 95% Intervall um ELO-Wert 3000, das mit +-20 angegeben ist, hat also eine Breite von ca. 4σ,
σ ist also 10
Mit Wahrscheinlichkeit 0,95 liegt der wahre Wert in dem Intervall (2980,3020)
Mit ca. Wahrscheinlichkeit 0,997 liegt der wahre Wert in dem Intervall (2970,3030).
Mit ca. Wahrscheinlichkeit 0,683 liegt der wahre Wert in dem Intervall (2990,3010).

Die 3 Aussagen beschreiben dasselbe Phänomen, sie lenken das Augenmerk nur auf verschiedene Aspekte.

Benno
Parent - - By Werner Mueller Date 2014-05-01 20:15
Benno Hartwig schrieb:

Die Standardabweichung σ ist ein Wert der die 'Steuung um den Mittelwert herum' beschreibt.
Und direkt mit diesem σ lässt sich in Abhängigkeit von der Breite des Intervalls die Wahrscheinlichkeit angeben, dass ein Zufallswert im Intervall landet.
<a class='urs' href='http://de.wikipedia.org/wiki/Standardabweichung#Streuintervalle'>http://de.wikipedia.org/wiki/Standardabweichung#Streuintervalle</a>
68,3 % der Realisierungen im Intervall µ ± σ,
95,4 % im Intervall µ ± 2σ
99,7 % im Intervall µ ± 3σ

Ein 95% Intervall um ELO-Wert 3000, das mit +-20 angegeben ist, hat also eine Breite von ca. 4σ,
σ ist also 10
Mit Wahrscheinlichkeit 0,95 liegt der wahre Wert in dem Intervall (2980,3020)
Mit ca. Wahrscheinlichkeit 0,997 liegt der wahre Wert in dem Intervall (2970,3030).
Mit ca. Wahrscheinlichkeit 0,683 liegt der wahre Wert in dem Intervall (2990,3010).

Die 3 Aussagen beschreiben dasselbe Phänomen, sie lenken das Augenmerk nur auf verschiedene Aspekte.

Benno

Was ist denn ein wahrer Wert?
Parent - - By Benno Hartwig Date 2014-05-01 21:31
Sorry, schlampig formuliert:
Statt 'wahrer Wert' und 'Mittelwert' hätte ich besser 'Erwartungswert' gesagt.
Und am besten auch sauber definiert, den Erwartungswert von was ich hier meine. Aber ich denke, dass ergibt sich auch so.
Benno
Parent - - By Werner Mueller Date 2014-05-01 23:08
Benno Hartwig schrieb:

Sorry, schlampig formuliert:
Statt 'wahrer Wert' und 'Mittelwert' hätte ich besser 'Erwartungswert' gesagt.
Und am besten auch sauber definiert, den Erwartungswert von was ich hier meine. Aber ich denke, dass ergibt sich auch so.
Benno
Der Erwartungswert µ liegt doch aber IMMER (d.h. mit der Wahrscheinlichkeit 1) im Intervall µ ± σ.
Parent - - By Benno Hartwig Date 2014-05-02 00:10

> Der Erwartungswert µ liegt doch aber IMMER (d.h. mit der Wahrscheinlichkeit 1) im Intervall µ ± σ. 


Das durch das Experiment ermittelte Intervall liegt aber nur mit kleinerer Wahrscheinlichkeit so, dass es den Erwartungswert umschließt. 
Klar, ich weiß, dass die Formulierungen in diesem Zusammenhang um der Einfachheit und Verständlichkeit Willen gern mal lax sind.
Sonst wären wir in diesem Thread bei Formulierung wie in einem mathematischen Lehrbuch.
Benno
Parent - - By Werner Mueller Date 2014-05-02 01:10
Benno Hartwig schrieb:

Das durch das Experiment ermittelte Intervall liegt aber nur mit kleinerer Wahrscheinlichkeit so, dass es den Erwartungswert umschließt. 
Klar, ich weiß, dass die Formulierungen in diesem Zusammenhang um der Einfachheit und Verständlichkeit Willen gern mal lax sind.
Sonst wären wir in diesem Thread bei Formulierung wie in einem mathematischen Lehrbuch.
Benno

Gibt es neben dem (dann sozusagen nur theoretischen?) Intervall µ ± nσ mit dem Erwartungswert µ in der Mitte des Intervalls auch ein experimentell ermitteltes Intervall mit einem Erwartungswert (welchen?) irgendwo außerhalb dieses experimentell ermittelten Intervalls?
Parent - - By Benno Hartwig Date 2014-05-02 06:02
Die Schätzverfahren zur Spielstärke liefern einen Schätzwert und ein 95%-Intervall drum herum (zwei Zufallsgrößen). Das bedeutet:
Das Verfahren ist so konstruiert, dass dieses Intervall mit 95%-Wahrscheinlichkeit die zu schätzende Größe (z.B. den ELO-Wert) umschließt.

Es sind auch beliebige andere %-Zahlen forderbar. Dann ändern sich halt die Breiten der Intervalle.

Benno
Parent - - By Werner Mueller Date 2014-05-02 16:52
Benno Hartwig schrieb:

Die Schätzverfahren zur Spielstärke liefern einen Schätzwert und ein 95%-Intervall drum herum (zwei Zufallsgrößen). Das bedeutet:
Das Verfahren ist so konstruiert, dass dieses Intervall mit 95%-Wahrscheinlichkeit die zu schätzende Größe (z.B. den ELO-Wert) umschließt.

Es sind auch beliebige andere %-Zahlen forderbar. Dann ändern sich halt die Breiten der Intervalle.

Benno

'Geschätzt' bzw. ermittelt werden soll das Maximum der Verteilungsfunktion der Eloschen Zufallsvariablen ELO-Zahl. Dies geschieht (anders als im Eloschen Modell) mit Hilfe einer Mittelwertstatistik - mit dem Ergebnis, dass sich dieses gesuchte Maximum mit einer jeweiligen (abhängig von n und der Standardabweichung) Wahrscheinlichkeit innerhalb eines Intervalls [Erwartungswert +- n*Standardabweichung] befindet.

Ein möglichst tiefes Verständnis an dieser Stelle ist vor allem deshalb wichtig (und schwammig bis falsche Bezeichnungen wie 'wahrer Wert', 'Mittelwert', 'Erwartungswert' oder 'Schätzwert' sind in diesem Sinne nicht zielführend) weil in genau dieser unterschiedlichen Herangehensweise zur Bestimmung des Maximums DER Unterschied zwischen dem Erstellen von Listenratings (Mittelwertstatistik) und der 'eigentlichen' ELO-Berechnung (Nachjustierung) besteht.
Parent - - By Chess Player Date 2014-05-02 18:48
Code:
Unterschied zwischen dem Erstellen von Listenratings (Mittelwertstatistik) und der 'eigentlichen' ELO-Berechnung (Nachjustierung) besteht.


Der theoretische Unterschied sollte jedem klar sein, nur wie sieht das in der Praxis aus wenn
Ratinglisten nach beiden Veerfahren berechnet würden? Wären sie identisch? Wie groß wären die Unterschiede?
Parent - - By Werner Mueller Date 2014-05-02 21:57
Chess Player schrieb:

Code:
Unterschied zwischen dem Erstellen von Listenratings (Mittelwertstatistik) und der 'eigentlichen' ELO-Berechnung (Nachjustierung) besteht.


Der theoretische Unterschied sollte jedem klar sein, nur wie sieht das in der Praxis aus wenn
Ratinglisten nach beiden Veerfahren berechnet würden? Wären sie identisch? Wie groß wären die Unterschiede?

Wem dieser Unterschied klar ist, stellt diese Frage so nicht.
Parent - By Chess Player Date 2014-05-03 09:51 Edited 2014-05-03 09:55
Doch! Gerade deshalb.

Wäre Carlsen immer noch Elo Weltranglistenbester wenn alle seine Spiele als ein Turnier ausgewertet würden?
Wie hoch wäre dann seine Elo Zahl?
Parent - - By GS Date 2014-05-02 19:39
Werner Mueller schrieb:

[...snip...]
Ein möglichst tiefes Verständnis an dieser Stelle ist vor allem deshalb wichtig (und schwammig bis falsche Bezeichnungen wie 'wahrer Wert', 'Mittelwert', 'Erwartungswert' oder 'Schätzwert' sind in diesem Sinne nicht zielführend) weil in genau dieser unterschiedlichen Herangehensweise zur Bestimmung des Maximums DER Unterschied zwischen dem Erstellen von Listenratings (Mittelwertstatistik) und der 'eigentlichen' ELO-Berechnung (Nachjustierung) besteht.


Das ist aber ein Allgemeinplatz.
Alle Auswertungsprogramme für Engine-Rating-Listen behandeln und werten die Daten aus "wie ein grosses Turnier".
Obwohl natürlich "Nachjustierung" im Sinne ELOs resp. seiner Formel auch möglich wäre.
Nur, wie soll das gehen bei weit mehr als 1000 Spielen pro Tag ? Wir von der CEGT spielen oft 10 oder auch 15
Partien in der selben Minute ... 3 oder 4 Personen, 12 oder bis zu 16 PCs, dann noch, falls Single-Core gespielt
wird, bis zu 64 Spiele gleichzeitig, da reichen nicht mal mehr Zeitstempel im Sekundenbereich um die korrekte
chronologische Reihenfolge abzubilden und nach ELO auszuwerten.
Parent - - By Werner Mueller Date 2014-05-02 21:12
GS schrieb:

Werner Mueller schrieb:

[...snip...]
Ein möglichst tiefes Verständnis an dieser Stelle ist vor allem deshalb wichtig (und schwammig bis falsche Bezeichnungen wie 'wahrer Wert', 'Mittelwert', 'Erwartungswert' oder 'Schätzwert' sind in diesem Sinne nicht zielführend) weil in genau dieser unterschiedlichen Herangehensweise zur Bestimmung des Maximums DER Unterschied zwischen dem Erstellen von Listenratings (Mittelwertstatistik) und der 'eigentlichen' ELO-Berechnung (Nachjustierung) besteht.


Das ist aber ein Allgemeinplatz.
Alle Auswertungsprogramme für Engine-Rating-Listen behandeln und werten die Daten aus "wie ein grosses Turnier".
Obwohl natürlich "Nachjustierung" im Sinne ELOs resp. seiner Formel auch möglich wäre.
Nur, wie soll das gehen bei weit mehr als 1000 Spielen pro Tag ? Wir von der CEGT spielen oft 10 oder auch 15
Partien in der selben Minute ... 3 oder 4 Personen, 12 oder bis zu 16 PCs, dann noch, falls Single-Core gespielt
wird, bis zu 64 Spiele gleichzeitig, da reichen nicht mal mehr Zeitstempel im Sekundenbereich um die korrekte
chronologische Reihenfolge abzubilden und nach ELO auszuwerten.

Nein, das ist kein Allgemeinplatz sondern eine prinzipielle Sache.
Z.B. wäre eine Nachjustierung im Rahmen einer Ratingliste völlig sinnfrei.
Nimm mal an, eine Engine hätte in einer Ratingliste 1000 Partien auf dem Buckel und man lässt diese Engine aus Spaß an der Freude eine Partie spielen und wertet diese (warum eigentlich nicht?) aus.
Schlägt man diese Partie dem 'großen Turnier' zu, dann ändert sich seine Ratingzahl praktisch um Nullkommanix (das ist auch sinnvoll so und liegt in der Natur der Sache, nämlich der Mittelwertstatistik) - bei einer Eloschen Nachjustierung würde die 'aktualisierte' Ratingzahl womöglich (abhängig vom gewählten K-Faktor und der Stärkedifferenz) schon nach einer einzigen(!) Partie außerhalb der Errorbars landen.
Parent - - By GS Date 2014-05-02 21:38
Werner Mueller schrieb:

[...snip...]
Nimm mal an, eine Engine hätte in einer Ratingliste 1000 Partien auf dem Buckel und man lässt diese Engine aus Spaß an der Freude eine Partie spielen und wertet diese (warum eigentlich nicht?) aus.
Schlägt man diese Partie dem 'großen Turnier' zu, dann ändert sich seine Ratingzahl praktisch um Nullkommanix (das ist auch sinnvoll so und liegt in der Natur der Sache, nämlich der Mittelwertstatistik) - bei einer Eloschen Nachjustierung würde die 'aktualisierte' Ratingzahl womöglich (abhängig vom gewählten K-Faktor und der Stärkedifferenz) schon nach einer einzigen(!) Partie außerhalb der Errorbars landen.


Nein, würde sie nicht !
Selbst ein 0-1 gegen eine ELO-Zahl resp. einen Gegner mit ELO=0 würde nach
1000 Partien, welche ja im Petto stehen, absolut nichts ändern.
Oder meinen Sie eine Partie gegen einen x-beliebigen Gegner ausserhalb der
1000 bisher gespielten Partien, also ohne Berücksichtigung derer ?
Parent - By Werner Mueller Date 2014-05-02 21:53
GS schrieb:

Nein, würde sie nicht !
Selbst ein 0-1 gegen eine ELO-Zahl resp. einen Gegner mit ELO=0 würde nach
1000 Partien, welche ja im Petto stehen, absolut nichts ändern.

Sage ich doch ... "praktisch um Nullkommanix"
GS schrieb:

Oder meinen Sie eine Partie gegen einen x-beliebigen Gegner ausserhalb der
1000 bisher gespielten Partien, also ohne Berücksichtigung derer ?

Eine Neujustierung innerhalb der Eloschen Mathematik berücksichtigt GRUNDSÄTZLICH keine 'bisher' gespielten Partien (außer natürlich den Umstand, dass die 'alte' ELO-Zahl nicht vom Himmel gefallen ist)
Parent - - By Frank Quisinsky Date 2014-05-01 14:57
Richtig ... können!
Und die willkürlichen 5% können auch 3% oder 7% oder 2% sein.

Und auf "können" zu warten, wenn die Beeinflussungsfaktoren eingegrenzt sind ...

Benno, ehrlich!
Da spiele ich lieber Lotto, denn die Wahrscheinlichkeit dort zu gewinnen ist höher als bei einer vernünftigen Liste auf einen 5% Fall zu warten.
Und wenn Du das nicht nachvollziehen kannst, schaust Du dir die falschen Listen an, sorry sonst kann ich mir Deine vielen Antworten zu diesem Thema nicht mehr erklären.

Gibt genug Datenbanken hierzu die frei zu laden sind und anhand vom Datum der Partien das soooo leicht zu überprüfen ist.
Parent - - By Benno Hartwig Date 2014-05-01 21:37 Edited 2014-05-01 21:41

> Benno, ehrlich!
> Da spiele ich lieber Lotto, denn die Wahrscheinlichkeit dort zu gewinnen ist höher als bei einer vernünftigen Liste auf einen 5% Fall zu warten.


Frank, ehrlich (SCNR), du kannst die Realität zur Kenntnis nehmen und das, was die Stochastik uns über sie erklärt,
oder du kannst dies um irgendwelcher Glaubensinhalte Willen bleiben lassen.
Benno
Parent - By Frank Quisinsky Date 2014-05-01 22:18
Hi Benno,

ich betrachte Stochastik als Ergänzung.
Mehr ist es nicht.

Schaue lieber auf die Realitäten, wie gesagt die schauen anders aus, egal was ich für Auswertungen mache.
Zugeben muss ich allerdings, dass das was wir wissen und was auf der Plus Seite hinsichtlich Statistik steht gut anwendbar ist.
Aber wollen wir noch genauere Auswertungen sollten wir die Stochastik als Ergänzung sehen, denn wie gesagt dann erst wird's interessant ... denn durch den Forschungsdrang können wir immer noch Dinge verbessern. Wir sind noch nicht am Ende der Fahnenstange ... wäre es so wäre es echt schade.

Schaue Dir mal den Ponder on/off Vergleich an.
Eine gute Statistik mehr die uns etwas erklären möchte bzw. die uns Erkenntnisse gerne bestätigt.

Gruß
Frank
Parent - - By GS Date 2014-05-01 13:18
GS schrieb:

[...snip...]
Trotzdem werde ich die UFRL weiterführen, auch als Warnung,  und ab und an
neue Engines einbauen, gerade habe ich den Testdurchlauf mit Stockfish 30042014
begonnen.


Die ersten 600 Spiele sind gerade fertig geworden.
Parent - - By GS Date 2014-05-02 10:11
Nach nun 1400 Spielen sieht es wie folgt aus:
Code:

Stockfish 30042014 x64 1CPU
vs Houdini 4.0 x64 1CPU    [3100]  113.5- 86.5  perf=3147
vs Komodo TCEC x64 1CPU    [3045]  118.0- 82.0  perf=3108
vs Gull 3.0 x64 1CPU       [3023]  131.5- 68.5  perf=3136
vs Equinox 3.00 x64 1CPU   [2992]  135.0- 65.0  perf=3119
vs Critter 1.6 x64 1CPU    [2989]  130.0- 70.0  perf=3097
vs Rybka 4.1 x64 1CPU      [2950]  140.5- 59.5  perf=3099
vs Chiron 2.0 x64 1CPU     [2862]  158.0- 42.0  perf=3092

  926.5 out of 1400 = 66.2% = + 117 | Ø 2994 + 117 = 3111

 
Bemerkung:
nicht vergessen, gespielt wird lediglich Level 1'+1",
also ultra fast, deshalb auch der Titel der Rangliste "UFRL".

Konditionen, Zwischenstände und weiteres unter:
http://www.pcschach.de
Parent - - By Patrick Götz Date 2014-05-02 10:56
Auch wenn die Liste als Warnung gedacht ist, für mich ist sie eine willkommene erste Vorstellung von Stockfish 30042014 
Parent - By GS Date 2014-05-02 11:02
Patrick Götz schrieb:

Auch wenn die Liste als Warnung gedacht ist, für mich ist sie eine willkommene erste Vorstellung von Stockfish 30042014 


Darf sie ja auch gerne sein ("eine willkommene erste Vorstellung").
Nur, ich denke schon, dass der Hinweis auf die doch sehr sehr
kurze Bedenkzeit von nöten ist - sicher ist sicher.
Parent - By Tom Paul Date 2014-05-01 14:50
Wie wäre es mit 1+3 oder 1+5?
Up Topic Hauptforen / CSS-Forum / Level 1'+1" reicht einfach nicht aus ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill