Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Spieglein, Spieglein an der Wand
1 2 3 Previous Next  
Parent - By Benno Hartwig Date 2011-09-14 15:53
[quote="Werner Mueller"]Darüber, ob das zu erwartende Ergebnis Schrott oder nicht Schrott ist wird keine Aussage gemacht.[/quote]Gut gesagt.
Die ErrorBars dienen nur dazu, die Beziehung von zu erwartendem ELO-Wert und den realen Schätzwerten stochastisch etwas auszuloten.
Wie gut dieser im wahrscheinlichkeitstheoretischen Sinne 'zu erwartende' ELO-Wert passt zu der Vorstellung, die man von 'der ELO-Wert' oder gar 'der wahre ELO-Wert' hat (was man persönlich so erwartet ), ist eine ganz andere Frage.

Aber, ich denke, die Ratinglisten sind schon meist so gut angelegt, dass die ELO-Werte (die Erwartungswerte und die realen Schätzwerte) ein ganz plausibles Bild ergeben. Und so supergenau sollten diese ELO-Zahlen denn nicht genommen werden. Thanx an alle Ratinglistenbetreiber.

Allerdings: Wenn mal zwei gleichartige ELO-Differenzen in zwei Listen kräftig auseinanderliegen (vielleicht 40 ELO, und beide behaupten eine 95%-ErrorBar von 10 ELO), dann fällt mir schon schwer, hier eine befriedigende Erklärung zu finden. Mit welcher Wahrschinlichkeit mag solch ein Phänomen trotzdem auftreten?

Benno
Parent - - By Frank Quisinsky Date 2011-09-14 16:07
ELO und +- (ersten drei Spalten der Ratinglisten Ausgaben von ELOstat) bedeuten dabei die erspielte (mittlere) ELO und die 95%ige Fehlergrenze von diesem ELO Wert. Dargestellt wird das in +- Abweichung.

Für Dich nochmals kurz:
Die 95%ige Fehlergrenze ist gesetzt.

Du kannst das leicht überprüfen.
Kopiere Dir die 7000 Shredder Partien aus der SWCR Datenbank in eine neue Datenbank. Nun vereinheitliche die 168 Spielernamen zu einen Namen. Shredder hat also 7.000 Partien gegen eine Engine gespielt. Die 95%ige Fehlergrenze ist gleich zu dem Resultat als wenn Shredder nun 168 Gegner gehabt hätte. Mit immer mehr Gegnern wird eine ELO genauer und genau das fehlt den Berechnungen. Das heißt die 95% stehen selbst in Frage!

Gehen wir davon aus, das die Ausgaben OK wären, stellt sich die weitere Frage ob die +- Abweichung auch OK ist.
Ist sie nicht, denn bei wenigen Partien ist +- teils deutlich größer als ausgegeben.

Es wäre schön wenn Du dich etwas näher mit der Materie beschäftigen könntest anstatt mit Begriffen wie "skandalös", "gebetsmühlenartig" daher zu kommen. Das fördert nicht eine vernünftige Diskussion. Ist Dir sicherlich bekannt, oder?

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-09-14 16:10
Hallo,

vergessen
in Ergänzung:

Die Ausgaben zu +- von Bayesian sind hier genauer, aber auch nicht optimal!

Gruß
Frank
Parent - By Frank Quisinsky Date 2011-09-14 16:29 Edited 2011-09-14 16:32
Nehmen wir die 7.000 Shredder Partien:

Code:
9   50 Shredder 12 w32                2800    8    8  7017   60%  2725   36%


Wir sprechen von 2.800 / 8 / 8

Gehen wir davon aus, das nun 7.000 gegen eine Engine gespielt worden wäre müsste richtiger Weise ausgegeben werden:

2.800 / 64 / 64
Macht nicht so richtig Sinn, da die 95% fraglich sind.

Diese ganzen Ausgaben machen nicht wirklich Sinn.

Sinn würde machen:

1. Shredder 12     2.736 - 2.864 bei 7.000 Partien und nur einen Gegner oder ...
1. Shredder 12     2.802 - 2.798 bei 7.000 Partien und 168 Gegnern (auch nicht die 8, die stimmen auch nicht).

Auf +- verzichten wir, bringt nichts!

Interessant nun ab wann die Schwelle an Gegner kommt.
Kommt bei ca. 24-26, dann wirds deutlich niedriger.

Versuche Dich rein zu denken, weg von ELOstat!
Vielleicht wirds dann logischer für Dich!

Bei dieser Berechnung sollte dann die Remisquote gesondert berechnet werden bzw. ausgeben werden.

1. Shredder 12   2.802 - 2.798 7.000 Partien, 168 Gegner, unter Berücksichtigung von 36% Remispartien dann + 2 - 2
Je höher die Remisquote, desto geringer, je niedriger die Remisquote desto höher (das ist gut gelöst und offenbar in die Berechnung von Bayesian eingeflossen).

In wie weit die 95% Einfluss nehmen, nie damit beschäftigt bzw. überlegt wie ein solcher Wert überhaupt Einfluss nehmen könnte. Ein fester Wert mit 95% kann nicht richtig sein.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-09-14 16:41
[quote="Frank Quisinsky"]
Kopiere Dir die 7000 Shredder Partien aus der SWCR Datenbank in eine neue Datenbank. Nun vereinheitliche die 168 Spielernamen zu einen Namen. Shredder hat also 7.000 Partien gegen eine Engine gespielt. Die 95%ige Fehlergrenze ist gleich zu dem Resultat als wenn Shredder nun 168 Gegner gehabt hätte.
[/quote]
Ja was denn sonst? Wäre doch sehr seltsam, wenn Dein Herumspielen mit Engine-Namen an Deinen ErrorBars etwas ändern würde.

[quote="Frank Quisinsky"]
Mit immer mehr Gegnern wird eine ELO genauer und genau das fehlt den Berechnungen. Das heißt die 95% stehen selbst in Frage!
[/quote]
Das ist eine (sehr sinnvolle) Forderung, die DU an Deine Testumgebung stellst. Das juckt doch aber Deine ErrorBars nicht. Nochmal: die ErrorBars machen nur Aussagen INNERHALB DEINER TESTUMGEBUNG.

Wenn Du viele sinnvolle Forderungen an Deine Testumgebung stellst, wird der Erwartungswert 'gut' sein.
Wenn Du zu wenig sinnvolle Forderungen an Deine Testumgebung stellst, wird der Erwartungswert Schrott sein.

Ob 'gut' oder Schrott - die ErrorBars sind dafür nicht zuständig.
Parent - - By Frank Quisinsky Date 2011-09-14 17:17
Hallo,

ja, aber die ErrorBar interessieren mich nicht, da zu ungenau.
Ich schaue nicht daruf!

Nochmals!
Reden wir aneinander vorbei.

Warum mich die ErrorBar nicht interessiert habe ich geschrieben.
Insofern ... egal was die ErrorBars für Aussagen machen oder für was diese zuständig sind.

Schaue etwas tiefer auf die Daten die mir vorliegen und komme mithin zu genaueren Ergebnisse die mir aufzeigen an welchen Stellen die Liste schwächelt.

In Frage steht die 95%ige Fehlergrenze, ganz unabhängig ob die ErrorBars richtige oder falsche Werte gewollt ausgeben.
Beispiele habe ich ja gepostet.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-09-14 17:41
[quote="Frank Quisinsky"]
Hallo,

ja, aber die ErrorBar interessieren mich nicht, da zu ungenau.
Ich schaue nicht daruf!

Nochmals!
Reden wir aneinander vorbei.

Warum mich die ErrorBar nicht interessiert habe ich geschrieben.
Insofern ... egal was die ErrorBars für Aussagen machen oder für was diese zuständig sind.

Schaue etwas tiefer auf die Daten die mir vorliegen und komme mithin zu genaueren Ergebnisse die mir aufzeigen an welchen Stellen die Liste schwächelt.

In Frage steht die 95%ige Fehlergrenze, ganz unabhängig ob die ErrorBars richtige oder falsche Werte gewollt ausgeben.
Beispiele habe ich ja gepostet.

Gruß
Frank
[/quote]
Bis jetzt habe ich Dich ja wenigstens verstanden.

Aber was willst Du denn mit der 95%-Wahrscheinlichkeit (die 95% sind übrigens nicht vom Himmel gefallen, sondern die nimmt Dein Auswertungsprogramm als gesunden Kompromiss zwischen Testaufwand und Zuverlässigkeit) wenn Dich die ErrorBars nicht interessieren?!?
Parent - By Frank Quisinsky Date 2011-09-15 20:01
Die 95% dürfen nicht fest sondern müssen variabel sein.
Parent - By Frank Quisinsky Date 2011-09-14 17:39
Testumgebung:

Nehmen wir an, Engines mit unterschiedlichen Namen, gleichen wichtigen Teilen von Sourcen produzieren doppelte Gegner in einer Testumgebung. Hat das wirklich einen Einfluss? Ich denke auch, dass die Testumgebung so sauber wie möglich sein sollte, völlig verschiedene Engines von Programmierern mit eigenen Ideen. Das kann aber heute nicht wirklich klar festgestellt werden. Werden die starken Sourcen, die verantwortlich sind für das extrem gute späte Mittelspiel - Übergang Endspiel von vielen anderen Programmierren eingebaut, Engines sich plötzlich um 100 ELO aufwärts verbessern spielen verschiedene Engines mit gleichen Stärken.

Genau dieser Punkt ist kritisch!
Oder nicht?

In der SWCR spielen IvanHoe, Houdini, Fire und auch der Critter Programmierer oder der Naum Programmierer machen keinen Hehl daraus in andere Sourcen zu schauen, Ideen die zu den eigenen passen aufzugreifen (ich will nicht sagen komplett 1:1 einbauen). Bei IPON spielen IvanHoe oder Fire nicht. Verändern sich nun die Ratings wenn die IvanHoe oder Fire Partien komplett aus der Liste entfernt wird. Nein, bzw. nur sehr gering hier und dort vielleicht um bis zu maximal 4 ELO. Dennoch, je mehr das werden, oder auch Programme die auf starke Fruit Ideen beruhen, desto mehr verzerren sich die Listen. Merkwürdiger Weise sind dann aber wieder die Ergebnisse der größeren Listen vergleichbar.

Sage mal so:
Ein Beeinflussungsfaktor "leichterer Güte" wie auch andere Beeinflussungsfaktoren wie Spielstufe, Ponder, Bücher, Endspieldatenbanken etc..

Daher die Aussage, je weniger Beeinflussungsfaktoren (Gleiches mit Gleichem vergleichen), desto besser und aussagekräftiger wird eine Ratingliste.

Wird aber jetzt alles an möglichen Beeinflussungsfaktoren in Frage gestellt, ja dann kann schon eine Ratingliste bestehend aus 3 Programmen auseinander gepflückt werden. ELO Formel ist nicht optimal, die Berechnungsprogramme sind nicht optimal, die Beeinflussungsfaktoren beeinflussen.

Das heißt wir müssen mit dem leben was da ist, das beste draus machen und versuchen herauszufinden Schwachpunkte zu verbessern. Wenn wir diesen Ansatz als ein Ziel ansehen, dann dürfen wir zunächst nicht hingehen und uns auf bestehendes ausruhen. Ratinglisten sollten nicht nur den Sinn haben Engines anhand von ELO zu vergleichen, oder zu sehen ob sich neue Versionen verbessert haben sondern die Partien sind wichtig um herauszufinden, wo liegen die Stärken und Schwächen und die Statistiken sind wichtig um herauszufinden wo liegen die Stärken und Schwächen.

Eine gewaltige Liste ist mehr oder weniger ein Rundrumschlag in alle Richtungen hinsichtlich wo kann etwas verbessert werden. Auch bei den Engines, denn die Fehler sind gnadenlos in der Datenbank enthalten.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-09-14 14:23
[quote="Benno Hartwig"]
...
Und man sollte sich bewusst sein, dass bei einer 95%-Errorbar ungefähr eine von 20 Engines so krass falsch eingeschätzt wurde, dass der wahre Wert eben nicht innerhalb der Bar liegt.
Und man weiß nicht, welche Engine...
Benno
[/quote]
Man sollte sich auch bewusst sein, dass im Extremfall (wenn die Testumgebung krass falsch ist) nicht nur ungefähr eine, sondern ungefähr alle Engines krass falsch eingeschätzt worden sein können.

Denn:
Selbstverständlich können die ErrorBars die Güte der Testumgebung nicht irgendwie berücksichtigen.
Sie sagen lediglich aus, dass nach Stand der Dinge der zu erwartende Mittelwert mit z.B. 95%-Wahrscheinlichkeit innerhalb der ErrorBars liegt. Darüber, ob der zu erwartende Mittelwert Schrott oder nicht Schrott ist wird keine Aussage gemacht.

(btw.: ErrorBars werden i.d.R. mit steigender Partienzahl kleiner, allerdings nicht zwingend, z.B. nach 'Serien')

Ob 'die User' die ErrorBars falsch auslegen, weiß ich nicht.
Frank auf jeden Fall, sonst würde er nicht (seit gefühlten Jahrzehnten) obige Selbstverständlichkeit gebetsmühlenartig, immer und immer wieder als einen von ihm entdeckten und geradzu skandalösen mathematischen Missstand verkaufen wollen und in der Konsequenz die ErrorBars mehr oder weniger als Quatsch bezeichnen.
Parent - - By Benno Hartwig Date 2011-09-14 15:55
[quote="Werner Mueller"]Man sollte sich auch bewusst sein, dass im Extremfall (wenn die Testumgebung krass falsch ist) nicht nur ungefähr eine, sondern ungefähr alle Engines krass falsch eingeschätzt worden sein können.[/quote]Im Prinzip richtig. Nur kommt das wirklich vor? Hast ein Beispiel? Was machte konkrete Testumgebungen 'krass falsch'?

Benno
Parent - - By Werner Mueller Date 2011-09-14 16:46
[quote="Benno Hartwig"]
[quote="Werner Mueller"]Man sollte sich auch bewusst sein, dass im Extremfall (wenn die Testumgebung krass falsch ist) nicht nur ungefähr eine, sondern ungefähr alle Engines krass falsch eingeschätzt worden sein können.[/quote]Im Prinzip richtig. Nur kommt das wirklich vor? Hast ein Beispiel? Was machte konkrete Testumgebungen 'krass falsch'?

Benno
[/quote]
Immer vom Hütchen aufs Stöckchen.
Ob es solche schlechten Testumgebungen gibt ist mir egal. Vorstellen oder konstruieren kann man sie sich allemal. UND DANN bekommt man eine Vorstellung davon was ErrorBars eben nicht leisten (können und wollen).
Parent - By Werner Mueller Date 2011-09-15 09:37
[quote="Werner Mueller"]
[quote="Benno Hartwig"]
[quote="Werner Mueller"]Man sollte sich auch bewusst sein, dass im Extremfall (wenn die Testumgebung krass falsch ist) nicht nur ungefähr eine, sondern ungefähr alle Engines krass falsch eingeschätzt worden sein können.[/quote]Im Prinzip richtig. Nur kommt das wirklich vor? Hast ein Beispiel? Was machte konkrete Testumgebungen 'krass falsch'?

Benno
[/quote]
Immer vom Hütchen aufs Stöckchen.
Ob es solche schlechten Testumgebungen gibt ist mir egal. Vorstellen oder konstruieren kann man sie sich allemal. UND DANN bekommt man eine Vorstellung davon was ErrorBars eben nicht leisten (können und wollen).
[/quote]
Vielleicht noch, um keine Missverständnisse aufkommen zu lassen: IPON, CEGT, SWCR, CCRL (Reihenfolge nach meiner persönlichen Präferenz) arbeiten sicher mit sehr guten Testumgebungen.
Up Topic Hauptforen / CSS-Forum / Spieglein, Spieglein an der Wand
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill