Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Ratingdifferenzen nach mehreren Tausenden Partien
- - By Gerhard Sonnabend Date 2014-01-13 10:46
Hi !

Man kann hier und auch an anderer Stelle sehr häufig lesen, dass so und
soviele Partien notwendig sind um stabile Ratings zu erhalten. Die Spanne
erstreckt sich hierbei von 500 Spielen bis hin zu mehreren 10000.

Ich habe nun einfach mal vollkommen wahllos Engines aus einer alten Liste
aus dem Jahr 2008 genommen und mit den aktuellen Ratings verglichen.
Einziges Kriterium war, dass viele weitere Spiele für die jeweiligen
Vergleichsengines in den letzten Jahren hinzugekommen sind.

Code:

** November 2008 **
Zappa Mexico II x64 1CPU  2696 out of 1300 games
Rybka 1.1 w32 1CPU        2685 out of 1910 games
Fruit 2.3.3f Test Beta    2663 out of 4100 games
Fritz 10                  2638 out of 3415 games
Loop 13.6 w32 1CPU        2635 out og 2954 games
Naum 2.2 w32 1CPU         2596 out of 2892 games
Shredder 7.04 1CPU        2533 out of 2177 games

** Januar 2014 **
Zappa Mexico II x64 1CPU  2694 out of 6490 games  - 2 / 5190 zusätzliche Games
Rybka 1.1 w32 1CPU        2687 out of 6362 games  + 2 / 4452 zusätzliche Games
Fruit 2.3.3f Test Beta    2660 out of 8150 games  - 3 / 4050 zusätzliche Games
Fritz 10                  2637 out of 5519 games  - 1 / 2104 zusätzliche Games
Loop 13.6 w32 1CPU        2638 out of 5353 games  + 3 / 2399 zusätzliche Games
Naum 2.2 w32 1CPU         2595 out of 4492 games  - 1 / 1600 zusätzliche Games
Shredder 7.04 1CPU        2534 out of 4253 games  + 1 / 2076 zusätzliche Games


Sehr schnell erkennt man, dass sich so gut wie überhaupt nichts ändert !
Auch anzumerken wäre, dass man sehr wohl Ranglisten wie z.B. die CEGT 40/4
führen kann/darf, welche nun schon über 10 Jahre besteht, siehe auch:
http://www.husvankempen.de/nunn/blitz.htm

Alte oder gar sehr alte Programme werden eben nicht im Vergleich zu neueren
Programmen benachteiligt, das ELO-Rating-System funktioniert äusserst gut.
Die "Alten" bringen auch auf modernen Maschinen "ihre" Wertung.

Viele Grüsse,
G.S.
Parent - - By Michael Scheidl Date 2014-01-13 13:37
Danke für diese Feststellung, die hoffentlich den Statistikwahn auf realistische Dimensionen zurück zu stutzen hilft. Einen Bedarf an allzu vielen, zigtausenden Testpartien hab ich schon rein intuitiv nie akzeptieren wollen. Schön, daß das jetzt "faktenkundig" bestätigt ist. - Ohne undankbar klingen zu wollen, gegenüber Testern die halt doch größten Wert auf besonders viele Partien legen.

Weil es an einem Nutzeffekt den solche sehr großen Partienzahlen haben, nichts ändert: Minimierung des Vertrauensintervalls. Nicht daß ich das je fordern, und schon garnicht selber durchführen würde... Dafür ist der Enginesektor in zu heftiger Bewegung, und die Anwendungssituationen zu unterschiedlich. Aber wenn sich Leute an einer besonders großen Genauigkeit der Messungen sozusagen erfreuen wollen, spricht auch nichts dagegen.
Parent - - By Gerhard Sonnabend Date 2014-01-13 14:51
Im Grunde ist es mir egal ob jemand 5000, 10000 oder gar noch mehr Spiele spielen lässt.
Ist ja nicht meine Zeit und/oder mein Geld.

Ich muss nur schmunzeln wenn zur Sprache kommt, dass sich jenseits der 3000-Spiele-Marke
(oder gar der 5000er Marke ?) noch etwas erwähnenswertes ändert.
So sich denn ein Rating nach 3000 oder mehr Spielen tatsächlich noch im Bereich von mehr
als +- 10 ändert (alles andere ist nicht erwähnenswert !), hat man vorher einen oder
mehrere Fehler eingebaut.
Ich würde in solchen Fällen zuerst einmal die Durchführungsbedingungen gründlich überprüfen
und danach entsprechend berichtigen !
Dies alles gilt aber ausdrücklich NICHT für 2- oder 3-Kämpfe. Hierbei ist ein anderer
Massstab anzulegen ob der geringen Anzahl an (verschiedenen) Engines und deshalb spielt
hierbei die Gegnerauswahl eine sehr (zu ?) grosse Rolle.
Ab ca. 10-15 (verschiedenen) Programmen jedoch gibt es diesbezüglich keinerlei Probleme,
und diese dürfen dann auch gerne in der Leistungsstärke deutlich auseinander liegen. Selbst
mehr als 400 Punkte Unterschied bereiten keinerlei Probleme.
Parent - By Frank Quisinsky Date 2014-01-13 15:50
Hi Gerhard,

genau!
Wobei auch 3.000 sind meines Erachtens schon zu viel.

Nach meinen Statistiken gab es drei Fälle bei ca. 200 getesteten Engines in der SWCR1 und SWCR2 wo sich nach mehr als 1.000 Partien noch was über +-10 verändert hat. Und wenn ich mir diese drei Fälle ansehen wird auch klar warum. Es gab bei den 100er Auswertungen 2 oder 3 schlechte Serien innerhalb der 10. Das wird mir nicht nochmal passieren. Heißt wenn ich so einen Fall nochmals habe, sehe ich es selbst anhand der neuesten Auswertung die ich mir da habe einfallen lassen. Wenn denn dann dennoch ein Rating stark steigt oder fällt muss das andere Gründe haben und hat meist auch andere Gründe.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-13 14:22
Hallo Gerhard,

die CEGT hatte immer sehr genaue Zahlen, konnte nie grobe Dinge sehen wenn ich mit meinen eigenen Listen verglichen haben. Oft frage ich mich warum das so ist, vielleicht weil 40/20 bei Euch immer sehr nahe an meinen Bedingungen liegt. Hier und dort mal zu Jonny oder Junior derzeit aber die Gründe sind mir klar. Vermute das es auch an den vielen Gegnern liegt, denn nach einem Muster wird die 40/20 ja nicht geführt und Ponder ist auch ausgeschaltet bei dieser Liste. Der Ponder Effekt bewirkt zwar total andere Partien aber der Einfluss ist gering. Das Kräfteverhältnis bleibt.

Also mir ist das logisch, dass sich bei mehr Partien nicht wesentlich etwas bewegt. Wenn ich die 1.000 Partien voll habe kann ich im Grunde wirklich abschließen. Ob dann mal eine Engine noch 10 ELO drauf legt oder verliert hängt meist an andere Umstände. Konnte in den 17 Jahren an denen ich Ratinglisten erstelle ... anhand der ersten Winboard Liste von mir wurde für ELOstat getestet und erstellt ... auch nichts anderes feststellen.

Was mich nur ärgert ist das aus den blanken Zahlen nichts hervorgeht außer die Spielstärke.
Wenn ich einen Round Robin starte und der Interessierte sieht die Ergebnisse oder Ausgaben, weiß er nicht wie die zu Stande kommen und ob die Wahrscheinlichkeit bei 9:1 für "fallen" oder "steigen" ist oder ob schon zum Zeitpunkt X vom Test alles auf ein stabiles Ergebnis hindeutet. Gibt so viele Dinge die viel aufregender gestaltet werden können und dann macht das Betrachten der Listen auch deutlich mehr Spaß.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-01-13 15:01
Hi Frank !

Frank Quisinsky schrieb:

[...snip...]
Was mich nur ärgert ist das aus den blanken Zahlen nichts hervorgeht außer die Spielstärke.
Wenn ich einen Round Robin starte und der Interessierte sieht die Ergebnisse oder Ausgaben,
weiß er nicht wie die zu Stande kommen und ob die Wahrscheinlichkeit bei 9:1 für "fallen"
oder "steigen" ist oder ob schon zum Zeitpunkt X vom Test alles auf ein stabiles Ergebnis
hindeutet. Gibt so viele Dinge die viel aufregender gestaltet werden können und dann macht
das Betrachten der Listen auch deutlich mehr Spaß.


Weshalb nur all der Aufwand ?

Das Endergebnis zählt, alles andere ist Beiwerk.
Ob nun eine Mannschaft nach 34 Spieltagen mit einem oder mit zehn Punkten
Vorsprung Meister wird ist vollkommen gleichgültig. Das Ziel vor Begin der
Liga ist klar vereinbart: "wer am Ende die meisten Punkte hat wird Meister".

Mir persönlich reichen die An-/Ausgaben der diversen Ratingtools vollkommen aus.
Man bekommt angezeigt:
- Gesamtpunktzahl samt Scoring-% und ELO-Performance
- Remisquote in %
- Durchschnitts-ELO der Gegnerschaft
Und bei der CEGT zusätzlich auch "Gewinn-Remis-Verlust" Einzelstatistik,
und die Einzelresultate der einzelnen Wettkämpfe, und das Woche für Woche !!

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-01-13 15:27
Hi Gerhard,

ich will wissen wie Möchengladbach gespielt hat. Wer die Tore geschossen hat, welche Spieler gut waren oder einen schlechten Tag hatten.

Aufwand ja ... aber wenn wir andere Tools hätten als nur ELOstat würden die auch mit Freude genutzt werden.

Leute gehen ins Fußballstadion um genau das zu sehen um dabei zu sein. Wenn die Fußballer so denken würden wie Du jetzt hier wären die Stadien lehr und die Zeitschriften und so weiter. Das ist der Grund warum Computerschach ein Nischendasein hat.

Gerade beim Schach ...
Kein Thema so dem so viele Bücher geschrieben wurden, so spannend und aufregend.
Nicht Comupterschach, da können wir mal froh sein wenn einer etwas schreibt.

Es liegt an allen Beteiligten das mal ein wenig zu ändern, sonst nutzen wir noch in 100 Jahren ELOstat oder langweilige Ausgaben wie ELO selbst. Es ist wie bei der Arena Entwicklung, brauchen wir nicht. Oder bei den Engine Protokollen ... brauchen wir nicht. Es ist wie mit allen Dingen im täglichen Leben .... brauchen wir nicht. Bis es da ist! Smartphones, Tablets ... brauchen wir nicht ... und heute. Es ist wie mit allen Dingen, immer und immer wieder.

Wo keine Entwicklung da kein Fortschritt und gerade dieses Aushängeschild "Computerschach" sollte mit Innovation als gutes Beispiel voran gehen.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-01-13 16:02
Hi Frank !

Frank Quisinsky schrieb:

Hi Gerhard,
ich will wissen wie Möchengladbach gespielt hat. Wer die Tore geschossen hat, welche Spieler gut waren oder einen schlechten Tag hatten.
Aufwand ja ... aber wenn wir andere Tools hätten als nur ELOstat würden die auch mit Freude genutzt werden.
Leute gehen ins Fußballstadion um genau das zu sehen um dabei zu sein. Wenn die Fußballer so denken würden wie Du jetzt hier wären die Stadien lehr und die Zeitschriften und so weiter. Das ist der Grund warum Computerschach ein Nischendasein hat.
Gerade beim Schach ...
Kein Thema so dem so viele Bücher geschrieben wurden, so spannend und aufregend.
Nicht Comupterschach, da können wir mal froh sein wenn einer etwas schreibt.
Es liegt an allen Beteiligten das mal ein wenig zu ändern, sonst nutzen wir noch in 100 Jahren ELOstat oder langweilige Ausgaben wie ELO selbst. Es ist wie bei der Arena Entwicklung, brauchen wir nicht. Oder bei den Engine Protokollen ... brauchen wir nicht. Es ist wie mit allen Dingen im täglichen Leben .... brauchen wir nicht. Bis es da ist! Smartphones, Tablets ... brauchen wir nicht ... und heute. Es ist wie mit allen Dingen, immer und immer wieder.
Wo keine Entwicklung da kein Fortschritt und gerade dieses Aushängeschild "Computerschach" sollte mit Innovation als gutes Beispiel voran gehen.


Wenn ich mir eine Computerratingliste ansehe oder auch eine Computerturniertabelle,
dann tue ich das nur deshalb weil ich die Stände/Ergebnisse wissen will.
Das selbe passiert wenn ich in der Zeitung oder wo auch immer die Tabellen meiner
favorisierten Sportarten ansehe.
Will ich Details haben, z.B. wissen wie die 49ers gestern in Carolina gewonnen haben
und ob es glücklich oder verdient war oder was letztendlich den Ausschlag gegeben hat,
dann sehe ich mir das Spiel an (habe ich gestern übrigens tatsächlich getan).
Dieses Spiel verstehe ich und ich kann mir darüber eine Meinung bilden.

Beim Engineschach gibt es nun das Problem, dass man selbst als recht ordentlicher
Schachspieler überhaupt nicht mehr beurteilen kann, weshalb nun das Eine oder das
Andere gespielt wurde - egal bei welchen Bedenkzeiten. Was soll ich nun beurteilen ?
Was hilft es mir oder was sagt es aus, wenn eine Engine häufiger als andere mit
mehr Figuren auf dem Brett gewinnt/verliert/remisiert ? Oder was soll ich ableiten
von einem Spielstil, welcher eine Engine befähigt in weniger Zügen als andere den
Gegner zu besiegen und dies regelmässig und trotzdem nur die selbe Gesamtperformance
wie andere Engines erreicht ? Wenn ich das "wie" nicht verstehe, dann kann ich mit
solchen Auswertungen auch nichts anfangen, so schön sie auch sein mögen.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-01-14 00:33
Hi Gerhard,

Du sagst es ja selbst.
Bist ja selbst ein starker Schachspieler und schreibst das Du es kaum noch beurteilen kannst.
Wenn wir das aber nicht versuchen, brauchen wir keine 900 Schachprogramme. Wir brauchen nur eines. Wenn wir aber für eine Analyse wissen, Programm Z macht A oder B gut oder kann C und D nicht so gut wie Programm X können wir mehr aus der Vielfalt herausholen. Es ist eine echte Aufgabe etwas festzustellen weil wir so heftig unterlegen sind. Wir haben nicht wirklich Möglichkeiten, es sei denn wir werten Stundenlang aus um irgend etwas zu vergleichen oder Rückschlüsse zu schließen. Dieses Thema ist wirklich komplex.

Versuchte es mit Hilfe von starken Spieler und eigenen Eindrücken bei den Spielstilbeschreibungen. Ein User schrieb kürzlich ... Frank, das hast Du aber blümlich beschrieben. Na klar habe ich das, ich könnte auch Erkenntnisse in Form von zweifelhaften Statistiken ins Forum setzen die schon deswegen zweifelhaft sind, weil trotz allem nie wirklich die ultimative klare Aussage getroffen werden kann. Was bleibt mir über als Dinge die ich festgestellt habe zusammenzufassen in verständliche Aussagen mit dem Hinweis das es sich aber dennoch nur um eigene oder gesammelte Meinungen handelt.

Beschreibst das so schön aber wie dem auch ist, wir brauchen einfach bessere Tools um mehr Informationen zu erzeugen die meines Erachtens wertvoller und wichtiger sind als blanke ELO Zahlen. Ob ein Programm nun 3.100 oder 3.000 ELO hat. Wenn das Programm mit 3.000 ELO deutliche Stärken in irgend einem Bereich hat geht das unter. Und es gibt Programme wie z. B. Spark welche Stärken haben die hochinteressant für Analysen sind. Das ist aber nicht zu sehen in einer Ratingliste.

Wir haben hier wirklich etwas zu bewerkstelligen. Ein Problem in der Darstellung. Habe ja schon ein paar Ideen geliefert wie wir etwas herausfinden können. Sehr gut finde ich Partieauswertungen nach Anzahl der Figuren auf dem Brett. Da liegt einiges Potential drin. Könnten z. B. eine Rating wie folgt darstellen ...

Stockfish: 3.100 ELO ... Phase1 3.200, Phase2 3.000, Phase3 3.100

Wissen dann z. B. OK, also in der ersten Partiephase ist das Programm stärker als in den anderen Partiephasen.
Nur mal so als Beispiel.

Plötzlich sehen wir bei Quazar folgendes

Quazar: 2.750 ELO ... Phase1 2625, Phase2 2.625, Phase3 3.000

Ups, was ist denn das wird sich der eine oder andere Betrachter denken.
Das ist ja interessant, muss ich selbst mal untersuchen ...

Denke die Leute die sich eh schon bemühen, müssten mit den gewaltigen Informationen die zur Verfügung gestellt werden spielen können. Die Informationen zur Spielstärke kommen zunächst von den Ratinglistenbetreibern. Analysieren werden die Fernschachspieler und experimentieren die Personen die Programme z. B. für Analysen oder auf Schachservern einsetzen.

Unsere Aufgabe ist es eine gute Vorarbeit zu leisten und nicht nur mit den bloßen Zahlen.
Können wir aber nicht kommt von Dir zurecht als Einwand.

Stimmt ...
Muss was gegen getan werden. Meine wir machen uns mit der Ermittlung ja eh schon viele Gedanken, investieren Strom und viel Arbeit und Aufwand. Aber es gibt ja auch noch unsere Programmierer die mit unserer Hilfe und Ideen bzw. auch Erfahrungen die wir haben etwas versuchen könnten.

Das wäre jetzt mal etwas!
Ein Bereich der viele Personen anziehen würde wie z. B. seinerzeit bei Arena.

Computerschach sollte also langsam mal wieder einen draufsetzen

Bin da ja immer sehr verrückt und interessiert. Es wird reizvoll wenn es hoffnungslos ist. Dann beginnt das Thema interessant zu werden. Andere Ratinglistenbetreiber haben mich ja auch schon 100x verflucht und ich habe 100x zurückverflucht aber letztendlich ohne Personen wie Du jetzt oder Ingo andere die sich mit dem Thema lange beschäftigen bekommen wir das nicht hin. Wenn wir einen Programmierer finden der sich der Sache annimmt, dann haben wir diesem Herrn alle etwas zu erzählen was wir uns wünschen und was vielleicht geändert werden sollte, was fehlt oder hinzukommen könnte. Bin mir sicher ...

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-01-13 15:20
Frank Quisinsky schrieb:

die CEGT hatte immer sehr genaue Zahlen, konnte nie grobe Dinge sehen wenn ich mit meinen eigenen Listen verglichen haben. Oft frage ich mich warum das so ist, vielleicht weil 40/20 bei Euch immer sehr nahe an meinen Bedingungen liegt. Hier und dort mal zu Jonny oder Junior derzeit aber die Gründe sind mir klar. Vermute das es auch an den vielen Gegnern liegt, denn nach einem Muster wird die 40/20 ja nicht geführt und Ponder ist auch ausgeschaltet bei dieser Liste. Der Ponder Effekt bewirkt zwar total andere Partien aber der Einfluss ist gering. Das Kräfteverhältnis bleibt.
[...snip...]


Kleiner Nachtrag hierzu:
wir testen einfach so wie wir wollen und Zeit haben, ausser bei den neuen PB=on Listen.
Es spielt, wie Du richtig erkannt hast, keine Rolle ob man nun "Jeder gegen Jeden" mit
einer exakten Partienanzahl spielt oder ob man "wild" durcheinander testet !  Man muss
lediglich ein paar wenige Dinge beachten, vor allem die Gegnerauswahl. Aus diesem Grunde
sind unsere Einstiegs-Ratings (1000 Spiele) fast immer Punktlandungen. In vielleicht
einem von 20 Fällen liegen wir leicht daneben, das gilt f.d. 40/4 und auch f.d. 40/20.
Dann sind ein paar weitere Matches notwendig, welche jedoch ohnehin immer gespielt werden,
da eine Engine bei uns immer weiter spielen muss. Selbst Oldies wie Shredder 7.04, Fritz 8,
Hiarcs 9 und 10 und wie sie alle heissen spielen auch heute noch Matches gegen Neueinsteiger.
Wir haben i.d. 40/4 bei nun immerhin 1361 Engines resp. Engineversionen nur einen einzigen
Auswertungscluster !!
Parent - By Frank Quisinsky Date 2014-01-13 15:45
Hi Gerhard,

also in einen von 30 Fällen bei 1.000 Partien mit kleinen Abweichungen.
Ja, das macht die CEGT auch richtig gut.

Würde mal sagen ein System im geordneten Chaos bei 40 in 20. Wobei Chaos jetzt nicht böse gemeint ist. Es steckt ein System dennoch drin denn sonst wären die Zahlen nicht so gut. Diese sind und waren für mich auch deutlich einfacher nachvollziehbar als die der CCRL. Hier habe ich wesentlich mehr zu beanstanden wenn ich auf deren Zahlen blicke. Aber auch Ingo hat gute Zahlen, auch er spielt mit einem guten System. Darum geht es mir auch nicht, was ermittelt wird ist gut. Und wichtig ist im Grunde nur das wir die Datenbanken ja haben. Stehen bessere Tools zur Verfügung können diese einfach drüber gejagt werden. Insofern, alles wird gut.

Wie gesagt, im Grunde habe ich nichts gegen bestehende Ratinglisten. Bei CCRL ist die Darstellung sehr gut. Auch die Liste von Stefan ist so wie er das macht schon OK.

Lediglich immer wieder die ErrBar zu erwähnen, die einfach falsch ist. Oder Informationen zu verbreiten ... x tausend Partien sind notwendig. Damit fördern wir nicht die Annimation. Erstens ist das falsch und zweitens wäre es doch viel schöner andere zu animieren. Heute kann jeder auf einem System etwas nettes kreieren.

Viele Grüße
Frank
Parent - By Thomas Müller Date 2014-01-13 15:27
+1 
Parent - - By Ernest Bonnem Date 2014-01-15 03:06
Gerhard Sonnabend schrieb:
Ich habe nun einfach mal vollkommen wahllos Engines aus einer alten Liste...

Sorry Gerhard,

Das ist wirklich nicht dein bester Thread...  

Das ist ja alles nur Statistik... Hast Du etwas gegen Statistik?
Oder willst Du Deine eigene neue Statistik forschen?

Es ist doch einfach! Wenn Du 4-mal mehr Spielen machst, ist die ErrorBar 2-mal kleiner!

Weißt Du, daß wenn Du eine Münze 100-mal wirfst, bekommst Du "manchmal" 50-50 !!!

Und es tut mir Leid, daß Michael auch auf dieser Linie stürzt (manchmal ist er sehr müde...)
Und für Frank ist es jedenfall zu spät... 
Parent - - By Frank Quisinsky Date 2014-01-15 03:44 Edited 2014-01-15 03:51
Dein Wort in Ottos Gehörgang

Noch so ein ErrBar Verfechter.
Mit dieser fehlerhaften Ausgabe hat sich die Community keinen Gefallen getan.

Auch für Dich:
Egal wie viele Gegner z. B. 4.000 Partien produziert haben, die ErrorBar ist immer +-10 bei ca. 4.000 Partien und das ist nicht korrekt.
Je mehr Gegner, desto kleiner muss die ErrorBar bei gleicher Anzahl an Partien sein.

Dem ist nicht so und mithin schlecht um Dinge zu vergleichen.
Liste A hat 1.000 Partien und benutzte 10 Engines
Liste B hat 1.000 Partien und benutzte 20 Engines.

Sonst gleiche Bedingungen aber Abweichungen weit über ErrorBar möglich.
Das ist ein wirkliches Problem der Vergleichbarkeit von Listen und führt ein wenig in die Irre.
Weil, je weniger Gegner desto mehr Partien werden notwendig und desto größer müßte die ErrorBar sein.

Im Grunde ist die ErrorBar ne Gute Sache nur von der Umsetzung nicht perfekt.
Auch von der Auslegung durchaus unterschiedlich zu verstehen, Sinngemäß aber nicht das was dargestellt werden sollte.

Hier mal ein Ergebnis der Simulation:

1.000 Partien bei 2 Gegner ... Ausgabe ErrorBar = +- 18 ... so gesehen könnte 36 ELO ...
Lasse mal Stockfish gegen Houdini spielen und dann vergleiche wenn nur 4 weitere Engines hinzukommen, BINGO. Die eigentliche Houdini ELO passt sich an ... bin gemein oder. Nehme direkt den Angstgegner und bin schon über ErrorBar Ausgabe.

Bei 1.000 Partien und 20 Gegner nach Simulation sollte die ErrorBar ausgeben +-13
Bei 1.000 Partien und 21 Gegner nach Simulation ... +-13
Ändert sich bei ca. 24-26 Gegner auf ca. +-12, Jetzt brauche ich schon 38 Gegner um die +-11 zu knacken und dann ist schon fast Feierabend, geht kaum noch runter.
Bei 1.000 Partien und 2, 3, 4, Gegner dürfte gar keine Ausgabe erfolgen.
Bei 1.000 Partien und 5 Gegner ist es ca. +-24 und nicht +-18

Ob ich mit der Simulation richtig liege muss ich sicherlich auch noch mal prüfen. Hatte ich mal gemacht.
Also ich denke sofern ich mich erinnere ...

Ausgabe ErrorBar bei 1.000 Partien müsste unterschiedlich sein zwischen 5 und ca. 24-26 Gegner müsste die ErrorBar also variieren von ca. +-24 - +-12
Rede immer von 1.000 Partien (Anzahl unerschiedlicher Gegner).

Die Anzahl der Gegner geht in die Berechnung nicht ein.
Bei Bayesian meines Erachtens besser gelöst als bei ELOstat die Remispartien ... anderes Thema.
Kommt auch noch hinzu!
Und es kommt noch was hinzu aber dafür brauche ich länger und ich bin müde.

Aber das ganze xMal und immer wieder darzustellen ...
Will niemanden belehren aber das ist so offensichtlich nicht korrekt und so leicht zu erkennen wenn mal mehrere Auswertungen gemacht wurden.

Das Problem was seinerzeit bei der Erstellung von ELOstat bestand war, dass nur wenige gute Datenmengen zur Verfügung gestanden haben.
Der Programmierer nutzte die Winboard Ratingliste von mir (siehe Readme). Da war das Thema der Gegner gar kein Thema, weil offenbar niemand dran gedacht hat. Die Berechnungen von ELOstat beruhen nicht nur auf statistischen Wahrscheinlichkeiten, sondern auch und richtiger Weise auf themenbezogene Daten, sprich die Partiedaten die zur Verfügung gestanden haben. Damit wurden also die Ausgaben von ELOstat gegengeprüft und sofern ich mich erinnere an seine eMails auch teilweise korrigiert.

Anzahl der Gegner geht in die Berechnung also nicht ein.
Lediglich die Anzahl der Partien und die sonstigen wichtigen Berechnungsformeln.
ELOstat ist ein geiles Progamm und hilfreich. Macht das beste aus einer sicherlich nicht perfekten ELO Formel für unsere Anwendungen. Aber ist leider nicht perfekt und mithin wird dem User vermittelt ... das x unnötige Partien mehr erforderlich sind um die ErrorBar nach unten zu schaufeln.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2014-01-15 04:08
Ferner war ja beabsichtig den max. denkbarsten ungünstigsten Fall zu berechnen, sofern in Erinnerung.
Also wann habe ich die Wahrscheinlichkeit des Blitzeinschlages.

Finde es sinnvoller nicht vom Blitzeinschlag auszugehen, sondern von Durchschnittswerten.

Bei 1.000 Partien wäre die folgende Aussage sinnvoller

1.000 +-13 (meines Erachtens die korrekte ErrBar bei 20 Gegnern) und nun ...

1.000 +-13 ... +-6
In der Regel schwankt der Wert um +-6 und nur in äußerst wenigen Fällen kommt es zu +-13.

Auch das habe ich mal hochgerechnet

Bei ca. 10.000 Partien und 20 Gegnern wäre die korrekte ErrorBar +-3 und dahinter dann +-2 (normale Schwankung).
Bei ca. 4000 Partien wäre die ErrorBar bei 20 Gegnern +-6 (nicht +-10) und dahinter dann +-3 (normale Schwankung).

Maßgebend beim Betrachten eher der normale Wert der üblichen Schwankungen.

Egal ...
Weitermachen

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2014-01-15 08:36
Hi Ernest !

Da liegt wohl ein Missverständnis vor.
Natürlich werden die Errorbars kleiner je mehr Spiele gespielt werden.
Nur, wo hatte ich etwas über die Errorbars geschrieben ?

Ich habe lediglich aufgezeigt, dass sich die Ratings nach sehr vielen
neuen Spielen so gut wie überhaupt nicht geändert haben im Vergleich
2008 bis heute.

Wie kommst Du nur auf so etwas:
"Hast Du etwas gegen Statistik?"
und
"Oder willst Du Deine eigene neue Statistik forschen?" ?

Viele Grüsse,
G.S.
Parent - By Ingo B. Date 2014-01-15 08:44
Die Stimme der Vernunft - Danke!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2014-01-15 13:31 Upvotes 1
Zitat:
Und es tut mir Leid, daß Michael auch auf dieser Linie stürzt (manchmal ist er sehr müde...)

So müde auch wieder nicht, denn den Nutzeffekt der erhöhten statistischen Verläßlichkeit hatte ich ja oben gleich erwähnt ("Vertrauensintervall" = Errorbar). Die Frage ist halt nur individuell zu beantworten, wieviel einem das Wert ist wenn sich beispielsweise zwischen 1300 und über 6000 Partien am Rating nur 2 Elopunkte bewegen.

Die hohe Meßgenauigkeit ist auch "graue Theorie" denn sie gilt ja jeweils nur für die konkreten Testbedingungen. Bei jeder praktischen Anwendung einer Engine beim User werden mehrere, wenn nicht alle sich davon unterscheiden: Bedenkzeit, ponder on/off, CPU, Analyse statt Partie usw.usf. Jeder abweichende Faktor reduziert (ein bißchen) die Anwendbarkeit der Testratings bzw. deren Verläßichkeit dafür.
Parent - - By Frank Quisinsky Date 2014-01-15 14:05 Edited 2014-01-15 14:14
Hi Michael,

wunderbar!
Das sind doch mal Aussagen mit denen man ruhiger in den Tag gehen kann

Du hast völlig Recht mit Deinen Aussagen.
Es kommt natürlich immer darauf an, möglichst alle Beeinflussungsfaktoren so gering wie möglich zu halten um mit geringen Mitteln (weniger Partien) den möglich größten Erfolg zu erzielen. Sind eigentlich immer nur kleine Auswirkungen wenn z. B. mal nicht alle gegen alle, gleiche Anzahl an Partien etc. gespielt werden. Dann kommt wieder die Masse und bügelt weg ... CEGT. Oder Engines nutzen 5-Steiner, andere nicht. Wie werden die 5-Steiner genutzt.

Zeitkontrolle: Immer noch ein kleines Problem bei der SWCR1. Wenn ich sehe das vor Zugnummer 40 (40 in 10 bei der SWCR1) noch 3 Minuten auf der Uhr sind. Von vielen erkannt und behoben, Engines nutzen Ihre Zeitkontrolle aus. Gab Engines die nutzen Fischer Zeit aus und feste Zeitkontrollen nicht oder umgekehrt. Dann kommt x und y und z und beim vergleichen dann die Verwunderung. Und dennoch, alles kann nicht korrigiert werden mittels vermeiden von Beeinflussungsfaktoren beim Messen der Spielstärke.

Nur wenn wir die vierstellige Zahl so viel Aufmerksamkeit schenken, sollte die natürlich so gut es geht ermittelt werden. Und die Daten aus den Ermittlungen so gut es geht ausgewertet werden. Dann macht das auch Sinn z. B. Stichproben zu machen wie Du es mit DiscoCheck gemacht hast. Orientierst Dich an 40/4 CEGT und versuchst schnell herauszufinden wo könnte diese Engine stehen. Spielst dann gegen ein paar Gegner und holst Dir die erzielten Messeinheiten zum Vergleich. Wirst bei 100 Partien dann schnell eine Aussage treffen können die zu 9:1, vielleicht eher 7:1-8:1 verlässlich ist.

Spannend herauszufinden (seit ein paar Tagen im Kopf) ist folgendes:
Nehme ich z. B. 6 Gegner und lasse eine Engine dann je 50 Partien gegen diese 6 spielen, wie kann ich mit vielleicht 300 Partien und nur 6 Gegnern nicht gute sondern sehr gute Aussagen treffen. Um vielleicht aus ein 8:1 bei beliebiger Auswahl der Engines ein 12:1 zu basteln.

Ich denke:
1. Die 6 Gegner müssen komplett unterschiedlich in Stärken und Schwächen sein.
2. Ca. 4 müssten +-150 auf dem gleichen Level liegen. Eine kann deutlich schwächer, eine kann deutlich stärker sein.

Ich versuche gerade herauszufinden mit welchen 6 Engines ist bei den SWCR2 Ergebnisse am nächsten an dem Endergebnis der 20. nach 1.000 Partien komme bzw. ob eine solche Aussage überhaupt möglich ist. Orientiere mich dabei maßgeblich an den bisherigen gesammelten Ergebnissen und mache Strichlisten.

Beispiel:
Rybka spielte gegen Smarthink deutlich zu gut ... also ein + für Rybka.
GullChess spielte gegen Smarthink deutlich zu schlecht ... also ein - für GullChess.

Wer hat die meisten +- ... sind die Engines die schwanken.
Die schwanken und wären weniger zu gebrauchen wenn ich 6 Auserwählte habe um das zu tun wie Du es bei dem DiscoCheck Test z. B. gemacht hast.

Spielerei aber interessant weil auch festgestellt wird ob ELOs nach oben unter unten gehen wenn die Engines nicht ihrer ELO entsprechend kontinuierlich spielen. In der Regel schwanken auch Engines mit Stärken und Schwächen. Ein wenig Kaffeesatz lesen auf hohem Niveau und in Verbindung mit anderen Auswertungen nicht uninteressant.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-01-15 14:24
Hi,

wer sich damit mal beschäftigen möchte ...
Im Download Bereich bei mir die 15.500er Datenbank der SWCR2 herunterladen.
Dann in die ELO-Auswertungen gehen *.zip file, habe da ein wenig sortiert, und sich die Liste der Einzelergebnisse näher ansehen.

Gibt so viele gute Statistik Ideen und wenn mal 5-10 gemacht wurden, dann reizt das Thema mehr und mehr.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Ratingdifferenzen nach mehreren Tausenden Partien

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill