Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Wie kann das sein ... Statistik Frage, bin überfordert!
1 2 Previous Next  
- - By Frank Quisinsky Date 2010-05-27 09:32 Edited 2010-05-27 09:36
Hallo,

wollte das immer mal schreiben weil es mir immer wieder auffällt und ich keine richtige Erklärung dafür habe.
Interessiere mich zwar für Statistiken aber Mathematiker bin ich nicht.

Thema ELO-Auswertungen

Fallgestaltung:
Wir haben eine Ratingliste mit 20 Engines, alle spielten die gleiche Anzahl von Partien gegeneinander (SWCR). Machen wir es hinsichtlich der Zahlen jetzt mal ganz einfach.

Die Nummer 10 hat eine ELO von 2.700 und wird upgedatet weil es eine neuere Version gibt.

Vor dem Update ist der ELO-Durchschnitt aller 20 Engines = 2.700

Nun legt die Nummer 10 in der neuen Version um 100 ELO zu!

Das bedeutet:

100:20 = 5 ELO

Der ELO-Durschnitt der 20 Engines müsste demnach 2.705 betragen und die neue Version steht nun mit 2.800 anstatt mit 2.700 ELO in der Liste.

Hoffe bis hierhin schlüssig nachzuvollziehen.

Und nun ...
Das passiert aber nicht, fast bei keinen meiner SWCR Auswertungen.

Vielmehr passiert in aller Regel folgendes:

Die Engine steigert sich in der Liste um 100 ELO und belegt nun mit 2.800 ELO einen besseren Platz aber ...
Der ELO-Durchschnitt nimmt nicht um 5 Punkte zu, sondern vielleicht um 1-2 oder nimmt gar um 1-2 ELO ab.

So ganz nach dem Motto (aus Sicht des Berechnungsprogramms):
Gebe ich einer Engine 100 ELO mehr, müssen ja die anderen 100 ELO schlechter werden ... was ja totaler Quatsch ist.
... der Eindruck entsteht leider immer wieder!

Fehler im ELO-Berechnungssystem?

Das ist total paradox und für mich absolut unlogisch und nicht verständlich.

---

Geht noch weiter ... jetzt der nächste Umstand:

In der SWCR wurden 21.800 Partien mit 39 Engine Versionen bei 32-Bit bislang gespielt. Wird in die Liste aller Partien die jetzt um 100 ELO verbesserte Version aufgenommen passiert genau das oben beschriebene nicht.

Daher gerade mal ein Experiment gemacht.

Ich kopiere die 21.800 5x in die gleiche Datenbank und erhalte über 100.000 Partien ... die Durchschnittswerte verändern sich nicht. Alles bleibt wie es ist.

Nun nehme ich die 7.600 Partien der 20 Programme und kopiere diese 15x in eine Datenbank (erhalte auch wieder über 100.000 Pariten) und siehe da ...
Die ELO Durschnittswerte verändern sich. Gleiches wenn ich 10x kopiere und 76.000 Partien habe oder nur 5x kopiere etc..

Das würde bedeuteten:
Menge der Partien für eine Ratingliste sind ab Partiemenge x nicht wesentlich interessant.
Anzahl der Gegener sind allerdings ganz wesentlich und 20 sind fast zu wenig.

OK ...
Weiter ...

Also, ich nehme die 20 SWCR Engines und die 7.600 Partien.
Bennene die 20 Engines um und kopiere die Datenbank dazu.
Habe jetzt 40 Engines und mache wieder das Experment ob sich durch eine Verbesserung einer Engine um 100 ELO jetzt bei 40 Engines feststellen läßt ob der ELO-Durchnitt aller um 2.5% gewachsen ist.

Und siehe da ... fast 2.0%

Höhere Mathematik die für mich ein wenig unverständlich ist.

Gruß
Frank
Parent - - By Benno Hartwig Date 2010-05-27 09:52
[quote="Frank Quisinsky"]Wir haben eine Ratingliste mit 20 Engines, alle spielten die gleiche Anzahl von Partien gegeneinander (SWCR). Machen wir es hinsichtlich der Zahlen jetzt mal ganz einfach.
Die Nummer 10 hat eine ELO von 2.700 und wird upgedatet weil es eine neuere Version gibt.
Vor dem Update ist der ELO-Durchschnitt aller 20 Engines = 2.700
Nun legt die Nummer 10 in der neuen Version um 100 ELO zu!
...
Der ELO-Durchschnitt nimmt nicht um 5 Punkte zu, sondern vielleicht um 1-2 oder nimmt gar um 1-2 ELO ab.[/quote]Ich verstehe deine Irritation nicht.
Wenn die Engines einen bestimmten ELO-Durchschnitt haben, und eine Engine beginnt nun plötzlich besonders viel gegen die anderen zu gewinnen (sei es weil sie vielleicht
vorher Pech hatte, weil sie nun einfach Glück hatte, weil die anderen jetzt aber gehandicapt werden oder oder weil sie sebst nun eben verbessert wurde), dann müssen die ELO-Punkte, die die Engine nun gewinnt, doch den anderen Teilnehmern genommen werden.
Nach meinem Verständnis von ELO ist es geradezu notwendig, dass in solch einem Fall die durchschnittlichen ELO ungefähr konstant bleiben (oder sogar eigentlich genau).

Deine ELO-Berechnung sieht nur die Ergebnisse. Ob eine Engine stärker wurde oder die anderen schwächer, vermag sie nicht zu beurteilen.

Aber vielleicht habe auch ich dich auch falsch verstanden.

Benno
Parent - - By Frank Quisinsky Date 2010-05-30 10:02
Hi Benno,

die Bewertung einer Spielstärke bei einer Engine sollte eine feste Größe sein, denn diese verändert sich ja nicht. Kommt nun ein verbesserte Version, sollte abzulesen sein um welchen Wert es zu einer Verbesserung kommt.

Mithin sollte in einer Liste von z. B. 20 Programmen die anderen nicht durchschnittlich um den Wert abnehmen um den eine neue Engine zugelegt hat.

Wie gesagt, je mehr Programme in einer Liste sind, desto weniger fällt das offenbar auf. Letztendlich ist die ganze Bewertung etwas fraglich und auch Vergleiche der Listen untereinander werden schwieriger.

Gruß
Frank
Parent - - By Axel Caro Date 2010-05-30 11:17
Hallo Frank,

Zitat:
die Bewertung einer Spielstärke bei einer Engine sollte eine feste Größe sein, denn diese verändert sich ja nicht. Kommt nun ein verbesserte Version, sollte abzulesen sein um welchen Wert es zu einer Verbesserung kommt.

Mithin sollte in einer Liste von z. B. 20 Programmen die anderen nicht durchschnittlich um den Wert abnehmen um den eine neue Engine zugelegt hat.


ich bin kein Mathematiker und mir zudem auch nicht sicher, ob ich Deine Aussage richtig interpretiere, ABER:

Die in ELO bewertete Spielstärke eines Schachprogramms X ist ja nicht absolut, sondern relativ zur Spielstärke aller anderen Programme zu sehen, gegen die das Programm X gespielt hat. Erarbeitet sich Engine X in einer Liste L einen ELO-Zuwachs von 100 ELO, so geschieht das auf Kosten der übrigen Engines in Liste L. Ob 100 ELO mehr für Engine X in der Summe 100 ELO weniger für die anderen Engines bedeutet, weiß ich nicht. Dazu müsste man sich wohl die zugrunde liegende Formel genauer ansehen. Haben wir denn keinen Mathematiker und den interessierten Forumsmitgliedern?

Viele Grüße
Axel
Parent - - By Axel Caro Date 2010-05-30 11:43 Edited 2010-05-30 11:53
...hab noch mal in Wikipedia nachgeschlagen. Eine Frage kann ich mir damit selbst beantworten: Ja, der Zugewinn von n ELO für Engine X wird Engine Y abgezogen. Von daher ist es ein Nullsummenspiel (aber nur wenn die Gesamtheit der beteiligten Engines identisch bleibt).

Vertiefendes (aber mich bei weitem überforderndes) gibt es u.a. hier: http://www.chessbase.com/newsdetail.asp?newsid=5608

Zum K-Faktor äußert sich Ken Thompson wie folgt:

Zitat:
So what should be done?

   1.

      Leave the K-factor alone. It obviously isn't broken. It may not be perfect, but the status quo is better than change. Changing the K-factor will have huge negative implications on inflation/deflation of the entire rating system. Ideally, the K-factor should be set to provide inertia over the variances of average human play. K=10 is not far off, but K=24 is way too big. K=15 would probably be better, but not enough to risk inflation.
   2.

      If anything is broken, it is FIDE's freezing of the ratings between lists. Publishing the list more often will help (how about publishing it every day?), but that should have no effect on the K factor.
http://www.chessbase.com/newsdetail.asp?newsid=5410

Interessan finde ich, dass die ELO-Formel im Grunde eine pragmatische Optimierungformel zu sein scheint. Nicht perfekt, aber gut und schwer zu verbessern.

Zitat:
Die in der Formel enthaltene Zahl 400 sowie der ursprüngliche k-Faktor wurden von Arpad Elo so gewählt, dass die Elo-Zahlen mit den Wertungszahlen des früher verwendeten Rating-Systems von Kenneth Harkness möglichst gut kompatibel sind. (Siehe Text zu Anmerkung 1 in Wikipedia-Artikel)
http://de.wikipedia.org/wiki/Elo-Zahl
Parent - By Frank Quisinsky Date 2010-05-31 12:26
Hi Axel,

werde ich mir auch durchlesen.

Also im Grunde kann dann die Aussage getroffen werden:

Wird eine Ratingliste (gleiche Anzahl von Partien, gleiche Gegnerschaft) als Turnier gespielt, haben wir den beschriebenen Effekt. Was eigentlich nicht sein dürfte.

Weil:
Shredder hat 2.800 ELO. Nun kommt eine neue Engine hinzu, die sich um 100 verbessert hat. Shredder wird ja immer auf 2.800 ELO gesetzt. Also müsste sich der Wert der anderen Engine deutlich verbessern und der Shredder Wert bleibt der gleiche. Was ja auch passiert. Was aber auch passiert, dass durchschnittlich die anderen 18 Engines meist sehr leicht abnehmen.

Schon allein aus diesem Grund wird es schwierig werden die unterschiedlichen Listen miteinander zu vergleichen. Geht schon aber es wird niemals genau sein (unabhängig von den Beeinflussungsfaktoren bzw. der verschiedenen Spielbedingungen).

Gruß
Frank
Parent - - By Benno Hartwig Date 2010-05-30 12:19
[quote="Frank Quisinsky"]die Bewertung einer Spielstärke bei einer Engine sollte eine feste Größe sein, denn diese verändert sich ja nicht. Kommt nun ein verbesserte Version, sollte abzulesen sein um welchen Wert es zu einer Verbesserung kommt.[/quote]Das leistet ELO aber nicht. ELO gibt keinerlei Bewertung darüber ab, wodurch die vermehrten Erfolge eine Engine kommen.

[quote="Frank Quisinsky"]Mithin sollte in einer Liste von z. B. 20 Programmen die anderen nicht durchschnittlich um den Wert abnehmen um den eine neue Engine zugelegt hat.[/quote]Das ist dein Wunsch (den ich verständlich finde). Die ELO-Berechnung leistet das aber nicht, und hat es nie, und es war auch nie ihr Ziel.
Du kannst dir ja mal Gedanken machen über eine entsprechend sinnvolle Erweiterung des Umganges mit ELO-Berchnungen: Wie verfährt man, wenn in eine Liste von Engines mit recht abgesicherten ELO-Werten eine neune Engine hinzukommt. Vielleicht sowas wie:
1.) Berechne alle ELO-Werte wie gehabt neu
2.) Ermittle Durchschnit der alten Engines in alter und neuer Liste,
3.) Berechne Differenz der Durchschntte
4.) Hebe bzw. senke alle ELO-Werte der neuen Liste um diese Differenz.

Das wäre dann wohl sowas, wie du es dir wünscht.
Die Standard-ELO-Berechnung tut sowas aber einfach nicht.

Benno
Parent - - By Frank Quisinsky Date 2010-05-31 12:38
Hi Benno,

interessant ist der Umstand, dass dieses Problem bei größeren Listen gar nicht ins Auge fällt, eher bei Turnieren ... wie jetzt hier bei der SWCR, siehe auch meinen Beitrag von heute auf Axel Caro.

Interessant was Du schreibst ...
Komme ich Deinem Beispiel nach, wird das alles wahnsinnig zeitaufwendig und sehr kompliziert das verständlich auf die Seite zu bringen.

Vielleicht findet sich jemand der die SWCR Datenbanken auswertet und eine alternative ELO-Berechnung errechnet.
Dagegen hätte ich nichts einzuwenden, müsste aber gut beschrieben sein ... meine so verständlich dass es anhand der PGN Daten einfach zu rekonstruieren ist.

Muss mir auch mal weitere Gedanken machen, verschiebe das auf Morgen ... warte erst mal die Endergebnisse des laufenden x64-Turniers ab.

Viele Grüße
Frank
Parent - By Benno Hartwig Date 2010-05-31 15:16
[quote="Frank Quisinsky"]Komme ich Deinem Beispiel nach, wird das alles wahnsinnig zeitaufwendig und sehr kompliziert das verständlich auf die Seite zu bringen.[/quote]Ein gewisser Zeitaufwand (der aber sicher auch nicht erschrecken sollte!) entsteht in der Programmierung. OK.
Das läuft danach dann aber wohl bei jeder neuen Engineversion jeweils in deutlich weniger als einer Sekunde ab.

Benno
Parent - - By Axel Caro Date 2010-05-31 19:44
Hallo Benno,

als Weder-Statistik- noch ELO-Experte leiste ich schon mal vorab Abbitte, dass ich mich an dieser Grundsatz-Debatte beteilige (gibt es denn zu diesem Thema keine erfahrenen Experten hier!?), aber folgende Aussage von Dir erscheint mir doch widersprüchlich:

Zitat:
Zitat:
Frank Quisinsky schrieb:
Mithin sollte in einer Liste von z. B. 20 Programmen die anderen nicht durchschnittlich um den Wert abnehmen um den eine neue Engine zugelegt hat.

Das ist dein Wunsch (den ich verständlich finde). Die ELO-Berechnung leistet das aber nicht, und hat es nie, und es war auch nie ihr Ziel.


In einem vorherigen Posting hatte ich dazu folgendes (aus dem Wikipedia-Artikel entlehntes) geschrieben:

Zitat:
Erarbeitet sich Engine X in einer Liste L einen ELO-Zuwachs von 100 ELO, so geschieht das auf Kosten der übrigen Engines in Liste L.


Konkret heißt es dazu in Wikipedia:

Zitat:
Beim Elo-System gewinnt der Sieger einer Partie genau so viele Rating-Punkte hinzu, wie der Verlierer einbüßt: die mittlere Spielstärke beider bleibt gleich.
Quelle: http://de.wikipedia.org/wiki/Elo-Zahl

Wie kommst Du zu dem Schluss, dass die ELO-Formel dies nicht leistet?

Gruß
Axel
Parent - - By Benno Hartwig Date 2010-05-31 19:51
[quote="Axel Caro"]Wie kommst Du zu dem Schluss, dass die ELO-Formel dies nicht leistet?[/quote] Wir meinen doch genau dasselbe.
Frank hatte erwartet (so verstand ich ihn), wenn er von einer Tabelle mit mehreren Engines ausgeht und dann eine Engine durch eine stärkere Version ersetzt, dann könnten die anderen Engines ihren ELO-Wert durchschnittlich behalten und die eine bekommt einen höheren ELO-Wert.
Das leistet ELO nicht. Es ist eben so wie du sagst: was die eine Engine dazubekommt geht den anderen verloren.
Wenn die eine viel gewinnt, wird jede der anderen etwas verlieren.

Benno
Parent - - By Axel Caro Date 2010-05-31 20:08
Ach sooo!

Das (eine neue stärkere Engine einfach so einer Liste hinzufügen) geht nach meinem laienhaften Verständnis wohl nicht. Die Spielstärke einer Engine ist ja immer relativ zu denen, gegen die sie gespielt hat. Fügt man eine neue Engine einer Liste hinzu, muss ihr ELO-Wert erst durch die gleiche Anzahl Spiele gegen alle anderen dieser Liste ermittelt werden. Was die eine gewinnt, geht den anderen in der Gesamtsumme verloren (und ungerechterweise nicht, wie Du behauptest, jeder anderen).

Gruß
Axel
Parent - - By Benno Hartwig Date 2010-05-31 22:30
[quote="Axel Caro"]Was die eine gewinnt, geht den anderen in der Gesamtsumme verloren (und ungerechterweise nicht, wie Du behauptest, jeder anderen).[/quote]?
Ich schrieb doch ausdrücklich:
"Wenn die eine viel gewinnt, wird jede der anderen etwas verlieren."
(Hervorhebungen jetzt hinzugefügt)
Wir sind uns doch einig.
Was war denn daran missverständlich, dass es immer noch von dir missverstanden werden konnte? 
Benno
Parent - - By Axel Caro Date 2010-05-31 22:38
Hi Benno,

Zitat:
wird jede der anderen etwas verlieren


Naja, wenn eine an ELO gewinnt, dann muss natürlich nicht jede der anderen Engines verlieren. Angenommen Rybka 4 gewinnt gegen 20 Gegner gegenüber Rybka 3 um 50 ELO. Dann bedeutet dies ja nicht, dass Rybka 4 gegen alle Gegner gewinnen muss. Die Gegner verlieren ja lediglich im Durschnitt, nicht im Einzelfall. Ok?

Gruß
Axel
Parent - - By Benno Hartwig Date 2010-05-31 22:45 Edited 2010-05-31 22:53
[quote="Axel Caro"]Naja, wenn eine an ELO gewinnt, dann muss natürlich nicht jede der anderen Engines verlieren.[/quote]Nein, natürlich nicht, sondern im Durchschnitt.
Wie kommst du darauf, ich würde meinen, sie würden zwangsläufig im Gleichschritt verlieren?
Du scheinst mich für dumm zu halten. Schade.
Vielleicht formulierte ich zu lax. Ich hatte das nicht gesehen, vielleicht muss ich hinzulernen, welches Missverstehen tatsächlich möglich ist.
(Benno scheint zu meinen: "alle Engines machen weitere Spiele, und die müssen nun vermehrt von der gestärkten Engine gewonnen werden!" Wenn du einige Postings von mir betrachtes, gerade die zur Statistik un den Wahrscheinlichkeiten, dann wirst du sehen, dass ich weit(!) entfernt bin von so einem so obskuren Standpunkt)

Eingangs schrieb ich übrigens
"Nach meinem Verständnis von ELO ist es geradezu notwendig, dass in solch einem Fall die durchschnittlichen ELO ungefähr konstant bleiben (oder sogar eigentlich genau)."
Du hast ja recht. Und ich sagte (oder meinte und glaubte zu sagen) dies auch von Anfang an so.

Benno
Parent - - By Axel Caro Date 2010-05-31 23:01
Hi Benno,

wie kommst Du darauf, ich würde Dich für dumm halten? Dem ist warhlich nicht so.
Wir scheinen hier aber ziemlich aneinander vorbei zu schreiben - so ist das mit der Kommunikation: nicht alles was einem klar scheint, ist klar oder kommt so klar beim anderen an.

Zitat:
Wie kommst du darauf, ich würde meinen, sie würden zwangsläufig im Gleichschritt verlieren?


Jetzt wird's lustig: Wie kommst Du denn darauf, dass ich meinen würde, Du würdest meinen, die Engines würden zwangsläufig im Gleichschritt verlieren?

Ich glaubte Deinen Ausführungen zu entnehmen, dass Du denkst, wenn eine Engine an ELO gewinnt, wird jede der anderen Engines an ELO verlieren. Aber verlieren werden ja nur die, die im direkten Vergleich gegen eine Engine:

a) bei zuvor gleicher oder höherer ELO-Zahl verlieren
b) bei zuvor höherer ELO-Zahl remisieren
c) bei zuvor niedrigerer ELO-Zahl bei mehrern Partiene öfter verlieren, als es ihre ELO-Zahl vermuten lässt.

OK?

Viele Grüße
Axel

PS: Ich schlaf jetzt aber erstmal eine Nacht drüber - und nichts für ungut!
Parent - - By Benno Hartwig Date 2010-06-01 14:16
[quote="Axel Caro"]...Aber verlieren werden ja nur die, die im direkten Vergleich gegen eine Engine:
a) bei zuvor gleicher oder höherer ELO-Zahl verlieren
b) bei zuvor höherer ELO-Zahl remisieren
c) bei zuvor niedrigerer ELO-Zahl bei mehrern Partiene öfter verlieren, als es ihre ELO-Zahl vermuten lässt.[/quote]
Kommunikation ist fehleranfällig, das stimmt.
Außerdem stimmt: ich hatte zunächst an ein Turnier gedacht, in dem alle Gegner gegen jene aktualisierte, verstärkte Engine spielen. Natürlich muss nicht jede Engine verlieren, selbst eine schwächere Engine kann mit Glück positiv gegen diese Engine spielen. Und es ist sogar vorstellbar, dass eine bestimmte Engine gegen diese erneuerte sogar bessere Chancen hat.
Aber wenn diese Engine mehr gewinnt als die alte Version, dann werden die Gegner im Durchschnitt so viel verlieren, dass dies ausgeglichen wird.

Deine Bemerkung oben machte mich aber aufmerksam auf etwas, was ich wirklich nicht bedacht hatte:
Wie ist es, wenn diese Engine nur gegen einen Teil der anderen Engines spielt?

konstruiertes Gedankenexperiment:
Angenommen vorher hatten alle Engeines untereinander ausgeglichen gespielt. Jetzt wird eine Engine durch eine stärkere Version ersetzt und spielt nur gegen die Hälfte der Gegner, jeweils 60:40.
Sie wird also an ELO gewinnen, und jene Gegner werden etwas an ELO verlieren.
Wie sieht es dann mit den ELO-Werten der anderen Engines aus, die nicht erneut antreten mussten?
Behalten die ihr ELO (sie haben ja nicht verloren), oder geben sie ebenfalls etwas ab (sie haben ja nur ausgeglichen gespielt gegen die Engines, die jetzt etwas schwächer bewertet werden)?

Benno
(das Zweite vermutend)
Parent - - By Peter Martan Date 2010-06-01 14:35
Hallo Benno!
Schon seit einer Weile verfolge ich euren amüsanten Gedankenaustausch darüber, was der eine meint, dass der andere mißverstanden haben könnte, dass der eine mißverstanden hat.

Mal von derlei Mißverständnissen abgesehen, könnte eines der grundlegenden bei Elo (und übrigens auch anderen rating- Systemen) vielleicht sein, dass man immer wieder davon ausgeht, es handle sich um transitive Wahrscheinlichkeitsrelationen?
Das alte Beispiel: A gewinnt gegen B, B gewinnt gegen C, A muss gegen C mehr als gewinnen, wo er doch sogar besser ist als B, der ja seinerseits besser ist als C.
So funktioniert das eben nicht, es handelt sich um eine intransitive Präferenzrelation (je nachdem, was wirklich gespielt wird, bei den meisten Spielen wird das aber so sein) und damit entzieht sie sich eigentlich jeder exakten Vorhersage per rating.
Damit ist noch nicht einmal gemeint, dass Wahrscheinlichkeitsrechnung nichts über das Einzelereignis vorhersagt, das ist wieder ein anderes Problem.
Falls ihr das aber ohnehin auch schon alles alle beide längst gewußt habt, tut es mir leid, mißverstanden zu haben, dass ihr ganz etwas anderes zeitweise nicht ganz und nicht alle beide nicht gleich so verstanden hattet wie der jeweils Andere und hoffe auch dahingehend nicht mißverstanden worden zu sein.
Parent - - By Gerhard Sonnabend Date 2010-06-01 15:13
Ich hab das gerade gelesen (nicht verstanden) und nun ist mir ganz wuschig...
Parent - - By Peter Martan Date 2010-06-01 15:35
Dann solltest du das hier vielleicht erst recht nicht lesen.

http://de.wikipedia.org/wiki/Transitivit%C3%A4t_(Mathematik)#Implikation_in_der_Logik
Parent - By Gerhard Sonnabend Date 2010-06-01 15:45
[quote="Peter Martan"]
Dann solltest du das hier vielleicht erst recht nicht lesen.

http://de.wikipedia.org/wiki/Transitivit%C3%A4t_(Mathematik)#Implikation_in_der_Logik
[/quote]

Das ist ja wie Klartext, kein Problem.

Ich meinte vorher den letzten Absatz.

Viele Grüsse,
G.S.
Parent - By Benno Hartwig Date 2010-06-01 21:33 Edited 2010-06-01 21:36
[quote="Peter Martan"]Das alte Beispiel: A gewinnt gegen B, B gewinnt gegen C, A muss gegen C mehr als gewinnen, wo er doch sogar besser ist als B, der ja seinerseits besser ist als C.
So funktioniert das eben nicht, es handelt sich um eine intransitive Präferenzrelation (je nachdem, was wirklich gespielt wird, bei den meisten Spielen wird das aber so sein) und damit entzieht sie sich eigentlich jeder exakten Vorhersage per rating.[/quote]
Klar, und auch z.B.
http://de.wikipedia.org/wiki/Elo-Zahl#Intransitivit.C3.A4t_von_Wahrscheinlichkeitsrelationen
beschreibt es, und
http://de.wikipedia.org/wiki/Intransitive_W%C3%BCrfel
macht es verblüffend anschaulich.

Andererseits magst du hier gern die dir bekannten statistisch befriedigend belegten Fälle aufführen, in denen in direkten Vergleichen A um 50 ELO stärker als B ist und B um 50 ELO stärker als C und trotzdem C stärker als A, oder auch nur A um weniger als 50 ELO stärker als C.

Soweit ich weiß liegt dem ELO-System schon eine Hypothese zugrunde, die von einer sogar recht genau quantifizierbaren Transitivität ausgeht.
Z.B sagt sie: Wenn A der B um 3:1 überlegen ist und B der C um 2:1, dann ist von einer Überlegenheit von A über C von 6:1 auszugehen.
(Wie gut diese Hypothese praktisch abgesichert ist, weiß ich nicht )
Auf diese Hyothese beruht implizit dann die gesamt ELO-Berechnung. Ich denke nicht, dass man sich dann zu weit aus dem Fenster lehnt und besonders häufig gravierende Fehler macht, wenn man dann in diesem Sinne eben doch Transitivität nutzt, die auf ELO-Werten beruht.

Benno
Parent - - By Axel Caro Date 2010-06-01 23:18
Hallo Peter,

darin, dass Missverständnisse in der Kommunikation oftmals amüsanter sind als die diskutierten Inhalte selber, stimme ich uneingeschränkt mit Dir überein!

Wenn sich dann noch ein Laie (wie ich) auf's statistische Glatteis begibt, dann steigt der Unterhaltungswert mit an Sicherheit grenzender Wahrscheinlichkeit quantitativ transitiv an! Die Qualität des beobachtenden Vergnügens wird dabei sicherlich mit steigender Kenntnis der Materie ab- oder zunehmen, je nach Idiosynkrasie des beobachtenden Individuums.

Aber zurück zum Thema:

Zitat:
Angenommen vorher hatten alle Engeines untereinander ausgeglichen gespielt. Jetzt wird eine Engine durch eine stärkere Version ersetzt und spielt nur gegen die Hälfte der Gegner, jeweils 60:40.
Sie wird also an ELO gewinnen, und jene Gegner werden etwas an ELO verlieren.
Wie sieht es dann mit den ELO-Werten der anderen Engines aus, die nicht erneut antreten mussten?
Behalten die ihr ELO (sie haben ja nicht verloren), oder geben sie ebenfalls etwas ab (sie haben ja nur ausgeglichen gespielt gegen die Engines, die jetzt etwas schwächer bewertet werden)?


Wie lautet Deine Antwort auf Bennos Frage?

Gruß
Axel
Parent - - By Urs Maier Date 2010-06-01 23:46
es kommt halt darauf an wann du auswertest und was du auswertest. wenn ich mich recht erinnere behandelt z.B. bayesian elo alle partien als ein turnier. die FIDE elo wird turnierweise ausgewertet. wenn ich also eine partie verliere, verlieren damit nicht alle meine vorherigen gegnern in anderen turnieren nachträglich an elo.
Parent - - By Thomas Müller Date 2010-06-02 09:13
Das ist glaube ich so?!
Kann sogar sein, dass es partieweise berechnet wird. Habe ich jetzt aber nichts gefunden.
Was ich mal gefunden habe ist was zum rechnen.
http://ratings.fide.com/calculators.phtml
Dort ist der erste punkt interessant. Bei dieser berechnung wird eine einzelne partie ausgewertet.
Wenn ich als beispiel das letzte WM-Match hernehme würde das gesamte match (turnier) so berechnet (kalkulation #2 bei fide)
Code:
Rc:2801, W:6.5, N:12
Calculation: 2813.5=2801+12.5
Rating performance: 2814

Wenn die partien einzeln berechnet werden....
Code:
                #1   #2   #3   #4   #5   #6   #7   #8   #9   #10  #11  #12  GES
Anand     2789 -4,7 +5,3 +0,3 +5,3 +0,3 +0,3 +0,3 -4,7 +0,3 +0,3 +0,3 +5,3  +8,6
Topalov   2812                                                              -8,6


Also ist selbst hier ein unterschied von 4 elo.
Eine Live-elo-berechnung gibt es auf der seite z.B.
http://chess.liverating.org/

elostat/bayesian berechnet eine gesamte PGN als turnier.
Wo da jetzt nochmal genau der unterschied ist, muss ich mir selber auch erst anschauen.
http://remi.coulom.free.fr/Bayesian-Elo/#elostat

Bei den uns bekannten listen lässt sich das obige denke ich nicht anwenden.
Da sind die ansätze auch verschieden und somit nicht vergleichbar. Da wird es immer unterschiede geben.
Bei SWCR sind es 21 engine. kommt eine neue version fliegt die alte raus und die neue wird mit der gleichen anzahl an partien ergänzt.
Bei IPON ist es auch eine gleiche anzahl von engines aber die partieanzahl ist nicht durchgängig gleich
Bei CEGT kommen "einfach" neue versionen mit großer anzahl partien in die vorige liste dazu. Wird also immer größer.

Ja das war jetzt mein senf erst mal dazu und hat mit dem problem von FQ vermutlich gar nix zu tun
Parent - By Gerhard Sonnabend Date 2010-06-02 09:45
Ein wichtiger Punkt weshalb die Auswertungen unterschiedlich sein "dürfen" ist,
dass sich die Spielstärke eines Menschen im Lauf seiner Schaffenszeit i.d.R. ändert.
Deshalb ist eine Turnier- oder gar eine Einzelmatchauswertung sinnvoll, da zeitnah.
Bei Engineversionen, so diese denn unter vergleichbaren Bedingungen bezüglich
Hardware etc. etc. getestet werden, ist das nicht der Fall. Diese ändern ihre Spielstärke
eben nicht und deshalb ist die Auswertung als "gedachtes grosses Turnier" durchaus
zulässig und auch sinnvoll aus meiner Sicht.
Dr. Frank Schubert hat das mal sehr schön in einer Artikelserie erläutert.

Viele Grüsse,
G.S.
Parent - - By Peter Martan Date 2010-06-02 06:59 Edited 2010-06-02 07:02
Hallo Axel!
Keine Sorge, wir sind Laien unter uns. Daher auch nur meine Bedenken, den Zahlenwerten eine Bedeutung zuzumessen, der ihnen nicht einmal mathematisch zukommt, geschweige denn schachlich.
Auf die Frage würde ich so wie Benno sagen, auch die, die ihre Elo nicht neu ausspielen müssen, sollten etwas verlieren, das Einzig "exakte" Ausmaß davon ließe sich aber wohl nur durch weitere Spiele auch gegen diese ermitteln.
Übrigens ist das natürlich Sache desjenigen, der die Liste erstellt, interessiert ihn die tatsächliche performance der neuen engine, muss er sie sowieso gegen alle spielen lassen, die er dabei relevant findet. Es einfach umzurechnen, wäre machbar, nicht nur, weil aber die Sache intransitiv ist, käme das einer reinen Vermutung gleich, sondern auch, weil die Elo Formel (besonders in den oberen Bereichen der errechneten Werten) keine Verhältnisskala erbringt, wie wir schon von Peter Müller gelesen haben, wäre nicht einmal in ihren mittleren Kurvenbereichen die Durchschittsberechnung per Addition und Division wieder eine vergleichbare Rechnung, wenn man nämlich wieder Elo haben will und nicht einfach Prozente.
Ich würde Frank ja zustimmen, dass ein anderes Maßsystem für engines vielleicht sinnvoller wäre als bei menschlichen Spielern, weil die engines ja, wie man sieht, praktisch beliebig oft in beliebiger Aufstellung gegeneinander spielen können, Arpad Elo hat sich das Ganze wohl eher ausgedacht, um die praktische Überprüfung der Vorhersage nicht ständig mit beliebig hohen Partiezahlen eruieren zu müssen, dazu hätte eine einfachere statistische Methode immer schon gereicht.
Es wird nur gegen das prinzipielle Problem der trotzdem bestehenden Intransitivität nicht helfen und daher auch nicht dagegen, dass die Ergebnisse völlig relativ bleiben, je nachdem wer wie oft mitspielt.
Und dann kommt noch die Spezifität des Spieles Schach ins Spiel, eines Nullsummenspieles mit einer gegen 0 gehenden Wahrscheinlichkeit, überhaupt noch Siege und Niederlagen zu erspielen, je stärker und einander ähnlicher die Spieler werden.
Parent - By Werner Mueller Date 2010-06-02 10:04
Ja, Laien sind wir alle, was an sich ja keine Schande ist.

Nochmal etwas Senf von mir dazu:

Wenn man einen Pool von 'nur' zwanzig Engines hat, tauchen Probleme auf, die es bei sehr großer Teilnehmerzahl (z.B. alle menschlichen Schachspieler) so nicht gibt. Es ja gerade ein Vorteil, wenn nicht sogar die Grundidee des Elo-Systems, Gewinnaussichten auch dann angeben zu können, wenn zwei Gegner vorher noch nie gegeneinander gespielt haben. Das kommt zwar bei 20 Teilnehmern auch schon ganz gut hin, aber natürlich wird Frank trotzdem 'Jeder - Jeden' spielen.

Sicher ist es so, dass die Transitivität nicht immer streng gilt (Angstgegner). Sie (die Praxis) zeigt aber, dass man sie in sehr guter Näherung annehmen darf. Im Vergleich zu anderen Unwägbarkeiten spielt dieses 'Problem' sicher keine herausragende Rolle.
ein klassisches Beispiel für Intransitivität: Stein, Schere, Papier - da macht eine Rangliste offensichtlich nicht viel Sinn.

Den Beitrag von Peter Müller zu diesem Thema kannst Du getrost vergessen: hinter seinen 'Fachbegriffen' steckt lediglich, dass eine Elo-Zahl keine absolute Größe ist, dass nur die Differenz zweier Elo-Zahlen von Belang ist. Dies gilt IMMER, in allen Bereichen und so natürlich auch im oberen Bereich.
Und weil NUR die Differenz eine Rolle spielt macht es eben keinen Sinn den Quotienten zweier Elo-Zahlen zu bilden (z.B. 2800 Elo/1400 Elo = 2) und zu meinen, man könnte mit der '2' nun etwas anfangen. Im Gegensatz etwa zur Körpergröße - da ist ein 2,80m-Riese nicht nur um 1,40m größer als ein 1,40m-Zwerg, sondern eben auch doppelt so groß.
Aber das gehört zum kleinen 1x1 des Elo-Systems, wissen wir alle, ist ein alter Hut, tut nichts zur Sache - und hat schon gar nicht irgendwas mit Durchschnittsberechnungen zu tun.

Wenn die Engineentwicklung dahin käme, dass quasi nur noch remis gespielt würde, wäre das weniger ein Problem des Ratingsystems sondern eher der Engines.

Und ja, Prof. Elo hat sich sein System ganz sicher anders vorgestellt - und nicht nur vorgestellt. Es ist vor allem nicht dafür konzipiert, eine ELO-Zahl beliebig genau bestimmen zu wollen. ... aber darüber hab' ich mich ja schon öfters ausgelassen.
Parent - By Werner Mueller Date 2010-06-01 15:00
[quote="Benno Hartwig"]
Benno
(das Zweite vermutend)
[/quote]
aber sichi
Parent - - By Axel Caro Date 2010-06-01 23:28
Hallo Benno,

wenn mir bei der Arbeit in dieser Woche die Augen zufallen, dann bist Du schuld!

Zitat:

konstruiertes Gedankenexperiment:
Angenommen vorher hatten alle Engeines untereinander ausgeglichen gespielt. Jetzt wird eine Engine durch eine stärkere Version ersetzt und spielt nur gegen die Hälfte der Gegner, jeweils 60:40.
Sie wird also an ELO gewinnen, und jene Gegner werden etwas an ELO verlieren.
Wie sieht es dann mit den ELO-Werten der anderen Engines aus, die nicht erneut antreten mussten?
Behalten die ihr ELO (sie haben ja nicht verloren), oder geben sie ebenfalls etwas ab (sie haben ja nur ausgeglichen gespielt gegen die Engines, die jetzt etwas schwächer bewertet werden)?

Benno
(das Zweite vermutend)


Ich würde (entgegen anderweitig hier vertretener Expertenmeinung) ersteres vermuten: Dass sie ihre ELO-Werte behalten.

Die Errechnung eines ELO-Wertes ist doch immer (?) Ergebnis eines konkreten Kräfteverhältnisses von Kontrahenten, die direkt gegeneinander angetreten sind. Angenommen ich hätte mir in meiner Laufbahn von sagen wir mal 3 Jahren durch 100 Partien ein ELO-Rating von 1800 erspielt, dann ist dies doch das Ergebnis meiner tatsächlich gespielten Partien gegen Gegner, die zum Zeitpunkt der Partien eine bestimmte ELO-Zahl hatten (daraus errechnete sich ja schließlich meine ELO-Zahl).

Wenn jetzt irgend einer meiner ehemaligen Gegner (durch eine lange Verlustserie gegen schwächere Gegner oder warum auch immer) 100 ELO Punkte einbüßt, warum sollte das dann Einfluss auf mein ELO-Rating haben?! Mein Rating ist doch Ergebnis konkreter Umstände, die zum Zeitpunkt der Berechnung galten, jetzt aber nicht mehr.

Damit sich mein Rating ändert, müsste ich halt aktiv spielen. Sollte es sich mit Engines nicht ähnlich verhalten (es sei denn man eicht eine Ratingliste - aus welchen Gründen auch immer - neu)?

Gruß
Axel
Parent - By Peter Martan Date 2010-06-02 08:26
[quote="Axel Caro"]
Damit sich mein Rating ändert, müsste ich halt aktiv spielen. Sollte es sich mit Engines nicht ähnlich verhalten (es sei denn man eicht eine Ratingliste - aus welchen Gründen auch immer - neu)?
[/quote]

Es sei denn, genau. Du eichst schon zwangsläufig mit jeder neuen Version neu, ohne dass du willkürlich sonst noch was änderst, weil du sozusagen einen Spieler durch einen anderen ersetzt, (oder einer dazu kommt, wenn die Vorversion auch weiter mitspielt) das ändert das Maßsystem, weil es sich, wie wir mittlerweile ja schon einig sind, (?) um ein rein relatives solches handelt.
Parent - - By Rudolf Rohs Date 2010-05-27 10:10
Hallo Frank,

Welche Elo nimmst Du denn als Startelo für die neue Engine für ihre Gegner?

Um den Eloschnitt zu steigern, mü0test du die erpielte Elo der neuen Version erst
nachträglich als Startelo der neuen Version nehmen und die Partien für die Gegner erst
dann bewerten, da diese nur dann auch gegen einen Gegner dieser Störke gespielt haben.

Startet die neue Version dagegen mit der Elo der alten Version für ihre Gegner spielt sie diese
entsprechend runter und der Gesamteloschnitt verändert sich nicht.

Gruß

Rudolf
Parent - - By Peter Martan Date 2010-05-27 11:45 Edited 2010-05-27 11:54
[quote="Rudolf Rohs"]

Um den Eloschnitt zu steigern, mü0test du die erpielte Elo der neuen Version erst
nachträglich als Startelo der neuen Version nehmen und die Partien für die Gegner erst
dann bewerten, da diese nur dann auch gegen einen Gegner dieser Störke gespielt haben.

Startet die neue Version dagegen mit der Elo der alten Version für ihre Gegner spielt sie diese
entsprechend runter und der Gesamteloschnitt verändert sich nicht.
[/quote]

Wenn ich dich richtig verstehe, würdest du also mit jeder engine, von der du schon zu wissen glaubst, um wieviel sie zugelegt hat, gleich mit dieser Wertung anfangen?
Das kannst du natürlich machen, damit schraubst du aber eben die Gesamtperformance Aller willürlich immer weiter in die Höhe, willst du das nicht, musst du eben immer wieder den K-factor senken, (im von dir geschilderten Fall würdest du ihn sogar erhöhen, glaub ich, je nachdem wie genau du mit deiner Anfangswertung liegst) damit die Bereiche gleich bleiben, verzichtest eben auf die lineare Gesamtsteigerung, kommst aber trotzdem dem dann konstanten Kulminationspunkt der Kurve immer näher, den du eben, je näher desto weniger, erreichen kannst, nein?
Parent - - By Rudolf Rohs Date 2010-05-27 13:41
Hallo Peter,

nein, nicht ganz.

Ich versuch es mal an einem Beispiel zu erläutern.

Du hast 10 Maschinen mit einem Eloschnitt von 2700. Davon hatte Model 1 ein Rating von 2600. Wenn Du immer nur 10 Maschinen in deiner Rangliste führst und die alte
Engine durch die neue Version/Engine ersetzt kannst Du dies auf 2 Arten machen.

A) Wenn Du jetzt die Weiterführung Model 2 gegen verschiedene Gegner spielen läßt und dieses Modell nach dem Test gegen die 10 Gegner eine Performance von 50 % also
2700 erreicht, hast Du eine Elo für diese Maschine von 2700.
Dann nimmst Du die Gegner und rechnest die Partien auch zu deren bisheriger Basis hinzu. Also Modell Stark mit z.B 1000 Partien alt mit einer Performance von 2750 aus diesen Partien. Wie es der Zufall will hatte Model Stark aber gegen Modell 2 (mit jetzt 2700) in 100 Partien nur 50 Prozent geholt und damit gegen Model 2 nur 2700 performt, also hier leicht unterperformt.Also würde die Elo der Maschine Stark um ca. 5 Punkte auf 2745 aus jetzt 1100 Partien sinken.
Die Elozahlen der Liste werden langsam immer höher werden, weil eigentlich eine Engine die 2700 spielt eine Engine die 2600 spielt ersetzt hat. Der Schnitt der Liste also 10 Punkte steigt. Trotzdem würden die neuen Ergebnisse einfliessen und die alten Enginewertungen sich untereinander langsam verschieben.

B) Wenn Du Model 2 aber mit der Elo der Vorgängerversion spielen läßt würde Model Stark jetzt 50 % gegen einen Gegner mit 2600 holen, also die 100 neuen Partien mit 2600 einfließen und eeine Elo statt um ca. 5 Punkte glatt um ca. 15 Punkte fallen.
Im Endergebnsi würde der Eloschnitt der 10 Maschinen hier immer gleich bleiben, da die eine Engine gewinnt, was die andere verliert.

Ich würde also erst das Turnier spielen und die Elo der neuen Engine anhand der Kontrahenden ermitteln. Erst dann würde ich die Partien für die Kontrahenden auswerten. So
würden die Elozahlen der Listenteilnehmer langsam steigen, aber die Engines der Liste würden ja auch immer stärker.

Also nicht wirklich einen willkürlichen Wert nehmen.

Gruß

Rudolf
Parent - - By Peter Martan Date 2010-05-27 14:44
Verstehe, Rudolf.
Dennoch, ob du es so oder so machst, ist dir überlassen, je nachdem, wie du deine Liste führen willst. Deine Art trägt der Verschiebung durch das Neueinsteigen eines relativ zu den Anderen deutlich Besseren dahingehend Rechnung, dass du die "Neueichung" automatisch durch die neu gespielten Partien vornehmen lässt, die Willkür liegt aber immer noch hierin, welche engines du aufnimmst und welche nicht.

Ich will damit gar nicht wieder auf die emotional denaturierte Debatte, wer darf mitspielen, hinaus.
Ich meine einfach, je mehr engines je besser spielen, desto mehr musst du eingreifen, um nicht erstens eine überdimensionale Remisquote zu bekommen und zweitens nicht in Partiezahlen und Kommastellen zu ersticken um anhand der Formel, die für ganz etwas anderes mathematisch erdacht wurde, noch Zuwächse auszudrücken, die irgendwie die Spielstärkezuwächse widerspiegelt.
Das war zwar nicht das ursprüngliche Thema, ist es aber doch, wenn meine Vermutung, die Aussage, doppelt soviel Elo, doppelt so gut, die mathematisch so natürlich nie gestimmt hat und niemand so meint, würde nicht nur mathematisch, sondern auch schach- gefühlsmäßig weniger und weniger stimmen, je besser die engines relativ zum Menschen werden.
Mathematisches Äquivalent für dieses Gefühl ist für mich, Eloberechnung mit den ursprünglich zugrunde gelegten Zahlenwerten der Formel, bringt Werte, die eine Kurve formulieren, die je nach Veränderung der zugrunde liegenden Zahlenwerte einen bestimmten Kulminationspunkt hat. Dieser ist jetzt schon ohne Veränderung der Fixwerte relativ weitgehend erreicht, für das, was mit weiteren Anstrengungen an weiterer Annäherung nur noch im Unendlichen erreicht werden kann.
Parent - - By Rudolf Rohs Date 2010-05-27 16:21
Hallo Peter,

jede Liste basiert auf den Voraussetzungen, die der Listenbetreiber als gegeben voraussetzt.
Somit kommt es auf den Betrachter an, ob er sich den Voraussetzungen anschließt oder nicht,
also die Liste als gerecht oder willkürlich empfindet.

Mein Kommentar war auch mehr als Anregung gedacht. Bin kein Computerschächer und Listenbetreiber
sondern Fernschächer. Das sich dies teilweise überschneidet ist heutzutage klar. 

Ich führe als auch keine Listen, bin aber über die Stärken und Schwächer der einzelnen Programme ziemlich
informiert. Rauszukriegen welches Programm der Gegenüber verwendet und zu wissen wo die Schwächen
dieses Programms liegen ist entscheident füf die Partieanlage und der halbe Sieg.

Gruß

Rudolf
Parent - - By Peter Martan Date 2010-05-27 17:21 Edited 2010-05-27 17:29
Hallo Rudolf!
Ich weiß.

Deshalb red ich ja gerade mal auf einen ein, dem ich das alles noch nicht erzählt hab.
Ich bin übrigens auch kein Listenbetreiber. Herauszufinden, welches Programm der Gegner hauptsächlich einsetzt, ging früher auch leichter.

Es ist ja heutzutage sicher auch kaum mehr eine einzelne engine bei den Spielern, die überhaupt viel Computereinsatz pflegen und die werden natürlich auch immer zahlreicher, vor Allem werden aber die Bücher, die natürlich auch mit den verschiedensten engines erstellt sind, immer raffinierter. Bin schon neugierig auf das neue Rybka- Buch von Jiri Dufek, hab's mir gerade bestellt, das neue Hiarcs.ctg ist auch für mich sein Geld wert, vor Allem, wenn die updates, die man da mitkauft, auch wirklich Neues bringen. Natürlich sind es immer nur ganz veerinzelte Varianten, die man in sein eigenes direkt übernimmt, aber wie die Wichtungen am Anfang sind, zeigt schon Entwicklungen auf, das hilft mehr als das direkte Übernehmen, man hat neue Impulse, in welche Richtung man an den eigenen Varianten weiterbaut.
Derlei bringt das Computerschach, das ja auch nur Schach ist, meiner Meinung nach am meisten weiter. Letzten Endes muss man gerade darüber wirklich froh sein, was bliebe sonst überhaupt noch an Spannung?
Parent - By Werner Mueller Date 2010-05-27 17:44
[quote="Peter Martan"]
... Deshalb red ich ja gerade mal auf einen ein, dem ich das alles noch nicht erzählt hab.
[/quote]
Ja, und ich befürchte fast, es hat selten einer verstanden um was es Dir dabei eigentlich geht - mich eingeschlossen.

Ohne Flachs, ich hab' heute (wieder) mal Deine Postings genauer gelesen -  in obiger Hinsicht leider ohne nennenswerten Erfolg.
Parent - - By Kurt Utzinger Date 2010-05-27 17:56
[quote="Rudolf Rohs"]
Hallo Peter,

jede Liste basiert auf den Voraussetzungen, die der Listenbetreiber als gegeben voraussetzt.
Somit kommt es auf den Betrachter an, ob er sich den Voraussetzungen anschließt oder nicht,
also die Liste als gerecht oder willkürlich empfindet.

Mein Kommentar war auch mehr als Anregung gedacht. Bin kein Computerschächer und Listenbetreiber
sondern Fernschächer. Das sich dies teilweise überschneidet ist heutzutage klar. 

Ich führe als auch keine Listen, bin aber über die Stärken und Schwächer der einzelnen Programme ziemlich
informiert. Rauszukriegen welches Programm der Gegenüber verwendet und zu wissen wo die Schwächen
dieses Programms liegen ist entscheident füf die Partieanlage und der halbe Sieg.

Gruß

Rudolf
[/quote]

Hallo Rudolf
Auch ich bin/war Fernschächer. Mir ist es bislang nie gelungen, herauszufinden, welches
Programm der Gegner für die Analyse nutzt. Wie mancht man das?
Gruss
Kurt
Parent - By Rudolf Rohs Date 2010-05-27 18:32
Hallo Kurt.

kann ich doch fast nicht glauben bei einem so erfahrenen Computerspezialisten.

Einige Fernschachspieler haben ihre "Lieblingsengine" und ihr Zug entspricht immer dieaer Engine.
Einfach die besten Programme mal die Züge des Gegners abchecken lassen. Wenn ein Programm
anfängt fast immer richtig zu liegen. liegt man fast immer richtig.

Die Trefferquote nimmt natürlich ab, je besser der Spieler wirklich ist.

Gruß

Rudolf
Parent - By Frank Quisinsky Date 2010-05-29 18:31
Hallo Rudolf,

ich eiche so, dass Shredder immer auf 2.800 ELO kommt.
Das ist aber völliger Quatsch, denn die Spielstärke von Shredder ist nicht gleich bei unterschiedlichen Bedingungen. Gibt auch keine Engine wo ich denke das die Spielstärke absolut gleich ist wenn Beeinflussungsfaktoren, wie die Bedenkzeit, verändert werden.

Also bei 20 Engines in der Liste wird langfristig schon der Durchschnitt aller anderen höher wenn sich eine Version verbessert. Interessant ist der Umstand, dass je mehr Programme in einer Liste sind das gar nicht mehr großartig auffällt.

Wie ich das auch zusammenschiebe, auf eine Engine zu eichen hat viele Nachteile. Mit einem Durchschnitts-ELO-Wert zu arbeiten halte ich auch nicht für so sinnvoll. Den kenne ich ja nicht wenn eine neue Engine hinzukommt.

Besser wäre es also aufgrund der erzielten Punkte eine Zahl berechnen zu lassen.

Viele Grüße
Frank
Parent - - By Peter Martan Date 2010-05-27 11:31 Edited 2010-05-27 11:34
Hallo Frank!

Ich glaube, es ist dasselbe Phänomen, das für mich schon lange die Verwendbarkeit der Formel für in der Elo- performance nahe beieinander liegende engines ad absurdum führt, je zahlreicher sie je näher dem Ende der Fahnenstange kommen, das einfach in der asymptotischen Kurvenform der Berechnung liegt.
Bin neugierig, ob ein Mathematiker in der Runde das auch so sieht.
Der Zusammenhang ist für mich als mathematischem Halblaien dieser: deine Vermutung von +100- Hebung der Durchschnittsperformance des Kollektives würde ungefähr stimmen (auch weiter unten ist die Kurve nicht ganz linear) im Bereich von 1800 Elo, über 2500 schon kaum mehr.
Je weiter oben, desto geringer und statistisch mit noch so großen Zahlen weniger und weniger exakt vorhersagbar wird die Auswirkung im Gesamtkollektiv, weil der Zufall einfach eine immer größere Rolle spielt. Mit anderen Worten, was du als Lösung schilderst, die Zahl der engines, und sei es nur am Papier, zu ändern, hilft eine Zeit lang, die Zahl der Partien hülfe, glaub ich, genauso, wenn es wirkliche Partien wären, nicht aber, wenn du nur die vorhandenen mit den identischen Ergebnissen vervielfachst. Die engines am Papier zu vermehren, indem du ihre Verhältniszahlen zueinander gewissermaßen multiplizierst, mag ein Scheinergebnis bringen, das einer tatsächlichen Vervielfachung der Partien eher entspricht, da bin ich mir aber erst recht nicht mehr sicher, auch, ob ich dich da überhaupt richtig verstanden hab, wie du da vorgegangen bist.
Oder sehe ich das völlig falsch?
Parent - By Frank Quisinsky Date 2010-05-29 18:19
Hi Peter,

nein, siehst Du richtig.
Das war nur ein Experiment.

Stimme Dir im Grunde zu und denke das es an der Zeit wird ein anderes System für die Berechnung der Spielstärke einzuführen. Siehe Beitrag auf Werner Müller. Etwas ganz einfaches. Glaube die ganze ELO-Berechnung steht sich selbst auf den Füssen und je höher es nach oben geht desto unerklärlicher werden die Abweichungen.

ELOstat und Bayesian sind auch nicht gleich !!
Finde Bayesian besser, gab schon viele Threads im letzten halben Jahr in denen ich versuchte zu begründen warum ich zu der Aussage komme.

Gruß
Frank
Parent - - By Peter Mueller Date 2010-05-27 12:05
[quote="Frank Quisinsky"]
Hallo,

wollte das immer mal schreiben weil es mir immer wieder auffällt und ich keine richtige Erklärung dafür habe.
Interessiere mich zwar für Statistiken aber Mathematiker bin ich nicht.
...[/quote]

Um Durchschnitte und Prozentzahlen ausrechnen zu dürfen muss die zugrunde liegende Skale zumindest eine Verhältnisskala sein (http://de.wikipedia.org/wiki/Skalenniveau).

Dies ist bei ELO-Werten schlicht und ergreifend nicht der Fall. Deshalb sind Auswertungen davon, die Divisionen beinhalten zwar rechnerisch möglich aber mathematisch sinnlos.
Solche Auswertungen sind weder richtig noch falsch sondern einfach ohne jede Aussage.

Die ist keine höhere Mathematik sondern simple beschreibende Statistik. Es gibt schöne Bücher darüber. Sogar die Wikipedia Artikel hierzu sind lesenswert.
Parent - By Peter Martan Date 2010-05-27 13:13 Edited 2010-05-27 13:17
[quote="Peter Mueller"]
Um Durchschnitte und Prozentzahlen ausrechnen zu dürfen muss die zugrunde liegende Skale zumindest eine Verhältnisskala sein (http://de.wikipedia.org/wiki/Skalenniveau).
Dies ist bei ELO-Werten schlicht und ergreifend nicht der Fall. Deshalb sind Auswertungen davon, die Divisionen beinhalten zwar rechnerisch möglich aber mathematisch sinnlos.
Solche Auswertungen sind weder richtig noch falsch sondern einfach ohne jede Aussage.
[/quote]

Klar, gehe ich aber ungefähr richtig davon aus, dass in Bereichen, wo die Eloberechnungen noch "halbwegs" lineare Verhältnisse abbilden, Divisionen allein noch eher der mathematischen Aussage der Eloformel entsprächen und der Versuch auf diese vereinfachende Art Vergleiche anzustellen erst gegen das obere "Ende" der Kurve gegen Null Korrelation geht?
Parent - - By Werner Mueller Date 2010-05-27 13:55
[quote="Peter Mueller"]
[quote="Frank Quisinsky"]
Hallo,

wollte das immer mal schreiben weil es mir immer wieder auffällt und ich keine richtige Erklärung dafür habe.
Interessiere mich zwar für Statistiken aber Mathematiker bin ich nicht.
...[/quote]

Um Durchschnitte und Prozentzahlen ausrechnen zu dürfen muss die zugrunde liegende Skale zumindest eine Verhältnisskala sein (http://de.wikipedia.org/wiki/Skalenniveau).

Dies ist bei ELO-Werten schlicht und ergreifend nicht der Fall. Deshalb sind Auswertungen davon, die Divisionen beinhalten zwar rechnerisch möglich aber mathematisch sinnlos.
Solche Auswertungen sind weder richtig noch falsch sondern einfach ohne jede Aussage.

Die ist keine höhere Mathematik sondern simple beschreibende Statistik. Es gibt schöne Bücher darüber. Sogar die Wikipedia Artikel hierzu sind lesenswert.
[/quote]


Dann wäre Statistik aber einfach - nur noch Addition und Subtraktion.

Richtig ist, dass z.B. 2800 Elo / 1400 Elo = 2 keinen sittlichen Nährwert hat.
Aber feststellen, dass im Beispiel die Summe der 20 Elowerte konstant bleibt und diese dann durch 20 dividieren (damit man weiß, wovon man spricht), wird gerade so noch erlaubt sein.
Parent - - By Peter Mueller Date 2010-05-27 18:56
[quote="Werner Mueller"]...
Aber feststellen, dass im Beispiel die Summe der 20 Elowerte konstant bleibt und diese dann durch 20 dividieren (damit man weiß, wovon man spricht), wird gerade so noch erlaubt sein.
[/quote]

Natürlich, man kommt nicht ins Gefängnis däfür. Trotzdem ist es genauso sinnvoll den Durchschnittswert der Rückennummer einer Fussballmannschaft auszurechnen und daraus irgendetwas ableiten zu wollen.  Wie schon geschreiben: rechnerisch möglich jedoch  vollkommen sinnlos.
Parent - - By Werner Mueller Date 2010-05-27 23:10
[quote="Peter Mueller"]
[quote="Werner Mueller"]...
Aber feststellen, dass im Beispiel die Summe der 20 Elowerte konstant bleibt und diese dann durch 20 dividieren (damit man weiß, wovon man spricht), wird gerade so noch erlaubt sein.
[/quote]

Natürlich, man kommt nicht ins Gefängnis däfür. Trotzdem ist es genauso sinnvoll den Durchschnittswert der Rückennummer einer Fussballmannschaft auszurechnen und daraus irgendetwas ableiten zu wollen.  Wie schon geschreiben: rechnerisch möglich jedoch  vollkommen sinnlos.
[/quote]
Ich weiß gar nicht, wie Du auf so ein seltsames 'generelles Divisionsverbot' kommen kannst (lediglich die Verhältnisbildung von ELO-Werten macht keinen Sinn).
Der ELO-Schnitt ist eine legitime, gebräuchliche und selbstverständlich sinnvolle Größe.

Und wenn Du aus dem ELO-Schnitt nicht mehr Schlüsse ziehen kannst als aus dem Durchschnitt der Rückennummern einer Fußballmannschaft, dann spiel mal zwei Turniere - eines mit einem ELO-Schnitt von 1800 und ein anderes mit einem ELO-Schnitt von 2300.
Parent - - By Peter Mueller Date 2010-05-28 07:35
[quote="Werner Mueller"]...
Ich weiß gar nicht, wie Du auf so ein seltsames 'generelles Divisionsverbot' kommen kannst...[/quote]

Es ging dem Fragesteller um ein ihm nicht erklärbares Phänomen bei seinen Turnieren. Meines Erachtens liegt dieser Frage das grundlegende Missverständnis zugrunde, dass es sich bei einem ELO-Wert um eine absolute Groesse handelt. Die ist jedoch nicht der Fall. Es ist nicht nur der absolute Wert stichprobenabhängig, sondern für die Durchführung bestimmter rechnerischer Operationen mus die zugrundeliegende Sjkala bestimmte Eigenschaften haben die bei ELO-Werten schlichtweg nicht gegeben sind. Darum sind die Durchführungen solcher Operationen sinnlos. Man könnte das in dem von mir angegebenen Wikipwedia-Artikel nachlesen und von dort aus selbst weiterrecherchieren.

Ob, wann und wieviele Turniere ich spiele, ob irgendwer Durchschnittswerte von was auch immer ausrechnet, trägt zur Beantwortung der Ursprungsfrage soviel bei wie der umfallende Sack Reis in China.
Mir scheint es hier jedoch (wie leider oft in Schachforen gar nicht um die Beantwortung von Fragen zu gehen, sondern eher um das blosse Palaver als solches).

Also noch mal zur Ursprungsfrage: die Lösung heisst nicht ausreichendes Skalenniveau.

Für weiteres inhaltsleeres Palaver stehe ich nicht zur Verfügung.
Parent - By Werner Mueller Date 2010-05-28 18:39
[quote="Peter Mueller"]
[quote="Werner Mueller"]...
Ich weiß gar nicht, wie Du auf so ein seltsames 'generelles Divisionsverbot' kommen kannst...[/quote]

Es ging dem Fragesteller um ein ihm nicht erklärbares Phänomen bei seinen Turnieren. Meines Erachtens liegt dieser Frage das grundlegende Missverständnis zugrunde, dass es sich bei einem ELO-Wert um eine absolute Groesse handelt. Die ist jedoch nicht der Fall. Es ist nicht nur der absolute Wert stichprobenabhängig, sondern für die Durchführung bestimmter rechnerischer Operationen mus die zugrundeliegende Sjkala bestimmte Eigenschaften haben die bei ELO-Werten schlichtweg nicht gegeben sind. Darum sind die Durchführungen solcher Operationen sinnlos. Man könnte das in dem von mir angegebenen Wikipwedia-Artikel nachlesen und von dort aus selbst weiterrecherchieren.

Ob, wann und wieviele Turniere ich spiele, ob irgendwer Durchschnittswerte von was auch immer ausrechnet, trägt zur Beantwortung der Ursprungsfrage soviel bei wie der umfallende Sack Reis in China.
Mir scheint es hier jedoch (wie leider oft in Schachforen gar nicht um die Beantwortung von Fragen zu gehen, sondern eher um das blosse Palaver als solches).

Also noch mal zur Ursprungsfrage: die Lösung heisst nicht ausreichendes Skalenniveau.

Für weiteres inhaltsleeres Palaver stehe ich nicht zur Verfügung.
[/quote]
Nicht ausreichendes Niveau ist nicht selten zumindest eine Erklärung.
Up Topic Hauptforen / CSS-Forum / Wie kann das sein ... Statistik Frage, bin überfordert!
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill