Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Sind die Computer Elo Ratinglisten real? am Beispiel CEGT
1 2 3 Previous Next  
- - By Ben Hur Date 2011-11-11 17:23
Ich sage nein!

Im Rahmen meines Smirf Turnieres ist mir aufgefallen, dass die Blitz-Elo Werte bei CEGT viel zu hoch sind.
Früher als es noch Ingo Werte gab waren die Werte noch reall!
Denn der Weltmeister bekam den Wert Null (0);  Ausgangswert = fixer Wert; Alle daraus folgenden Zahlen
wurden nach den bekannten Formeln berechnet.

Die Elowerte dagegen floaten frei im Raum ohne einen Bezugspunkt!

Ich würde vorschlagen, den höchsten Computer Elowert dem des Human-Weltmeisters anzupassen; macht Sinn!

Über diese Werte bin ich gestolpert:

Houdini 1.5 x64 4CPU          3324  

Deep Sjeng 2.5 1CPU elo1000   1415


ebenso QueeNy mit einem utopischen Wert! Dessen Spielverhalten hatte ich beobachtet

Das soll doch wohl bedeuten, dass hier ein Offset von ca. 415 Elo Punkten existiert, oder?
Ich gehe hier jedenfalls von einem Elo Wert von 1000 für Deep Sjeng 2.5 1CPU elo1000 aus.
Das hat der Programmierer doch so programmiert!

Ich würde die Rangliste so auswerten, dass die Spitzenengine einenWert von ca. 2850 Elo bekommt
Parent - - By Simon Gros Date 2011-11-11 19:01
Sehe ich alles ganz anders. Dieser 1000-ELO-Sjeng hat gerade mal 78(!!) Spiele in der Liste. Dieser 1000er-Wert resp. die Verstellmöglichkeit ist/war für Spiele gegen Menschen gedacht, gegen Programme wirkt soetwas nicht oder nur unzuverläßig. Und, ob die ELO des Besten, hier Houdini 1.5, utopisch ist kann wohl niemand sagen. Ich persönlich denke, daß selbst der beste Spieler der Welt auf der Spielstufe 40/3 nicht eine Partie gewinnen könnte, gleichgültig wie viele Spiele auch immer gespielt würden. Bis auf ein paar wenige Remisen würde Houdini sämtliche Spiele auf solch einer Spielstufe gewinnen!
Simon_G
Parent - - By Ben Hur Date 2011-11-11 21:31
Das ist nicht der Knackpunkt, wenn du mal selber eine Elo Auswertung mit
meinen Vorgaben machen würdest, dann kannst du feststellen, dass diese
1000 Elo Maschine tatsächlich bei  ca. Elo 1000 landet!

Das fand ich sehr interessant!
Parent - - By Michael Scheidl Date 2011-11-11 23:01
Mag interessant sein, aber die Top-Engine heutzutage nur auf 2850 zu setzen ist doch eine willkürliche und meines Erachtens auch falsche Annahme. Bereits im Jahre 1994 gewann Fritz 3(!) auf einem Pentium 90(!) MHz ein Turnier gegen die GM-Elite punktgleich mit Garry Kasparov, allerdings ein Blitzturnier. Die Eloleistung von Fritz 3 lag mit 73,5% gegen einen Schnitt von 2625 bei ~2805.

Es gibt keine Kalibrierung zwischen menschlichen und Engine-Ratings. Zudem sind letztere sehr von der Hardware - wo es bekanntlich eine große Leistungsbandbreite gibt - sowie insbesondere relativ zum Menschen von der Bedenkzeit abhängig (= im Blitz viel überlegener).

Es gibt oder gab im ICC einen Crafty-Computeraccount, der nur gegen menschliche Gegner spielte. Ich habe die Details vergessen, aber IIRC war das Rating klar über 3000, vor einigen Jahren bereits. - Keine FIDE-Elo, aber vielleicht eine der nächstbesten Infos zum Thema, die wir haben...

Elozahlen von Spielstärke-Stufen in Engines würde ich keine große Bedeutung beimessen. Diese sind m.E. eher nur symbolisch, oder als sehr grobe Näherungen aufzufassen.
Parent - By Ben Hur Date 2011-11-12 15:48
[quote="Michael Scheidl"]
...

Elozahlen von Spielstärke-Stufen in Engines würde ich keine große Bedeutung beimessen. Diese sind m.E. eher nur symbolisch, oder als sehr grobe Näherungen aufzufassen.
[/quote]

Wenn man den Begriff Computerschach "Elo" benutzt, vergleicht man unwillkürlich mit den
menschlichen Elo's. Es sollte doch möglich sein eine vergleichbare Skala zu entwickeln.

Ich führe nur das Beispiel Smirf an mit einer völlig utopischen Elo Zahl.
Schau die Spiele hier mal an und berichte. Ich bin sehr gespannt.
Parent - - By Wolfram Bernhardt Date 2011-11-11 20:42
Hallo!

Das stimmt zwar, ist aber ein alter Hut.

Es ist ein bekannter Nachteil des Elo-System: Jeder neue Spieler bringt neue Punkte in das Gesamtsystem. Und diese Punkt wandern langsam immer weiter nach oben. So werden die Elo-Zahlen gerade an Spitze nach und nach immer größer.

Jetzt fällt mir dazu eine Frage ein: Spieler, die sich zurückziehen, müssten doch auch Punkte wieder aus dem System herausnehmen - aber das scheint das Gesamtsystem nicht wieder auszugleichen. Weiss da jemand noch mehr drüber?

Viele Grüße,
    Wolfram
Parent - - By Ben Hur Date 2011-11-11 20:51
[quote="Wolfram Bernhardt"]
Hallo!

...
Zitat:
Jeder neue Spieler bringt neue Punkte in das Gesamtsystem.


Das verstehe ich nicht! Wie meinst Du das?

Zitat:
Und diese Punkt wandern langsam immer weiter nach oben.


Das verstehe ich auch nicht! Wie wandern die Punkte???
...

Viele Grüße,
    Wolfram

MfG
Ben Hur
Parent - - By Wolfram Bernhardt Date 2011-11-11 21:52
Hi!

Angenommen, es spielen 10 Leute schon seit längerem Schach nach Elo-System. Alle haben mit 1500 Elo angefangen und somit waren 15000 Elo-Punkte im dem ganzen System. Nach vielen, vielen Partien haben sich nach Spielsträke verschoben, der beste hat vielleicht 2000, die anderen immer etwas weniger.

Nun kommt ein neuer Schachfreund dazu. Der bekommt zum Start auch 1500 Elo und damit sind 16500 Elo-Punkte im Gesamtsystem. Und auf diese Weise kommen immer mehr Elo-Punkte in das Gesamtsystem.

Nun wandern die Punkte automatisch nach oben, weil die stärkeren Spieler sie den schwächeren "wegnehmen" und nicht wieder hergeben.
Hin und wieder gehen auch mal welche wieder nach unten, aber im Allgemeinen ist der Trend nach oben.

Hier http://de.wikipedia.org/wiki/Elo-Zahl ist das ausführlicher erklärt.

Viele Grüße,
    Wolfram
Parent - - By Ben Hur Date 2011-11-11 22:20
Hi Wolfram,

Du bist kein Schachspieler und kein Ratingexperte, stimmt`s?

Denn laut Wiki:

Code:
Beim Elo-System gewinnt der Sieger einer Partie genau so viele Rating-Punkte hinzu, wie der Verlierer einbüßt: die mittlere Spielstärke beider bleibt gleich



MfG

Ben Hur

P.S.

Man kann keine Punkte einbringen, man muss sie sich erst erspielen.
Parent - - By Thomas Müller Date 2011-11-11 22:46
Hi ben,

lies den Wiki-artikel mal genau.
Speziell den bereich "Deflation und Inflation"
Das es immer mehr spieler mit höherem elo gibt ist seit langem bekannt.
"kleiner fehler" im system

Und die comp-elo mit den menschen direkt zu vergleichen ist auch falsch.
Es wird ja nur "versucht" die comp-elo auf die menschliche zu übertragen.
Direkte vergleiche gibt es fast keine.
Aber meiner meinung nach haben "wir" bzw die topspieler keinerlei chancen mehr.
Die top-10 der engines schlagen jeden >2700, zumindest über mehrere games.
Vereinzelte remis sind durchaus möglich bei längerer bedenkzeit. Blitz geht gar nix

gruß thomas
Parent - By Ben Hur Date 2011-11-11 23:16
[quote="Thomas Müller"]
Hi ben,

Zitat:
lies den Wiki-artikel mal genau.
Speziell den bereich "Deflation und Inflation"

Habe ich gemacht. Leider wird dort sehr grosser Unsinn verbreitet!

Zitat:
Das es immer mehr spieler mit höherem elo gibt ist seit langem bekannt.
"kleiner fehler" im system

Stimmt, ich weiss sogar um die Ursachen...

Zitat:
Und die comp-elo mit den menschen direkt zu vergleichen ist auch falsch.
Es wird ja nur "versucht" die comp-elo auf die menschliche zu übertragen.
Direkte vergleiche gibt es fast keine.


Der Aufhänger war eben die irreale Spielstärke von Smirf verglichen menschlichen Elos!
Dann machte ich den Versuch die Blitzeloliste mal neu auszuwerten mit dem Ergebnis,
dass Deep Sjeng 2.5 1CPU elo1000 ziemlich genau bei 1000 landete. Da war das alte Ingo System
leichter zu verstehen, denn der Weltmeister (Spitzenreiter) lag immer um die Null (3-5) herum!
Der Witz ist eben, dass man direkt von Ingo nach Elo umrechnen kann. Da kam ich auf die Idee
eben einen Wert von ca. 2850 für den Leader zu nehmen, und schwupps passte die Elo für
"Deep Sjeng 2.5 1CPU elo1000".

Das ist für heutige Verhältnisse wahr; wie es mit den Brettcomputern ausieht weiss ich nicht.

Zitat:
Aber meiner meinung nach haben "wir" bzw die topspieler keinerlei chancen mehr.
Die top-10 der engines schlagen jeden >2700, zumindest über mehrere games.
Vereinzelte remis sind durchaus möglich bei längerer bedenkzeit. Blitz geht gar nix


stimmt!

gruß thomas
Parent - - By Michael Scheidl Date 2011-11-11 23:20
Zitat:
Man kann keine Punkte einbringen, man muss sie sich erst erspielen.

Ich kenne das nur von Schachservern, aber: Man fängt nicht mit Null an, sondern mit einer Anfangswertung (notgedrungen einer Schätzung).

Also wenn z.B. auf Schach.de ein Spieler einsteigt, wird er zuerst mit 1590 bewertet. Das sieht man nur bei ersten paar Partien selber noch nicht; f.d. Gegner wird dieser Wert für die Ratingberechnungen genommen. Je nachdem, ob diese Anfangswertung mehrheitlich (etwas) zu hoch oder zu niedrig ist, muß das offenbar dazu führen daß daher entweder Ratingpunkte eingebracht oder entzogen werden.

Zumindest erscheint mir das logisch... ich bin jetzt nicht zu 100% aber zu 90% sicher. Oder sagen wir 51%.
Parent - By Ben Hur Date 2011-11-11 23:35
[quote="Michael Scheidl"]
Zitat:
Man kann keine Punkte einbringen, man muss sie sich erst erspielen.

Ich kenne das nur von Schachservern, aber: Man fängt nicht mit Null an, sondern mit einer Anfangswertung (notgedrungen einer Schätzung).

Also wenn z.B. auf Schach.de ein Spieler einsteigt, wird er zuerst mit 1590 bewertet. Das sieht man nur bei ersten paar Partien selber noch nicht; f.d. Gegner wird dieser Wert für die Ratingberechnungen genommen. Je nachdem, ob diese Anfangswertung mehrheitlich (etwas) zu hoch oder zu niedrig ist, muß das offenbar dazu führen daß daher entweder Ratingpunkte eingebracht oder entzogen werden.

Zumindest erscheint mir das logisch... ich bin jetzt nicht zu 100% aber zu 90% sicher. Oder sagen wir 51%.

Bei der Berechnung der ersten Wertungszahl werden mindestens so viele Spiele gespielt, bis ein
Ergebnis des Probanden ungleich 100 % oder 0 % eintritt. So lange werden die Punkte aufsummiert.
Es gibt keinerlei Startwert! Nur die Fide hat sich einen Unsinn geleistet, indem mehrere Versuche
gestattet wurden um den Einstiegswert von > 2000 Elo zu erreichen! Dass heisst,
eventuell waren mehrere Versuche nötig...

In Wirklichkeit war die Prozedur noch etwas komplizierter (Halbwertung)

siehe hier:http://www.chesstour.de/intern/elo.htm

Wie setzt sich eine Halbwertung zusammen?

Entscheidend ist sowohl das Niveau der Gegner wie auch das Ergebnis gegen die Gegner. Nehmen wir an, du hast gegen 4 Gegner gespielt, deren ELO-Durchschnitt 2.200 war. Wenn du 50% der möglichen 4 Punkte erzielt hast, ist das auch der Wert deiner Halbwertung. Wenn du mehr oder weniger Punkte erzielt hast, steigt oder fällt deine Halbwertung dementsprechend. Grobe Faustformel: für jeden halben Punkt Abweichung von 50% ca. + / - 50 ELO-Punkte. Hier sehen wir gleich eine Schwäche des ELO-Systems, den einzelne Gegner mit hoher ELO können die Halbzahl mächtig hochkatapultieren.
In der Praxis ist ein lausiges Resultat gegen starke Gegner besser als ein ausgewogenes oder sogar gutes Resultat gegen mäßige Gegner.
Parent - - By Wolfram Bernhardt Date 2011-11-12 18:47
Hi!

Schachspieler schon, Rating"experte" sicherlich nicht.

Ich habe nur einiges zu dem Thema gelesen. Und da sich die echten Experten (gerne Mathematiker) da einig sind, dürfen wir ihnen wohl glauben.

Lies doch mein Beispiel bitte noch einmal. In allen Schachverbänden fängt jeder Anfänger mit einer Elo-Punktzahl an, nicht bei 0. Damit bringt er Punkte ins System ein.

(Wenn alle bei 0 anfingen, woher sollte dann je jemand auch nur einen Punkt haben? Nach einer Partie zwischen zwei 0-Neulingen hätte der Gewinner hinterher dann z.B. 8 Punkte... und der Verlierer.... -8 ? Nene... also die Elo-Liste, in der jemand negative Punkte hast, musst Du uns erstmal zeigen )

Viele Grüße,
    Wolfram
Parent - By Ben Hur Date 2011-11-12 19:23
[quote="Wolfram Bernhardt"]
Hi!

Zitat:
Schachspieler schon, Rating"experte" sicherlich nicht.

Code:
dachte ich mir


...
...
Zitat:
In allen Schachverbänden fängt jeder Anfänger mit einer Elo-Punktzahl an, nicht bei 0. Damit bringt er Punkte ins System ein.

Code:
das ist leider ganz falsch! Jeder Anfänger fängt mit keiner Elozahl an, auch nicht mit Null (0),
denn Null ist auch eine Zahl!
Hier steht was dazu: http://www.chesstour.de/intern/elo.htm

Code:
Ausserdem, in jedem Land der Erde, der einen Nationalen Schachverband hat, gibt es einen Wertungsreferenten. Der gibt dir gerne Auskunft.


...
Zitat:
Nene... also die Elo-Liste, in der jemand negative Punkte hast, musst Du uns erstmal zeigen )


Code:
Die könnte ich in der Tat zeigen, nur nicht bei Elo, sondern bei einer NWZ (=Nationale Wertungszahl).
Mir war das wirklich sehr peinlich! Früher war es sogar so, dass ein Mindestwert der Wertungszahl erreicht sein musste, sonst wurde sie nicht veröffentlicht, aber für weitere Berechnungen gespeichert!


Viele Grüße,
    Wolfram

Wie die erste historische Elo Berechnung ausgesehen hat würde mich auch mal interessieren!
Parent - - By Thorsten Czub Date 2011-11-11 21:26
[quote="Wolfram Bernhardt"]
Hallo!

Das stimmt zwar, ist aber ein alter Hut.

Es ist ein bekannter Nachteil des Elo-System: Jeder neue Spieler bringt neue Punkte in das Gesamtsystem. Und diese Punkt wandern langsam immer weiter nach oben. So werden die Elo-Zahlen gerade an Spitze nach und nach immer größer.

Jetzt fällt mir dazu eine Frage ein: Spieler, die sich zurückziehen, müssten doch auch Punkte wieder aus dem System herausnehmen - aber das scheint das Gesamtsystem nicht wieder auszugleichen. Weiss da jemand noch mehr drüber?

Viele Grüße,
    Wolfram
[/quote]

das ist uebrigens dasselbe system, wie beim kapitalismus. jeder neue erdenbuerger bringt geld. das Geld wandert auch immer höher, bis es bei den oberen 10.000 angekommen ist.
dann zerfällt das system meistens, und es gibt ein anderes system.
Parent - - By Wolfram Bernhardt Date 2011-11-11 21:27
Unsere Tochter ist vor einer Woche 2 geworden. Dass sie irgendwie Geld in das System gebracht hätte, haben wir aber bis jetzt nicht gemerkt:-)
Parent - By Thorsten Czub Date 2011-11-11 22:01
[quote="Wolfram Bernhardt"]
Unsere Tochter ist vor einer Woche 2 geworden. Dass sie irgendwie Geld in das System gebracht hätte, haben wir aber bis jetzt nicht gemerkt:-)
[/quote]

ach das wirst du schon noch merken, spätestens dann wenn es das erste weihnachtsfest gibt fuer das kind. 

meiner ist jetzt 6.

Parent - - By Christian Schmidt Date 2011-11-12 14:05
[quote="Ben Hur"]
Ich würde vorschlagen, den höchsten Computer Elowert dem des Human-Weltmeisters anzupassen; macht Sinn!
[/quote]

Inwiefern? Heute steckt doch ein durchschnittlicher handelsüblicher Rechner, bestückt mit einer der Top-Engines, jeden Super-Großmeister gnadenlos in die Tasche. Interessanter fände ich die Idee, einen menschlichen Schachspieler gegen eine Engine spielen zu lassen, die ungefähr seine Stärke hat. Dann hat man einen gewissen Referenzpunkt (der theoretisch richtig, aber natürlich dennoch auch Kritikpunkte beinhaltet), mit dem man andere Engines (+ die Hardwarekonfiguration, das wird ja gerne vergessen) einstufen und einen vagen Vergleich zu menschlichen Schachspielern ziehen kann.
Parent - By Ben Hur Date 2011-11-12 15:03
Ja, das wurde doch schon gemacht, siehe mein Beispiel mit 1000 Elo.

Du kannst ja mal die von mir geposteten Smirf Partien ansehen und dann ein Urteil abgeben.

Peter Krug ist kompetent und und hat eine relativ hohe Zahl genannt, ich habe mich dagegen enthalten,
lediglich einige wenige Partien hatten zu meiner Schätzung von 1300 Elo geführt.

Die noch von der CEGT zu prognostziernde Elo Zahl kenne ich bereits! Da bin ich sachkundig genug.
Parent - - By Frank Quisinsky Date 2011-11-12 15:05
Hallo,

als ich seinerzeit mit GM Hickl das Interview mit GM Meyer machte, der wiederrum seinerzeit bei ca. 2.640 ELO lag, meinte er, dass Rybka 3 auf seinem schnellem Notebook was er hatte bei ca. 2.900 ELO liegen sollte. Zumindest nach seinen Partien. Er setzte 1 Core und ein 32 bit Betriebssystem ein. Ferner erzählte GM Meyer das er auch mal mit WM Kasparov darüber sprach der ca. die gleiche Meinung vertritt.

Die SWCR startete ich ca. zu diesem Zeitpunkt und rechnete runter auf Shredder 2.800 ELO, wenn Rybka 3. Ingo lag mit seiner damaligen Berechnung nicht weit weg, so glichen wir unsere Listen auf Shredder ELO 2.800 an. Mit anderen Worten, die Ausgaben der SWCR sind bei der verwendeten Bedenkzeit absolut realistisch. Im Blitz, wie bei Ingo geht die ELO dann wieder minimal nach oben.

Gruß
Frank
Parent - - By Ben Hur Date 2011-11-12 15:24
Hallo Frank,

die Elo  Listen schweben frei im Zahlenraum, daher benötigen sie einen Ankerpunkt.
Dein Anker liegt bei 2800. Meiner Meinung nach ist das  total falsch. Kann man aber machen;
dadurch wird es nicht richtiger!

Man kann den Ankerpunkt beliebig setzen, ich würde die Mitte der Scala nehmen, also ca. 1450 Elo.

Nach den mir vorliegenden Daten besitzt ein duchschnittlicher Vereinsspieler ca. 1600 Elo!

Die Qualitäten dieser Spieler lassen sich noch gut abschätzen.

So würden die Ranglisten verständlicher sein!

Ich weiss, dass Du Vereinsspieler bist. Wie hoch würdest Du den Elowert von Smirf einschätzen?

Wahrscheinlich sind die Ranglistenbetreiber aber nicht in der Lage die Qualität der Spiele
die sie austragen lassen zu beurteilen, dann kommt eben so ein Unsinn heraus!
Parent - - By Werner Mueller Date 2011-11-12 22:34
[quote="Ben Hur"]
Hallo Frank,

die Elo  Listen schweben frei im Zahlenraum, daher benötigen sie einen Ankerpunkt.
Dein Anker liegt bei 2800. Meiner Meinung nach ist das  total falsch. Kann man aber machen;
dadurch wird es nicht richtiger!

Man kann den Ankerpunkt beliebig setzen, ich würde die Mitte der Scala nehmen, also ca. 1450 Elo.

Nach den mir vorliegenden Daten besitzt ein duchschnittlicher Vereinsspieler ca. 1600 Elo!

Die Qualitäten dieser Spieler lassen sich noch gut abschätzen.

So würden die Ranglisten verständlicher sein!

Ich weiss, dass Du Vereinsspieler bist. Wie hoch würdest Du den Elowert von Smirf einschätzen?

Wahrscheinlich sind die Ranglistenbetreiber aber nicht in der Lage die Qualität der Spiele
die sie austragen lassen zu beurteilen, dann kommt eben so ein Unsinn heraus!

[/quote]
Ja, die 'Elo'-Listen schweben sozusagen frei im Raum.
Das ist so (und wenn es auch nicht gut so ist, so ist es jedenfalls nicht schlimm), daran kann man nichts ändern und schon gar nicht durch irgendeinen Ankerpunkt.

Ich denke, wenn man einen Bezug zu menschlichen ELOs herstellen möchte, dann könnte man Houdini ca. 3000 ELO geben. Nur - den modernen Spitzenengines (und da kannst Du fast schon bei Fritz 8 anfangen) könntest bzw. müsstest Du dann genauso die 3000 Elo geben. Dass dies so ist und welche grundsätzliche Probleme das nach sich zieht, wurde schon öfters diskutiert, aber letztlich bleibt das alles Spekulation.

Weniger spekulieren muss man in den 'niederen' Gefielden.

Wenn ich den Test von GS unter http://cegt.siteboard.eu/f6t150-testing-smirf-bc-176f-2.html und die vorläufige Wertung von 2084 'Elo' nach 100 Partien sehe, besteht jedenfalls in diesen unteren Bereichen kein realistischer Bezug.

Ich habe heute zwei Blitzpartien (4+2) gegen Smirf gespielt. Und diese zwei Partien genügen (zudem ich Smirf vor 3,4 Jahren schon mal angetestet habe). Dein Eindruck 'wie ein 8-bit Programm' ist absolut zutreffend - positionell unterirdisch und taktisch ohne jeglichen Druck. Natürlich würde ich (<2100) im Blitz ab und an durch Einsteller auch mal verlieren. Aber mehr als 1700 wären für Smirf nicht drin.
Und das wohlgemerkt im Blitz. Bei Turnierbedenkzeit kannst Du locker nochmal 300 Elo-Punkte abziehen - also 1400 ELO.

Andererseits (ein weiteres Beispiel für die grundsätzliche Unmöglichkeit, einen sinnvollen Bezug dieser freischwebenden 'Elo'-Listen herzustellen) - einen 1400-Spieler würde Smirf locker und sicher in den Sack stecken, der macht sich natürlich zuverlässig und regelmäßig selbst kaputt.

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Da ich es nicht hinbekomme, zwei PGN-Viewer in einem Posting unterzukriegen (liegt das an mir?), die zweite Partie als pgn.

Code:
[Event "SmirfGUI Computerchess Game"]
[Site "MUELLER-5F0A39C"]
[Date "2011.11.12"]
[Time "16:14:25"]
[Round "?"]
[White "Weiss"]
[Black "Schwarz"]
[Result "0-1"]
[Annotator "Donationware Version - donate !"]

1. e4 {(07.05=) +0.205} e5 2. Nf3 {(07.01=) +0.439} Nc6 3. Nc3 {(07.02+)
+0.445} Nf6 4. d4 {(07.01) +0.316} exd4 5. Nxd4 {(07.01=) +0.504} Bb4 6. f3
{(07.00) +0.375} O-O 7. Bf4 {(06.03) +0.268} d5 8. Nxc6 {(07.25) +0.197} bxc6
9. Qd3 {(06.11) -0.031} dxe4 10. fxe4 {(07.00) -0.283} Nxe4 11. O-O-O {(06.22)
-2.094} Qxd3 12. Bxd3 {(08.00) -2.242} Nf2 13. Bxc7 {(06.01) -1.877} Bg4 14.
Rde1 {(07.00) -1.789} Nxh1 15. Rxh1 {(07.00) -1.793} Bxc3 16. bxc3 {(07.01=)
-1.645} Rfe8 17. Bd6 {(06.03) -1.621} Rad8 18. Bf4 {(06.02) -2.035} Be2 19. Kd2
{(07.02+) -2.229} Bxd3 20. cxd3 {(07.01=) -1.955} f6 21. Rb1 {(07.01) -2.088}
Rd7 22. Rb8 {(06.11) -1.801} Rxb8 23. Bxb8 {(09.01) -3.531} Kf7 24. Bf4
{(08.01) -1.801} g5 25. Bg3 {(09.00) -1.937} f5 26. h4 {(08.01) -1.797} h6 27.
Be5 {(08.02) -1.807} Ke6 28. d4 {(08.01) -1.793} c5 29. hxg5 {(09.00) -1.379}
hxg5 30. Kc2 {(06.16=) -1.535} cxd4 31. cxd4 {(08.02) -1.957} Kd5 32. g3
{(09.01) -1.943} Kc4 33. Bf6 {(09.07) -2.178} g4 34. Kb2 {(09.02=) -1.996} Rxd4
35. Bxd4 {(09.01) -3.670} Kxd4 36. Kc2 {(12.00) -8.100} f4 37. Kd2 {(14.00)
-8.703} f3 38. a3 {(11.05) unavoidable} a6 39. a4 {(10.04) unavoidable} a5 40.
Ke1 {(10.03) unavoidable} Ke3 41. Kd1 {(08.01) unavoidable} f2 42. Kc2 {(05.01)
unavoidable} f1=Q 43. Kb3 {(05.02) unavoidable} Kd3 44. Kb2 {(02.02)
unavoidable} Qh1 45. Kb3 {(02.02) unavoidable} Qb1+ 46. Ka3 {(03.00?) no
choice} Qb4+ 47. Ka2 {(02.00?) no choice} Kc2 48. Ka1 {(02.00?) no choice} Qa3#
0-1
Parent - By Ben Hur Date 2011-11-13 10:33
[quote="Werner Mueller"]

...Aber mehr als 1700 wären für Smirf nicht drin.
Und das wohlgemerkt im Blitz.
Bei Turnierbedenkzeit kannst Du locker nochmal 300 Elo-Punkte abziehen - also 1400 ELO.

...
[/quote]
Dann liegst Du schon relativ richtig in der Einschätzung!

Peter Krug schätzt: ca. 1600 Elo
QueeNy von mir geschätzt ca. 1700 Elo
Smirf 2011 liegt knapp deutlich darunter!
Parent - By Ben Hur Date 2011-11-13 14:06
[quote="Werner Mueller"]

...
Ja, die 'Elo'-Listen schweben sozusagen frei im Raum.
...

Weniger spekulieren muss man in den 'niederen' Gefielden.

Wenn ich den Test von GS unter http://cegt.siteboard.eu/f6t150-testing-smirf-bc-176f-2.html und die vorläufige Wertung von 2084 'Elo' nach 100 Partien sehe, besteht jedenfalls in diesen unteren Bereichen kein realistischer Bezug.

...

[/quote]

Was mir bei dem Test von G.S. auffällt, ist die Tatsache, dass nur viel stärkere Engines als Smirf ausgesucht wurden!
Ich würde es anders machen! Smirf gegen schächere und stärkere Engines spielen lassen.

MfG

Ben Hur
Parent - - By Frank Quisinsky Date 2011-11-13 10:14
Hallo,

ich spiele selbst nicht gegen Smirf.
Wenn ich spiele, spiele ich Turnierpartien gegen 4 Gegner:

1. SSEChess auf einem Q9550, allerdings nicht mehr im letzten Jahr
2. AnMon auf einem Q9550, mache ca. 40% ... kenne keine Engine besser als AnMon
3. Schachcomputer Mephisto Milano, liege bei ca. 78%
4. Schachcomputer Novag Star Diamond, liege bei ca. 54%

Meine ELO kenne ich nicht, da ich seit Jahren keine Wertungspartien mehr im Verein spiele. Spiele aber regelmäßig gegen 2.000 - 2.200 ELO Spieler.

Also, ich kann das natürlich nicht so gut einschätzen wie GM Meyer der auch selbst eher selten gegen Rybka 3 spielte, sondern seinerzeit die Engine als Kiebitz unter ChessBase mitlaufen läßt. Allerdings ist auch im Verein die einhellige Meinung das z. B. ein Fritz mit ca. 2.800 ELO spielt, ein Rybka 3 32bit ca. mit 2.900 ELO. Genau kann das natürlich nicht gesagt werden aber das ist auch nicht so wichtig wie ich finde.

Die erwähnten Ratings betreffen das Schnellschach. Im Turnierschach wird die Performace eher darunter liegen, im Blitz Schach darüber. Nach den Kontakten die ich zu Fernschachspieler habe, wird z. B. Houdini 1.5 auf ca. 2.700 geschätzt (maximal).

Viele Grüße
Frank
Parent - - By Ben Hur Date 2011-11-13 11:50
[quote="Frank Quisinsky"]
Hallo,

Zitat:
ich spiele selbst nicht gegen Smirf.

Code:
ist auch nicht erforderlich


Zitat:
Wenn ich spiele, spiele ich Turnierpartien gegen 4 Gegner:

1. SSEChess auf einem Q9550, allerdings nicht mehr im letzten Jahr
2. AnMon auf einem Q9550, mache ca. 40% ... kenne keine Engine besser als AnMon
3. Schachcomputer Mephisto Milano, liege bei ca. 78%
4. Schachcomputer Novag Star Diamond, liege bei ca. 54%

Code:
dann lass uns doch mal rechnen; die elozahlen deiner computergegner hast du doch,
dann verifiziere nochmals anmon und baue den in deine swcr ein, und schupps hast du deine
reale differenz human-compi


Meine ELO kenne ich nicht,...
Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-11-13 12:14
Hallo,

nein, das ist so nicht so einfach zu berechnen.

A: Habe Formschwankungen
B: Spiele nicht ausreichend Partien
C: Ich kenne alle 4 gegen die ich spiele selbst sehr gut und kann daher leicht auf die Schwächen meiner Gegner spielen.

Eine reale ELO kommt dabei nicht heraus.
Eine reale ELO kommt aber bei einer Engine Ratingliste heraus, denn die Engines spielen immer gleich!

Real sind also die Computerschachratings, nicht real sind eher die ELOs die Menschen erzielen, denn diese sind viel schwieriger zu messen.
Wäre Äpfel mit Birnen vergleichen!

Viele Grüße
Frank

Auch wenn Du das vielleicht nicht gerne liest!
Aber für mich sind z. B. menschliche ELO eher eine Art eine derzeitige Form festzustellen.
So halte ich Iwantschuk für den besten Spieler aller Zeiten, allerdings hat er öfters mal seine Formschwankungen!
Parent - - By Werner Mueller Date 2011-11-13 12:32
[quote="Frank Quisinsky"]
...
Real sind also die Computerschachratings, nicht real sind eher die ELOs die Menschen erzielen, denn diese sind viel schwieriger zu messen.
...
[/quote]
Ich muss ja nicht zum tausendstenmal wiederholen, dass ich Rating-Listen für sinnvoll halte - aber wenn ich dann so einen Quatsch lese ...
Parent - By Frank Quisinsky Date 2011-11-14 21:41
Hi,

ich finde nicht das es Quatsch ist.

Im Laufe der Jahre verändern Menschen Ihre Leistung beim Schachspiel.
Oder auch mal im Laufe von nur einer Woche.

Formtief, Formhoch ...
Eine feste Größe kann ELO bei einem Menschen nicht ausgeben.
Eine ELO spiegelt eher den aktuelle Leistung wieder.

Nehme Dir mal die Partien von Ivantschuk und füge diese in eine Ratingliste.
Jetzt unterteile Ivantschuk nach Jahren ... Partien aus dem Jahr 1990, 1991, 1992 und so weiter.

Wird wunderbar deutlich was ich meine!

Ein Schachprogramm spielt immer gleich, daher viel einfacher zu messen.

Fraglich ist allerdings was der Anwender überhaupt unter ELO versteht.
Was eigentlich gewollt und gemeint ist, wird wie bei allen anderen Themen im täglichen Leben meist zu dem vergewaltigt was in den eigenen Kram passt.

Ich meine ich finde es OK, wenn jede Aussage von jemand der sich hier oder dort bemüht versucht wird zu zerreisen.
Auch das ist sicherlich ein Event, ein Sport an dem gerade in Foren so mancher einen Heidenspaß hat.
Ist OK, ich gönne es wirklich jeden

Aber es ist immer interessant auch mal logisches zu Hinterfragen und erst Recht immer interessant zu "genießen" was dabei wohl herauskommt.

Dir eine schöne Woche!

Gruß
Frank
Parent - - By Ben Hur Date 2011-11-13 12:49
[quote="Frank Quisinsky"]
Hallo,

nein, das ist so nicht so einfach zu berechnen.

...
Zitat:
C: Ich kenne alle 4 gegen die ich spiele selbst sehr gut und kann daher leicht auf die Schwächen meiner Gegner spielen.

Code:
Siehe den Programmieransatz von Benno Hartwig, ich warte immer noch auf Benno`s Antwort


Zitat:
Eine reale ELO kommt dabei nicht heraus.

Code:
das ist auch nicht so wichtig!


...
Zitat:

Real sind also die Computerschachratings, nicht real sind eher die ELOs die Menschen erzielen, denn diese sind viel schwieriger zu messen.
Wäre Äpfel mit Birnen vergleichen!

Code:
Das sehe ich nicht so.
Die Methoden sind die selben.
Es kommt mir hier auch nicht so sehr darauf an, wie ich es sehe, denn im alltäglichen
Schachtraining im Verein löchern die Kid`s einen schon genug.

Beispiel in Kurzform:

1. Grundlagen des Schachspiels; Brett, Figuren, Spielregeln...
2. Die ersten internen Turniere, Ergebnisse, es gibt oft einen, der immer gewinnt, ebenso einen der immer verliert
3. Es kommt die Frage warum ist es so, Spielstärke wie wird sie gemessen? Wie stark bin ich?
4. Trainer wie stark bist Du?
5. Wer ist Deutscher Meister, wie stark ist der denn??
6. Und der Weltmeister ist wie stark?
7. Welchen Schachcomputer/schachprogramm soll ich mir kaufen???
8. Ich habe einen Schachcomputer, wie stark ist der denn??


Also die Fragen kommen automatisch und auch die Vergleiche zwischen den Listen, das sollten
die Ratingbetreiger einfach mal wahrnehmen.

Viele Grüße
Frank

...


MfG

Ben Hur
Parent - By Frank Quisinsky Date 2011-11-14 21:44
Nun ja,

die Stärke kann dann aber nur grob dargestellt werden.
Ein Trainer im Verein kann sehr gut sein, auch mit nur 2.000 ELO.

Die meisten Trainer im Amerika (dort ist z. B. mit Trainings noch richtig Geld zu verdienen) haben nicht mehr als 2.000 ELO.
Deswegen müssen Sie keine schlechten Schachspieler sein, denn beim Training kommt es wieder auf ganz andere Dinge an.
Talente fördern, erkennen ... da kann ein 2.600 ELO Spieler schon versagen.

Vergleiche zwischen den Listen im Computerschach halte ich für sinnvoll.
Rückschlüsse als Spielbedinungen kommen dabei raus und vor allem Erkenntnisse die tief verborgen liegen.
Meist durch unterschiedliche Ergebnisse entstehen erst interessante weitere Analysen und genau hierbei kommt oft überraschendes heraus.

Gruß
Frank
Parent - By Ben Hur Date 2011-11-13 13:23
Hallo Frank,

dann übernehme ich mal das für Dich:
Bitte nicht für absolut halten, es ist eine sehr grobe Annäherungsrechnung.
-> Deine letzte DWZ ca. 1950 (angenommen Elo=DWZ)
-> Anmon CEGT 2593 Elo
-> Anmon SWCR 2415 Elo

Gewinnwahrscheinlichkeit von Anmon in Elo beträgt ca. 70 Elo

Also 1950 + 70 = 2020 Elo

für CEGT: 2593 - 2020 = 573 Elo
für SWCR: 2415 - 2020 = 395 Elo

MfG

Ben Hur
Parent - - By Peter Martan Date 2011-11-13 13:37 Edited 2011-11-13 13:40
[quote="Frank Quisinsky"]
nein, das ist so nicht so einfach zu berechnen.

A: Habe Formschwankungen
B: Spiele nicht ausreichend Partien
[/quote]

Entschuldige, Frank, aber da liegt, glaube ich, gerade der grundlegende Irrtum im Vergleich menschlicher Elo mit denen von engines.
Weil wir vom Computerschach mehr und mehr gewöhnt sind, nur noch die astronomischen Partiezahlen gelten zu lassen, die zur Exprimierung von statistisch überhaupt noch signifikanten Zahlen notwendig sind, einfach weil die Merkmalsdifferenzen schon so winzig klein geworden sind, ist das eben bei menschlichen Elo überhaupt nicht so.
Da hat ein Spieler, der in einem gewerteten Turnier seine paar einzelnen Partien gewonnen oder verloren hat, sofort genau dasjenige ranking und genau soviel Elopunkte, wie er in diesem letzten gewerteten Turnier erspielt hat, die gelten dann halt nur bis zum nächsten Turnier, und so hatte sich Arpad das ursprünglich halt einfach ausgedacht, nicht dazu, wozu es im eng-eng-Sport herhält.

Dass du das nicht mit dem vergleichen willst, was im CS gilt, kann ich gut verstehen, macht es aber so verfänglich, diese prinzipiellen Unterschiede nicht immer wieder klar genug herauszustellen, wenn man sich schon weiter hartnäckig und wie mir scheint auch immer gewaltsamer dagegen wehrt, die Werte der engines von denen der Menschen rein zahlenmäßig endgültig abzukoppeln.
Michael Scheidls einfacher Vorschlag, ein rein zahlenmäßig leicht unterscheidbare Eichung zu machen, wobei mir prinzipiell egal wäre, ob das dann viel höhere oder viel niedrigere Werte wären, hätte den Vorteil, dass die bange Frage, wie möge das wohl zusammenhängen und vergleichbar sein, endgültig vom Tisch wäre oder jedenfalls nicht ständig durch schiere Verwechslung der völlig unterschiedlich ermittelten Werte Unklarheit und falsche Verkaufs- und Sportargumente unterhalten, die dem Fortschritt in irgendeine noch relevante Richtung längst nur mehr im Weg stehen.

Dieser wirklich gravierende Unterschied, dass bei Menschen eben einzelne Partien auch zählen und das im ungeschriebenen CS- Codex das absolute NoNo ist, ist ja nur ein einzelner Punkt.
Der Andere, dass die Einen gegen die Anderen einfach überhaupt nicht mehr antreten unter Turnierbedingungen, die irgendwie wertbar wären, ist das Andere, und auch wenn sich das z.B. im Fernschach leicht ändern ließe, scheitert es an fehlenden finanziellen Interessen, die da irgend jemand daran hätte und an der mangelnden Kontrollierbarkeit.

Auch würde ja, nur um noch ein weiteres Beispiel zu nennen, niemand Menschen mit genormten und möglichst aufwendig nivellierten Kurzbüchern oder abgezählten und vorher ausgemachten Eröffnungsstellungen gegeneinander ihre Elo erspielen lassen, ginge ja auch gar nicht, die cleveren Kerlchen würden erst recht erst aber diesen paar Ausgangsstellungen ihre Turniervorbereitung heimlich zu Hause beginnen. FRC ist wieder was Anderes, hat aber auch wieder andere Elo zur Folge.
Parent - By Frank Quisinsky Date 2011-11-14 21:51
Hi Peter,

also ich finde die von mir gemachten Äußerungen überhaupt gar nicht diskussionsreif, weil logisch und selbsterklärend.
Schachspieler in Vereinen sind auf Leistung aus.

Ein paar gute Resultate und die ELO schießt nach oben, ein paar schlechte und es geht deutlich nach unten.
Weil, zu wenige Partien um die ELO konstanter zu halten.

Aber das ist natürlich auch ein Reiz, dummerweise oftmals auch das Übel warum Menschen die Lust an Vereinsspielen verlieren.
Menschen sind hier mehr oder weniger auf Leistung aus, wollen Ihr Rating verbessern.

Aber gerade aufgrund der großen Unterschiede nach nur wenigen Partien tickt der Mensch oftmals auch so, dass die Lust verloren geht. Habe das in den Vereinen schon so oft beobachtet, leider auch bei vielen Jugendlichen die durch ein paar Misserfolge ... gerade in heutigen Zeiten ... immer schwieriger zu motivieren sind.

Dieses ganze ELO-Berechnungszeug hat relativ wenig mit Computerschach-Ratinglisten zu tun. Was hier ermittelt wird ist schon fast zu genau. Ich habe ja mal kürzlich die Frage in den Raum gestellt ob z. B. eine Engine die vor 5 Jahren gegen Gegnerschaft aus dieser Zeit, auch heute noch das gleiche Rating gegen aktuelle Gegnerschaft erzielen wird. Ich kam bei verschiedenen Stichproben zu dem Ergebnis ... sofern wir nicht unbedingt eine Differenz von 25 ELO, obwohl eigentlich maximal 10-15 regulär wäre, nicht an den großen Nagel können wir davon ausgehen.

Auch das spricht für genaue Messverfahren eines Ratings, dieses ist bei Menschen nicht möglich.
ELO, oder ELO-Berechnungsprogramme vergewaltigen beim Computerschach natürlich auch das was eigentlich gewollt war.

Vergleichbar mit Winboard und dem Engine Konzept.
Das was daraus geworden ist, wurde von Tim Mann gar nicht beabsichtigt.

So ist das oftmals ... es kommt immer anders als "Mann" denkt.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-11-14 22:37
[quote="Peter Martan"]
...
Weil wir vom Computerschach mehr und mehr gewöhnt sind, nur noch die astronomischen Partiezahlen gelten zu lassen, die zur Exprimierung von statistisch überhaupt noch signifikanten Zahlen notwendig sind, einfach weil die Merkmalsdifferenzen schon so winzig klein geworden sind, ist das eben bei menschlichen Elo überhaupt nicht so.
Da hat ein Spieler, der in einem gewerteten Turnier seine paar einzelnen Partien gewonnen oder verloren hat, sofort genau dasjenige ranking und genau soviel Elopunkte, wie er in diesem letzten gewerteten Turnier erspielt hat, die gelten dann halt nur bis zum nächsten Turnier, und so hatte sich Arpad das ursprünglich halt einfach ausgedacht, nicht dazu, wozu es im eng-eng-Sport herhält.
...
[/quote]
Ist zwar nur fast so (der Spieler erzielt im Turnier eine Performance und die wird mit seiner alten ELO-Zahl verwurstet), aber dass Prof. Elo sich das nicht so gedacht hätte ist nicht richtig.

Richtig ist, dass die 'Elo-Zahlen' der Ranking-Listen keine ELO-Zahlen sind. Weder von der Philosphie noch von der Mathematik her. Ich will es nicht ständig neu formulieren deshalb: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41778

ABER (um die Sache nicht unnötig unkompliziert zu machen ):
diese Tatsache, dass wir es einerseits mit den Ergebnissen einer Theorie der zufälligen Messfehler und andererseits mit tatsächlichen ELO-Zahlen nach der Eloschen Theorie zu tun haben, spielt bzgl. der Thematik in diesem Thread keine Rolle. 
Parent - - By Ben Hur Date 2011-11-15 08:40
[quote="Werner Mueller"]
Richtig ist, dass die 'Elo-Zahlen' der Ranking-Listen keine ELO-Zahlen sind. Weder von der Philosphie noch von der Mathematik her. Ich will es nicht ständig neu formulieren deshalb: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41778

ABER (um die Sache nicht unnötig unkompliziert zu machen ):
diese Tatsache, dass wir es einerseits mit den Ergebnissen einer Theorie der zufälligen Messfehler und andererseits mit tatsächlichen ELO-Zahlen nach der Eloschen Theorie zu tun haben, spielt bzgl. der Thematik in diesem Thread keine Rolle. 
[/quote]

Hallo Herr Mueller,

zu den Modellen:
1.) Listenmodell
2.) klassisches Elo-Modell
3.) Ingo System

haben Sie das klassische Elo-Modell sehr verständlich formuliert. Mit dem Listenmodell kann ich momentan weniger anfangen.
Ich hatte das Ingo System hier mit seinen Wertschranken "1" und "300" erwähnt. Ich weiss aber auch, das beide Systeme
direkt ineinander umrechenbar sind, damit sollten doch auch Limits im Elo System existieren, andererseits heisst es  das
die Elo Skala unlimitiert sei. Das widerspricht sich doch? Oder wird da heimlich mal eben durch Null dividiert?

Es sollte doch keinen Unterschied machen zu welchen Stichtagen eine Auswertung vorgenommen wird, tut es aber. Warum?
Beispiel: Auswertung jeder Partie und Berechnung einer neuen Elo Zahl; oder ich sammle alle Partien des letzten Halbjahres und
werte dann aus. Oder noch krasser, ich lasse alle Partien simuliert an einem Tag spielen und werte das als ein Turnier.

Haben Sie dafür plausible Erklärungen?

M.f.G

Ben Hur
Parent - - By Werner Mueller Date 2011-11-15 13:24
[quote="Ben Hur"]
[quote="Werner Mueller"]
Richtig ist, dass die 'Elo-Zahlen' der Ranking-Listen keine ELO-Zahlen sind. Weder von der Philosphie noch von der Mathematik her. Ich will es nicht ständig neu formulieren deshalb: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41778

ABER (um die Sache nicht unnötig unkompliziert zu machen ):
diese Tatsache, dass wir es einerseits mit den Ergebnissen einer Theorie der zufälligen Messfehler und andererseits mit tatsächlichen ELO-Zahlen nach der Eloschen Theorie zu tun haben, spielt bzgl. der Thematik in diesem Thread keine Rolle. 
[/quote]

Hallo Herr Mueller,

zu den Modellen:
1.) Listenmodell
2.) klassisches Elo-Modell
3.) Ingo System

haben Sie das klassische Elo-Modell sehr verständlich formuliert. Mit dem Listenmodell kann ich momentan weniger anfangen.
Ich hatte das Ingo System hier mit seinen Wertschranken "1" und "300" erwähnt. Ich weiss aber auch, das beide Systeme
direkt ineinander umrechenbar sind, damit sollten doch auch Limits im Elo System existieren, andererseits heisst es  das
die Elo Skala unlimitiert sei. Das widerspricht sich doch? Oder wird da heimlich mal eben durch Null dividiert?

Es sollte doch keinen Unterschied machen zu welchen Stichtagen eine Auswertung vorgenommen wird, tut es aber. Warum?
Beispiel: Auswertung jeder Partie und Berechnung einer neuen Elo Zahl; oder ich sammle alle Partien des letzten Halbjahres und
werte dann aus. Oder noch krasser, ich lasse alle Partien simuliert an einem Tag spielen und werte das als ein Turnier.

Haben Sie dafür plausible Erklärungen?

M.f.G

Ben Hur
[/quote]
Zur Mathematik des Ingo-Systems kann ich lediglich sagen, dass es als mehr oder weniger gleichwertig zum ELO-System galt. Sicher weiß ich, dass es keine 'natürliche' Schranke bei 0 gab, es konnte theoretisch auch negative Ingo-Zahlen geben (zu Fischers Zeiten war das mal Thema).

Zur Frage der zeitlichen Berücksichtigung bei einer Auswertung: klar macht das einen Unterschied.
Einfaches Beispiel:
Ein Spieler spielt ein Turnier A und erfüllt genau die Erwartung -> d.h. seine ELO-Zahl ändert sich nicht, er spielt ein weiteres Turnier B und landet einen großen Wurf -> seine ELO-Zahl verbessert sich. Es ist (weil A ja seine Zahl nicht verändert hat), als hätte er eigentlich nur Turnier B gespielt.
Anders verhält es sich, wenn die Turniere A und B zeitlich verdreht ausgewertet werden. Nach Auswertung von B erhält der Spieler eine verbesserte ELO (wie oben nach Auswertung von A und B), eine anschließende Auswertung von A würde diese Zahl nunmehr vermindern.

Der Idealfall ist eine Auswertung nach jeder einzelnen Partie. Je mehr Partien gesammelt werden, desto 'schlechter' wird die Auswertung.

ALLE Partien als zeitgleich (oder besser: außerhalb der Zeit) gespielt zu betrachten, ist völlig konträr zur Philosophie des Eloschen Modells.

Aber, wie gesagt die Listen haben als Modell nicht das Elosche sondern die Statistik der zufälligen Messfehler. Die Philosophie dahinter ist: jede Engine hat eine im Prinzip beliebig genau messbare 'Spielstärke'. Danach ist das Ergebnis einer Partie eine fehlerbehaftete Messung eben dieser Spielstärke. Zufälligen (im Gegensatz zu systematischen) Messfehlern rückt man in der Praxis mit einer hohen Anzahl von Messungen zu Leibe.

Deshalb kommt hier auch immer wieder die Sache mit der statistischen Relevanz oder vielmehr der 'völligen Irrelevanz' auf (wenn die Partienanzahl nicht mindestens dreistellig ist).
Innerhalb des Modells der zufälligen Messfehler ist das schon richtig. (Fälschlicherweise) auf das ELO-System übertragen ist es völliger Quatsch.
Parent - - By Ben Hur Date 2011-11-15 14:31
[quote="Werner Mueller"]
...

Zitat:
Der Idealfall ist eine Auswertung nach jeder einzelnen Partie. Je mehr Partien gesammelt werden, desto 'schlechter' wird die Auswertung.


Das habe ich verstanden, und so wird es meinem Kenntnisstand auch gemacht; Auswertung z.B. +/- 0.3 Elo/Spiel

Zitat:
ALLE Partien als zeitgleich (oder besser: außerhalb der Zeit) gespielt zu betrachten, ist völlig konträr zur Philosophie des Eloschen Modells.
Nur, die Ranglistenbetreiber wollen es nicht verstehen?

Zitat:
Aber, wie gesagt die Listen haben als Modell nicht das Elosche sondern die Statistik der zufälligen Messfehler. Die Philosophie dahinter ist: jede Engine hat eine im Prinzip beliebig genau messbare 'Spielstärke'. Danach ist das Ergebnis einer Partie eine fehlerbehaftete Messung eben dieser Spielstärke. Zufälligen (im Gegensatz zu systematischen) Messfehlern rückt man in der Praxis mit einer hohen Anzahl von Messungen zu Leibe.


Nur wie viel zufällige b.z.w. systematische Fehler stecken in den Ranglisten?
Wenn ich von einer wahren Spielstärke ausgehe, so muss ich sie doch kennen,
wie will ich denn sonst den Messfehler bestimmen?
...


MfG

Ben Hur
Parent - - By Werner Mueller Date 2011-11-15 15:06
[quote="Ben Hur"]
...
Nur wie viel zufällige b.z.w. systematische Fehler stecken in den Ranglisten?
Wenn ich von einer wahren Spielstärke ausgehe, so muss ich sie doch kennen,
wie will ich denn sonst den Messfehler bestimmen?
...
[/quote]
Der zufällige Messfehler steckt in jedem einzelnen Partieergebnis (weil es z.B. ein 0,674 : 0,256 als Partieergebnis eben nicht gibt - und regelmäßig schon gar nicht). Über evtl. systematische Messfehler (Buch, Stellungsvorgabe, Bedenkzeit usw. usw.) wird sich mitunter lebhaft gekloppt.

ABER: der Begriff zufälliger Mess-Fehler soll nicht nahelegen, dass es da irgendwie wischiwaschi zugeht. Das hat alles Hand und Fuß und ist mathematisch fundiert (und mir zu kompliziert um es kurz und knapp in verständlicher Form darzulegen).
Parent - - By Ben Hur Date 2011-11-15 17:35
Also zusammenfassend kann man behaupten, dass die Elo-Ranglisten keine Elo-Ranglisten sind,
oder habe ich Sie missverstanden? Wenn sie es nicht sind, warum benennt man sie so?
Parent - - By Werner Mueller Date 2011-11-15 18:30
[quote="Ben Hur"]
Also zusammenfassend kann man behaupten, dass die Elo-Ranglisten keine Elo-Ranglisten sind,
oder habe ich Sie missverstanden? Wenn sie es nicht sind, warum benennt man sie so?

[/quote]
Das kann man so behaupten.*
Was die Bezeichnung Elo rechtfertigen mag ist der übernommene Zusammenhang von Gewinnerwartung u. Elo-Zahl-Differenz.

*) als Beispiel dafür, dass diese 'Elo-Zahlen' in freier Wildbahn (d.h. innerhalb des ELO-Systems) als ELO-Zahlen Ernst genommen, gar nicht überlebensfähig (soll heißen: obsolet) wären, nehme ich mal die kommende Computer-WM:

Wenn man denn diese 'Elo-Zahlen' als ELO-Zahlen Ernst genommen sehen wollte, spräche ja wohl nichts dagegen, diese WM auch ganz normal ELO-mäßig auszuwerten.

Was wäre denn nun aber, wenn z.B. Shredder nach so einer ganz normalen ELO-Auswertung 50 ELO-Punkte hinzugewönne oder verlöre. Was würde man anfangen mit der innerhalb der ErrorBars von vielleicht +-15 Punkten eigentlich zuverlässig ermittelten 'Elo-Zahl'? Was würde man anfangen mit den tausenden dafür gespielten Shredder-Partien?
Was würde man überhaupt anfangen wollen mit den Listen, wenn ein paar Partien in freier Wildbahn genügen würden, diese vollständig über den Haufen zu werfen?
Parent - - By Ben Hur Date 2011-11-15 23:45
Hallo Werner,

was spräche denn dagegen, die entsprechenden Pgn Datenbanken wirklich Partie
für Partie auszuwerten. Im PGN Header stehen die Daten ja drin.

Wie sähen dann die Elo Werte aus? Welches Programm könnte man dazu benutzen?
Welche Startwerte muss man auswählen?

Ben
Parent - - By Werner Mueller Date 2011-11-16 13:02
[quote="Ben Hur"]
Hallo Werner,

was spräche denn dagegen, die entsprechenden Pgn Datenbanken wirklich Partie
für Partie auszuwerten. Im PGN Header stehen die Daten ja drin.

Wie sähen dann die Elo Werte aus? Welches Programm könnte man dazu benutzen?
Welche Startwerte muss man auswählen?

Ben
[/quote]
Es spricht nichts dagegen, außer dass Du nichts davon hast. Zuallerst muss man sich mal klar darüber sein, was man eigentlich will.

Da ist auf der einen Seite die Idee, die gezeigten Leistungen von Schachspielern auszuwerten, derart, dass eine möglichst sinnvolle Prognose über den Ausgang der nächsten Partie, des nächsten Turniers usw. abgegeben werden kann. Für unseren Zusammenhang ganz entscheidend ist, dass der wohl zwangsläufig auftauchende Begriff 'Spielstärke' nicht als Konstante betrachtet wird. Insbesondere nicht hinsichtlich des gesamten schachlichen Werdegangs eines Spielers (Anstieg in der Jugend - Abfall im Alter) und auch nicht hinsichtlich relativ kurzer Zeiträume (Formschwankungen).

Zu diesem Zweck hat Prof. Elo ein mathematisches Modell entworfen, mit mehr oder weniger sinnvollen Annahmen - und wie die Praxis gezeigt hat, kommt nicht allzuviel Unsinn dabei heraus.

Auf der anderen Seite ist die Idee, dass eine Engine eine ganz bestimmte, sozusagen determinierte 'Spielstärke' oder genauer gesagt 'mittlere Spielstärke' haben müsse. Wenn man einmal die prinzipiellen Einwände von Prof. Althöfer vernachlässigen will, eine völlig nachvollziehbare und vernünftige Annahme.
Nur - für diese völlig andere Problemstellung wird auch ein völlig anderes mathematisches Modell benötigt bzw. angewendet. Das Elosche Modell taugt dafür nicht, weil es eine 'scharfe' Beschreibung der 'Spielstärke' schlicht nicht hergibt (die Halbwertsbreite bleibt ein für allemal und in alle Ewigkeit bei 200 ELO).

Diese 'Schärfe' erhält man lediglich durch Messwertstatistiken. Messen, messen, messen - und wenn der Mittelwert innerhalb gewisser Wahrscheinlichkeiten immer weiter eingrenzbar ist, hat man Glück gehabt in dem Sinne, dass die ursprüngliche Idee gar nicht so doof gewesen sein kann.
Parent - By Ben Hur Date 2011-11-17 10:29
[quote="Werner Mueller"]
...

Zitat:
Auf der anderen Seite ist die Idee, dass eine Engine eine ganz bestimmte, sozusagen determinierte 'Spielstärke' oder genauer gesagt 'mittlere Spielstärke' haben müsse.


Code:
Kann man verstehen, aber ich glaube dass es nicht stimmt.

Zitat:
Wenn man einmal die prinzipiellen Einwände von Prof. Althöfer vernachlässigen will, eine völlig nachvollziehbare und vernünftige Annahme.

Code:
Ich vermute mal, dass die Einwände Prof. Althöfer doch nicht zu vernachlässigen sind!
In einem Posting hier fragte ich mal nach, bekam aber keine Antwort von Prof. Althöfer. Warum?
Vielleicht waren meine Äusserungen zu simpel? Schade darum!


Nur - für diese völlig andere Problemstellung wird auch ein völlig anderes mathematisches Modell benötigt bzw. angewendet. Das Elosche Modell taugt dafür nicht, weil es eine 'scharfe' Beschreibung der 'Spielstärke' schlicht nicht hergibt (die Halbwertsbreite bleibt ein für allemal und in alle Ewigkeit bei 200 ELO).

Diese 'Schärfe' erhält man lediglich durch Messwertstatistiken. Messen, messen, messen - und wenn der Mittelwert innerhalb gewisser Wahrscheinlichkeiten immer weiter eingrenzbar ist, hat man Glück gehabt in dem Sinne, dass die ursprüngliche Idee gar nicht so doof gewesen sein kann.

MfG
Ben Hur
Parent - - By Simon Gros Date 2011-11-15 15:28
Die CEGT schreibt doch immer und überall dazu, daß sie nach ELO-Stat auswertet. Und in der ELO-ReadMe steht u.a.:
"Das Iterationsverfahren setzt zwingend voraus, dass die mittlere Spielstärke eines Programms in jeder Partie dieselbe bleibt. Diese Näherung ist für Schachprograme derzeit sicherlich gut erfüllt, sofern kein extensives Buchlernen gegen ein und denselben Gegner erfolgt (andere Lernalgorithmen spielen meiner Erfahrung nach in der Praxis derzeit keine wesentliche Rolle). Für menschliche Datenbanken ist dieses Vorgehen aber problematisch, da menschliche Spieler sich im Laufe der Zeit deutlich steigern können (um Hunderte von Elopunkten), so dass die mittlere Spielstärke in der Regel von Partie zu Partie zunimmt. Die Auswertung historischer Datenbanken mit dem Iterationsverfahren stellt daher zwar eine äußerst reizvolle Sache dar, hat aber aus obigen Gründen nur eine bedingte Aussagekraft. Bei menschlichen Spielern sollte daher nach Möglichkeit des Elosystem der FIDE verwendet werden."
Ich verstehe nicht weshalb man diese Readme nicht beachtet.
Simon_G
Parent - - By Chetan Reinhard Date 2011-11-16 11:09
Inzwischen bin ich der Meinung, das es egal ist nach welchem System die Spielstärke von Computern angegeben wird. Es ist völlig egal. Eigentlich geht es hier dann nur noch um eine Vergleichbarkeit mit dem Menschen. An dieser Stelle machen es die Computerauswerter sich sehr leicht. Mal eben ein 3000 Partieen Computer Turnier automatisch im heimischen Keller durchführen ist kein Problem. Am End kommt eine Rangliste und ELEOSTAT berechnet ELO-Werte für die Computer. Das ergibt eine schöne Liste.  Wie gut oder schlecht die so berechneten Computer-ELOzahlen mit menschlicher Spielstärke vergleichbar ist, das weiss offenbar niemand. Nicht mal der Computerauswerter selber. Und genau hier ist der Knackpunkt. Zu jeder Computer Ratingliste könnte eine wenigstens näherungsweise ermittelte Umrechnungsformel dazu stehen, die angibt, wie die in dieser Liste aufgeführten Computer-ELO näherungsweise mit einer FIDE-ELO verglichen (umgerechnet) werden kann. Doch diese näherungsweise Umrechnungsformel fehlt natürlich auf jeder Computer ELO-Liste . Stillschweigend wird angenommen die Umrechnung entspräche einer Multiplikation mit Eins also sei  nahezu eins zu eins möglich. Das ist aber offenbar nicht der Fall.  Es geht also nicht wirklich um die ELO-Zahlen in einer Computer-ELO Liste, solange die Computer in der Spielstärke verglichen werden sollen ist das verwendete  Bewertungsmodell völlig beliebig. Erst sobald auch mit menschlicher Spielstärke verglichen werden soll, geht es um eine auf der Computer-ELO-Liste fehlende Umrechnungsformel. Diese wenigstens Näherungsweise zu ermitteln und dazuschreiben macht sich natürlich bisher kein Computer-Turnier-Auswerter die Mühe. Che
Parent - - By Michael Scheidl Date 2011-11-16 11:33
Zitat:
Diese wenigstens Näherungsweise zu ermitteln und dazuschreiben macht sich natürlich bisher kein Computer-Turnier-Auswerter die Mühe.

Weil die dazu nötigen Daten fehlen (wie schon mehrfach erwähnt wurde). An der Mühe liegts sicher nicht. Die diversen Tester machen sich unglaublich viel Mühe mit der Ermittlung und Web-Präsentation ihrer Testergebnisse.

Im Jahre Schnee hat die SSDF einmal etwas in dieser Richtung gemacht, ich glaube noch vor der PC-Zeit. Damals waren die Schachcomputer noch auf einem Niveau daß schwedische Klubspieler herangezogen werden konnten. Ich weiß nicht wieviele Partien sie gespielt haben, jedenfalls war der Nutzen dieser Daten nur von kurzer Dauer.

Meines Wissens spielten oder spielen eine Zeit lang Engines in der israelischen Schachliga mit, die sicherlich keine schwache ist. Ich weiß nicht, ob die Ergebnisse mit Eloleistung usw. irgendwo verfügbar sind. Aber selbst dann hätte man div. Probleme darauf aufzubauen, wie z.B. alte Engineversionen, andere oder gar unbekannte Hardware, usw.usf. - Aber eigentlich müßten dort einige der relativ besten Vergleichsdaten dieser Art angefallen sein. Ist mir erst jetzt wieder eingefallen. Kann aber momentan keine konkrete Quelle nennen.

Wir bekommen keine Kalibrierung mit menschl. Verbandsratings. Es wäre aber schon ein Fortschritt, wenn sich die wichtigsten Engineratings auf eine gemeinsame Kalibrierung einigen könnten, damit die Ratingzahlen zumindest zwischen diesen auf demselben Niveau sind. Derzeit hat beispielsweise ein- und dieselbe Engine (Single-) Rybka 4.1 in IPON 2956 und bei CCRL 40/4 3202. Das hat nichts, oder nur zu nullkommajosef mit Testbedingungen zu tun, sondern weil das Gesamtzahlenniveau einer Auswertung im Prinzip willkürlich gewählt werden kann (Stichwort Elo-Startwert).
Parent - By Ben Hur Date 2011-11-16 11:41
[quote="Michael Scheidl"]
...
Wir bekommen keine Kalibrierung mit menschl. Verbandsratings. Es wäre aber schon ein Fortschritt, wenn sich die wichtigsten Engineratings auf eine gemeinsame Kalibrierung einigen könnten, damit die Ratingzahlen zumindest zwischen diesen auf demselben Niveau sind. Derzeit hat beispielsweise ein- und dieselbe Engine (Single-) Rybka 4.1 in IPON 2956 und bei CCRL 40/4 3202. Das hat nichts, oder nur zu nullkommajosef mit Testbedingungen zu tun, sondern weil das Gesamtzahlenniveau einer Auswertung im Prinzip willkürlich gewählt werden kann (Stichwort Elo-Startwert).
[/quote]

Ich würde mich nicht auf Rybka oder vergleichbar starke Engines beziehen, da diejenigen, die die Spielstärke
beurteilen können, sehr dünn gesät  sind.
Partien von Durchschnittsspielern, also ca. 1600 Elo Spieler, sind von einer vielzahl kompetenter Personen
sehr gut beurteilbar. Da die Listen in sich stimmig sind kann man sehr gut "Eichen" (Ankerpunkt).
Parent - - By Peter Krug Date 2011-11-16 12:26

Michael schrieb:
"Das hat nichts, oder nur zu nullkommajosef mit Testbedingungen zu tun, sondern weil das Gesamtzahlenniveau einer Auswertung im Prinzip willkürlich gewählt werden kann "

Ja. Und es geht heutzutage auch gar nicht mehr, weil sich heutzutage keine Schachspieler
finden, die mit den heutigen Spitzenprogr. mithalten können.

Aber trotzdem:

es wäre schön,
wenn GEGT die Elozahlen um ca. 200 elo senken würden.
Ist soetwas möglich?
Das wäre im Sinne einer Annäherung an die menschliche Elo reizvoll.

Im unteren Bereich (Beispiel Smirf) wären die Elozahlen dann immer noch zu hoch.
Smirf spielt noch meilenweit entfernt von einem durchscnittlichen Schachspieler...;
Das ist vergleichbar wie das Deep Blue Projekt - vom Wissen weit hinten - kompensiert
aber durch extreme Rechenpower.

Peter
Up Topic Hauptforen / CSS-Forum / Sind die Computer Elo Ratinglisten real? am Beispiel CEGT
1 2 3 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill