Doch 1.34 zu Doch 1.2 = wahrscheinlich um 40 ELO!

By Frank Quisinsky Date 2010-01-16 00:43 Edited 2010-01-16 00:46

Ktulu 9:
Habe Rahman gerade angeschrieben und Ihm den Fehler erklärt.
Er hat aufgrund beruflicher Gründe überhaupt keine Zeit für Schach aber vielleicht kann er ja das Problem beheben.
Bei der Gelegenheit habe ich Ihm auch nach einer guten Erklärung zum neuen Taktik UCI Parameter gefragt.

Der Fehler mit den Läufern wirkt sich übrigens auch ohne Absturz auf das Spiel aus.
Ktulu spielt schrecklich wenn nur noch ein Läufer auf seiner Seite ist.
Da dies recht häufig vorkommt, werden unnötig Punkte verschenkt.
Bei der enormen Endspielstärke echt schade und wahrscheinlich handelt es sich nur um ein kleinen schlichten Fehler in den Sourcen.

Mal schauen ob er die Zeit findet den Fehler zu korrigieren
Auch aufgrund dessen, weil das Programm kommerziell angeboten wird.

Und da ich sein Beta Tester war / bin / wenn er möchte immer sein werde ...
Mehr kann ich nun auch nicht machen (mich haben auch schon ein paar Fragen von Ktulu Fans hierzu erreicht).
Aber in den letzten 2-3 Jahren habe ich überhaupt nichts mit Schach gemacht und somit auch Ktulu nicht getestet, sonst wäre mir das aufgefallen.

Gruß
Frank

By Klaus S. Date 2010-01-16 10:20

Hallo Frank,

ich frage mich warum das noch keinem anderen Tester aufgefallen ist?
Ktulu 9 gibt es doch schon über 1 Jahr (glaube ich jedenfalls). Auch von Seiten CCRL und CEGT hat man bisher darüber nichts gehört. Schon seltsam.

Gruß
Wilfried

By Frank Quisinsky Date 2010-01-16 12:34

Hi,

also ich weiß von CEGT Testern, dass Sie aufgrund der Abstürze mit Ktulu ungern spielen.

Übrigens hat Doch von 202 auf nunmehr 270 Partien 10 ELO verloren.
Ab 350 wirds bei meinen Ergebnissen immer genau.
Glaube aber das die Tendenz eher hoch als runter geht.

Also, nach wie vor:
Ein Kampf gegen Thinker 5.4d Inert um Platz 6 und zu Fritz sind es dann bei 32Bit und einem Core "nur" noch ca. 40-50 ELO.
Wahnsinn, wie schnelle das bei Don Dailey geht.

Wie ich es schon oft geschrieben habe.
Das Programm mit dem größten Potential.
Alleine im Endspiel könnten noch 150 Punkte gemacht werden.
Stelle mir gerade vor, Doch hätte die Endspielstärke von Stockfish ... dann wäre Doch schon auf Rybka Level.

Gruß
Frank

By Ingo Bauer Date 2010-01-16 13:22

Moin Frank

[quote="Frank Quisinsky"]
...
Ab 350 wirds bei meinen Ergebnissen immer genau....
[/quote]

Ja, das hast du schon öfter geschrieben. Mein Frage ist jetzt, was ist für dich 'genau'?

Ein Bsp meinerseits das mich erstaunt hat:

Nach 1000 Spielen lag Naum 4 2T 6 Elo vor DS12 2T, und hatte ein Plus von 70 Elo zur seinem Singlegegenstück.
Nach 1500 Spielen liegt Naum 4 2T 5 Elo hinter DS12 2T und hat 'nur' noch einen Vorsprung von 57 Elo. (-13 Elo)
(Alles Elostat, bei Bayes wahren die Unterschiede noch größer)

Wenn man bedenkt das bei 1000 Spielen die 95% Varianz bei +/-17 Elo liegt, finde ich den Verlust von 13 Elo schon bemerkenswert. Wie das ganze z.w 350 und 1500 ausgesehen hätte weiß ich nicht, es könnte sein das 350 zufällig auf den Punkt der 1500 gelegen hätte oder das die Abweichung 35 Elo betragen hätte. Was ich aber weiß ist, das nach 350 Spielen die Unsicherheit noch riesig ist.

Also ich selber hatte vorher, und sehe mich mit diesem "Zwischenfall" bestätigt, den Grundsatz, dass ich VOR 1000 Spielen nicht mehr ernsthaft eine Enigne beurteile!

Gruß
Ingo

PS: Nicht falsch verstehen, ich habe das Bsp nur genommen weil es so gravierend war. Naum macht den zweitgrößten Sprung von 1 auf 2T bei mir, das finde ich sehr begeisternd!

By Hubert Voss Date 2010-01-16 15:16

...

Ja, das hast du schon öfter geschrieben. Mein Frage ist jetzt, was ist für dich 'genau'?

Ein Bsp meinerseits das mich erstaunt hat:

Nach 1000 Spielen lag Naum 4 2T 6 Elo vor DS12 2T, und hatte ein Plus von 70 Elo zur seinem Singlegegenstück.
Nach 1500 Spielen liegt Naum 4 2T 5 Elo hinter DS12 2T und hat 'nur' noch einen Vorsprung von 57 Elo. (-13 Elo)
(Alles Elostat, bei Bayes wahren die Unterschiede noch größer)

Wenn man bedenkt das bei 1000 Spielen die 95% Varianz bei +/-17 Elo liegt, finde ich den Verlust von 13 Elo schon bemerkenswert.Wie das ganze z.w 350 und 1500 ausgesehen hätte weiß ich nicht, es könnte sein das 350 zufällig auf den Punkt der 1500 gelegen hätte oder das die Abweichung 35 Elo betragen hätte. Was ich aber weiß ist, das nach 350 Spielen die Unsicherheit noch riesig ist.

Also ich selber hatte vorher, und sehe mich mit diesem "Zwischenfall" bestätigt, den Grundsatz, dass ich VOR 1000 Spielen nicht mehr ernsthaft eine Enigne beurteile!

Gruß
Ingo
...

Hallo Ingo,

Bei Schachprogrammen mit einer Spielstärke von 2700 bis 3000 Elo und mehr,ist es mir egal
ob ein Programm nach 300 Partien 3000 Elo hat,oder nach 3000 Partien 3040 Elo !

Da Schachprogramme hauptsächlich zum Analysieren von Schachpartien genutzt werden,(sollten)

ist für mich eher interessant wo ein Programm seine Stärken und Schwächen hat.

Gruß
Hubert

By Frank Quisinsky Date 2010-01-19 13:19 Edited 2010-01-19 13:24

Hallo Ingo,

für mich ist ein Rating bei einer Abweichung von +-15 (15 nach oben oder unten, also 30 ELO) genau.
Das erreiche ich nach meinen jahrelangen Statistiken in 95% aller Fälle nach ca. 350 Partien.

Beispiel Doch 1.34:
Bei Doch kam das von mir erwünschte genaue Ergebnis kurz vor der 350er Grenze.

Beispiel der Doch 1.3.4 Ratings:
Nach 150 Partien = 70 ELO über Doch 1.2
Nach 200 Partien = 50 ELO über Doch 1.2
Nach 250 Partien = 40 ELO über Doch 1.2
Nach 300 Partien = 30 ELO über Doch 1.2
Nach 450 Partien = 15 ELO über Doch 1.2
Nach 600 Partien = 15 ELO über Doch 1.2

Sofern ich jetzt aber eine Ratingliste erstelle, in der sowohl Doch 1.2 als auch Doch 1.3.4 auftauchen liegen die beiden ziemlich genau 20 ELO auseinander.
Offenbar fallen so einige Engines nach dem Löschen der Doch 1.2 Partien aus der Datenbank und dem hinzufügen der Doch 1.34 Partien eher um durchschnittlich 4-5 Punkte in den Keller.
Das erklärt dann die 20 ELO (anstatt augenscheinlich die 15 ELO mehr).

Doch 1.3.4 ist demnach eine Engine die stark schwankt. War bei Doch 1.2 nicht der Fall (statistischer Zufall).
Beim letzten Fruit 05/11/03 Test sah alles schon viel früher logisch und gerade aus.

Übrigens ist das überwiegend der Fall, dass eine Engine bis nach 150 Partien enorm startet und dann im Verlauf weiterer Partien so langsam abfällt, möchte schon fast behaupten der Regelfall.
Warum das so ist muss ich mir mal anschauen, eine richtig gute statistische Erklärung habe ich dafür noch nicht. Ich stelle genau das aber immer wieder überrascht fest.

Abschließend:
Natürlich können mit mehr Partien als z. B. 350 bessere Ratings erzielt werden. Ich gehe z. b. und verdopple einfach die Anzahl der Partien vom Feststellungspunkt 350. Sofern ich z. B. 2.000 Partien pro Engine hätte würde das Rating je nach anderen Umständen natürlich noch besser werden.

Aber diesen Anspruch stelle ich nicht weil es im Grunde Zeitverschwendung ist.

Ich mache es mir eher einfach:
XY Achse und Feststellung ab welchem Zeitpunkt die Kurve wieder nach unten geht.
Hier komme ich auf 350 Partien. Dann verdopple ich diesen Wert und komme auf eine sehr gutes Ergebnis.
Bei meinen Einschätzungen liegen ich dann bei 20 Engines 1x um mehr als 30 ELO daneben. Damit kann ich Leben

Gruß
Frank

By Thomas Koehler Date 2010-01-19 21:55

[quote="Frank Quisinsky"]
für mich ist ein Rating bei einer Abweichung von +-15 (15 nach oben oder unten, also 30 ELO) genau.
Das erreiche ich nach meinen jahrelangen Statistiken in 95% aller Fälle nach ca. 350 Partien.

[/quote]

Hallo Frank,
das ist immer noch ziemlich optimistisch. In den meisten Fällen will man wohl einfach an ein Resultat glauben.

Im besten Fall eines gleich starken Gegners (erwartete Score p=50%) und somit einer Abweichung von +-2,25% für +-15 ELO
erreicht man
nach 1000 Partien eine statist. Sicherheit (Treffen dieses Intervalls) von 84,5% und
nach 2000 Partien - 95,8%

Beim Erwartungs-Score (Performance) von z.B. p=35% liefern 2000 Partien knapp 94% Sicherheit.

Es kann schlimmstenfalls passieren, dass die Entwicklung der rel. Häufigkeiten ein vorrübergehendes Plateau aufweist, das zum Abbruch reizt.

Gruß thk

By Frank Quisinsky Date 2010-01-20 21:51 Edited 2010-01-20 21:56

Hallo Thomas,

das mag sein und natürlich möchte ich nicht in Frage stellen was Du schreibst.

Aber die Realität schaut anders aus.
Seit mehr als 10 Jahren spiele ich an Ratinglisten. Ich schaue mir für jede einzelne Engine die Entwicklung nach Anzahl der Partien an. Und nach ca. 50.000 gespielten Partien (meine eigenen gesammelten Eng-Eng Partien), meist mit 40 in 10 oder 40 in 20 komme ich immer wieder zu gleichen Ergebnissen. Wäre es anders würde ich auch dazu schreiben, warum nicht? Meine wir reden nur über Statistiken.

Von 20 Engines weicht eine Engine um mehr als +-15 ELO nach 350 Partien ab.
19 Engines bleiben im Rahmen +-15 auch nach weiteren 350 bis 650 Partien.
(hatte mal eine Ratingliste bis 1.000 Partien pro Engine gespielt).

Also, das hat nichts mit Glauben zu tun.
Ich beobachte das Verhalten z. B. derzeit auch wieder bei der SWCR (SCHACHWELT Ratingliste).
Mal wieder die gleichen Statistiken.

OK, ich bin anmaßend.
Aber warum sollte ich bei so vielen Erfahrungswerten nicht an die eigenen Ergebnisse glauben?
Was spricht dagegen wenn Ergebnisse immer gleich sind?

Ob nun eine von zwanzig Engines um mehr als +-15 abweicht ist mir im Grunde egal.
Rekord hält übrigens eine der ersten Glaurung Versionen.

Nach 350 Partien ELO X und nach 820 Partien (Test-Ende) ein Plus von 52 ELO.
Das war die höchste Abweichung, die ich jemals festgestellt habe und wie gesagt in 19 von 20 Fällen nicht mehr als +-15.

In der SWCR spiele ich maximal 760 Partien.
Bei 800 Partien wären es dann +-11 (nach meiner Excel-Analyse).

Ich halte mehr als 1.000 Partien für die Bestimmung eines Ratings für Zeitverschwendung.
500 Partien wären im Grunde schon völlig ausreichend.

Warum weitere 1.000 Partien spielen um festzustellen das bei einer Wahrscheinlichkeit (500 zu 1.500 Partien) von 1/50 oder gar noch höher ein Ergebnis noch um einen nennenswerten Wert abweicht?
Also dafür wären mir dann wirklich die Stromkosten zu schade.

Kannst ja mal folgendes Experiment machen (habe ich mal).

Das war eine Ratingliste mit 16 Engines, Jeder gegen Jeden.
Ich habe mir zwei Engines herausgepickt. Platz 2 und Platz 15.
Diese spielten dann erneut 8x die kompletten Partien.

Somit hatte ich von 2 Engines je 8 Ergebnisse = 16 Ergebnisse.

Das Fazit war:
Maximale Abweichung bei 16 Ergebnissen von +-8 (16 ELO).

Waren übrigens knapp 500 Partien pro Ergebnis / Engine bei jeder gegen jeden.

Letztendlich:
Ich glaube daran was ich sehe aber sofern ein Zweifel besteht schaue ich mir solche Sachen immer wieder gerne an.
Bei der Aussage, dass nach 350 Partien ein Rating genau wird gibt es aus meiner Sicht keine Zweifel mehr.

Allerdings stellt sich die Frage:
Ab wann wird ein Rating genau (da gehen die Meinungen auseinander).
Es gibt Personen die möchten +-5 erreichen, OK ... dann mal los ... tausende von Partien sind notwendig.

Gruß
Frank

By Frank Quisinsky Date 2010-01-20 22:52

Allerdings stellt sich die Frage:
Ab wann wird ein Rating genau (da gehen die Meinungen auseinander).
Es gibt Personen die möchten +-5 erreichen, OK ... dann mal los ... tausende von Partien sind notwendig.

Schlecht formuliert!
Vielleicht sollte ich das mit den 350 Partien etwas genauer schreiben.

x-, y-Achse
Nun die ELO-Entwicklungen nach 100, 200, 300, 400, 500, 600, 700, 800 aufeinander legen.

Dabei kommt heraus, dass es zu Schwankungen bis ca. 331 Partien kommt. Das diese dann so grob nachlassen das es fast zu einer Geraden kommt. Ca. bei 438 Partien gibt es nochmals einen kleinen Pusch.
Danach gibt es nur Ausreißer nach oben unten.

Dann eine x-, y Achse nur für die Ausreißer.
Leider habe ich hier noch nicht so viele Werte ...

Wenn ich die Kurve aber weiter spinne mit Pseudo Werten, gerade mal gemacht kommt als Aussage z. B.

Bei 2.000 Partien gibt es in 1/811 Fällen eine Abweichung von +-15
Bei 1.000 Partien gibt es in 1/209 Fällen eine Abweichung von +-15
Bei 500 Partien gibt es in 1/39 Fällen eine Abweichung von +-15
Bei 350 Partien gibt es in 1/18 Fällen eine Abweichung von +-15
Bei 300 Partien gibt es in 1/11 Fällen eine Abweichung von +-15
Bei 200 Partien gibt es in 1/3 Fällen eine Abweichung von +-15

Habe hier nur eigene Resultate einbezogen.

Gruß
Frank

By Frank Quisinsky Date 2010-01-20 23:22 Edited 2010-01-20 23:31

Hi,

ach ja ...

Übrigens ist hierbei die Remis-Quote ganz entscheidend !!
Und da ich alle Ergebnisse in einen Topf werfe (auch wenn 40/10 oder 40/20) ist das auch nicht der wahre Jakob.
Insofern sind auch diese Statistiken nur Anhaltspunkte und habe wie alle anderen keine ultimative Bedeutung.

Remisquote:
Merkwürdiger Weise wird eine ELO genauer wenn die durchschnittlichen Remis-Quoten zunehmen.

Ein tieferer Grund warum es zu Abweichungen von ErrorBars kommt.

Beispiel:
Spiele eine Ratingliste der aktuellen TOP 20 Engines mit 40 in 5 = Remisquote liegt bei ca. 34-35%.
Spiele eine Ratingliste der aktuellen TOP 20 Engines mit 40 in 10 = Remisquote liegt bei ca. 40-41%.

Wir reden von den gleichen Engines !!!

In den vergangenen Jahren bei schwächeren Engines und schwächerer Hardware sah das nicht anders aus.
In einer Ratingliste vor ca. 8 Jahren hatte ich bei 40 in 10 eine Remisquote von 24%!
Hier gab es deutlich höhere Abweichungen der Listen untereinander als heute.

Der wesentliche Faktor warum es bei Engines nach z. B. 1.000 Partien zwischen Blitz und mittlerer Bedenkezeit zu Abweichungen kommt ist die Remisquote.
Gehen wir tiefer in die Analyse ...

Warum unterscheiden sich die Remisquoten.

Jetzt rede ich wieder von den aktuellen TOP 20 und den 5-6% Unterschied bei den Remisquoten.
Nehme ich nur die Partien, die nicht länger als 50 Züge gehen sind die Remisquoten plötzlich nur noch 2% auseinander.

Fazit:
Durch Blitz werden mehr Partien im Endspiel entschieden, weniger enden mit einem Remis.

Die Statistiken weichen minimal voneinander ab ... das macht auch bis zu 10 ELO aus.

Und es gibt weitere Faktoren die dann eher dafür verantwortlich sind warum ELOs in Ratinglisten voneinander abweichen.
Das alles kann nicht unter einen Hut gebracht werden.

Um dann mit einer Einstellung den "Best-Move oder Best-ELO" zu jagen macht keinen Sinn.

Selbst sage ich mir dann ...
Stelle fest mit welchen geringsten Mitteln Du ein gutes statistisches Ergebnis erreichen kann.

Also ganz ehrlich:
Würde ich nicht so gerne bei Eng-Eng zusehen würde ich gar keine Listen erstellen.
Diese Statistiken sind nur ein wenig Zeitvertreib.

Gruß
Frank

Remisquote:
Was ja auch logisch ist:
Bei 100% Remis-Partien wären die ELOs zu 100% richtig

Alle hätten die Gleiche !!

By Thomas Koehler Date 2010-01-21 17:56

Hallo Frank,
du hättest Schriftsteller werden sollen

Die Überlegungen zur Remisquote (RQ) sind interessant. Ich versuche das mal aufgreifend und ggf. weiterspinnend zusammenzufassen:

- wie du schreibst gibt es ein Grenzwertproblem (100% Sicherheit 100% RQ, entsprechend ELO-Diff. 0)
- je geringer die ELO-Diff., desto höher die RQ (i. allg.)
--> je geringer die ELO-Diff. der Engines, desto höher die statist. Sicherheit
(auch deshalb, weil einzelne Siege weniger ELO-Diff. bewirken)

- je geringer die Bedenkzeit, desto niedriger die RQ
(es werden mehr Patzer gemacht)
--> Statist. Sicherheit wächst mit Partiezahl*Bedenkzeit und schrumpft mit ELODiff

Daher hatte ich mich bei meinen Zahlen ja auch auf (vermeintlich) gleichstarke Engines (bester Fall) bezogen.

--------------

Interessant wäre auch die Frage, wie man die Statistik "prunen" kann (weniger Partien bei gleicher statist. Sicherheit)

- wie gesagt ähnlich starke Engines verwenden

- Testproblem ist sicherlich die Objektivität (periodisch kommen ähnliche Situationen zustande, daher läuft sich die ELO-Diff eher fest als zu erwarten)
Dadurch kommt man ggf. schneller an einen Grenzwert, der kein Irrtumsplateau ist.

- Vorgabestellungen prunen ggf. (?), aber die Objektivität leidet (Teststellungsproblem)

- Mir stellt sich auch die Frage, warum es beim Menschen so anders ist. Da ist nach ein paar Partien doch oft klar, wer der Stärkere ist.
Bei Eng-Engs kann die schwächere gleich mal 5 Siege in Folge hinlegen...

Gruß, thk

By Frank Quisinsky Date 2010-01-21 18:43

Hallo Thomas,

TK
Die Überlegungen zur Remisquote (RQ) sind interessant. Ich versuche das mal aufgreifend und ggf. weiterspinnend zusammenzufassen:
- wie du schreibst gibt es ein Grenzwertproblem (100% Sicherheit 100% RQ, entsprechend ELO-Diff. 0)
- je geringer die ELO-Diff., desto höher die RQ (i. allg.)

FQ:
Ja, wobei die Remisquote höher wird wenn die Spielstärke im Verhältnis zunimmt.

Beispiel:
2.500 - 2.700 = 35%
2.700 - 2.900 = 36%

Von daher stimmt die Aussage auch nicht, dass bei einer Verdoppelung der Geschwindigkeit immer Faktor x an ELO herauskommt.
Je höher wir uns bei der Spielstärke hochangeln, desto geringer wird der Faktor x

TK:
--> je geringer die ELO-Diff. der Engines, desto höher die statist. Sicherheit
(auch deshalb, weil einzelne Siege weniger ELO-Diff. bewirken)

FQ:
Ja !!
Richtig ist die bekannte Aussage, dass wenn z. B. 20 Engines in einer Liste mehr als 250 ELO voneinander entfernt sind stimmen die Werte von Platz 1/20 nicht unbedingt. Bayesian gleicht das aus, ELOstat schwächelt hier. Hatte die Tage etwas dazu geschrieben.

TK:
- je geringer die Bedenkzeit, desto niedriger die RQ
(es werden mehr Patzer gemacht)

FQ:
Genau!

--> Statist. Sicherheit wächst mit Partiezahl*Bedenkzeit und schrumpft mit ELODiff

FQ:
Denke !!
Eine Liste mit längeren Bedenkzeiten kann bei 500 Partien bei mittleren Bedenkzeiten wird eine höhere Aussagekraft haben als eine Liste mit Extrem-Blitz und 750 Partien.

TK:
Daher hatte ich mich bei meinen Zahlen ja auch auf (vermeintlich) gleichstarke Engines (bester Fall) bezogen.
--------------
Interessant wäre auch die Frage, wie man die Statistik "prunen" kann (weniger Partien bei gleicher statist. Sicherheit)
- wie gesagt ähnlich starke Engines verwenden

FQ:
Ja, gleiche Anzahl von Partien ist auch sehr wichtig.
Viele unterschiedlichen Engines, so unterschiedlich wie möglich, wäre optimal.

TK:
- Testproblem ist sicherlich die Objektivität (periodisch kommen ähnliche Situationen zustande, daher läuft sich die ELO-Diff eher fest als zu erwarten)
Dadurch kommt man ggf. schneller an einen Grenzwert, der kein Irrtumsplateau ist.

FQ:
verstehe ich jetzt leider nicht.

TK:
- Vorgabestellungen prunen ggf. (?), aber die Objektivität leidet (Teststellungsproblem)

Das spielt keine Rolle, glaube nicht daran.
Wenn ich das richtig verstehe.
Du kannst Teststellungen nehmen, ein gutes Buch für alle Teilnehmer oder PGN-Random bei Arena.
Egal, wie auch immer ...
Sehe hier absolut keinen Wert für eine statistische Beeinflussung.
Mit einem schlechten allgemeinen Buch müssen auch immer alle Engines gleich umgehen.

TK
- Mir stellt sich auch die Frage, warum es beim Menschen so anders ist. Da ist nach ein paar Partien doch oft klar, wer der Stärkere ist.
Bei Eng-Engs kann die schwächere gleich mal 5 Siege in Folge hinlegen...

FQ:
Das ist auch bei Engines der Fall. Allerdings fällt uns das schneller auf, weil die Möglichkeiten ganz andere sind.

Interessant ist da eher eine andere Frage:
Nehmen wir mal einen Super GM der 100 Partien gegen 2.600 oder größer Gegner gespielt hat. Spielt er weitere 100 nimmt die ELO-Zahl mit einer Wahrscheinlichkeit von ca. 70% bis ca. Partie 350 ab. Bei Menschen die aber schon ein solches Niveau erreicht haben ist es meist auch so, dass Sie sich im Laufe der Jahre weiter verbessern und von daher fällt das nicht so Krass auf als bei Computerprogrammen denn die spielen immer gleich.

Warum sich dann z. B. die ELOs nach oben bewegen (ELO-Inflation) ist klar.
Der Nachteil vom ELO-System ... aber wie gesagt, ein besseres System gibt es nicht und andere Systeme werden mit anderen Nachteilen daher kommen.

Die Statistiken sind für 3er-Ergebnis-Konstallationen schwierig anzuwenden. Es gibt ja bekanntlich 3 mögliche Ergebnisse. Würden es 4 oder mehr Ergebnisse sein wäre alles noch viel komplizierter.

Weiteres Beispiel:
Spielt A (2.600 ELO) gegen B (2.700) ist die Welt so halbwegs noch in Ordnung. Den sehr minimalen Vorteil hat Spieler A mit 2.600 ELO. Er kann in einem längeren Match kaum was falsch machen und gewinnt minimal hinzu.
Spielt A (2.500 ELO) geben B (2.700) wird der minimale Vorteil immer einen kleinen Schuss größer.

Geht das mehr als 300 ELO auseinander wirds schon sehr schwierig messbar.
Die Remispartien werden weniger.

Gruß
Frank

By Frank Quisinsky Date 2010-01-21 18:57

Hi,

witzig sind dann immer die Bemerkungen zur ErrorBar

Kommt hier mal ein Kommentar meinersets kommt die Antwort: "Frank, hast Du die ErrorBar überhaupt verstanden".
Da gibt es nichts zu verstehen!

Für viele Ratinglistenbetreiber ist eine Ratingliste erst dann gut wenn die ErrorBar ganz weit unten ist.
Das ist aber völliger Quatsch.

Eine viel wichtigere Bedeutung wie genau eine Ratingliste ist, wäre eher Verhältnis von Anzahl der Partien zur Remisquote.

Wie gesagt:
Eine Liste deren Engines 1.500 Partien gespielt haben kann bei einer durchschnittlichen Remisquote von 35% mehr statistische Fehler enthalten, als eine Liste mit 500 Partien und 40% Remisquote. Ganz unabhängig von den anderen Beeinflussungsfaktoren.

Gruß
Frank

By Ernest Bonnem Date 2010-01-20 21:02

[quote="Frank Quisinsky"]für mich ist ein Rating bei einer Abweichung von +-15 (15 nach oben oder unten, also 30 ELO) genau.
Das erreiche ich nach meinen jahrelangen Statistiken in 95% aller Fälle nach ca. 350 Partien.
[/quote]
Statistikweise, is das nicht korrekt, Frank!
Für 350 Partien, sagen wir 1/3 Remis, ist die Standard Deviation 0.5*Sqrt(350*(1-1/3)) = 7.6 also 2.2% (das macht 15 Elo).
Aber für die Statistik in 95% aller Fälle, muß man zweimal die Standard Deviation nehmen.
Das gibt also eine Abweichung von +-30 Elo

By Frank Quisinsky Date 2010-01-20 22:26

Hi,

siehe meine Antwort zu Thomas Köhler:

Überhaupt sollten wir Statistiken zu ELOs nicht auf die Goldwaage legen.
Eine genaue ELO-Zahl ist aufgrund vieler Beeinflussungsfaktoren nicht möglich.

Beispiel:
Person x stellt nach 5.000 Partien 2.500 ELO fest
Person y stellt nach 5.000 Partien 2.520 ELO fest

Das kann eigentlich nicht sein passiert aber ständig (siehe bekannte ELO-Listen).
Insofern macht es auch keinen Sinn auf die Jagd nach der ultimativen genauen ELO-Zahl zu gehen.
Davon bin ich schon lange weg und mir reichen dann die Erkenntnisse die hierzu bekannt sind.

Ferner ist das ELO-Berechnungssystem schon viele Jahre in der Kritik.
Überhaupt denke ich, dass zunächst auch erst mal ein besseres Berechnungssystem erfunden werden muss. Wobei ich auch nicht glaube, dass ein neues System besser wäre oder nicht mit anderen Schwächen daher kommt.

Von daher ist Statistik pur nicht unbedingt auf ELO anwendbar.
Das macht die Sache ja gerade so interessant zumal es kaum Themen gibt über die es so unterschiedliche Meinungen gibt.
Liegt auch daran, das die Ersteller von Listen meist nur an Ihre Ergebnisse glauben bzw. daran einen genauen Weg gefunden zu haben (den gibt es aber nicht).
Interessanter ist festzustellen warum es zu Abweichungen kommt (zumindest aus statistischer Betrachtungsweise).

Gruß
Frank

By Georg Hutschenreuter Date 2010-01-19 09:15

[quote="Wilfried Lübkemann"]
Hallo Frank,

ich frage mich warum das noch keinem anderen Tester aufgefallen ist?
Ktulu 9 gibt es doch schon über 1 Jahr (glaube ich jedenfalls). Auch von Seiten CCRL und CEGT hat man bisher darüber nichts gehört. Schon seltsam.

Gruß
Wilfried
[/quote]
Hallo Wilfried,
mich wundert das nicht. Die allermeisten Tester knallen doch ihre 1+0 bis 3+0 Partien über eine oder mehrere Nächte durch, haben danach Hunderte Partien und schauen nur aufs Ergebnis. Irgendwo auch verständlich - wer hat schon Zeit und Lust, all diese Partien durchzuschauen? Am wichtigsten ist doch die statistische Sicherheit der ELO-Einschätzung. *fg*

By Ingo Bauer Date 2010-01-19 10:33

Moin,

[quote="Georg Hutschenreuter"]
mich wundert das nicht. Die allermeisten Tester knallen doch ihre 1+0 bis 3+0 Partien über eine oder mehrere Nächte durch, haben danach Hunderte Partien und schauen nur aufs Ergebnis. Irgendwo auch verständlich - wer hat schon Zeit und Lust, all diese Partien durchzuschauen? Am wichtigsten ist doch die statistische Sicherheit der ELO-Einschätzung. *fg*
[/quote]

Ich für meinen Teil habe ein anderes Verständniss von (Beta)testen und Ranglistenerstellen!

Wenn das obige einem Betatester entgeht ist das peinlich, eine Ranglistentester spielt erstellt er eine Rangliste über den IST-Zustand von Enignes.
Als Ranglistenersteller interessiert mich so etwas nicht, das gehört zur veröffentlichen Engine dazu und trägt zur Spielstäre bei. (Habe Kutulu aber nicht gespielt)
Frür mich sind also Testen und Ranglistenerstellen zwei völlig verschiedene Dinge!

Gruß
Ingo

By Jens Heerklotz Date 2010-01-19 12:52

Da hast du teilweise recht. Zur einordnung der Spielstärke werden viele 1 Minuten Dinger gespielt (oft sogar noch schneller) und ich sag jetzt auch nicht mit was der ein oder andere Programmierer seine Programme testet.

Trotzdem gehört imO eines vor einer Release immer dazu:

Das Kontrollieren einiger Problembereiche muss manuell geschehen (Unterverwandlung?? EP, Zugzwang ...).

Gruss

By Jan Kiwitter Date 2010-01-21 15:33

[quote="Frank Quisinsky"]
Ktulu 9:
Habe Rahman gerade angeschrieben und Ihm den Fehler erklärt.
Er hat aufgrund beruflicher Gründe überhaupt keine Zeit für Schach aber vielleicht kann er ja das Problem beheben.
[/quote]

Hallo Frank,

ja, derzeit sieht es nicht nach einer Weiterentwicklung von Ktulu aus (von Schachprogrammierung lässt sich eben schwer leben... und für ein reines Hobby ist sehr zeitaufwändig), aber man soll nie nie sagen. Ich beschäftige mich im Moment auch kaum mit Ktulu, aber wenn Rahman irgendwann wieder mehr Zeit haben sollte, wäre ich dabei, ihn zu unterstützen.

Viele Grüße
Jan

By Frank Quisinsky Date 2010-01-21 18:48

Hallo Jan,

ups, der Ktulu Haupt-Tester ...
Tester-Chef

Rahman will sich das ansehen, er schrieb mir letzte Woche ist aber zur Zeit aus privaten absolut verständlichen Gründen verhindert und kann das unmöglich.
Denke das er maximal auch nur den Fehler suchen wird. Ich weiß nicht ob es dann zu einem Update kommt. Sofern ich ein Update erhalte kann ich Dir das gerne mailen.
Musst mich mal anschreiben. E-Mail Adresse: computerschach ... schach-welt ... de

Sofern er eine Version sendet werde ich das mit der SWCR testen.
Eigentlich liegt Ktulu ca. bei 2.620 SWCR ELO. Es wäre schade wenn Ktulu nicht mitspielt. Außerdem ohne Ktulu macht alles viel weniger Spaß.

Viele Grüße
Frank

By Wolfgang Battig Date 2010-01-16 14:19

[quote="Frank Quisinsky"]
....

Doch 1.3.4:
Stattdessen teste ich nun das Doch Update.
Seit ca. 155 Partien schwankt Doch zwischen 53,5 und 54,5% bei der Punkt-ausbeute.
Bedeutet das es ein Kopf an Kopf Rennen mit Thinker 5.4d Inert um Platz 6 geben wird, Doch sich um mindestens um 2 Plätze verbessert und ca. 40 ELO zulegt.
Genau kann ich das am Dienstag Abend sagen, wenn Doch seine 720 Partien gespielt hat.

....
[/quote]

Hi Frank,

passt ganz gut zu meinem CEGT-Blitztest, nach 1000 Partien sind es +28 mit der 64bit-Version.

http://cegt.foren-city.de/topic,352,-testing-doch-1-3-4-x64.html

Viele Grüße
Wolfgang

By Frank Quisinsky Date 2010-01-19 06:49

Hallo Wolfgang,

nunmehr liegen mir 640 von 720 Partien vor.
Doch steigert sich nach dieser Partieanzahl um 15 ELO bei w32. Auch bei Doch 0.980 zu 1.2 waren die Steigerungen viel geringer als bei x64.
Dennoch belegt Doch nun hinter Thinker Platz 7 bei w32.

Interessant ist der Umstand, dass Rybka durch die 40 Doch Partien sage und schreibe 10 ELO verloren hat.
Bedeutet, dass Rybka extrem gut gegen Doch 1.2 gepunktet hat und nun kräftig durch die Partien gegen Doch 1.3.4 einbüßt.

Das habe ich so extrem auch noch nicht erlebt.

Während Shredder und Stockfish nach den ersetzten Doch Partien das Rating halten. Auch andere Engines haben teilweise um bis zu 6 Punkte verloren oder auch Punkte gewonnen. Protector steigert sich stark und rutscht vor Cyclone.

Nun fehlen mir noch die Partien unter der Fritz 12 GUI gegen Fritz 12 und Junior 2010 (beide spielen bei mir unter der Fritz GUI). Es kommen also noch 80 Partien hinzu, die gerade gestartet wurden (jeder spielt ja gegen jeden 40 Partien).

Interessante Beobachtungen, interessante Wendungen rund um das Testen mit Doch und dem Verhalten auf die ELO-Liste.
Die bisherigen Ergebnisse habe ich gerade hochgeladen.

Viele Grüße
Frank

Anschließend starte ich Sparc 0.3a und dann als Engine 20 Bright 0.5c (für den direkten Vergleich unter w32).

By Gerhard Sonnabend Date 2010-01-19 12:58

[quote="Frank Quisinsky"]
[...snip...]
Doch steigert sich nach dieser Partieanzahl um 15 ELO bei w32. Auch bei Doch 0.980 zu 1.2 waren
die Steigerungen viel geringer als bei x64.
[...snip...]
[/quote]

Passt ganz gut zu meinen "32-Bit-Tests", siehe:
http://cegt.foren-city.de/topic,352,-testing-doch-1-3-4-x64.html

Allerdings habe ich erst 500 Games beisammen.

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2010-01-20 00:52

Hi Gerhard,

habe den Test gerade abgeschlossen.

Code:

Doch 1.3.4     2679 20 20 720 50% 2678 44%
Doch 1.2       2659 20 20 720 47% 2678 41%
Doch 09.980    2647 20 21 680 45% 2679 44%

In der SWCR verschwinden ja die Partien älterer Versionen.
Habe mir gerade die Mühe gemacht und eine Test-Ratingliste mit den älteren Versionen erstellt.
Dabei kam dann obiges Ergebnis heraus.

2 ELO weniger hat Doch 1.3.4 dann nur die 19 SWCR Engines und deren Partien berücksichtigt werden.

So, teste jetzt das Protector 1.3.2 Update von November.
Denke 25 ELO mehr was Augenhöhe mit Thinker 5.4d Inert bedeuten würde und Bingo, Protector wäre dann deutlich der stärkste Fruit Clone (rede immer nur von 32-Bit).
Bin gespannt, zumal die Version 1.3.1b schon sehr hoch liegt.

Gruß
Frank