Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stat: Eine Frage der Berechnung ... ErrBar
- - By Frank Quisinsky Date 2014-03-12 01:46 Edited 2014-03-12 01:53
Hallo,

komme zurück zum ErrBar Thema in den Berechnungsprogrammen.
Bin ja der Meinung, dass diese in allen 4 Modellen nicht korrekt berechnet wird.
Ordo 0.8, Bayesian 0056, Bayesian 0057.3, ELOstat 1.3

Die Berechnungsprogramme weichen minimal bei den Ausgaben ab, also vier Ansätze sind hier enthalten.

In keinem der Ansätze kommt die Anzahl der Gegner zum Tragen.
Also die Ausgabe der ErrorBar bei z. B. 1.000 Partien gegen einen Gegner oder bei 1.000 Partien gegen 20 Gegner ist immer die Gleiche.
Mit mehr Gegner wird die Ausgabe in Elo aber genauer und mithin müsste sich die ErrorBar korrigieren bzw. nach unten regulieren.

Nun halte ich in der SWCR2 mal ein wenig statistisch fest.
Je nach 100 Partien werte ich aus und habe mittlerweile schon über 120 ... 100er Ergebnisse.

Hier mal vom letzten Test: Fire 3.0 AVX x64
Es fließen also bei 1.000 Partien 10 Ergebnisse ein.

Code:
Stats after 100, 200 ... games!       Elo   Games  Score  Draws  White Black Points  w/ d/ l
05. Fire 3.0 AVX x64                  2964  1.000  66.7%  37.8%   35,0  31,0  66,0   45/42/13  -0,7
05. Fire 3.0 AVX x64                  2964    900  66.8%  37.3%   33,5  31,0  64,5   42/45/13  -2,2
05. Fire 3.0 AVX x64                  2967    800  67.1%  36.4%   37,5  30,5  68,0   49/38/13  +1,3
05. Fire 3.0 AVX x64                  2965    700  66.9%  36.1%   34,0  30,0  64,0   45/38/17  -2,7
05. Fire 3.0 AVX x64                  2968    600  67.4%  35.8%   36,0  31,0  67,0   50/34/16  +0,3
05. Fire 3.0 AVX x64                  2968    500  67.5%  36.2%   37,0  29,5  66,5   47/39/14  -0,2
05. Fire 3.0 AVX x64                  2970    400  67.8%  35.5%   36,0  34,5  70,5   55/31/14  +3,8
05. Fire 3.0 AVX x64                  2964    300  66.8%  37.0%   33,5  28,5  62,0   43/38/19  -4,7
05. Fire 3.0 AVX x64                  2983    200  69.2%  36.5%   39,5  31,0  70,5   54/33/13  +3,8
05. Fire 3.0 AVX x64                  2973    100  68.0%  40.0%   36,5  31,5  68,0   48/40/12  +1,3


Überprüft kann die ErrBar nun anhand von dem praktischen Beispiel weit weg von statistischen Regeln und Grundsätzen, die meines Erachtens so nicht greifen können weil unser Thema Schach nicht mit einer Schablone über Statistik gesetzt / gelegt werden kann bzw. eingeschränkt.

Die Frage ist nun aber, wie werte ich die SWCR2 Ergebnisse statistisch aus?
Mit einem einfachen Mittelwert?

Fire 3.0 AVX x64 hat also 667 von 1.000 möglichen Punkten erzielt.
Ergibt einen Durchschnitt von 66,7 Punkten (siehe am Ende der Tabelle die Abweichungen).

Höchste Abweichung nach oben = +3,8
Höchste Abweichung nach unten = -4,7

Im Grunde ist es einfach nun festzustellen wie hoch die höchste und niedrigste Abweichung in ELO bei 100 Partien wäre.
Das ist nicht das Thema ...

Das Thema ist eher die 120 Statistiken der 100er Partieserien unter einem Hut zu bekommen.

Stelle mir folgendes vor:

Wahrscheinlichkeit von 80% +- Elo
Wahrscheinlichkeit von 90% +- Elo
Wahrscheinlichkeit von 95% +- Elo

Also, mit einer Wahrscheinlichkeit von 80% wird das Ergebnis zwischen Elo x und Elo y liegen
Mit einer Wahrscheinlichkeit von 90% wird das Ergebnis zwischen Elo x und Elo y liegen
Mit einer Wahrscheinlichkeit von 95% wird das Ergebnis zwischen Elo x und Elo y liegen

Bei den dummen Auswertungsprogrammen bekomme ich maximal bei 100 Partien die Ausgabe +- 60.
Dies ist nach meinen bisherigen SWCR1 Ergebnisse deutlich zu hoch.
Blitzeinschlagtheorien, welche viele User zu übertriebenen Partiemengen animiert um die ErrorBar niedrig zu halten bzw. ein Ergebnis zu untermauern.

Wenn diese Aufgabe gelöst ist, kann im Grunde das gleiche Prinzip mit vorhandenen Daten auf 19, 18, 17, 16, 15 Gegner gezogen werden und Bingo, eine genauere Prognose nach Anzahl der Gegner bei einem Turnier wird das Ergebnis sein und mithin wird auch schnell deutlich, das übertriebene Mengen an Partien für die Ermittlung einer Spielstärke gar nicht notwendig sind.

Viele Grüße
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-12 09:07
Hi Frank !

Frank Quisinsky schrieb:

[...snip...]
In keinem der Ansätze kommt die Anzahl der Gegner zum Tragen.
Also die Ausgabe der ErrorBar bei z. B. 1.000 Partien gegen einen Gegner oder
bei 1.000 Partien gegen 20 Gegner ist immer die Gleiche. Mit mehr Gegner wird
die Ausgabe in Elo aber genauer
und mithin müsste sich die ErrorBar korrigieren
bzw. nach unten regulieren.
[...snip...]


Das ist meine Meinung zu kurz gefasst.
Stelle Dir mal folgendes vor:
Engine "XY" spielt 1000 Spiele gegen das aktuelle Engine "ABC" Release.
Danach spielt Engine "XY" gegen 10 verschiedene Engine "ABC" Settings, alle basierend
auf dem aktuellen Release: Jeweils 100 Spiele, gesamt also ebenfalls 1000.
Weshalb nun sollte die eine oder die andere Messung genauer/ungenauer sein ?
Nur aufgrund der 10 "verschiedenen" Gegner ?
Nein, Du musst schon selbst eine "vernünftige" Auswahl treffen, dies kann Dir kein
Auswertungsprogramm abnehmen. Bei den heutzutage z.T. doch recht "baugleichen" Engines
spielt also nicht die pure Anzahl an Gegnerengines die entscheidende Rolle, sondern eine
gut durchdachte Auswahl. Deshalb halte ich persönlich auch nichts von Listen, in welchen
Derivate, Clones und Settings die deutliche Mehrheit bilden.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-03-12 11:10 Edited 2014-03-12 11:19
Hi Gerhard,

das stimmt natürlich was Du schreibst, macht die Sache von Grund auf aber interessanter.

Wenn viele unterschiedliche Engines nach 1.000 Partien ein Ergebnis x produzieren sollten und dann auch bei vielen angeblich unterschiedlichen Engines dieses Ergebnis hinsichtlich ErrBar aus der Reihe tanzt, ja dann könnte doch allein aufgrund dessen und überhaupt klar herausgestellt werden, dass es sich bei den angeblich unterschiedlichen Engines einzig und allein um einen Angstgegner handelt.

Durch mehr Partien werden ja die Listen nicht genauer wenn viele gleiche Engines drin sind. Das ist eine Fehlannahme.

Erinnere Dich, bist selbst so lange dabei ...
Als wir früher getestet hatten waren wir der Meinung das nach 300-400 Partien ein Rating genau wird. Seinerzeit waren die Engines meist auch unterschiedlich. Durch neue Möglichkeiten bei der Hardware und nicht zuletzt durch die offenen Sourcen wird die Anzahl der hierzu notwendigen Partien künstlich nach oben getrieben. Wir hatten ja seinerzeit nicht alle ein Schuss in der Birne und beschäftigten uns auch seinerzeit intensiv mit den Auswertungen.

Schätze mal ...
Wie hoch ist die durchschnittliche Abweichung in Elo bei der SWCR2 wenn ich nur die ersten 400 der 1.000 Partien auswerte?

Also durchschnittliche Abweichung Vergleich 400 zu 1000 Partien?

Verrate es Dir
+- 2

Und was sagt die ErrorBar bei 400 und bei 1.000 Partien!
Das ist einfach Käse!

+-60 bei 100 Partien ...
Anstatt +-60 könnte mit einer viel spannenderen Prognose als Ausgabe gearbeitet werden.
Alleine wenn das mal da wäre, würde das Betrachten einer Liste deutlich spannender sein.

Ganz unabhängig davon das die +-60 so auch nicht richtig ist.
Renne ja auch nicht ganzen Tag rum und warte darauf das mich der Blitz trifft.
Obwohl das wäre bei mir vielleicht mal sinnvoll ...

Gruß
Frank
Parent - - By Stefan Pohl Date 2014-03-12 12:44
Offensichtlich hast du ein ziemlich selektives Gedächtnis, wenn es um Fakten geht, die nicht in dein statistisches Weltbild passen.
Daher hier noch mal als Wiederholung, damit nicht die Gefahr entsteht, daß Forumsleser deine Theorien ernst nehmen.

Ich habe aus meiner Top10 Datenbank die ersten 6 Engines entfernt, sodaß nur noch 5 Ippo-Derivate übrig blieben und das mal durch bayeselo laufen lassen. Vergleichen wir das mit dem kompletten Top10-Tournament. Nach deiner Theorie oder Simulationen oder was auch immer, müßte ja aufgrund der geringen Zahl der Engines (nur noch 4 Gegner für jede Engine) und der Tatsache, daß es nur noch eng verwandte Ippo-Derivate sind, die hier durch die Eloauswertung laufen, nun komplett unsinnige Ergebnisse rauskommen.
Schau selber:

Rank Name                    Elo    +    - games score oppo. draws
   1 Fire 3 x64s            3043    6    6  4000   53%  3025   62%
   2 Mars 1 avx             3037    6    6  4000   52%  3027   63%
   3 PanChess 00.537 x64    3035    6    6  4000   51%  3028   63%
   4 Bouquet 1.8 x64        3030    6    6  4000   50%  3029   60%
   5 Robbolito 0.085g3 x64  3000    5    5  4000   45%  3036   62%

Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3183    5    5 10000   67%  3060   43%
   2 Stockfish 131223 x64s  3129    5    5 10000   59%  3065   45%
   3 Komodo TCECr x64       3120    5    5 10000   57%  3066   45%
   4 Gull R600 x64          3075    5    4 10000   51%  3070   52%
   5 Critter 1.6a x64       3065    5    5 10000   49%  3071   55%
   6 Strelka 5.5 x64        3061    5    5 10000   49%  3072   55%
   7 Fire 3 x64s            3044    5    5 10000   46%  3074   55%
   8 Mars 1 avx             3038    5    5 10000   45%  3074   56%
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3075   55%
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3075   53%
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3078   53%

Die Ergebnisse sind praktisch identisch. Drei der fünf Engines (Fire, Mars, PanChess) weichen jeweils um einen (!!!) Elopunkt ab. Eine Engine (Bouquet) ist komplett identisch und Robbo 0.085g3 ist ja der vorgegeben Fixpunkt. Und daß trotz der exorbitant gestiegenen Remisquote (weil die Ippos gerade gegeneinander extrem oft remisieren) und eines viel niedrigeren Elodurchschnitts der Gegner und der Tatsache, daß jede Engine nur noch gegen 4 Gegner gespielt hat.
Also genau das, was man bei einer großen Anzahl von Partien erwartet. Unabhängig von Gegnerzahl und Gegnertyp und Gegner-Verwandschaftsgrad, kommt unter dem Strich immer dasselbe raus. Innerhalb der Errorbar, versteht sich. Weswegen die Auswertungsprogramme die Errorbar auch so errechnen, wie sie es tun. Alles andere wäre nämlich statistischer Unfug.

Ergo (und ganz frei nach Bill Clinton): Its all about the number of games,...! (was auch die Kernaussage des Begriffes Errorbar ist. Aus gutem Grund (s.o.)).

Stefan
Parent - By Stefan Pohl Date 2014-03-12 12:54
Noch ein Selbstzitat.

Hier das Ergebnis für den oberen Bereich, also ohne die ganzen Ippo-Derivate.

Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3174    6    7  4000   60%  3100   45%
   2 Stockfish 140106 x64s  3146    6    7  4000   56%  3107   47%
   3 Komodo TCECr x64       3117    7    6  4000   50%  3114   46%
   4 Gull R600 x64          3074    7    7  4000   43%  3125   50%
   5 Critter 1.6a x64       3064    7    7  4000   41%  3128   50%

Rank Name                    Elo    +    - games score oppo. draws
   1 Houdini 4 x64          3182    5    5 10000   67%  3061   43%
   2 Stockfish 140106 x64s  3144    5    5 10000   61%  3064   45%
   3 Komodo TCECr x64       3120    5    5 10000   57%  3067   45%
   4 Gull R600 x64          3075    5    5 10000   51%  3071   52%
   5 Critter 1.6a x64       3064    5    5 10000   49%  3072   55%
   6 Strelka 5.5 x64        3059    5    5 10000   48%  3073   55%
   7 Fire 3 x64s            3043    5    5 10000   46%  3075   55%
   8 Mars 1 avx             3037    5    5 10000   45%  3075   57%
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3076   55%
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3076   53%
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3079   53%

Auch hier halten sich die Verschiebungen im Rahmen. Gull 1 Elo, Stockfish 2 Elo, Komodo 3 Elo. Nur bei Houdini sind es 8 Elo Abweichung. Was aber auch nicht wirklich viel ist und auch noch weit innerhalb der sich bei Vergleichen ja addierenden Errorbar beider Houdini-Zahlen von insgesamt 11 Elo liegt. Also alles OK.

Auch hier alles so, wie es zu erwarten war. Genügend Partien ergeben wieder das praktisch identische Ergebnis. Auch mit nur 4 Gegnern statt 10. Mit verwandschaftlich weiter entfernten Engines im Vergleich zur anderen Teilauswertung.
Spielt alles keine Rolle.
Nur genügend Partien müssen es sein. Und somit eine Errorbar, die klein genug ist, um reproduzierbare Ergebnisse zu ermöglichen...

Its all about the number of games, nothing else...Eben Errorbar und nix anderes. Nur mit vielen Partien bekommt man brauchbare Ergebnisse. Mit zu wenigen Partien sind die Ergebnisse statistisch unbrauchbar. Ganz egal, wieviele Gegner, wie eng verwandte Gegner, oder sonstige metaphysische Betrachtungen, die ins Feld geführt werden.

Beweisführung abgeschlossen.

Stefan
Parent - - By Frank Quisinsky Date 2014-03-12 13:09
Offensichtlich hast du ein ziemlich selektives Gedächtnis, wenn es um Fakten geht, die nicht in dein statistisches Weltbild passen.

Hi Stefan,

lasse das bei den Antworten weg.
Floskeln bringen nichts wenn etwas versucht wird zu verbessern.
Ich behaupte ja nicht das das was ich fabriziere richtig ist, ich sehe nur seit vielen Jahren immer die gleichen Stats und wundere mich über die Annahmen die zu diesem Thema kursieren.

Weist Du eigentlich welcher Sinn dahinter steht wenn ich versuche genau das zu verbessern.
Ich mache nichts ohne Sinn im Computerschach, dafür ist mir die Zeit zu schade.

Anstatt das Personen x tausend Partien spielen lassen, meist mit geringer Bedenkzeit, will ich eher profitieren von der Arbeit anderer.
Aber nicht von 1-Minute Partien, sondern von besseren Arbeiten (wobei ich nicht sage das Deine schlecht ist, jeder so wie er möchte).

Aber eine Ratingliste mit 400 Partien pro Engine und höheren Bedenkzeiten hat für mich einen höheren Stellenwert und ich kann aus diesen Arbeiten auch profitieren. Wenn also propagiert wird, dass viele Partien notwendig sind um ein Rating zu ermitteln bedeutet das nichts anderes das gesagt wird ...

Ihr müsst viele Partien spielen also die Zeiten in den Keller drücken.
Das führt aber nicht dazu das wir mit hochwertigen Arbeiten glänzen und ist mithin kontraproduktiv.

---

Zu Deinem Beispiel:
Das mag alles richtig sein was Du schreibst ist aber nicht mein eigentlicher Aufhänger.

Ich will herausstellen das weniger Partien für ein Rating ausreichend sind und versuche herauszufinden mit welchen Mitteln ich die Partiegrenze nach unten bringen kann. Wenn ich bei 400 Partien mit vielen Clones arbeite schwankt ein Rating zu stark. Ich habe wesentlich bessere Resultate wenn ich unterschiedliche Engines nehme (das hat mit Angstgegner zu tun).

Was Du hier aufzeigst kannste im Grunde auch in meinen Listen sehen. Engines raus und andere rein in der SWCR-2 ... siehste im Zeitraffer auf meiner Webseite.

Nochmal:
Ist doch einfach nachzuvollziehen ...
Houdini hat Probleme gegen Stockfish.
Nehme die Stockfish Versionen aus der SWCR2 ... aus den 22.500 Partien und Du siehst was mit der ELO von Houdini passiert. Je mehr SF getestet werden, desto schlechter für Houdini. Und von diesen Fallgestaltungen gibt es sehr viele. Würde z. B. Jonny bei Dir mitspielen und nur gegen die Clones spielen wäre die ELO um ca. 40 höher als wenn Jonny gegen schwächere spielen würde. Jonny punktet gut gegen stärkere Engines. Kommen schwächere hinzu fällt das Rating.

Und von diesen Konstellation gibt es viele und nur durch viele unterschiedliche Gegner bei weniger Partien kommt ein verblüffend gutes Resultat heraus.

Also ich zweifel nicht an was Du schreibst aber das ist nicht so richtig das Thema was ich aufgreife.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2014-03-12 13:21
Hi Stefan,

noch ein wenig klarer ...

- will das die Darstellung der Listen sich verbessert, dass geht so gar nicht und ist nichtssagend.
- will das die Prognosen zu der Anzahl der gespielten Partien auch so dargestellt wird das damit wirklich etwas angefangen werden kann.

Und versuche herauszufinden ob weniger mehr ist und wie ich das erreichen kann das aus weniger mehr wird.

Das fängt bei den Bedingungen einer Ratingliste an, verwendetes Buch, Hashtables, Tablebases ... bastel seit vielen Jahren daran und versuche mit neuen Listen immer wieder neue Ideen einfließen zu lassen bzw. Schwachpunkte von den Vorgängern zu beseitigen. Auch wenn es nie etwas perfektes geben wird sollten im Laufe der Zeit die Arbeiten natürlich besser werden. Aber die werden nicht besser wenn ich nur die Anzahl der Partien nach oben schaufel und so vieles andere ignoriere nach dem Motto ... ich gleiche das aus durch spielen von mehr Partien.

Dann sind wir auch im Computerschach dort angekommen wo ich nicht hin will.
Automatisierung ... und die Feinheiten bleiben auf der Strecke.

Gruß
Frank

Wenn Du schon über "Weltbild" sprichst.
Parent - - By Stefan Pohl Date 2014-03-12 17:58
Frank Quisinsky schrieb:

Houdini hat Probleme gegen Stockfish.
Nehme die Stockfish Versionen aus der SWCR2 ... aus den 22.500 Partien und Du siehst was mit der ELO von Houdini passiert.


Na, meinetwegen, aller guten Dinge sind ja drei. Dann reichts mir aber auch.
Bin z.Zt. auf Arbeit und kann daher die Elozahlen nur per Taschenrechner ausrechnen. Aber das tuts auch.
Nehme ich Stockfish und Don (sehr ähnliches Stockfishderivat) aus dem LS-top10-tournament raus und rechne dann den Erfolgsscore von Houdini 4 aus den verbleibenden 8000 Partien aus, so ergibt das 67.8%. Der Elodurchschnitt der verbleibenden 8 Gegner ist 3056 (eigentlich knapp darunter, aber das runde ich mal auf). 67.8% bedeutet +127 Elo, also 3056+127=3183 Elo.
Und der Elowert von Houdini 4 im kompletten LS-top10-tournament ist 3181...
Der Effekt, wenn man 2 angebliche Angstgegner (aus 10 Gegnern insgesamt) rausrechnet ist also eine Abweichung von 2 Elo (eigentlich sogar etwas weniger, weil ich bei der Gegnerelo leicht aufgerundet hatte) also de facto gar nichts.
So wie es zu erwarten war.

Alle deine Ergebnisse und Schlußfolgerungen basieren auf zuwenigen Partien und den daraus folgenden Zufallsschwankungen, in die du dann irgendwas reininterpretierst. Spiele - so wie ich - 1000 Partien pro Einzelbegegnung, und alle diese Merkwürdigkeiten werden verschwinden.
Ansonsten jagst du weiterhin Phantome.

Stefan
Parent - - By Frank Quisinsky Date 2014-03-12 20:44
Hi,

so ein Mist, jeder Versuch hier etwas spannendes zu diskutieren endet in den üblichen Hahnenkämpfen.

Stefan, ich habe gar ein richtig schlechtes Gewissen.
Weil?

Weil selbst 1.000 Partien viel zu viel sind und gar 400 ausreichen.
Bekam eine richtig böse Mail von einem Leser der SWCR2 der sehr akribisch Auswertungen anhand der Rundennummern vorgenommen hat.
Er schrieb mir warum ich den Test nicht nach 380 Partien abbrechen würde und schrieb mir ... das ist die Schwelle bei Dir bei dem sich eh nichts mehr wesentliches regt.

Alles was er sendete war schlüssig und hatte Hand und Fuß.
Selten so gut ausgearbeitete Stats gesehen.

Ich schreibe Dir das ich versuche herausfinden zu minimieren und Du antwortest auf derartige Bemühungen, spiele doch mehr Partien.
Du bist mir einer!



Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-13 12:53
Hi Frank !

Für die CEGT 40/4 testen wir gerade Equinox 3.00 und Gaviota 1.0,
jeweils x64 1CPU, siehe:
Equinox 3.00 test http://cegt.forumieren.com/t107-testing-equinox-300-x64
Gaviota 1.0 test http://cegt.forumieren.com/t106-testing-gaviota-10

Bei Equinox ist alles von Anfang an absolut stabil, bei Gaviota verlief es bisher wie folgt:
Code:

nach  500 Spielen  ELO 2709
nach 1000 Spielen  ELO 2715
nach 1500 Spielen  ELO 2708

Das sind zwar nur geringe Schwankungen und trotzdem bin ich froh, dass wir nun
1500 Spiele absolviert haben.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-13 20:57
Hi Gerhard,

wobei alles unter 10 interessiert mich persönlich nicht wirklich.
Gibt so viele Faktoren warum und weshalb und das ist auch nicht wirklich messbar.

Geht ja schon damit los das eine neue Engine rein geholt wird und gegen die Engine auf die geeicht wird gut oder schlecht abschneidet. Dann fällt oder steigt alles andere mit. Oder Jonny in der SWCR2 raus und Minko fällt um 10 etc.. Das passiert bei jeder Engine die raus geht, die eine fällt und die andere steigt ein wenig. Aber unter 10 ELO, das wäre bei einer eigentlich besserer Berechnung der Spielstärke in einer dreistelligen Zahl lediglich eine Kommazahl.

10 Elo mehr oder weniger ...
Wären es aber 20 oder mehr bei 500 Partien aufwärts dann wird's interessant.
Passiert leider nur so selten, schade eigentlich ... warte ja immer auf solche Events die leider nur 1-2x im Jahr zu sehen sind.

Übrigens, wir liegen mit den Ponder Listen sehr schön zusammen ...
Hast du mal verglichen?

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-12 15:45
Die Error-Bars sind schon korrekt und auch nützlich.
Dass nach 400 Partien +28 -28 und nach 1000 Partien
+17 -17 angezeigt werden ist vollkommen richtig.
Nur, und das vergessen viele, der angegebene Wert, z.B.
also 2680 + 28 -28 ist der warscheinlichste.
Jede höhere Abweichnung, also 2681, 2679, 2682, 2678 ...
wird/ist unwarscheinlicher zum Zeitpunkt der Auswertung.
Und ja, bei uns stabilisiert sich auch alles zwischen
400 - 1200 Spielen, mal mehr mal weniger schnell.
Dazu hatte ich hier vor einiger Zeit etwas geschrieben, siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=72443#pid72443
Das geht nur mit unseren (CEGT) Listen, weil wir nichts
ausklammern und/oder löschen. Somit kommen manche Engines
im Laufe der Zeit auf über 10000 Spiele und nur so kann
man aussagekräftige Vergleiche diesbezüglich ziehen.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-12 20:50
Hi Gerhard,

von welchen der vier unterschiedlichen Ansätzen bei der ErrBar redest Du.
Es gibt ja keinen Standard oder ultimatives.

Und für mich ist die ErrBar nicht OK weil ich in jeder Ratingliste und in jeder Auswertung immer etwas anderes erkennen kann.
Warum sollte ich dann schreiben sie ist OK wenn sie es nicht ist.

Werde mal überlegen wie ich die vielen Einzelergebnisse in einen Einklang bringe.
Derzeit bekomme ich sehr viele eMails von einem eifrigen Beobachter der Seiten der viele statistische Auswertungen zu meiner Liste macht die mich "alten Hasen" gar selbst noch überraschen.

Du bist ja noch einer der wenigen die erkennen wann sich ein Rating stabilisiert. Aber die Wahrscheinlichkeit das mehr als 400 Partien notwendig sind bis sich ein Rating mal stabilisiert hat ist geringer als 5% ... dann wenn wirklich die Randbedingungen gut sind, sonst natürlich auch nicht.

Gruß
Frank
Parent - - By Lars Date 2014-03-14 11:50 Upvotes 1
Hallo Frank,

Frank Quisinsky schrieb:

komme zurück zum ErrBar Thema in den Berechnungsprogrammen.
In keinem der Ansätze kommt die Anzahl der Gegner zum Tragen.
Also die Ausgabe der ErrorBar bei z. B. 1.000 Partien gegen einen Gegner oder bei 1.000 Partien gegen 20 Gegner ist immer die Gleiche.
Mit mehr Gegner wird die Ausgabe in Elo aber genauer und mithin müsste sich die ErrorBar korrigieren bzw. nach unten regulieren.


Dieser Fehlschluß beruht auf einer offenbaren Verwechselung, nämlich von Elo-Zahl und Spielstärke.

Eine Elo ist aber gar kein Maß für die Spielstärke, sondern für den Erfolg. Die Tester spielen ein Turnier mit x Engines und sehr vielen Partien. Bei der folgenden Auswertung wird jedes Partieresultat als Messung interpretiert, die mit einem systematischen Fehler behaftet ist. Auf die Vielzahl der Messungen kann man dann die bekannten und erwiesenermaßen gut funktionierenden statistischen Verfahren anwenden, um den wahrscheinlichsten Bereich zu ermitteln, innerhalb dessen das wahre Ergebnis liegt, hier also die "richtige" Elo einer Engine. Bedeutet, wenn nach so einem Turnier eine Engine beispielsweise Elo 2900 +-5 hat, daß ihre wahre Elozahl mit 95prozentiger Wahrscheinlichkeit zwischen 2895 und 2905 liegt. Mit fünfprozentiger Wahrscheinlichkeit liegt sie außerhalb dieses Bereichs.

Und jetzt kommt der Fehlschluß: Mancher erwartet, daß diese Engine in einem Turnier mit einem anderen Teilnehmerfeld dieselbe Elo erreichen müßte. Das träfe aber nur zu, wenn wir eine Spielstärke gemessen hätten (wahrscheinlich nicht einmal dann). Tatsächlich wird die Engine aber nur, wenn man dasselbe Turnier wiederholt, mit der gemessenen Wahrscheinlichkeit im selben Elo-Bereich landen.

Die Errorbars sind also korrekt, woran es fehlt, ist nur die korrekte Interpretation ihres Gültigkeitsbereichs. Sie gelten nur für die Bedingungen, unter denen die Elo ermittelt wurde. Nicht unter anderen Bedingungen. Wie die Elo selbst auch. Fazit: Die Mathematik funktioniert. Man muß nur ihren Geltungsbereich kennen.

Natürlich ist die Annahme, daß eine Engine, die in einem Turnier erfolgreich spielt, dies auch in einem anderen tun wird, nicht völlig idiotisch, im Gegenteil. Falls es eine absolute Spielstärke gäbe, könnte man sie ermitteln, indem man alle schachspielenden Entitäten in einem gigantischen Turnier unendlich viele Partien gegeneinander spielen ließe. Weil das große organisatorische Schwierigkeiten mit sich brächte, muß man mit einer gewissen Ungenauigkeit leben, sowohl Teilnehmer- als auch Partienzahl begrenzen und auf statistische Auswertemethoden zurückgreifen.

Und hier kommt Dein Gedanke ist Spiel: Eine Erfolgszahl sollte, so unsere Annahme, eine umso bessere Verbindung zur Spielstärke aufweisen, je mehr Partien _und_ Gegner bei ihrer Ermittlung im Spiel waren. Diese Annahme stützt sich aber auf die (unbewiesene?) Existenz einer wahren Spielstärke.

Viele Grüße
Lars B.
Parent - - By Frank Quisinsky Date 2014-03-15 03:09 Edited 2014-03-15 03:17
Hallo Lars,

zunächst mal freue ich mich über Deinen richtig guten Beitrag zum Thema. Du stellst abschließend ein wenig in Frage ... das ist das großmeisterliche "unklar", was ich so liebe denn nichts anderes ist jede Darstellung einer Ratingliste ... wir können dahinter immer ein "unklar" setzen. Auch derjenige der sich die Mühe macht 100.000 Partien erspielen zu lassen, kann und darf nur ein unklar setzen.

Muss das schreiben:
Möchte mal gerne GM Hort dieses unklar bei einer Ratingliste kommentieren lassen.
Das muss schlechthin das Event überhaupt sein

Vergleiche ich die Ausgaben zur ErrBar bei den Berechnungsprogrammen Elostat, Bayesian 0056, 0057.3 und Ordo kommt unterschiedliches zu Stande. Sicherlich auch aufgrund leichter Abweichungen bei den Berechnungsmethoden.

Ich bin kein Fan der mathematisch-wissenschaftlichen Prinzipien der Statistik und Wahrscheinlichkeitstheorien ... für sich allein genommen ... . Zugegeben, notwendig und aufgrund dieser lässt sich überhaupt etwas berechnen bei dem was wir derzeit überhaupt haben. Aber es sind mir zu viele x-Komponenten die einfließen. Das geht schon mit los mit willkürlichen setzen von Berechnungseinheiten ... wie z. B. mit 95%iger Wahrscheinlichkeit passiert x. Mit 5% prozentiger Wahrscheinlichkeit passiert y. Die 95% sind mir aufgrund praxisgerechter Zuordnungen zu niedrig und die 5% zu hoch. Natürlich immer im Verhältnis wie viele Gegner nutze ich um etwas aus diesen Grundsätzen heraus darzustellen.

Nun ganz ohne Statistik geht es nicht und Mittelwert und Standardabweichung / Normalverteilung reichen nicht aus, können nur ergänzend herangezogen werden. Alles ist ziemlich starr und die Berechnungsprogramme ziehen sich hoch bei den Erfolgszahlen an der Anzahl der Partien. Die notwendige Anzahl der Partien steht aber in Abhängigkeit zur Anzahl der verwendeten Gegner. Einzig der Vorteil der Annahme, dass sich für Schachprogramme die "Spielstärke" nicht verändert bedeutet für uns einen Fixpunkt oder besser die Kontrollfunktion zu haben.

Wir müssen also nicht nur mit Annahmen und Wahrscheinlichkeiten für sich allein genommen etwas darstellen, sondern können beim Computerschach feste Variablen einfließen lassen. Und je mehr davon in eine Erfolgsstatistik eingehen, desto genauer kann eine Berechnung erfolgen. Letztendlich wird die Erfolgsstatistik zur Messeinheit von Spielstärke bzw. muss ohne Begriffsvergewaltigung zu simulieren genau das passieren.

Es stößt bei mir auf Unverständnis, dass wir die wenigen Fixpunkte ignorieren und uns zu sehr mit Wahrscheinlichkeitstheorien aufhalten. Es macht keinen Sinn statistische Formeln über Computerschachlisten zu stülpen wenn denn Computerschachprogramme keinen Schwankungen unterliegen wie z. B. bei uns Menschen. Wir sollten eher hingehen und mittels Computerschachprogramme die Formel für die Berechnung der Spielstärke entwickeln.

Übrigens, wenn das hier mal so einige Ersteller von Ratinglisten nach den bekannten Methoden berücksichtigen würden was Du schreibst hätten wir einige unsinnige Diskussionen zum Thema weniger.

Ja sicher funktioniert die Mathematik aber die Mathematik ist bei der Berechnung der Spielstärke (spreche absichtlich nicht von der Berechnung des Erfolges) nur der Anwendungssklave in der logischen Annahme und nicht in der wahrscheinlichen Abfolge.

Ist ja alles korrekt was Du so schön mit Deinen Zeilen darstellst aber ich bin nicht der Meinung Spielstärke in einem gigantischen Turnier mit unendlich vielen Partien darzustellen. So kompliziert ist Schach nun wieder auch nicht das wir immer argumentieren müssen ... das Spiel der unendlichen Möglichkeiten. Wir können es uns sehr viel einfacher machen in dem wir Methoden zur Messung der Spielstile entwickeln. Spielen Schachprogramme unterschiedlich reicht es aus wenn mit diesen Programmen gemessen wird anstatt durch Masse die statistische Ungenauigkeit einzugrenzen bzw. darzustellen. Ich komme immer wieder zum Ergebnis, dass ich mit weniger aber unterschiedlichen Dingen schneller gewünschte Ergebnisse erzielen kann und dann werden die Wahrscheinlichkeitstheorien sehr schnell weggebrochen durch einfache praxisorientiertere Ausführungen.

Beweisen werden wir die Existenz der Spielstärke damit auch nicht aber wir gehen einfach ein wenig weg von Wahrscheinlichkeitsberechnungen bzw. nutzen das vorhandene Wissen einfach nur um anhand von praxisgerechteren Auswertungen den vernünftigeren Mix zu entwickeln.

Ergebnisse werden schneller schlüssig und Ausgaben wie die ErrBar sind eher hinderlich bei den Momentaufnahmen die wir mittels Ratinglisten darstellen. Ich sage mal so, die ErrorBar ist der Goldesel der Stromanbieter

Rein intuitiv bin ich mir also sicher, dass das Geheimnis bei der Suche nach der Existenz der wahren Spielstärke nicht allein in der Auswertung eines dummen Remis, 1:0, 0:1 Ergebnisses liegt, sondern vielmehr in der Beurteilung einer ganzen Partie. Einfach aufgeschlüsselt in Spielstileinteilungen, besser aufgeschlüsselt in der Beurteilung von jeder einzelnen Berechnung, sprich jeder Zug einer Schachpartie müsste herangezogen werden um das Geheimnis der wahren Spielstärke zu lüften oder besser zumindest deutlich näher zu kommen.

Und um das zu messen benötigen wir ein entsprechendes Modul welches in der Lage ist jeden Zug von einem Programm zu bewerten. Eine Aufgabe die bei unserer Anwendung nur von einer GUI vorgenommen werden kann. Wenn dieses Programm auch noch in der Lage ist festzustellen ob sich der Spielstil einer Engine von der einer anderen Engine unterscheidet können wir stark unterschiedliche Programme für die Messung einsetzen. Weniger Partien werden notwendig sein. Wir werden feststellen das mehr Gegner notwendig sind und vor allem kann jede Berechnung in einer Schachpartie zur Spielstärkeermittlung herangezogen werden.

Computerschach ist viel einfacher als wir denken. Wir sollten versuchen als Aufhänger die Tatsache einzusetzen, dass ein Programm immer eine feste Spielstärke haben muss. Weg von Wahrscheinlichkeitsberechnungen bzw. diese nur ergänzend einsetzen hin zu wie kann ich erreichen etwas zu messen was eigentlich zu 100% messbar sein muss.

Kompliziert meine Gedanken zusammenzufassen ohne sie vorher mal vernünftig zu sortieren.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-03-15 03:33
Die vorhandene Messmethodik ist nicht klar genug um hinter 100.000 Partien ein "klar" zu setzen.
Aufhänger für wirkliche Verbesserungen sollte genau das sein.

Es gibt viele Ideen hierzu, hatte in den vergangenen Monaten ein paar im Forum reingestellt.
Das wiederhole ich aber jetzt nicht, ist 03:30 und ich habe am WE Dienst und mich kurz fassen

Wobei von diesen Ideen dann sicherlich auch wieder 99% für die Tonne sind
So nen Scheissedreck, Bockmist ...

Aber so ist das wenn man sich zu einem Thema wirklich mal ein paar Gedanken mehr macht.
Hätten wir nur ein paar Prozent mehr Gehirnauslastung.

Gruß
Frank
Parent - - By Lars Date 2014-03-15 18:37
Moin Frank,

weil ich leider daran gescheitert bin, Deinen Beitrag komplett sinnerfassend zu lesen und zu verstehen, muß ich mich auf ein paar Bruchstücke beschränken

Zitat:

Das geht schon mit los mit willkürlichen setzen von Berechnungseinheiten ... wie z. B. mit 95%iger Wahrscheinlichkeit passiert x. Mit 5% prozentiger Wahrscheinlichkeit passiert y. Die 95% sind mir aufgrund praxisgerechter Zuordnungen zu niedrig und die 5% zu hoch.


Das ist doch nur ein Auszug, Du kannst jede beliebige Wahrscheinlichkeit aus jeder beliebigen Meßreihe ableiten. Du kannst Aussagen treffen über den 95-Prozent-Intervall, mit den gleichen Daten kannst Du aber auch einen 99-Prozent-Intervall beschreiben, bei dem dann freilich das Risiko, daneben zu liegen, größer wäre, was sich in größeren Errorbars manifestieren würde.

Zitat:

Nun ganz ohne Statistik geht es nicht und Mittelwert und Standardabweichung / Normalverteilung reichen nicht aus, können nur ergänzend herangezogen werden. Alles ist ziemlich starr und die Berechnungsprogramme ziehen sich hoch bei den Erfolgszahlen an der Anzahl der Partien. Die notwendige Anzahl der Partien steht aber in Abhängigkeit zur Anzahl der verwendeten Gegner.


Ich hatte gehofft, das Gegenteil gezeigt zu haben

Zitat:

Wir müssen also nicht nur mit Annahmen und Wahrscheinlichkeiten für sich allein genommen etwas darstellen, sondern können beim Computerschach  feste Variablen einfließen lassen.


Feste Variablen, ja?

Zitat:

Es stößt bei mir auf Unverständnis, dass wir die wenigen Fixpunkte ignorieren und uns zu sehr mit Wahrscheinlichkeitstheorien aufhalten. Es macht keinen Sinn statistische Formeln über Computerschachlisten zu stülpen wenn denn Computerschachprogramme keinen Schwankungen unterliegen wie z. B. bei uns Menschen.


Interessanter Punkt. Es spielt aber keine Rolle, ob Schachprogramme selbst keinen Schwankungen unterliegen, weil die Rahmenbedingungen dies tun. Sonst würde immer die gleiche Partie gespielt und das stärkere Programm immer gewinnen. Solange das Ergebnis einer Partie nicht klar vorhersagbar ist, haben wir es mit einer Reihe von Messungen zu tun, die korrekt auswertbar nur mit statistischen Methoden sind, weil jede Messung, also das Resultat jeder einzelnen Partie, von vielen Faktoren beeinflußt wird, darunter auch viele Zufälligkeiten.

Zitat:

Wir sollten eher hingehen und mittels Computerschachprogramme die Formel für die Berechnung der Spielstärke entwickeln.


Da sollten wir erstmal klären, was die Spielstärke ganz genau ist. Wenn wir das rausgefunden haben, können wir drüber nachdenken, wie wir sie messen können.

Zitat:
Wir können es uns sehr viel einfacher machen in dem wir Methoden zur Messung der Spielstile entwickeln.


Auch ein spannender Punkt. Ich glaube nicht, daß ein Programm überhaupt so etwas wie einen Spielstil haben kann. Das ist etwas, das der menschliche Beobachter hineininterpretiert.

Zitat:

Rein intuitiv bin ich mir also sicher, dass das Geheimnis bei der Suche nach der Existenz der wahren Spielstärke nicht allein in der Auswertung eines dummen Remis, 1:0, 0:1 Ergebnisses liegt, sondern vielmehr in der Beurteilung einer ganzen Partie. Einfach aufgeschlüsselt in Spielstileinteilungen, besser aufgeschlüsselt in der Beurteilung von jeder einzelnen Berechnung, sprich jeder Zug einer Schachpartie müsste herangezogen werden um das Geheimnis der wahren Spielstärke zu lüften oder besser zumindest deutlich näher zu kommen.


Zweifellos, nur: Wer soll das machen? Allein schon die Frage nach der dafür nötigen schachlichen Qualifikation ist spannend. Ein "einfaches" Programm, wie von Dir vorgeschlagen, wird das kaum hinkriegen. Und ist das Ergebnis wirklich unwichtig? Wie wäre denn beispielsweise dann Tals Spielstärke einzuschätzen? Schwach, weil er andauernd inkorrekt opferte?

Zitat:

Kompliziert meine Gedanken zusammenzufassen ohne sie vorher mal vernünftig zu sortieren.


Da stimme ich einfach mal zu, ja?

Grüße
Lars
Parent - - By Frank Quisinsky Date 2014-03-15 20:34 Edited 2014-03-15 20:38
Zitat:
Interessanter Punkt. Es spielt aber keine Rolle, ob Schachprogramme selbst keinen Schwankungen unterliegen, weil die Rahmenbedingungen dies tun. Sonst würde immer die gleiche Partie gespielt und das stärkere Programm immer gewinnen. Solange das Ergebnis einer Partie nicht klar vorhersagbar ist, haben wir es mit einer Reihe von Messungen zu tun, die korrekt auswertbar nur mit statistischen Methoden sind, weil jede Messung, also das Resultat jeder einzelnen Partie, von vielen Faktoren beeinflußt wird, darunter auch viele Zufälligkeiten.


Nichts anderes treiben (meist unbewusst) die Ratinglistenersteller mit ihren Arbeiten. Es liegen viele Ergebnisse aufgrund der Listen vor. Die Rahmenbedingungen wurden in den vergangenen Jahren immer wieder in Frage gestellt, oftmals durch die Ratinglistenersteller selbst. Du hast Recht das Schwankungen bestehen (ich sage Beeinflussungsfaktoren, gibt dazu ein sehr langer Text auf meinen Webseiten). Aber wir können dennoch die Beeinflussungsfaktoren gering halten und diese sind keinesfalls auch nur ansatzweise vergleichbar mit den Beeinflussungsfaktoren bei Menschen. Oder, mit denen können wir heute "respektlos" umgehen.

Und ein klarer Wiederspruch zu Deiner Aussage:
Es gibt keine Zufälligkeiten!
Weder beim Schach noch sonst wo, ich glaube nicht an Zufälle und werde es auch niemals tun. Aber das gehört hier nicht hin. Aber Zufälle beim Schach, wobei denn?
Das ist das eigentliche Problem was z. b. Mathematiker haben. Es werden die tollsten Formeln entwickelt die einfach genial sind etc. aber oftmals ist es die Annahme die falsch ist. Ein Mathematiker für sich allein ist genauso hilflos wie ein Programmierer der nicht mit ergänzenden Ideen anderer arbeiten kann. Ein gutes Entwicklungsteam besteht immer aus einer Vielzahl von Experten zu anverwandten Themen. Mathematiker haben meist das Problem zu sehr in der Mathematik gefangen zu sein und dann aufgrund einer falschen Annahme mag vielleicht aus etwas einfachen auch eine komplizierte Formel herauskommen die dann aber letztendlich gar einen kontraproduktiven Auslöser zumindest haben könnten... beim Computerschach ... leider hat.

Ratinglistenbetreiber sind gefangen im Wahn ein ultimatives Rating zu entwickeln. Sie denken sich, ich lasse x-Tausend Partien absolvieren und orientieren sich an der ErrorBar. Nicht alle aber wenn ich mir so die Kommentare zu Ergebnissen anschaue ... es sind schon einige

1. Wie Du so schön und absolut treffend schreibst:
Eine Elo ist aber gar kein Maß für die Spielstärke, sondern für den Erfolg.
Sich an der ErrorBar hochzuziehen ist so unsinnig, so völlig fehl am Platz.
Wer sich an einer ErrorBar hochzieht, für den kann Elo nur das Maß der Spielstärke sein (sonst macht das hochziehen an dieser Ausgabe ja überhaupt keinen Sinn).

2. Und Du glaubst gar nicht mit welchen Waffen diese Herren dann in Gefecht ziehen wenn sie zwar selbst schon lange gemerkt haben dass einiges was versucht wird unsinnig ist aber der eigene Stolz dann so was von im Weg ist ...

Zitat:
Da sollten wir erstmal klären, was die Spielstärke ganz genau ist. Wenn wir das rausgefunden haben, können wir drüber nachdenken, wie wir sie messen können.


Dieses Nachdenken darüber ... versuche ich durch meine Beiträge anzuschieben ...
Das ist ja das Ziel !!!

Zitat:
Auch ein spannender Punkt. Ich glaube nicht, daß ein Programm überhaupt so etwas wie einen Spielstil haben kann. Das ist etwas, das der menschliche Beobachter hineininterpretiert.


Ja und nein

Ja:
Der Begriff Spielstil ist etwas unglücklich und verleitet anzunehmen das etwas hineininterpretiert wird.

Nein:
Natürlich haben Programme einen Spielstil
Wenn SF doppelt so viele schnelle Gewinnpartien als Houdini erspielt, schneller die Linien öffnet kann ich nicht schreiben das z.B. diese beiden Programme im Grunde dennoch gleiches Schach spielen. Wenn ein Programm sich als Endspielstark herauskristallisiert, ein anderes Programm im Endspiel die Partien überproportional vergeigt spielen die Programme unterschiedlich. Vereinfacht ausgesagt, die Programme pflegen andere Stärken und Schwächen zu haben. Aus Stärken und Schwächen entwickelt sich ein Stil.

Je mehr unterschiedliche spielende Programme in einer Liste sind desto höher die ... ich traue mich den Begriff jetzt gar nicht zu schreiben ... Wahrscheinlichkeit das ein Angstgegner gefunden wurde. Prima, denn ein Angstgegner sorgt dafür, dass Schwachpunkte in den Partiephasen aufgezeigt werden und mithin relativiert oder besser korrigiert sich die "Spielstärke".

Lars, Computerschach steht ein wenig ...
Derzeit wird nicht an Themen entwickelt die uns einfach mal ne Ebene höher bringen.
Das Ziel ist der Weg und derzeit stehen wir an irgend welchen Ecken rum und warten darauf los zu marschieren.

Viele Ideen liegen nur deswegen brach weil sich keiner herantraut. Einige andere denken sich das wird zu kompliziert und was vorhanden ist reicht mir aus. Was soll ich mit einer GUI die verschiedene Engines startet ich habe doch ChessGenius und Nimzo 2000. Was wir haben ist immer gut und was es geben könnte ist ja so direkt nicht vorstellbar.

Wenn eine Entwicklung aber erst mal gestartet ist (bin so frech und schreibe jetzt mal ... aus eigener Erfahrung) ist diese nicht mehr zu bremsen.
Parent - By Frank Quisinsky Date 2014-03-15 20:53
Nun ganz ohne Statistik geht es nicht und Mittelwert und Standardabweichung / Normalverteilung reichen nicht aus, können nur ergänzend herangezogen werden. Alles ist ziemlich starr und die Berechnungsprogramme ziehen sich hoch bei den Erfolgszahlen an der Anzahl der Partien. Die notwendige Anzahl der Partien steht aber in Abhängigkeit zur Anzahl der verwendeten Gegner.

Ich hatte gehofft, das Gegenteil gezeigt zu haben


Wenn ich mir ansehe was Du schreibst und was ich denke glaube ich schon das wir verdammt nahe beisammen sind.
Glaube aber auch das wir beide durch unterschiedliches Wissen (bin Dir mathematisch gesehen wahrscheinlich hilflos unterlegen, wobei ich niemals in meiner Schulzeit in Mathematik eine schlechtere Note als 1 hatte) die Gedankengänge aneinander vorbei laufen. Das ist in einem Forum ja auch immer der schwierige Punkt, gerade wenn es um etwas kompliziertere Themen geht.

Ich will letztendlich:
Eine Ratingliste aus der mehr abzulesen ist.
Will mit weniger mehr erreichen (es werden zu viele unnütze Partien gespielt, die Ressourcenaufteilung geht in den Bereich "Mangelhaft")
Denke das Spielstärke gemessen werden kann und denke das Schach schlechthin der Aufhänger um das zu versuchen.

Und ich denke es ist an der Zeit die nächste Entwicklungsstufe einzuläuten zumal die Spielstärke in Bereiche vorstößt die wir kaum noch selbst verstehen.
Also brauchen wir Helfer um diese überhaupt noch zu erkennen.

Gruß
Frank
Parent - By Benno Hartwig Date 2014-03-16 06:46

> Es spielt aber keine Rolle, ob Schachprogramme selbst keinen Schwankungen unterliegen, weil die Rahmenbedingungen dies tun. Sonst würde immer die gleiche Partie gespielt und das stärkere Programm immer gewinnen.


Die Rahmenbedingungen sind aber normalerweise so 'unähnlich', dass auch aus gleichen Stellungen heraus nicht dieselben Partien entstehen.
Und das um so deutlicher, wenn mehr als nur ein Kern genutzt werden. (Diese Unähnlichkeit ist aber so klein, dass es zumindest mir enorm schwer fiele, sie irgendwie konkret zu benennen!)

Andererseits sind sie so ähnlich, dass es meiner Meinung nach auf jeden Fall sinnvoll ist, zu gegebenen Spielbedingungen und zwei Engines A und B, die Partien dieser beiden als Zufallsvariable zu betrachten mit 3 Ausgängen Sieg-A, Remis, Sieg-B und mit den drei dazugehörigen (bestenfalls ungefähr bekannten) Wahrscheinlichkeiten. Die beiden Engines realisieren dann einen 'supergeilen' (ja, ich war gerade auf der Edeka-Seite) Zufallsgenerator, der in seinen Eigenschaften ausreichend stabil ist.

Benno
Parent - - By Gerhard Sonnabend Date 2014-03-15 11:48
Hi Lars !

Schön mal wieder etwas von Dir zu hören resp. zu lesen.
Bei Dir und Deiner Familie alles in Ordnung ?
Hier wie fast immer alles im Lot.

Zum Thema:
Wir, die CEGT, gehen fast immer wie folgt vor:
einer neuen Engine oder Version wird zuerst ein Einstiegsrating,
meist sind das 1000 Spiele gegen 10 verschiedene Gegner, verpasst.
Danach, im Laufe der nächsten Wochen und Monate, kommen i.d.R. weitere
500-1000 dazu. Noch nicht einmal, und dabei sind mit Sicherheit mehr
als 800 Engines und Versionen getestet worden seit ich bei der CEGT
dabei bin, ist ein Rating mehr als 10 Punkte vom einstigen Einstiegsrating
abgewichen. Und dabei ist der Gegnerdurchschnitt in den "Nachtests" immer
ein deutlich anderer (logischerweise) als beim Einstiegsratingtest. Man kann
also sagen, dass durchaus unterschiedliche Verhältnisse vorlagen in Bezug
auf Gegnerauswahl/durchschnitt und in Bezug auf die Eröffnungsvorgaben.
Alles nur Zufall ? Könnte natürlich sein.
Glaube ich aber nicht. Meiner Meinung liegt es daran, dass unsere Tests
einfach nur schlüssig sind und ob der grossen Anzahl an Spielen und an
Teilnehmern ist und bleibt das ganze System stabil.

Was denkst Du ?

Viele Grüsse,
G.S.
Parent - By Lars Date 2014-03-15 18:48
Gerhard Sonnabend schrieb:

Hi Lars !

Schön mal wieder etwas von Dir zu hören resp. zu lesen.
Bei Dir und Deiner Familie alles in Ordnung ?
Hier wie fast immer alles im Lot.

Zum Thema:
Wir, die CEGT, gehen fast immer wie folgt vor:
einer neuen Engine oder Version wird zuerst ein Einstiegsrating,
meist sind das 1000 Spiele gegen 10 verschiedene Gegner, verpasst.
Danach, im Laufe der nächsten Wochen und Monate, kommen i.d.R. weitere
500-1000 dazu. Noch nicht einmal, und dabei sind mit Sicherheit mehr
als 800 Engines und Versionen getestet worden seit ich bei der CEGT
dabei bin, ist ein Rating mehr als 10 Punkte vom einstigen Einstiegsrating
abgewichen. Und dabei ist der Gegnerdurchschnitt in den "Nachtests" immer
ein deutlich anderer (logischerweise) als beim Einstiegsratingtest. Man kann
also sagen, dass durchaus unterschiedliche Verhältnisse vorlagen in Bezug
auf Gegnerauswahl/durchschnitt und in Bezug auf die Eröffnungsvorgaben.
Alles nur Zufall ? Könnte natürlich sein.
Glaube ich aber nicht. Meiner Meinung liegt es daran, dass unsere Tests
einfach nur schlüssig sind und ob der grossen Anzahl an Spielen und an
Teilnehmern ist und bleibt das ganze System stabil.

Was denkst Du ?

Viele Grüsse,
G.S.


Hallo Gerhard,

ja, alles grün bei mir; übermorgen fliege ich dahin, wo die Kokosnüsse wachsen, da hat man schon mal gute Laune.

Zum Thema: Ich denke nicht, daß Eure überraschend gut passenden Ergebnisse zufällig zustande kommen. Klar ist, daß, je mehr Teilnehmer und Partien, desto besser begründet die Annahme, daß man sich der Wahrheit einigermaßen angenährt hat

Dazu kommen aber imho noch andere Faktoren: Computerprogramme sind einander alle sehr sehr ähnlich, weil sie alle dieselben Techniken verwenden. Das könnte zum Vorteil von Euch Testern ausschlagen, weil dadurch die Annahme, ein Programm, das gegen Engine A, B ... K, L so und so gut performt hat, dies in sehr ähnlichem Maße auch gegen die Engines M bis Z tun wird.

Das ist aber nur eine Vermutung von mir.  Jedenfalls hast Du als Praktiker ja die Experimente und Ergebnisse, die Deine Worte perfekt stützen. Nur sollte man gelegentlich darauf hinweisen, daß es eigentlich nicht wirklich immer so sein muß, nur weil es bisher so war. Aber ich denke, das habt Ihr eh auf dem Schirm. Die Ergebnisse sprechen, wie Du selbst sagst, für ein schlüssiges Testverfahren. Gegen das ich auch gar nichts sagen wollte und tatsächlich auch gar nichts gesagt habe.

Viele Grüße
Lars
Parent - - By Michael Scheidl Date 2014-03-15 13:31
Zitat:
Diese Annahme stützt sich aber auf die (unbewiesene?) Existenz einer wahren Spielstärke.

Das gibt zu denken ... Man wird hier eventuell sogar zum Philosophen.

Es scheint Themen zu geben, von denen ich umso weniger verstehe, je mehr ich darüber lese.
Parent - By Frank Quisinsky Date 2014-03-15 15:27
Hi Michael,

das ist ja das Problem!
Und wenn Du dich dann damit beschäftigst sind es nicht die Elfen die um Dich rumschwirren (die wären mir hier und dort lieber, einige sehen ja ganz hübsch aus, die anderen eigentlich auch, wobei die mit den schwarzen Haaren ...) sondern die ???

Entweder hast Du nur noch Augen für die lieben kleinen Elflein oder Du denkst Dir, hey du Da ? willst Du mich verarschen!
Und dann geht es los ... zunächst mehr Kleinhirn als Großhirn wird aktiv, dann meldet sich plötzlich die innere Stimme, Bauchgefühl und "selbsterwissenschaftliche" Logik kommen hinzu.

DIE IDEE IST GEBOREN
wäre die lieber da geblieben wo wie her kommt.

Nichts anders passiert wenn ein Engine Programmierer mit der Entwicklung beginnt.

Gruß
Frank
Parent - - By Lars Date 2014-03-15 18:48
Michael Scheidl schrieb:

Man wird hier eventuell sogar zum Philosophen.


Bist Du das nicht längst?
Parent - By Michael Scheidl Date 2014-03-16 11:04
Danke sehr schmeichelhaft. Ich habe einen langen Bart, sitze auf einem Berg und denke über die Welt nach. Die Resultate lassen zu wünschen übrig. 
Parent - - By Benno Hartwig Date 2014-03-15 18:58
Schöne Erklärung!

Trotzdem zwei Anmerkungen:

> Eine Elo ist aber gar kein Maß für die Spielstärke, sondern für den Erfolg.


Das könnte man für jede Stichprobe einwenden, mit der man versucht, eine Wahrscheinlichkeit zu schätzen. Und trotzdem sind Stichproben vernünftige Schätzmethoden für Wahrscheinlichkeiten.

> Falls es eine absolute Spielstärke gäbe, könnte man sie ermitteln, indem man alle schachspielenden Entitäten in einem gigantischen Turnier unendlich viele Partien gegeneinander spielen ließe.


Das wäre eine auch nur willkürliche Definition von 'absolute Spielstärke'. Tatsächlich haben die Menschen wohl verschiedene Vorstellungen davon, was das ist. Welcher Mix aus Gegnern relevant ist.
So wird dann versucht ein willkürlich Auswahl zu treffen, die das Teilnehmerfeld repräsentiert, was man persönlich für die 'absolute Spielstärke' eigentlich im Sinn hat. Dies ist dann ein quasi-stochastischer Prozess vor den stochastischen Schachspiel-Prozess. Das Ergebnis der Schätzung ist dann das Ergebnis von beiden. Und es ist dann in der Praxis eben so fehlerhaft, wie stochastische Prozesse eben sind.

Benno
Parent - - By Lars Date 2014-03-15 19:57
Benno Hartwig schrieb:

Schöne Erklärung!

Trotzdem zwei Anmerkungen:

Das könnte man für jede Stichprobe einwenden, mit der man versucht, eine Wahrscheinlichkeit zu schätzen. Und trotzdem sind Stichproben vernünftige Schätzmethoden für Wahrscheinlichkeiten.

Das wäre eine auch nur willkürliche Definition von 'absolute Spielstärke'. Tatsächlich haben die Menschen wohl verschiedene Vorstellungen davon, was das ist. Welcher Mix aus Gegnern relevant ist.
So wird dann versucht ein willkürlich Auswahl zu treffen, die das Teilnehmerfeld repräsentiert, was man persönlich für die 'absolute Spielstärke' eigentlich im Sinn hat. Dies ist dann ein quasi-stochastischer Prozess vor den stochastischen Schachspiel-Prozess. Das Ergebnis der Schätzung ist dann das Ergebnis von beiden. Und es ist dann in der Praxis eben so fehlerhaft, wie stochastische Prozesse eben sind.

Benno


Hallo Benno,

danke für diese Klärungen; Du hast mit jedem Wort recht. Wobei insgesamt wohl auch ein Mißverständnis dabei ist; ich wollte ja nicht die Methodik der Ranglisten kritisieren (im Gegenteil!), sondern nur erklären, warum die Errorbars nur von der Partienanzahl abhängen, nicht aber von der Gegnerzahl. Wie es scheint, hab' ich zu weit ausgeholt. Philosophische Diskussionen wollte ich eigentlich nicht vom Zaune brechen, zumal ich gar nicht selbst daran teilnehmen könnte, weil ich in den Urlaub fliege.

Viele Grüße
Lars
Parent - By Frank Quisinsky Date 2014-03-15 20:57
Hi Lars,

dann habe jetzt einfach einen schönen Urlaub und nochmals ...
Deine Beiträge haben mich sehr gefreut und geben auch ein wenig die Hoffnung zurück das es mehr Personen gibt die über Computerschach auch spannend diskutieren können.

Ja und der Benno ist ja auch einer von denen

Gruß
Frank

PS: Würde gerne mit Dir tauschen aber mein Urlaub kommt noch
Parent - - By Ingo B. Date 2014-03-15 21:30
Hallo Holzmichel ...

Auf deiner Seite finde ich leider den genialen Artikel über Stellungstest nicht. Auch die CSS hat den seit "Umstellung" nicht mehr verlinkt (oder gut getarnt). Da es in letzter Zeit wieder Leute gibt die glauben mit Stellungstest etwas zu erreichen fände ich es schön wenn du diesen Artikel auch auf deiner Webseite verfügbar machen könntest; so dass jeder, der das Wort 'Stellungstest' in den Mund nimmt damit erstmal per Link eine "gescheuert" bekommen könnte.

Gruß und viel Spaß im Urlaub
Ingo

PS: Der Artikel war meiner Meinung nach dein bestes Stück - die Stellungstester haben sich noch zwei drei mal im Grab gedreht und die Reste sind dann wahrscheinlich einfach implodiert. Leider kommen jetzt neue Unwissende (oder Vergessende) nach ...
Parent - By Klaus S. Date 2014-03-16 00:33
Hallo Ingo,

der Artikel ist im Archiv unter  -> 2005  -> Was Stellungstests testen

http://computerschach.de/Files/2005/Was%20Stellungstests%20testen.pdf
Parent - By Peter Martan Date 2014-03-16 06:09 Edited 2014-03-16 06:16
Dafür, dass du schon Zeit deines Lebens nur einen einzigen ausgespielten Stellungstest mit deinem eigenen winzig kleinen streng geheimen Testset machst, und noch nicht einmal selber weißt, dass du das tust, riskierst du hier mal wieder eine ganz schön dicke Lippe, alter Mann.

Aber gut, wenn es das ist, womit du die zerstrittene Community versöhnen willst, scheuere ich dir halt auch mal eine per Link:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=561610&t=51598
Gut und hierher passend finde ich auch das Zitat von Peer, mit dem er seine postings dort unterschreibt:
Wahrheiten sind Illusionen, von denen wir aber vergessen haben, dass sie welche sind.
Up Topic Hauptforen / CSS-Forum / Stat: Eine Frage der Berechnung ... ErrBar

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill