Peter Weise schrieb:
Allerdings halte ich es nicht für unmöglich eine (noch) bessere Auswertungsformel für Computerschach zu kreieren.
Und ich halte es für völlig belanglos, nach welcher Maßzahl man die Auswertung der Matches vornimmt, wenn man sich über die jedem Ratingsystem als solchem innewohnende Intransitivität der Ergebnisse im Klaren ist und nicht glaubt, deshalb, weil man Elo als Zahl verwendet, sei dadurch die Übertragbarkeit von einem Engine- Pool auf einen anderen oder von einer Hardware- TC auf eine andere oder von der Verwendung eines bestimmten Buches oder Testsets auf ein anderes größer oder kleiner, als wenn man einfach nur die Punkte zählt.
Und bevor ich jetzt zum gefühlt tausendsten Mal in diesem Forum den Link zu Wiki zum Thema Elo-Zahl wieder einmal in einem Posting sehe (ich selbst werde ihn geschätzte 100 Mal gesetzt haben) gehe ich einfach davon aus, dass es mittlerweile hinlänglich bekannt ist, dass jedes Ratingsystem die der entsprechenden Anwendung entsprechende solche (Intransitivität) in sich trägt, die nicht davon abhängt, in welchen Maßzahlen man sie angibt, die Ergebnisse, sondern dass diese bestimmte Intransitivität in der bestimmten Anwendung enthalten ist (im Fußball z.B. anders als im Scrabble oder Schach), und dass auch die Berechnung nach Elo daran just gar nichts ändert, wie groß oder klein die ist. Das einzige, was an der etwas ändert, ist das Teilnehmerfeld und die genau definierten Spielregeln, zum Beispiel mit welcher Bedenkzeit oder mit welchen Eröffnungsstellungen gespielt wird, so denn auch da welche vorgegeben werden.
Und ja, zwischen Menschen sind die Ergebnisse von Matches zwischen verschiedenen Gegnern sicher noch stärker schwankend und von noch mehr Faktoren abhängig als im Computerschach, aber dass es auch bei dem immer schon darauf angekommen ist, welche Engines mitgespielt haben und welche nicht, hat sich glaube ich auch schon schön langsam herumgesprochen, und die Frage sollte also nach wie vor und mittlerweile erst recht nur noch sein
wie groß die Unterschiede ermittelter Ratingwerte sind, wenn man ein bestimmtes Teilnehmerfeld um einzelne bestimmte Teilnehmer ändert, um bestimmte Hardware- TCs und um bestimmte Eröffnungsstellungen.
Und seit es zwischen LC0 und SF jetzt schon länger immer enger zugeht, allein schon bei der direkten Auseinandersetzung 1:1 und der Frage, welche der beiden Engines hat die Nase vorn, wenn sie unter TCEC-Sufi- Bedingungen gegeneinander spielen oder Blitzschach mit anderen Büchern auf schwacher Hardware, sollte halt nicht mehr wirklich nur dauernd darüber diskutiert werden, wie kurz darf die TC sein, damit die Ergebnisse (wenigstens was die Differenzen angeht) noch irgendwie korrelieren oder anders ausgedrückt, damit man nicht noch einmal die gleiche Partienzahl für die gleiche Signifikanz ausspielen muss, um wirklich sagen zu können, ja ziemlich egal oder nein, eigentlich schon ganz und gar nicht mehr egal.
Die Frage sollte hingegen immer nur mehr sein: wie genau will ich's wissen, um auf einer bestimmten Hardware und einer bestimmten TC mit einem bestimmten Buch oder Testset, nach wievielen Partien sagen zu können, reicht mir an Genauigkeit oder nicht.
Die Frage sollte spätestens seit man sich täglich neu fragen könnte, ist dieses oder jenes LC0- jetzt besser als das von gestern, einfach nicht mehr sein: spielt die Hardware- TC und das Teilnehmerfeld und die Eröffnungswahl überhaupt eine Rolle.
Diese meiner Meinung nach nicht erst seit LC0 in praxi längst hinlänglich geklärte, obsolete und absurde Frage könnte man schön langsam eigentlich als mit "ja, spielt schon eine Rolle" beantwortet sehen. Und dann könnte man daran gehen, dem Remistod im Engineschach, der ja noch das Ganze, was die statistische Beantwortbarkeit angeht, erst so richtig spannend macht, durch Verkürzung der Hardware- TC, durch Varianz des Teilnehmerfeldes und oder durch mehr Selektion bei den Eröffnungsstellungen im Sinne einer "Ergebnisspreizung" entgegenzuwirken, um mit weniger Partien mehr statistische Signifikanz durch weniger Remis zu bekommen.
Spätestens da wär's dann halt erst recht gut, man wäre sich auch im Klaren darüber, dass man mit mehr "Spreizung" der Ergebnisse weniger "Übertragbarkeit" auf andere Hardware- TC, Teilnehmer und Eröffnungen bekommen wird.
Oder noch genauer: man sollte zumindest von der Möglichkeit ausgehen, dass die Transitivität mit der Spreizung sinken könnte, damit allein wäre nämlich schon die Notwendigkeit gegeben, es nachzuprüfen, ob und wie sehr sich da auch was ändert, dann erst, wenn man's extra ausprobiert, kann man's wirklich sagen, ob und vor allem auch wieviel.
Nein, sagen kann man's eh auch so, wissen kann man's aber nicht, und will man einfach nur bescheidenster Weise wissen und sagen können, wie's ungefähr gerade steht zwischen LC0 und SF (nur so als Beispiel, noch besseres Beispiel: zwischen zwei verschiedenen LC0- Netzen), dann kann man ja auch einfach sagen, in den nächsten paar Tagen werden LC0 und SF auf durchschnittlicher Hardware mit nicht allzu kurzen TCs immer noch ungefähr gleich stark sein, und in diesem Spielstärkenbereichen ist bei der normalen Remishäufigkeit der Unterschied auch nicht sonderlich groß, wenn ein paar mehr ungefähr gleich starke Engines mit ein bisschen anderen Büchern mitspielen.
Kurzum, es ist überhaupt nicht mein Problem, dass Andere gern alles noch soo viel genauer wüssten und beweisen würden, als es ohnehin leicht für einen jeden selbst zu Hause nachprüfbar ist, ich würde allen, die hier am Indus sitzen und voll Qual diskutieren,
Zitat:
Es saßen drei Hindus
und diskutierten am Indus.
Ihr Problem war fatal, sie diskutierten voll Qual:
ist er's, bist ich's, bin du's.
allen denen würde ich einfach wieder gerne mal zurufen, lasst es gut sein, es muss gar nicht soo genau sein, weil wenn SF 17 07 19 jetzt 3 Elo gegen LC0 auf Hardware- TC x gegenüber dem letzten Match aufgeholt hat nach 500 Partien und Einrechnung der +- Errorbar, ist das eh schon wieder ganz was anderes, wenn man ein anderes Netz nimmt, andere Eröffnungen, eine dritte bestimmte Engine mitspielen lässt, besonders, wenn's eine deutlich schwächere ist, und wahrscheinlich auch schon bei einer einfachen Hardware- TC- Verdopplung.
Also ereifert Euch hier doch nicht wegen 93, 95 oder 97% Konfidenz, wenn auch die schon wieder eine andere ist unter anderen Bedingungen, würde ich denen gerne hin und wieder zurufen, macht Euch locker und wartet einfach ein paar Wochen Software- Hardware- Entwicklung ab, um für die dann geänderten Bedingungen (und halt wieder nur für die) mal wieder vielleicht ja wirklich etwas anderes herauszubekommen, was dann doch auch ein bisschen mehr zählt.
Und bei denen dann die Schwankungen, die sich aus der Errorbar ergeben, nicht nur kleiner sind als die ermittelten Elodifferenzen, sondern wenigstens auch noch kleiner als sie wahrscheinlich wären, wenn man eine dritte Engine auf doppelt so großer Hardware- TC mitspielen lässt.
Oder buchlos.
Und wenn sich dann nach ein paar Wochen immer noch nichts Revolutionierendes geändert hat, einfach den Abstand zur nächsten Super- Über- Drüber- Messung noch etwas größer machen. Oder sich was am Hardware- Software- Sektor rein technisch geändert hat, das Problem mit LC0 ist da halt, dass kein Mensch wirklich Einblick in die Netz- Entwicklung hat von außen, wenn von außen kein menschlicher Eingriff erfolgt, außer durch eng-eng-eng- Matches.
Und ruhig auf immer kürzeren Hardware- TCs testen und mit immer wilderen Büchern, oder überhaupt nur mehr Stellungstests machen, und sich halt im Klaren sein, dass das alles immer nur absolut relative einzelne Messungen sind.
Und es wird nach wie vor, je länger das so weiter geht erst recht, absolut keine Rolle mehr spielen, ob das in Elo oder Performance- Prozenten oder ganzen und halben Punkten gemessen wird.
Period.