Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Meßergebnisse und Teilnehmerfelder
- - By Simon Gros Date 2011-09-17 12:51 Edited 2011-09-17 13:34
Gerade gefunden: http://cegt.siteboard.eu/f6t122-testing-houdini-2-0-x64.html
Hier wird meiner Meinung nach gegen ein total chaotisch zusammengestelltes Teilnehmerfeld gespielt. Gegen 32Bit Programme, gegen Engines welche 4 Cores(!!) nutzen dürfen, etc. etc. Und trotzdem errechnet sich, zumindest zur Zeit, fast genau das was auch die CCRL oder die IPON festgestellt haben (+-10 zu Houdini Nummer 1.5). Natürlich habe ich bemerkt, daß die CEGT erst 600 Spiele durchgeführt hat. Ein wenig überraschen tut mich persönlich das Ganze (zumindest bisher) im Zusammenhang des o.g. topic schon?!
Simon_G
Parent - - By Frank Quisinsky Date 2011-09-17 14:15 Edited 2011-09-17 14:24
Hallo Simon,

32bit oder 64bit
Es ändert ja nichts an der Tatsache, das es sich um verschiedene Engines handelt. Das Rating wird sich durch diesen Umstand nicht verändern!
Ob nun ein 32bit Programm x mit einer ELO von 2.700 spielt oder ein 64bit Programm Y mit einer ELO von 2.600 spielt.

32bit oder 64bit ist im Grunde wichtig für die Beobachter hinsichtlich was sie selbst haben oder einsetzen.
Eine reine 32bit Liste ist für einen Überblick zur Spielstärke rein auf 32bit Ebene deutlich besser als ein Mix. Bei 64bit läßt sich der Mix nicht vermeiden, weil einige sehr starke Programme nicht als 64bit Engine zur Verfügung stehen. Eine Ratingliste selbst soll ja vergleichen, verglichen werden kann nur das was gleich ist. Insofern ist es immer interessant zu wissen wie hoch denn der 32bit zu 64bit Zuwachs ist. Ein Ratingliste bestehend aus einen Mix vergleicht insofern nicht 100% genau die Resultate. Die Resultate selbst sind aber verlässlich.

Beispiel:
Ein Fahrradrennen mit Mounten-Bikes und Rennrädern. Die Mounten Bikes werden auf der Straßen weniger Chancen haben, schon allein weil die 26er Bereifung Geschwindigkeit bremst. Dennoch wird beim Endergebnis der ermittelten Zeiten alles stimmen, das was machbar ist erzielten die Mountenbiker und das was machbar ist die Rennradfahrer. Oder Formel 1 und Tourenwagen in einem Rennen.

2. Mehrere Cores:
Hier gilt im Grunde vergleichbares. Mehrere Cores sind nur Zeitfaktoren. Die einen Engines profitieren z. B. bei 2 Cores mit Faktoren um 1.4, die anderen um 1.8. Würden alle um 1.8 profitieren wäre der Zeitfaktor legalisiert. Alle hätten gleiche Voraussetzungen was wiederum bedeuten wurde das der gleiche Effekt auch mit mehr Bedenkzeit erzielt werden kann, daher "Zeitfaktor". Die ELO hingegen selbst wird sicherlich korrekt ermittelt nur der Vergleich hinkt weil wieder nicht verglichen werden kann weil "Äpfel mit Birnen" bzw. weil nicht gleich.

Solche Geschichten kennen wir beim Computerschach z. B. auch aus den Turnieren der Vergangenheit. Der eine Programmierer reist mit doppelt so starker Hardware an als der andere Programmierer. Vergleichbar zu einem Geschwindigkeitsrennen nach dem Motto ... fahrt doch damit womit Ihr fahren wollt oder könnt.

Nun was ist das Ziel der Ratinglistenbetreiber:
Ein Rating festzustellen! Das machen alle und sicherlich sehr gut denn das können wir ja an die vielen gleichen Zahlen ablesen.

Hegen wir aber den Anspruch nur gleiches zu vergleichen entstehen andere Listen mit gleichen Zahlen.

Daher setze ich oft die Aussage:
Die SWCR-64 ist experimenteller Natur (Listenplätze zu vergleichen, fragwürdig, Ergebnisse natürlich OK).
Die SWCR-32 ist für mich das Maß aller Dinge, denn hier kann die Leistung der Engines untereinander verglichen werden, weil hier ist alles OK ... alle spielen mit 32bit. Hinzurechnen können dann interessierte den 64bit Zuwachs, den Zuwachs durch mehrere Cores was wiederrum sehr einfach auszurechnen ist (anhand ein paar Stellungen).

Wer steht wirklich an 1, an 2, an 3 ... das kann nur ausgesagt werden wenn alle mit gleichen Voraussetzungen starten.
Die Reihenfolge in einer Liste verschiebt sich daher teils ein wenig wenn x64 und w32 zusammengeworfen werden. 32bit Engines werden teils um ein paar Listenplätze benachteiligt.

Kommt oft das Argument:
Ja aber wenn die 64bit doch stärker ist warum dann die 32bit testen?
Wir sprechen von Leistung durch Zeitfaktoren.
Stelle Dir mal vor bei einem Autorennen dürfte Rennstall X mit einem Tourenwagen in der Formel 1 fahren nur weil dieser Rennstall keinen Formel-1 Wagen hat.
Dafür gibt es "Leistungsklassen".

Viele Grüße
Frank
Parent - - By Simon Gros Date 2011-09-18 13:30
Ich verstehe nicht weshalb eine "reine" Liste besser sein soll als ein "Mix". Gerade aufgrund des o.g. Testaufbaus wird doch genau das Gegenteil aufgezeigt? Und auch sonst sind sich die "Mix-Listen" der CCRL oder CEGT mit den "reinen" Listen ob der Messungen einig?!
Simon_G
Parent - - By Frank Quisinsky Date 2011-09-18 14:21
Das habe ich aber versucht zu erklären. Ferner auch geschrieben das die ELO-Ergebnisse davon unabhängig sind.
Einfach nochmals lesen wenn es unklar war.
Parent - - By Simon Gros Date 2011-09-18 14:25
Ich habe das mehrfach durchgelesen und die Ausführungen widersprechen sich zum Teil. Und, diese meine Frage blieb unbeantwortet, weshalb bilden dann diese "Mix-Listen" die Messwerte der "reinen" Listen so gut ab?
Simon_G
Parent - - By Frank Quisinsky Date 2011-09-18 15:18 Edited 2011-09-18 15:22
Simon,

was widerspricht sich zum Teil?
Du musst schon genauer werden, sonst reden wir aneinander vorbei!
Hellsehen kann ich "leider" ... ist auch gut so ... nicht!

Und nochmals zu Deiner Frage:
Wenn es sich um unterschiedliche Engines handelt ist es egal ob eine Engine mit mehreren Cores oder x64 gegen w32 spielt. Es ist nur ein Gegner ob nun mit 2.700 oder mit 2.600 ELO. Insofern sind die Teilnehmerfelder egal wenn in dieser Art und Weise gemixt wird. Bei vielen Gegnern wird das Ergebnis +- ein paar ELO gleich sein.

Eine Frage an Dich:
Vorher willst Du wissen das die Mix-Listen die reinen Listen so gut abbilden?
Welche Vergleiche hast Du vorgenommen um zu dieser Aussage zu kommen?

Ich kenne nur eine Liste bei der strickt w32 gegen w32 unter gleichen Bedingungen spielt!
Kennst Du andere?

Viele Grüße
Frank
Parent - - By Simon Gros Date 2011-09-18 16:44 Edited 2011-09-18 17:01
Sie schreiben einmal:
"Nun was ist das Ziel der Ratinglistenbetreiber: Ein Rating festzustellen! Das machen alle und sicherlich sehr gut denn das können wir ja an die vielen gleichen Zahlen ablesen."
Dann jedoch schreiben Sie:
"Wer steht wirklich an 1, an 2, an 3 ... das kann nur ausgesagt werden wenn alle mit gleichen Voraussetzungen starten."
Dies meine ich mit widersprüchlich, da die Ratinglistenbetreiber meist keine "reinen" Listen führen, siehe CCRL oder CEGT und trotzdem, wie Sie selbst geschrieben hatten, zu den vielen gleichen Zahlen kommen!
Zu Ihrer Frage:
"Vorher willst Du wissen das die Mix-Listen die reinen Listen so gut abbilden? Welche Vergleiche hast Du vorgenommen um zu dieser Aussage zu kommen?"
siehe hier: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=41712#pid41712
Simon_G
Parent - By Frank Quisinsky Date 2011-09-18 17:06
Code:
Sie schreiben einmal:
"Nun was ist das Ziel der Ratinglistenbetreiber: Ein Rating festzustellen! Das machen alle und sicherlich sehr gut denn das können wir ja an die vielen gleichen Zahlen ablesen."
Dann jedoch schreiben Sie:
"Wer steht wirklich an 1, an 2, an 3 ... das kann nur ausgesagt werden wenn alle mit gleichen Voraussetzungen starten."


Ach so!
Na klar, Mix Listen haben x64 und w32.
Dadurch gibt es Verschiebungen bei den Listenplätzen ... nicht bei der ermittelten ELO ... schrieb ich doch!

Eine reine w32 Liste gibt die Listenplätze korrekt aus, wer steht an 1, an 2, an 3 etc.. Die ELOs in Mix-Listen werden stimmen aber es werden Äpfel mit Birnen ... verschiedene Leistungsklassen!

Daher Tourenwagen, Formel 1 Wagen, Mounten Bikes - Rennräder ... Leistungsklassen.
Die Aussage wollte ich damit unterstreichen.

Schaue mir den Thread morgen an, kenne ich bestimmt

Gruß
Frank
Parent - - By Frank Brenner Date 2011-09-18 15:30
Schon vor 10-20  Jahren haben einige die SSDF in Frage gestellt weil hier die neuen Programme stets den schnellsten Computer bekamen und gegen alte Programme die noch dazu auf z.b. einem langsamen Pentium200MMX liefen gespielt und daher natürlich besonders hoch gewonnen haben. Ich glaube die Leute die damals frugen  haben das auch heute noch nicht richtig verstanden wieso diese vorgehensweise zu richtigen Ergebnissen führt.

Solange die Ergebnisse zb von Houdini64+4 cores auf CPU X nicht mit den Ergebnissen von Houdini in einer anderen Konfiguration gemischt werden sind diese Listen mathematisch exakt und fehlerlos.

Warum ? Tja, du könntes auch fragen wieso überhaupt mehr als zwei Engines gegeneinander spielen. Jede Engine in einer bestimmten Konfiguration auf einem bestimmten PC stellt einen eigenständigen fest definierten Spieler  mit konstanter Elo Zahl die es zu ermitteln gilt dar.
Parent - By Frank Quisinsky Date 2011-09-18 16:05
Hallo,

oh ja!
An diese Diskussionen zur seinerzeitigen SSDF kann ich mich auch noch erinnern.

In Frage steht auch wie weit die Bereitschaft von einem Leser ist, sich wirklich mit einem Thema intensiver zu beschäftigen. Wissen rührt oftmals aus irgend welchen Erkenntnissen von einst. Lese ich heute z. B. ältere Computerschachfachzeitschriften kann ich oftmals nur den Kopf schütteln. So ist das heit, die Entwicklung bleibt nicht stehen und wir haben heute schon ein wenig mehr Wissen als die Neandertaler. Wird noch einige Zeit dauern bis Schach wirklich mal restlos erforscht ist.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Meßergebnisse und Teilnehmerfelder

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill