Hallo Timo!
[quote="Timo Haupt"]
Fazit für mich: Die einzig faire Methode, um zu messen, wie gut eine Parallelisierung funktioniert, ist in Elo zu messen. [/quote]
Genau das halte ich aber für die Schwachstelle schlechthin und nicht erst seit gestern, heute aber schon ganz und gar.
Die Elosion verblasst einfach mehr und mehr, diese völlig nebulosen Werte, die immer schon völlig beliebig waren dadurch, dass man bestimmte Vergleichsengines zur Eichung heranziehen musste und denen Daumen mal pi Werte zumessen, hängen jetzt einfach schon nur mehr davon ab, welches Teilnehmerfeld man nimmt, dagegen werden sogar Dinge wie Bücher nebensächlich, die es natürlich auch absolut nicht sind, wenn man wirkliche schachliche Kriterien anlegen wollte.
Wie sehr sie aber heute von der Wahl der Probanden abhängt, sagen Leute wie Larry Kaufman auch immer deutlicher:
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=474573&t=44274Man müsste zu jedem Celowert dazusagen, nicht nur welche (einheitliche
) hardware (gerade haben wir wieder festgestellt, wie sich das bei Einzelstellungen auswirkt, dass MP nicht deterministisch ist, ist bekannt, es deshalb einfach nicht in die Celoermittlung einzubeziehen, ist unzeitgemäß, die Ära der Cluster steht unmittelbar bevor), welche Bedenkzeiten, welcher hash, ponder on off,
welche Eröffnungsstellungen, sondern immer auch welches Teilnehmerfeld.
Mit solchen Werten könnte man dann vielleicht darangehen, weiterzurechnen und die Parallelisierung von SMP- engines untereinander zu vergleichen.
Wieder hat man aber vor Allem diesen selection bias auszuschalten oder zum Prinzip zu machen:
Testet man eine engine in mehreren MP- Konfigurationen mit mehr und weniger Kernen, hat man andere Ergebnisse, als gegen eine Vergleichsgruppe von verschieden gut parallelisierten anderen engines.
Viel Spass mit der Celolitis in solchen Fragen weiterhin.
Michael Scheidl traut sich im Antwortposting endlich mal wieder den guten alten Stellungstest als Alternative zu erwähnen.
Der hätte den Riesenvorteil, dass man all die oben genannten Selektionskriterien überhaupt anlegen könnte (hardware, hash...) und sich dafür halt auf bestimmte Stellungen beschränken müsste. (Muss man eh für eng-eng auch
)
Ich glaube überhaupt nicht, dass man ein Riesenkollektiv an Stellungen haben müsste, wenn man sich, was ohnehin auch nicht wegzuleugnen ist, darüber klar ist, dass jede Wertungszahl stellungsabhängig ist.
Die SMP- Fähigkeiten von engines anhand einzelner Stellungen zu vergleichen, bei denen es völlig belanglos ist, was es für welche sind, wenn man sich über "Lösungs"züge, Abspielvarianten und deren schachlich überprüfbare zu erwartenden Bewertungskurven über den Verlauf der Varianten klar ist, (der Kurvenverlauf wäre dabei von den ausgegeben Absolutwerten der evals zu unterscheiden, die können dann ruhig viel mehr auseinanderklaffen, wenn die Verlaufskurven und nur die verglichen werden) und sich den Teufel drum zu scheren zunächst, dass das jeweils nur für die eine Stellung gilt, das ist reproduzierbar, mindestens so sehr, wie Teststellungen für eng-eng willkürlich auszuwählen, die natürlich nicht bekannt geben zu dürfen und damit auch die Partien nicht, sich willkürlich auf ein Teilnehmerfeld festzulegen, eine bestimmte hardware, ponder on or off (beides macht natürlich Sinn und beantwortet andere Fragen) und single core.
Ja deterministischer, dafür halt ohne Aussage über MP
Außerdem warum überall sonst König Zufall Regie führen lassen, nur das bisschen Indeterminism
von MP, das darf nicht sein
)
P.S. Ich will gar nicht wieder die heilige Kuh Rangliste antasten, irgendwoher muss die Elosion weiter ihre Nahrung beziehen, dass habe ich mittlerweile schon auch internalisiert, ich rede nur von den Möglichkeiten, die Frage nach der SMP- Implementierung von einzelnen engines gegeneinander zu vergleichen, ich glaube nicht, dass man da an Einzelstellungsvergleichen vorbei kommt, dass damit nur Aussagen über einzelne Stellungen herauskommen, schert mich einen D...eut, ich leide nicht unter Celolitis.