Frage zu den Lösungsergebnissen von Testsuites

By Peter Martan Date 2024-02-09 12:03 Edited 2024-02-09 12:27

Dieter, ich hab's ja von Anfang an kommen sehen, du suchst keine Alternativen und Verbesserungsvorschläge sondern Alibis dafür, das, was leicht machbar ist, so zu machen, wie's meistens gemacht wird, und ein paar Schnörkel in der Durchführung hinzuzufügen, von denen du dann sagen kannst, das macht deine Ergebnisse zu besonderen, besonders genauen, besonders relevanten

Sorry, ich bin gemein, aber zuerst zu meckern, dass die Lösungszahlen zwischen der Runs gleicher Engines schwanken, und dann, wenn man der Sache weiter nachgeht, draufzukommen, dass auch schon diese Schwankungen von den Engines, den Stellungen und den übrigen Messmethoden abhängen und dass die Standardabweichung der Summenzahlen der Lösungen eines einzelnen Tests noch nicht viel zusätzliche Info über das Verhältnis der Spielstärkeunterschiede der Engines untereinander bringen, sollte eher dazu führen, dass man sich weiter überlegt, wie man die Unterschiede von Suite zu Suite und von Harware- TC zu Hardware- TC und Enginepool zu Enginepool relativieren könnte, als dazu, auf alles zu verzichten, was die Sache irgendwie anders und vielleicht auch etwas aufwändiger macht.
Wenn dir das alles egal ist, und du einfach nur Lösungszahlen produzieren und auflisten willst, kannst du dazu ja auch jede beliebige einzelne Stellung nehmen, da sagt auch jede genau so viel aus, wie du sie relevant findest oder eben nicht oder eben genau so viel wie jede andere, da müsstest du auch überhaupt nicht überlegen, welche Stellung du hernimmst zum Testen, mussst du aber auch dann nicht, wenn du eben die Kritierien für die verschiedenen Stellungen entsprechend genau definierst. Darum im Wesentlichen geht's mir, nicht einfach irgendwelche Stellungen über eine beliebigen Kamm zu scheren, sondern dem Prinzip des direkten Engine- Vergleichs, bei dem's halt letzten Endes dann doch immer zum Schluss um eine Zahl an Punkten geht, die die eine mehr (an ganzen oder halben beim game playing) und die andere weniger erreicht. Es geht um win, draw (das wird man nicht erst in letzter Zeit aber mehr und mehr als mögliches Ergebnis zu Kenntnis nehmen müssen) loss, auf irgendeine WDL- Umrechnung wird also jeder statistische Stellungstest aus größeren Zahlen an Stellungen auch immer hinauslaufen, ob du deine Performances zum Schluss in Elo oder nur in relativen Lösungszahlen, Prozentperformances oder sonstwas angibst, ist schnurzpiepegal. Ein Maß, warum die Punkte aus der einen Suite irgendwie vergleichbar sein könnten mit denen anderer Suiten, Hardware- TCs und Engines, wirst du dann brauchen, wenn du nicht mit einer einzelnen Suite, einem einzelnen Enginepool und einer bestimmten Hardware- TC dein Auslangen finden willst. Willst du das? Kannst du das? Ich nicht.

Ich bin jetzt dann mal endlich wieder raus aus dieser "Diskussion", dass jeder seine eigenen Tests machen kann, wie er's für richtig hält, ist ohnehin keine Frage für mich, bei den vielen kritischen Stimmen, die ich immer wieder zu meinen Methoden und Ergebnissen bekommen habe (mich interessieren immer wieder solche, wenn sie fundiert und vielleicht noch konstruktiv sind, sonst würde ich mir solche Threads wirklich nicht mehr antun) erlaube ich mir halt dann doch auch hin und wieder kritische Bemerkungen zu Teststellungen, Suiten und Testmethoden anderer Leute, insbesondere wenn sie veröffentlicht werden.
Nie schreibe ich, das und jenes Ergebnis ist Schmarrn, nur weil's nicht von mir ist und ein bisschen anders erstellt wurde, als ich es vielleicht selbst gemacht hätte. Dass es für mich Schmarrn ist, schreibe ich nur dann (hin und wieder), wenn die Stellungen von einer Art und oder einer Art sind, sie zu einer "Suite" zusammenzustellen und zu bewerten, dass sie einfach nicht zu dem passen, was damit in einer bestimmten Art und Hardware- TC veranstaltet wird. Da lässt man's eben dann meiner Meinung nach eben schon besser sein.

Immer wieder schaue ich auf die game playing- Ranglisten, immer wieder schaue ich mir Testergebnisse von Stellungstests anderer Leute an, viele davon finde ich gut, andere halt weniger, und wo meiner Meinung nach methodische Schwachstellen zu sehen sind, nehme ich das zumindest für mich allein gern wahr, es sagen einem dann die Ergebnisse, die trotzdem noch nicht völlig für den Kübel sein müssen, um das mehr, was man die Irrtumswahrscheinlichkeiten und ihre Ursachen auch besser wahrnimmt.
Drum hab' ich versucht ein bisschen genauer auf das einzugehen, was man methodisch genauer, ungenauer aber dafür schneller, aussagekräftiger in Hinblick auf bestimmte genauer umschriebene Fragestellungen und dafür halt vielleicht und wahrscheinlich weniger aussagekräftig in Hinblick auf andere Fragestellungen machen kann und vor allem: was man alles falsch machen kann und wie stark es sich in welcher Hinsicht auswirkt

By Dieter Brandhorst Date 2024-02-09 12:31

Lieber Peter,

weiter oben habe ich aufgezeigt, wie man mit einem einfachen Vierfeldertest, bei dem man nur 4 Zahlen online eingeben muss, die Häufigkeiten von Lösungsergebnissen der Engines untereinander zuverlässig statistisch und einfach vergleichen kann. Will man feinere Unterschiede zwischen den Engines erfassen muss man entweder sehr viel mehr Tests machen oder eben sich zusätzliche Hilfswerte, wie hier die aus Lösungszeiten generierten WDL o.ä. konstruieren. Dabei kommen nun mal eine Menge zusätzlicher Fehlerquellen zustande, das kann ich für dich leider auch nicht ändern.

VG Dieter

By Peter Martan Date 2024-02-09 13:40 Edited 2024-02-09 13:43

Dieter Brandhorst schrieb:

weiter oben habe ich aufgezeigt, wie man mit einem einfachen Vierfeldertest, bei dem man nur 4 Zahlen online eingeben muss, die Häufigkeiten von Lösungsergebnissen der Engines untereinander zuverlässig statistisch und einfach vergleichen kann.

Ja, und was sagt dir das jetzt darüber aus, bei welchen Stellungen von welchen Engines es wie sehr an den Engines und wie sehr an den Stellungen liegt und wie sehr am puren Zufall bei gerade nur der einen Testumgebung? Statistik hilft halt an und für sich nicht für sich allein bei der Beantwortung aller kausalen Fragen, bei denen sie helfen kann aber auch nicht ohne das entsprechende Testdesign und die entsprechende Auswahl der Merkmalsdifferenzen, die du zum Erstellen der Statistik wählst.

Zitat:

Will man feinere Unterschiede zwischen den Engines erfassen muss man entweder sehr viel mehr Tests machen oder eben sich zusätzliche Hilfswerte, wie hier die aus Lösungszeiten generierten WDL o.ä. konstruieren. Dabei kommen nun mal eine Menge zusätzlicher Fehlerquellen zustande, das kann ich für dich leider auch nicht ändern.

Für mich musst du nichts ändern, Dieter, ich weiß ja, wie ich welche Fehlerquelle mit mehr oder weniger besseren oder schlechteren Stellungen, Suiten, Runs, Engines und Hardware- TC mehr oder weniger gut in den Griff bekomme. Dass mehr relevante Werte (wenn sie denn wirklich relevant sind und in ihrer Relevanz richtig bewertet werden) feinere Unterschiede erfassen können, darüber sind wir uns einig.
Die Frage ist für mich immer nur: wieviel bringt mir eine bestimmte Suite in einem bestimmten Verhältnis von Diskrimination und error bar relativ zum Hardware- Zeitaufwand, und was mache ich am besten zu Ergänzung des einen Ergebnisses für einen nächsten Test.
Bei einem game playing Turnier wirst du dir genau dieselben Fragen sinnvoller Weise stellen, bevor du zu spielen anfangen lässt. Und du kannst auch mit mehr statistischer Signifikanz zufrieden sein und mit weniger und manchmal wird's dir genügen, ein einzelnes head to head match 2er bestimmter Engines spielen zu lassen und manchmal wirst du du andere Bedingungen schneller Ergebnisse bekommen, die dir mehr Info bringen.

By Dieter Brandhorst Date 2024-02-09 14:16

"Ja, und was sagt dir das jetzt darüber aus, bei welchen Stellungen von welchen Engines es wie sehr an den Engines und wie sehr an den Stellungen liegt und wie sehr am puren Zufall bei gerade nur der einen Testumgebung?"

Das sind aber doch Fragen die sich in erster Linie die Designer der Testsuites stellen müssen, wenn sie eine Testsuite mit einem bestimmten Ziel erstellen. Walter Eigenmann ist da ein leuchtendes Beispiel. Er hat mit dem ERET111 eine umfangreich praxisrelevante Testsuite erstellt. Wenn ich z.B. den ERRET111 im single thread lösen lasse und zwischen 2 Engines mit dem Vierfeldertest signifikante Unterschiede finde, kann ich beruhigt davon ausgehen, das Unterschiede in der allgemeinen Spielstärke bestehen, weil eben das Testdesign das hergibt. Habe ich entsprechend gute Taktiktests, kann ich das für die Taktik sagen und habe ich gute Strategietests, kann ich das auch für strategische Fähigkeiten behaupten.

VG Dieter

By Peter Martan Date 2024-02-09 14:42 Edited 2024-02-09 15:09

Dieter Brandhorst schrieb:

Wenn ich z.B. den ERRET111 im single thread lösen lasse und zwischen 2 Engines mit dem Vierfeldertest signifikante Unterschiede finde, kann ich beruhigt davon ausgehen, das Unterschiede in der allgemeinen Spielstärke bestehen, weil eben das Testdesign das hergibt. Habe ich entsprechend gute Taktiktests, kann ich das für die Taktik sagen und habe ich gute Strategietests, kann ich das auch für strategische Fähigkeiten behaupten.

Sorry, Dieter, das ist genau der eine fromme Wunsch, dem sich Tester seit Anbeginn des Testens gerne hingeben. Zunächst mal der Elosion, es gäbe etwas wie "allgemeine Spielstärke" überhaupt als testbare Größe und dann drückst du dich einfach auf die Art um die Frage herum, was für dich gute Taktiktests, was gute Stategietests sind, welche besser sind als andere und warum und swe sehr, und was du überhaupt unter Taktik und Strategie verstehst, Ausdrücke, die fürs Computerschach einfach noch viel weniger Definierbarkeit haben, als bei unter Menschen gespieltem Schach.
"Overall playing strength", wie das immer von den Stellungstestphobikern als ausschließlich durch eng-eng-matches zu Ermittelndes definiert wird, zerfließt ja im Zeitalter des Eng-Eng-Remistodes sowieso auch immer mehr zwischen den Enginepools und den Hardware- TCs und selbst die Eröffnungssets machen mitterweile mehr Unterschiede aus an Celo- Ergebnissen als bei mir mit EloStatTS aus guten Suiten rauskommen

Walter Eigenmann hat zur Zeit, als der Eret rauskam, damit den damaligen game playing Ranglisten erstaunlich nahe kommende Eret- Ranglisten erstellt, aber welches Hilfsmittel außer der für damalige Verhältnisse (Engines und Hardware) vorbildhaft gut sortierten Suite hat er damals auch schon dafür verwendet: Richtig, den guten alten EloStatTS

Nix gegen Eret, den kann man mit entsprechend der Hardware und den Engines angepasster TC immer noch als stimmigen Test für sich allein machen, ich hab' viele Stellungen daraus immer noch in einigen größeren Suiten, in die sie an Hardware-Zeit- Schwierigkeit hineinpassen gemeinsam mit vielen anderen Stellungen drin und wenn ich schnell mal wissen will, wie eine neue Engine- Version in genau diesem Test singel thread mit 1-5"/Stellung abschneidet, dann mach' ich das, weil ich da gerade ein altes Vergleichsergebnis mit einer anderer Version derselben Engine habe, durchaus auch mal wieder hin und wieder. Aber dass ich aus einem einzelnen Eret- Vergleich (mit noch so vielen Wiederholungsruns) "allgemeine Spielstärke" heutiger Engines, vielleicht noch Unterschiede zwischen SF und Lc0 heraustesten würde wollen, das läge mir fern. Da braucht's, damit ich von irgendwie "allgmeiner" oder irgendwie mehr "taktisch" orientierter Spielstärke von Engines redete, halt schon auch ein paar mehr Tests und ich würde aufs game playing, wenn's um allgemein geht, wirklich auch nicht verzichten wollen.

Aber weder vom Eret (nicht einmal damals, sorry, Walter, aber du kennst meine Philosophie in diesen Dingen genauer als die meisten Anderen) noch von einer anderen einzelnen Suite erwarte ich mir mehr als ein Einzelergebnis. Was du vor allem mit 111 Stellungen annähernd gleichmäßiger (das ist ja gerade das Gute daran) TC- Schwierigkeit bei den besseren Engines heutzutage nicht mehr kriegst, das ist Diskrimination zwischen ihnen, die auch nur annähnernd gleich stark bei solchen Stellungen sind. Wenn du die TC einfach auf 100 msec /Stellung verminderst, kriegst du wieder deine Diskrimination, aber in welchem Verhältnis zur error bar?

Können wir uns vielleicht endlich darauf einigen, dass es das ist, was wir mit einer Suite zum Unterschied von einer einzelnen Teststellung erreichen wollen, ein möglichst großes positives Verhältnis von Merkmalsunterschieden (sei's in Lösungszahlen, relativen Lösungszahlen, WDL, was auch immer) zur Irrtumswahrscheinlichkeit? Ich will einfach dasselbe, was man mit Eröffnungsstellungen will: Elospreizung (muss ja nicht Elo heißen, was gespreizt wird) relativ zur error bar. Wenn du nur mehr Unterschiede in den Lösungszahlen kriegst durch ein Teilnehmerfeld oder eine Suite oder eine Hardware- TC, aber die relative Performance nicht verhältnismäßig steigt, sondern sinkt, weil du mehr Remis bekommst (welcher Art auch immer, natürlich gibt's Remis auch bei Suiten) oder mehr 1:1- Paare (ungelöste Stellungen könntest du auch als solche betrachten, es ist egal, wie du was nennst, auf die Performance- Unterschiede relativ zur error bar wirkt es sich genau gleich aus), dann ist deine Suite für die Engines, den Zeitaufwand, den du investieren willst, nicht groß genug, nicht selektiv genug oder zu selektiv oder zu wenig sensitiv oder sie hat halt vielleicht auch schon ein paar Stellungen mit einem Ergebnis drin, dass du früher für richtig gehalten hast und das sich mit fortschreitender Soft- und Hardware als zuerst falsch beurteilt herausgestellt hat. Dann kann sie immer noch eine gute Suite sein, aber es mag halt für die bestimmte eine Fragestellung, die du daran knüpfst, bessere geben oder es mag jedenfalls besser sein, mehr als die eine Suite heranzuziehen und dafür die bis zur Vergasung zu wiederholen, damit die Streuung zwischen den einzelnen Runs kleiner wird.

Und wenn ich nicht selbst weiß (wie will ich mich da drauf "verlassen", wie du sagst, wenn ich's nicht Stellung um Stellung nachprüfe?) welche Art von Stellungen für welche Hardware- TC was an Ergebnis im Vergleich zu anderen Ergebnissen bedeuten, dann teste ich eben blindlings vor mich hin oder hinter mir her, das ist es in Wirklichkeit, was "Tester" am liebsten machen, ein gängiges Match auf der momentan gerade erschwinglichen Hardware so lange laufen lassen, bis die error bar erreicht ist, ohne sich weiter viele Gedanken machen zu müssen, wer aller mitspielt und welche Eröffnungen für den Zweck am besten geeignet wären.
Aber "allgemeine Spielstärke" oder "taktische" oder "strategische" Stärken teste ich damit nicht, und "taktische" oder "strategische" Definition, die die einzelne Stellung und oder (das ist ein rein quantitativer Unterschied, wenn ich das mal wieder betonen darf) die einzelne Suite beispielhaft übersteigen, kann man höchstens aus dem Vergleich mit ähnlichen Stellungen oder anderen treffen, aus einem einzelnen Test, den man zu taktisch oder strategisch oder allgemein erklärt, wird das nix.
Natürlich kannst du sagen, dein einer Test definiert für dich taktische Stärke, dein anderer strategische, aber außer den paar Beispielen, die du dann für diese deine Definitionen festlegst, hast du nichts.
Schon gar nichts statistisch Relevantes

By Dieter Brandhorst Date 2024-02-09 15:08

O.k., Peter, mag sein das wir für die Feindifferenzierung von Engineunterschieden im Moment nichts besseres als Elostat haben. Aber die Lösungszeitunterschiede von Engines im multithread Modus für ein und dieselbe Aufgabe von z.B. 10 vs. 1 Sekunde, sind schon heftig und erfordern für engines im multithread-Modus mehrere Runs um einen guten Durchschnittswert für die Lösungszeit und ebenso die Eloauswertung zu Grunde zu legen. Das war eigentlich meine anfängliche Frage.

VG Dieter

By Peter Martan Date 2024-02-09 15:24 Edited 2024-02-09 15:44

Dieter Brandhorst schrieb:

O.k., Peter, mag sein das wir für die Feindifferenzierung von Engineunterschieden im Moment nichts besseres als Elostat haben.

Wir haben insofern Besseres, als wir mit EloStatTS nur Fritz- .cbh auswerten können und im Fritz nur eine einzelne Instanz in eine gemeinsame .cbh zur Auswertung speichern.
Das limitiert die Möglichkeit, mehrere Concurrencies nachträglich zu einer gemeinsamen Lösungsdatei zu verschmelzen und es limitiert die Stellungen auf single best move und solche, die mindestens 1" Zeit zur Lösung vorgeschrieben bekommen.
Optimal wäre eine Mischung aus MEA und EloStatTS (wobei das mit dem Tool von Frank Sanders eigentlich auch schon existiert, dabei hast du sogar auch noch das weg, was dich an EloStatTS stört, dass einzelnen Sekunden (die als ganze gezählt werden) schon ganze Punkte Unterschied ausmachen können. Ganz so einfach ist das bei EloStatTS aber eh auch nicht, wie die Minimatches genau anhand der verschiedenen Zeit- Indices beurteilt werden, musst du dir in der Gebrauchsmusterschrift von Frank Schubert durchlesen, wenn's dich so genau interessiert).
MEA ist besser, weil multiple Lösungen und damit Stellungen ohne entsprechend streng definierten single best move verwendet werden können und weil beliebig kleine TC- Unterschiede auch unter 1" eingestellt werden können bis hinunter zu einzelnen msec. Auch dass es gar kein GUI braucht sondern eine Kommandozeilen- Anwendung ist, hat Vorteile, die Elo, die es auch angibt, sind nur aus den einzelnen Scores relativ zum Maximalwert errechnet, dafür hast du nicht nur "found" unter den Lösungen, sondern verschieden viele Punkte, die die Sache natürlich schon noch einmal wesentlich spreizen im Ergebnis. Dafür musst du halt deinen Lösungen auch entsprechend sinnvolle Relationen and Punkten für besser oder weniger gute Alternativen zuordnen und natürlich ist auch das eine Fehlerquelle.
Und was mir bei MEA vor allem wieder fehlt, sind die Extraplies, aber die eierlegende Wollmilchsau ist halt ein seltenes Tier und besser als jeder einzelne Test ist immer, egal (oder nicht vorrangig entschieden von) mit welcher Methode der Auswertung, besser als jeder einzelne noch so gute Test, ist die Summe mehrerer guter einzelner Tests. Jeder einzelne ist wiederum nur so gut wie die einzelne Teststellung und bei den Summen daraus, also den Suiten, kommt's dann natürlich auch wieder drauf an, wie sie zueinander und zur Auswertung passen