Dieter Brandhorst schrieb:
Wenn ich z.B. den ERRET111 im single thread lösen lasse und zwischen 2 Engines mit dem Vierfeldertest signifikante Unterschiede finde, kann ich beruhigt davon ausgehen, das Unterschiede in der allgemeinen Spielstärke bestehen, weil eben das Testdesign das hergibt. Habe ich entsprechend gute Taktiktests, kann ich das für die Taktik sagen und habe ich gute Strategietests, kann ich das auch für strategische Fähigkeiten behaupten.
Sorry, Dieter, das ist genau der eine fromme Wunsch, dem sich Tester seit Anbeginn des Testens gerne hingeben. Zunächst mal der Elosion, es gäbe etwas wie "allgemeine Spielstärke" überhaupt als testbare Größe und dann drückst du dich einfach auf die Art um die Frage herum, was für dich gute Taktiktests, was gute Stategietests sind, welche besser sind als andere und warum und swe sehr, und was du überhaupt unter Taktik und Strategie verstehst, Ausdrücke, die fürs Computerschach einfach noch viel weniger Definierbarkeit haben, als bei unter Menschen gespieltem Schach.
"Overall playing strength", wie das immer von den Stellungstestphobikern als ausschließlich durch eng-eng-matches zu Ermittelndes definiert wird, zerfließt ja im Zeitalter des Eng-Eng-Remistodes sowieso auch immer mehr zwischen den Enginepools und den Hardware- TCs und selbst die Eröffnungssets machen mitterweile mehr Unterschiede aus an Celo- Ergebnissen als bei mir mit EloStatTS aus guten Suiten rauskommen
Walter Eigenmann hat zur Zeit, als der Eret rauskam, damit den damaligen game playing Ranglisten erstaunlich nahe kommende Eret- Ranglisten erstellt, aber welches Hilfsmittel außer der für damalige Verhältnisse (Engines und Hardware) vorbildhaft gut sortierten Suite hat er damals auch schon dafür verwendet: Richtig, den guten alten EloStatTS
Nix gegen Eret, den kann man mit entsprechend der Hardware und den Engines angepasster TC immer noch als stimmigen Test für sich allein machen, ich hab' viele Stellungen daraus immer noch in einigen größeren Suiten, in die sie an Hardware-Zeit- Schwierigkeit hineinpassen gemeinsam mit vielen anderen Stellungen drin und wenn ich schnell mal wissen will, wie eine neue Engine- Version in genau diesem Test singel thread mit 1-5"/Stellung abschneidet, dann mach' ich das, weil ich da gerade ein altes Vergleichsergebnis mit einer anderer Version derselben Engine habe, durchaus auch mal wieder hin und wieder. Aber dass ich aus einem einzelnen Eret- Vergleich (mit noch so vielen Wiederholungsruns) "allgemeine Spielstärke" heutiger Engines, vielleicht noch Unterschiede zwischen SF und Lc0 heraustesten würde wollen, das läge mir fern. Da braucht's, damit ich von irgendwie "allgmeiner" oder irgendwie mehr "taktisch" orientierter Spielstärke von Engines redete, halt schon auch ein paar mehr Tests und ich würde aufs game playing, wenn's um allgemein geht, wirklich auch nicht verzichten wollen.
Aber weder vom Eret (nicht einmal damals, sorry, Walter, aber du kennst meine Philosophie in diesen Dingen genauer als die meisten Anderen) noch von einer anderen einzelnen Suite erwarte ich mir mehr als ein Einzelergebnis. Was du vor allem mit 111 Stellungen annähernd gleichmäßiger (das ist ja gerade das Gute daran) TC- Schwierigkeit bei den besseren Engines heutzutage nicht mehr kriegst, das ist Diskrimination zwischen ihnen, die auch nur annähnernd gleich stark bei solchen Stellungen sind. Wenn du die TC einfach auf 100 msec /Stellung verminderst, kriegst du wieder deine Diskrimination, aber in welchem Verhältnis zur error bar?
Können wir uns vielleicht endlich darauf einigen, dass es das ist, was wir mit einer Suite zum Unterschied von einer einzelnen Teststellung erreichen wollen, ein möglichst großes positives Verhältnis von Merkmalsunterschieden (sei's in Lösungszahlen, relativen Lösungszahlen, WDL, was auch immer) zur Irrtumswahrscheinlichkeit? Ich will einfach dasselbe, was man mit Eröffnungsstellungen will: Elospreizung (muss ja nicht Elo heißen, was gespreizt wird) relativ zur error bar. Wenn du nur mehr Unterschiede in den Lösungszahlen kriegst durch ein Teilnehmerfeld oder eine Suite oder eine Hardware- TC, aber die relative Performance nicht verhältnismäßig steigt, sondern sinkt, weil du mehr Remis bekommst (welcher Art auch immer, natürlich gibt's Remis auch bei Suiten) oder mehr 1:1- Paare (ungelöste Stellungen könntest du auch als solche betrachten, es ist egal, wie du was nennst, auf die Performance- Unterschiede relativ zur error bar wirkt es sich genau gleich aus), dann ist deine Suite für die Engines, den Zeitaufwand, den du investieren willst, nicht groß genug, nicht selektiv genug oder zu selektiv oder zu wenig sensitiv oder sie hat halt vielleicht auch schon ein paar Stellungen mit einem Ergebnis drin, dass du früher für richtig gehalten hast und das sich mit fortschreitender Soft- und Hardware als zuerst falsch beurteilt herausgestellt hat. Dann kann sie immer noch eine gute Suite sein, aber es mag halt für die bestimmte eine Fragestellung, die du daran knüpfst, bessere geben oder es mag jedenfalls besser sein, mehr als die eine Suite heranzuziehen und dafür die bis zur Vergasung zu wiederholen, damit die Streuung zwischen den einzelnen Runs kleiner wird.
Und wenn ich nicht selbst weiß (wie will ich mich da drauf "verlassen", wie du sagst, wenn ich's nicht Stellung um Stellung nachprüfe?) welche Art von Stellungen für welche Hardware- TC was an Ergebnis im Vergleich zu anderen Ergebnissen bedeuten, dann teste ich eben blindlings vor mich hin oder hinter mir her, das ist es in Wirklichkeit, was "Tester" am liebsten machen, ein gängiges Match auf der momentan gerade erschwinglichen Hardware so lange laufen lassen, bis die error bar erreicht ist, ohne sich weiter viele Gedanken machen zu müssen, wer aller mitspielt und welche Eröffnungen für den Zweck am besten geeignet wären.
Aber "allgemeine Spielstärke" oder "taktische" oder "strategische" Stärken teste ich damit nicht, und "taktische" oder "strategische" Definition, die die einzelne Stellung und oder (das ist ein rein quantitativer Unterschied, wenn ich das mal wieder betonen darf) die einzelne Suite beispielhaft übersteigen, kann man höchstens aus dem Vergleich mit ähnlichen Stellungen oder anderen treffen, aus einem einzelnen Test, den man zu taktisch oder strategisch oder allgemein erklärt, wird das nix.
Natürlich kannst du sagen, dein einer Test definiert für dich taktische Stärke, dein anderer strategische, aber außer den paar Beispielen, die du dann für diese deine Definitionen festlegst, hast du nichts.
Schon gar nichts statistisch Relevantes