Frank Sanders schrieb:
Ich habe das Ausgangsposting wiederholt, damit, falls überhaupt, jemand der in drei oder vier Monaten hereinschaut den Ausgangspunkt kennt, weil das Originalposting im Hauptforum schon auf Seite 4 ist.
Schon klar, passt schon.
Die Idee, zum Blog zu wechseln war überhaupt gut.
Frank Sanders schrieb:
Zeiteinteilung von lc0. Mir ist aufgefallen, dass wenn ich mit lc0 1000ms teste, die Stellungen viel zu schnell abgearbeitet werden. Ich schreibe mir daher immer am Ende der BAT Datei das Wort "Pause". Dann verschwindet die Eingebeaufforderung nicht, sondern zeigt die verbrauchte Gesamtzeit mit einem zusätzlichen Kommentar zum Zeitverbrauch an z.B. "bad" oder " "good". Wenn ich lco dann bei einem 1000ms Durchlauf mit ca 1800ms laufen lasse, hat sie am Ende ungefähr genauso viel Zeit wie die anderen Programme verbraucht.
Das mit der Zeiteinteilung verschiedener Engines ist mir auch schon aufgefallen, dass der Unterschied bei lc0 so groß ist, hätte ich nicht gedacht, wird vielleicht auch nicht bei jeder Vorgabe gleich sein, das mit dem Pause- Befehl muss ich auch mal probieren. Ansonsten könnte man sich natürlich auch immer ein log-file schreiben lassen.
Frank Sanders schrieb:
Wenn deine Testsets oder auch andere eh schon sehr genau bestimmen können, wie weit neue Versionen besser sind als die alten, wo sie ungefähr in den Listen liegen werden, wo die Stärken der einzelnen Programme sind,...dann braucht man eigentlich keine neuen entwickeln. (Außer vielleicht am Spaß an der Freude es zu tun).
Dazu haben wir einen wesentlichen Punkt noch nicht ganz so weit, dass wir uns über ihn einig wären, glaube ich. Während du mir immer noch davon auszugehen scheinst, dass "besser", "Listen", "Stärken," Begriffe sind, die sich als als etwas von Verbindlichkeit, Allgmeingültigkeit und Übertragbarkeit behandeln lassen, ist das nach wie vor mein Punkt, an dem ich mich seit Jahr und Tag quanitativ aufreibe: natürlich kann man die Dinge so weit vereinfachen, dass man sagt, ja, in dieser und jener Liste steht alles drin, was mich an Spielstärkenvergleich zwischen allen modernen Engines interessiert, aber wenn ich das so einfach sehen wollte, würde ich halt heutzutage gleich sagen: ja, weil die Unterschiede zwischen den Engines, die da die ersten (Hausnummer) 20 Plätze innehaben, mittlerweile schachlich schon so klein sind, dass es eigentlich wirklich egal ist, ob jetzt die eine oder die andere die Nase vorn hat, und dann würde ich auch sagen, die Spielstärketests zeigen alle dieses selbe Bild, was die Engines angeht. Was da noch an weiterer Elospreizung (oder gleich einer Vervielfachung der Messwerte, man könnte auch Centielo einführen, macht denselben Faktor 100 an Spreizung, ohne, dass man an den Testumgebungen auch nur irgendwas sonst ändern muss) noch weitere Entwicklung als Messerfolg zeigt, von dem spielt es schon deshalb keine Rolle mehr, wieviel er mit dem Fortschritt, der vielleicht wirklich noch dahintersteht und theoretisch auch viel größer sein könnte, als man ihn misst, wieviel dieser Messerfolg mit dem wirklichen Fortschritt noch zu tun hat, das ist ab dem längst erreichten Zeitpunkt irrelevant, ab dem es allein schon von der Zahl der ähnlich starken Engines mit der noch so kurzen Hardware- Zeit der Partien und Stellungstests nicht mehr schnell genug geht, Messergebnisse zu liefern, die durch Remis- und 1:1- Tod daran gehindert werden, noch in die statistische Relevanz kommen. Nicht genug Testergebnisse in der Zeit, die man bräuchte, um mit dem Messen mit der Entwicklung neuer Engines und neuer Netze Schritt zu halten. Spätestens ab diesem Zeitpunkt würde ich auch sagen, ok, die Tests liefern alle dieselben Ergebnisse, egal wie man sie macht und welche Engines man mit welchen auf welche Art vergleicht.
Und was der Mensch spielt, hat damit sowieso schon lange nichts mehr zu tun.
Das wäre ein Art der Vereinfachung der Sicht von "Spielstärke", der ich durchaus zustimmten könnte, aber alles, was die Sache weniger einfach sieht, bedarf der der Erkenntnis, dass man jedwede andere genauere Unterscheidung zwischen Engines heutzutage (schon länger) nicht mehr als etwas behandeln kann, wovon es egal ist, wie es gemessen wird. Und dass jedes genauere Ergebnis als das, es sind alle praktisch gleich stark und man kann von keiner der starken mehr sagen, wie groß der Fortschritt, den sie vielleicht noch macht, eigentlich ist, dass jedes solche andere (hoffentlich auch genauere) Ergebnis ganz für sich allein steht.
Sorry, ist aber halt so

Aber mal von solchen Sophismen wieder abgesehen, würde ich im Wesentlichen eh auch einfach sagen, ja Tests haben wir genug, wir müssen uns keine neuen mehr ausdenken. So gesehen ist die LAN-5-Version vom STS durchaus ausreichend, wenn man nichts Anderes will als ein ungefähres Abbild von einer bestimmten Art von game playing. Aber wie du schon bei der Ungenauigkeit dessen gesehen hast, was verschiedene Engines aus der Zeit- Vorgabe machen, wenn wir mehr als nur dieses und jenes ganz ungefähr wissen wollen, dann gäbe schon noch diese und jene kleine oder große Verbesserung, und dann muss man auch bedenken, dass die Evals, die jetzt für Moscas STS- Set herangezogen worden sind, von SF 15 sind, jetzt ist aber schon SF 15.1 aktuell.
Was wäre, wenn wir als Fortschritt überhaupt daran gingen, nur mehr Verbesserungen der Aussagekraft von Evals an und für sich gelten zu lassen? Wenn wir jetzt daran gehen, die Engines auch gleich an den Evals anderer Engines zu messen, sollten wir dann nicht zumindest die Änderungen dieser Evals über die Zeit und die Enwicklung der Engines und der Netze genauer zu beobachten? Und dann müsste man spätestens bei SF 16 den mit SF evaluierten STS auch neu bewerten.
Mir geht vor allem eine Art der Elo- Umrechnung ab, wie sie EloStatTS macht. Die Minimatches zwischen je 2 Engines bei jeder Stellung als win draw loss- Wertung, bei der's Remis praktisch nur bei Stellungen gibt, die von beiden miteinander Verglichenen nicht gelöst werden, das ist schon etwas anderes vom Prinzip her, als das alleinige Vergleichen mit einem (ja doch willkürlich geeichten) fixen Score der Stellungen.
Frank Sanders schrieb:
Die Stefan Pohl Liste hat schon keine Elo mehr sondern einen EAS Score.
Das sind verschiedene Listen, die mit dem EAS-Tool erstellte ist nur eine.
Von der ersten Site
https://www.sp-cc.de/kommt man mit dem Untermenü links zu
https://www.sp-cc.de/eas-ratinglist.htmFrank Sanders schrieb:
Welche lc0 Kombination ist die derzeit beste? Diese Frage kann wohl niemand mehr beantworten, auch nicht die Entwickler.
Da sind wir wieder beim springenden Punkt: diese Frage kann man auf so viele Arten beantworten, wie man Tests hat. So viele Antworten wie Tests, was ihre Stellungen angeht (ausgespielt oder nicht ausgespielt), was die Vergleichsengines und die Hardware- TC angeht.
Frank Sanders schrieb:
Bei mir ist da die erste Seite, die nur als Überschrift Downloads ankündigt mit dem kleinen Text
Zitat:
Please navigate through the links below to find the downloads for each one of the test suites.
darunter und links hat man die Auflistung der Unterseiten.
Frank Sanders schrieb:
Und wenn man hier ein Bild zeigen will, muss man es dann woanders hosten und gibt es einen Platz wo man das kostenlos tun kann?
Ich finde die hier
https://postimages.org/ganz praktisch.