Erst habe ich gedacht "oh, wieder mal viel Text von Peter", bin dann direkt ans Ende gesprungen und sofort war klar, das tue ich mir an.
Peter Martan schrieb:
Andreas Matthies schrieb:
Die besten Stellungstests schreibt doch immer noch das wahre Leben, also echte Spiele.
Das gefällt mir, weil's ja impliziert, dass Spiele auch Stellungstests sind. Die Stellungen, die den Engines zum Ausspielen vorgegeben werden, sind Teststellungen, wie groß der Vorteil einer Seite sein darf und soll, damit's nicht mehr nur Remis werden, wird immer mehr eine Sache der Selektion dieser Stellungen, damit's dann, wenn der Vorteil für die Spielstärke der Teilnehmer zu groß wird, nicht lauter 1:1- Paare statt der Remis werden, was die Statistik noch mehr ad absurdum führt, weil's noch mehr Partien braucht zur Signifikanz als die gleich große Remiszahl bei gleicher Performance bräuchte.
Du hast Recht, natürlich sind auch die heute gängigen Eröffnungsbücher mit Vorteil für eine Seite schon eine Art Stellungstest, das ist halt ein Kompromiss gegen den Remistot. Aber es geht halt immer noch darum, nicht
den einzigen besten Zug zu finden, sondern ein Spiel zu gewinnen. Und solange diese Eröffnungsbücher sich einigermaßen am "echten" Schach orientieren, wie es ja z.B. bei Stefans UHO der Fall ist, finde ich diesen Kompromiss auch okay.
Peter Martan schrieb:
Die Stellungen, die die Engines selbst beim Match aufs Brett bringen, meinst du vermutlich, sind die besten für den ausgespielten Stellungstest, mag sein, wenn man genau das wissen will, wie die Engines mit diesen Stellungen gegeneinander beim Ausspielen abschneiden, dass das aber alle Stellungen sind, die Menschen am Schach interessieren können, beweist eben gerade die Beschäftigung mit Stellungen, die nicht so in dieses Beuteschema der Engines passen und in denen sie schon beim nicht ausgespielten Stellungstest schwerer zurecht kommen.
Jetzt die Stellungen, die die Engines beim Match gegeneinander nicht selbst aufs Brett bringen, von der Spielstärkemessung auszublenden, das ist genau so Selektion (und damit Bias, wenn man's von der rein Zufalls- gesteuerten Randomisierung her sieht) wie sie umgekehrt absichtlich in den Fokus zu rücken.
Hmm, weiß nicht genau, ob ich das richtig verstehe. Nach meiner Wahrnehmung wandern Positionen nur deshalb in die Testsuites, weil sie dadurch aufgefallen sind, dass eines oder mehrere der Engine-Schlachtschiffe mit dieser Position Probleme haben. Stellungen, die grundsätzlich zwar "interessant für Menschen" sind (weil beispielsweise in dieser Stellung Bobby Fischer seinerzeit die Schach-WM entschieden hat), aber gleichzeitig auch problemlos von allen Engines gelöst werden, fliegen aus der Suite raus, weil sie zu leicht sind. Insofern besteht das Interesse der Menschen an den Stellungen der Suite doch einzig und alleine daran, eine oder mehrere Engine scheitern zu sehen, richtig?
Peter Martan schrieb:
Dass du sogar mal ein RubiChess- NNUE mit den Stellungen von Eduard Nemeths Suite trainiert hast, um dann zu sehen, dass es tatsächlich danach ein paar Stellungen mehr in der Zeit gelöst hat, das hat mir gut gefallen, aber vermutlich aus genau den entgegengesetzten Gründen wie dir. Gibt's einen schöneren Beweis als den, dass sogar das Training neuronaler Netze die Engine dazu bringen kann, mit einer selektierten Sammlung von Stellungen besser abzuschneiden, dass diese Stellungen also soo weit von dem, was Engines spielen und was jedenfalls auch etwas mit Schach zu tun hat, nicht weg sein werden?
Hmm, das verstehe ich schon wieder nicht so richtig bzw. sehe ich es ganz anders und ich habe fast den Verdacht, dass du diesen Test mit dem für die EN-Testsuite angelernte neuronale Netz von RubiChess nicht bis zum Ende gelesen hast.
Dieses Netz war ein kompletter "Fachidiot", konnte die Rate der gelösten Positionen in der Suite zwar von vorher 45% auf stolze 85% erhöhen, hatte das normale Schachspielen aber komplett verlernt.
Natürlich war die Methode, wie ich dieses Netz trainiert habe, auch gezielt darauf ausgerichtet, ohne Rücksicht auf Verluste (der allgemeinen Spielstärke) genau die Positionen der Suite zu lernen.
Und das Ergebnis zeigt mehr als deutlich, dass
das Lösen dieser Suite aber auch überhaupt keine Rückschlüsse auf die allgemeine Spielstärke liefert. Genau das war die Absicht dieses Tests.
Das Netz wäre noch nicht einmal in der Lage, eine andere Testsuite mit ähnlich gelagerten aber eben zur EN-Suite unterschiedlichen Stellungen zu lösen, geschweige denn allgemein schwierige Taktikaufgaben zu lösen. Ein kompletter Fachidiot halt. Und ich würde mich nicht wundern, wenn das in stark abgemildeter Form auch für anderen Engines gilt, die sich z.B. die HTC114 als meßbares Ziel für das Tuning der Parameter nehmen.
Dass ich ein Netz zum Lösen von Problem A mit denselben Mechanismen trainieren kann wie ein Netz zum Lösen von Problem B, heißt noch lange nicht, dass A und B miteinander verwandt sind.
Peter Martan schrieb:
..., das hat aber Leute wie Torsten und mich (und da gibt's schon noch ein paar Andere, die ich jetzt nicht alle zu Hilfstruppen heranziehen will und kann, dazu gibt's zuviele namhafte Namen) noch nie davon abgehalten, dass sie diese Stellungen halt auch immer wieder interessiert haben, dieses Interesse kriegst du nicht aus den Köpfen der Schachspieler, auch wenn du ihnen noch so lang erzählt, dass das Menschen nicht zu interessieren braucht, wenn's die Engines von sich aus nicht so super finden.
Geht mir ja genauso, ist wie ein Unfall, an dem man nicht vorbei schauen kann, wenn Stockfish mal wieder an einer Stellung scheitert
Wenn eine neue entsprechende Stellung auftaucht, wird schnell die Analyse angeschmissen in der Hoffung, dass Rubi das ev. besser/schneller löst, selten allerdings wird diese Hoffnung erfüllt.
Peter Martan schrieb:
Das sagen Diejenigen, die das Testen nicht noch komplizierter machen wollen und nicht noch Hardware- Zeit- aufwändiger, weil sonst müssten sie, gerade wenn sie nur das Ausspielenlassen gelten lassen, auch x-beliebige handverlesene Mittel- und Endspielstellungen zum Eng-Eng-Match verwenden und schwupps hätten wir zu den beliebig vielen verschiedenen Elo- und Celo- Arten noch beliebig viele mehr.
Haben wir auch, wenn wir verschiedene einzelne Stellungen nehmen, die etwas aus der Eng-Eng-Spielpraxis ausreiten, und sie den Engines vorsetzen, natürlich auch zeitweise in der bösen Absicht, genau solche Stellungen zu wählen, mit denen die Engines ihre Schwierigkeiten haben, vielleicht sogar eigens solche Stellungen, die Menschen dazu komponiert haben, nicht nur um Engines, aber auch um menschliche Spieler damit zu überfordern.
Zustimmung bzw. volles Verständnis.
Peter Martan schrieb:
Hätte man nie gezielt nach Schwächen bei den Engines gesucht, hätten sie viele von denen, die sie (so) jetzt nicht mehr haben, immer noch (mehr), sag' ich mals so, früher waren die Programmierer eigentlich immer ganz froh, wenn sie auf blinde Flecken in der Suche aufmerksam gemacht wurden.
Das stimmt aus meiner Sicht bedingt. Sagen wir mal so, mir haben in seltenen Fällen Teststellungen geholfen zu verstehen, wo man an einer Schraube drehen könnte, damit ein Zug (schneller) gefunden wird. Das waren i.d.R aber keine Stellungen aus den Suits sondern echte Spiele z.B. beim TCEC, in denen Rubi verlor/den Sieg verspielte, weil es einen Zug verpasst hat, den der Gegner und die Kibitzer gesehen haben.
Und in häufigeren Fällen hat sämtliches Schrauben an einzelnen Testpositionen eher zu einer Verschlechterung der allgemeinen Spielstärke geführt.
Peter Martan schrieb:
Ich bin beileibe auch nicht (wie auch Torsten nicht, der das auch geade geschrieben hat) dahingehend unterwegs, das Eng-Eng-Match zur Spielstärkemessung konkurrenzieren zu wollen durch Stellungstests, die vielen Stellungen und die vielen Suiten, die ich gerne verwende, sollen alle zusätzliche Infos liefern zum game playing (und vor allem zu einem, wie es heutzutage, um überhaupt noch auf signifikante Ergebnisse zu kommen, gemacht werden muss, mit Unmengen von Partien, mit reduzierter bis stark reduzierter Hardware- TC und mit unausgeglichenen Eröffnungsstellungen) und je mehr verschiedene Stellungen und je mehr verschiedene Suite dazu, umso besser für mich.
Okay, ich mache jetzt und hier Frieden mit den Stellungstests und ihren Jüngern. Indianerehrenwort.
Danke für den konstruktiven Austausch, ist keine Selbstverständlichkeit hier und führt leider auch bei mir zunehmend zu gereizter Stimmung und teilweise bissigen Beiträgen, die ich mir im Nachhinein lieber erspart hätte.