By Werner Preuss
Date 2011-02-14 12:32
Hallo,
ich denke mal Peter liegt richtig, Stellungstests sind out.
Die Gründe hierfür sind vielfältig.
Ich denke ein Grund ist der, das denjenigen Leuten, die hier im Forum
Stellungstests publizierten und dann auch noch aus den Ergebnissen
Rückschlüsse auf die Spielstärke einer Engine zogen, immer ein eisiger
Wind ins Gesicht wehte.
Ich denke da vor allen Dingen an M. Gurevich, der hier vor ca. 10
Jahren seinen WM-Test präsentierte. Ich habe die Damaligen Diskussionen
nur unvollständig in Erinnerung. Es wurden aber nicht immer die freundlichsten Worte gewählt.
Inzwischen hat sich M.G. aus diesem Forum (und auch aus dem Computerschach?)
zurückgezogen. Schade drum.
Auch um andere Entwickler von Stellungstests ist es still geworden. W. Eigenmann
hat tolle Sachen gemacht (Tip: Nightmare von 2005). Die Entwichklung eines weiteren
Großen Stellungstests hat er wohl abgebrochen. Ich meine zumindest, das er hier so schrieb.
Oder: Wer kennt z.B. noch den Blivorix von M. Scheidl
Es gibt weitere Gründe: Stellungstest müssen weiterentwickelt werden,
die Hardware wird laufend stärker, der WM-Test ist für heutige Hardware nur bedingt geeignet.
Vom Bednorz Tönnnisen Test ganz zu schweigen.
Wie dem auch sei, ich arbeite immer wieder mal und gerne mit Stellungstests
und hoffe das es mal wieder zu einer kleinen Renaissance dieser Spielart kommt.
Gruß
W
Hallo
Ja, Stellungstest sind tot, allerdings ist deine Begründung zu kurz glaube ich.
Warum weht den Stellunstestern ein "eisiger Wind" entgegen ist die Frage und gibst die Antwort gleich selbst: Weil sie (Die Tests) weiterentwickelt werden müssen. In der Praxis heißt das, dass man so lange an einem Test feilt bis er die Wirklichkeit abbildet. Sollte er nicht mehr die Wirklichkeit abbilden, und das passierte bisher ALLEN Stellungstests früher oder später, muß er angepasst, weiterentwickelt werden ... Ein guter Test sollte aber die Wirklichkeit in sich tragen EHE man die Antwort kennt!
Ansonsten, zur erbaulichen Lektüre:
http://www.computerschach.de/index.php?option=content&task=view&id=371&Itemid=257 Übrigens versandete die Diskussion zusehends nach dem erschienen dieses Artikels. Erst waren die Wogen noch hoch, wurden flacher und irgendwann war Ebbe und es gab es keine "aktuellen" Stellungstest mehr die sich trauen von "Rangliste" zu sprechen (Das sind dann heute "Endspielstest" oder "Taktiktests" oder ...
)
Gruß
Ingo
hi
das problem an einem stellungstest ist das jeder ne elo am ende haben will.
stellungstests sind dazu geeignet eine grobe richtung erkennen zu lassen - mehr nicht.
auch kann man damit fehler in schachprogrammen finden.
zum l.b. artikel sei gesagt das - wenn man böse ist - auch enginematches beliebig manipulierbar sind denn 2000 1+1 partien haben ebenfalls fast keine aussagekraft - jedenfalls wäre ich da sehr vorsichtig um auf die turnierstärke zu schliessen.
gruss
micha
By Michael Scheidl
Date 2011-02-14 16:28
Wobei der Blivorix (Blitzvorschauindex) kein Stellungstest, sondern ein partienbasierter Schnelltest für neue Engines bzw. -Versionen war. Leider zeigte sich bald, daß die "standardisierten" Gegner die ich konfiguriert hatte, für mehrere interessante Engines insgesamt zu schwach waren. Die Hardware war auch schwachmatisch, sodaß dem Projekt nur eine kurze Dauer beschieden war. Rein methodisch halt ich das Konzept jedoch n.w.v. für geeignet, falls man es auf aktuellem Soft- und Hardwareniveau einrichten kann.
http://computerschach.twoday.net/stories/3279924/http://computerschach.twoday.net/search?q=Blivorix(Sehr schade, daß mit Alaric nach V.707 nichts mehr weitergegangen ist, ähnlich wie bei Colossus-UCI u.a.)
Stellungstests als solche bleiben m.E. sinnvoll (je nach Güte des Tests usw.), z.B. um gezielt Leistungen in bestimmten Teilbereichen zu erforschen. An die Korrelation zwischen einem "umfassenden" Test und der Eng-Eng-Partiespielstärke sollte man keine allzu hohen Ansprüche stellen, obwohl manche große Tests hier brauchbare Aussagen getroffen haben. Also vereinfacht gesagt, bei einem guten Allround-Test wird derzeit Rybka immer vor Fritz rangieren, und Crafty nie zwischen beiden. Solche "Grobeinstufungen" sind nicht wertlos, gerade zumal ja derzeit ständig unbekannte Engines auftauchen, die sich in diesem Spektrum überall einordnen könnten, ganz unten oder ganz oben. So ein Test kann dann helfen, gleich geeignete Testmatchgegner auszuwählen.
By Karl Heinz Krasser
Date 2011-02-14 21:49
Stellungstest sind "out" weil sie aus statistischer Sicht keine Berechtigung hatten. Das haben viele bis zum Bremertest einfach nicht verstanden oder verstehen wollen.
Es gibt aber auch einen einfach nachvollziehbaren schachlichen Grund: Schach wäre wohl zu einfach, wenn man die Spielstärke durch das Lösen von 100 oder auch 1000 Stellungen bestimmen könnte.
By U. Haug
Date 2011-02-14 22:34
Hallo Peter,
[quote="Peter Schneider"]
Ich weiss, dass Stellungstests nicht alle Aspekte einer Engine-Spielstärke abdecken.
Aber so in den letzten Monaten und Jahren hört man eigentlich gar nichts mehr davon.
Bednorz/Tönissen, Eigenmanns Swisstest usw. usf.
Kein Aas scheint sich noch dafür zu interessieren.
(...)
Liebe Grüße
Peter
[/quote]
ob etwas modern, "in" oder "out" ist, hat mich noch nie interessiert. Gilt für Mode genauso wie für Musik, Literatur oder Schach-Stellungstests.
Der große WM-Stellungstest von Michael Gurevich hat mir einst imponiert, hatte auch gelegentlich Emailkonatakt dazu mit Manfred Meiler, der mehr als 100 Engines durch den Test jagte und das Ganze in saubersten Excel-Tabellen übersichtlich auswertete.
Auch ein paar andere Testansätze fand ich interessant.
Die Hauptkritik einiger Gegner des Tests entzündete sich an der Auswertung und an der Frage, ob die Testergebnisse Rückschlüsse auf die Spielstärke erlauben. Dabei hatten sich einige Diskutierende im Ton kräftig vergriffen.
Objektiv gesichert kann man mit Stellungstests zunächst einmal herausfinden, welche Engine den entsprechenden Stellungstest am besten löst. Wenn der Test dazu noch verschieden Kategorien (Königsangriff, Endspiel, Verführung vermeiden, Strategie, ...) mit jeweils einer ansehlichen Anzahl von Aufgaben abdeckt, dann lässt sich darüber hinaus noch etwas über den Charakter einer Engine ablesen (Stärken / Schwächen). Diese Aussagen gelten heute genauso wie früher.
Sicher wäre es sinnvoll, Enginetests im Hinblick auf gestiegene Leistungsfähigkeit der Hard- und Software weiter zu entwickeln, aber diese Heidenarbeit kann man nur von einem fanatischen Idealisten erwarten. Ich denke, mann kann aber auch durch Sammeln von Aufgaben (z.B. die "harten Nüsse" hier im Forum usw.) selbst zu einer Anzahl von aussagekkräftigen Stellungen kommen.
Letztlich kommt es wahrscheinlich drauf an, was du mit einem Stellungstest erreichen willst.
Eine Spielstärkerangliste aufstellen?
Das gelingt wahrscheinlich damit nur grob, weil manche Aspekte unberücksichtigt bleiben.
Eine Spielstärkezahl (von manchen hier gar irrtümlich mit ELO bezeichnet) ermitteln?
Nein!
Herausfinden, welche Engine für einen bestimmten Stellungstyp bei Fernschachanalysen gut ist (Analysefähigkeit)?
Könnte ich mir immer noch sehr gut vorstellen.
Freundliche Grüße von deinem alten Fernschachgegner
Ulrich
Hallo Peter,
wurde ja schon hinreichend darüber diskutiert.
Ja, eine guter Stellungstest ist immer willkommen und in Ergänzung hinsichtlich "Möchte etwas mehr zu den Stärken und Schwächen von Engines herausfinden" nach wie vor ein richtig gute Ergänzung. Glaube das diese Art Engines zu testen niemals an Interesse verlieren wird.
Wir sollten aber schon in der Lage sein zu differenzieren.
Das ist keine Konkurrenz zu einer Ratingliste sondern eher eine willkommene Ergänzung.
Daher sollte ein Stellungstest auch nicht für Elo Berechnungen missbraucht werden, zumal alles was es dahingehend gab eher eine Vergewaltigung der ohnehin schon schwachen Elo Berechnung ist.
Ferner glaube ich fest daran, dass ein wirklich guter Test auch in etwa die Spielstärkeverhältnisse einer Ratingliste wiederspiegeln könnte. Dafür müssen wir aber das Schachspiel katalogisieren nach möglichen Schwächen und Stärken und dann darauf einen Test-Set aufbauen.
Wie gesagt, wurde ja schon alles diskutiert und weitere Diskussionen bringen nicht sehr viel.
Es ist eine Wahnsinnsarbeit und eine solche Arbeit kann nur als Gruppenarbeit durchgehen, das kann kein Einzelner wobei ...
Die seinerzeitige Arbeit von Gurevich war gut, für einen einzelnen bzw. Verfechter dieser Art zu testen enorm was auf die Beine gestellt wurden ist.
Gruß
Frank