Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Sind Stellungstests "out"?, - und falls ja, warum?
- - By Peter Schneider Date 2011-02-14 10:33
Ich weiss, dass Stellungstests nicht alle Aspekte einer Engine-Spielstärke abdecken.
Aber so in den letzten Monaten und Jahren hört man eigentlich gar nichts mehr davon.
Bednorz/Tönissen, Eigenmanns Swisstest usw. usf.
Kein Aas scheint sich noch dafür zu interessieren.
Irgendwie mit dem Aufkommen von Rybka 2.3.2 bis Rybka 3 brach das Interesse ab.
Dabei gibt es doch jetzt so ein Flut von neuen Stars. An der Spitze Houdini, die Ivanhoe-Versionen, Stockfish, Critter und wie sie alle
heißen. Gibt es keinen Test mehr, die das Können der Engines abbilden können?
Ist das neue Houdini 1.5 der Testspitzenreiter?
Lässt sich ein die "Güte" einer Ivanhoe-Version, oder die Verbesserung eines Stockfish-Updates nicht per Testsuite ermitteln?
Ist ist Houdini jetzt besser als die einstigen Teststellungen und einige erweisen sich als unkorrekt.
Nur mal so in die Runde gefragt.
Liebe Grüße
Peter


 
Parent - - By Paul Aner Date 2011-02-14 10:58
Hallo Peter,

das siehst Du falsch. Hier gibt es eine erweiterte Testdatenbank:

http://sites.google.com/site/strategictestsuite/

m.f.G

Paul
Parent - - By Werner Preuss Date 2011-02-14 12:32
Hallo,

ich denke mal Peter liegt richtig, Stellungstests sind out.
Die Gründe hierfür sind vielfältig.

Ich denke  ein Grund ist der, das denjenigen Leuten, die hier im Forum
Stellungstests publizierten und dann auch noch aus den Ergebnissen
Rückschlüsse auf die Spielstärke einer Engine zogen, immer ein eisiger
Wind ins Gesicht wehte.

Ich denke da vor allen Dingen an M. Gurevich, der hier vor ca. 10
Jahren seinen WM-Test präsentierte. Ich habe die Damaligen Diskussionen
nur unvollständig in Erinnerung. Es wurden aber nicht immer die freundlichsten Worte gewählt.
Inzwischen hat sich M.G. aus diesem Forum (und auch aus dem Computerschach?)
zurückgezogen. Schade drum.

Auch um andere Entwickler von Stellungstests ist es still geworden. W. Eigenmann
hat tolle Sachen gemacht (Tip: Nightmare von 2005). Die Entwichklung eines weiteren
Großen Stellungstests hat er wohl abgebrochen. Ich meine zumindest, das er hier so schrieb.

Oder: Wer kennt z.B. noch den Blivorix von M. Scheidl

Es gibt weitere Gründe: Stellungstest müssen weiterentwickelt werden,
die Hardware wird laufend stärker, der WM-Test ist für heutige Hardware nur bedingt geeignet.
Vom Bednorz Tönnnisen Test ganz zu schweigen.

Wie dem auch sei, ich arbeite immer wieder mal und gerne mit Stellungstests
und hoffe das es mal wieder zu einer kleinen Renaissance dieser Spielart kommt.

Gruß
W
Parent - - By Ingo Bauer Date 2011-02-14 16:11
Hallo

Ja, Stellungstest sind tot, allerdings ist deine Begründung zu kurz glaube ich.

Warum weht den Stellunstestern ein "eisiger Wind" entgegen ist die Frage und gibst die Antwort gleich selbst: Weil sie (Die Tests) weiterentwickelt werden müssen. In der Praxis heißt das, dass man so lange an einem Test feilt bis er die Wirklichkeit abbildet. Sollte er nicht mehr die Wirklichkeit abbilden, und das passierte bisher ALLEN Stellungstests früher oder später, muß er angepasst, weiterentwickelt werden ... Ein guter Test sollte aber die Wirklichkeit in sich tragen EHE man die Antwort kennt!

Ansonsten, zur erbaulichen Lektüre: http://www.computerschach.de/index.php?option=content&task=view&id=371&Itemid=257 Übrigens versandete die Diskussion zusehends nach dem erschienen dieses Artikels. Erst waren die Wogen noch hoch, wurden flacher und irgendwann war Ebbe und es gab es keine "aktuellen" Stellungstest mehr die sich trauen von "Rangliste" zu sprechen (Das sind dann heute "Endspielstest" oder "Taktiktests" oder ... )

Gruß
Ingo
Parent - By Michael Enderle Date 2011-02-14 21:37
hi

das problem an einem stellungstest ist das jeder ne elo am ende haben will.
stellungstests sind dazu geeignet eine grobe richtung erkennen zu lassen - mehr nicht.
auch kann man damit fehler in schachprogrammen finden.

zum l.b. artikel sei gesagt das - wenn man böse ist - auch enginematches beliebig manipulierbar sind denn 2000 1+1 partien haben ebenfalls fast keine aussagekraft - jedenfalls wäre ich da sehr vorsichtig um auf die turnierstärke zu schliessen.

gruss

micha
Parent - By Michael Scheidl Date 2011-02-14 16:28
Wobei der Blivorix (Blitzvorschauindex) kein Stellungstest, sondern ein partienbasierter Schnelltest für neue Engines bzw. -Versionen war. Leider zeigte sich bald, daß die "standardisierten" Gegner die ich konfiguriert hatte, für mehrere interessante Engines insgesamt zu schwach waren. Die Hardware war auch schwachmatisch, sodaß dem Projekt nur eine kurze Dauer beschieden war. Rein methodisch halt ich das Konzept jedoch n.w.v. für geeignet, falls man es auf aktuellem Soft- und Hardwareniveau einrichten kann.

http://computerschach.twoday.net/stories/3279924/

http://computerschach.twoday.net/search?q=Blivorix

(Sehr schade, daß mit Alaric nach V.707 nichts mehr weitergegangen ist, ähnlich wie bei Colossus-UCI u.a.)

Stellungstests als solche bleiben m.E. sinnvoll (je nach Güte des Tests usw.), z.B. um gezielt Leistungen in bestimmten Teilbereichen zu erforschen. An die Korrelation zwischen einem "umfassenden" Test und der Eng-Eng-Partiespielstärke sollte man keine allzu hohen Ansprüche stellen, obwohl manche große Tests hier brauchbare Aussagen getroffen haben. Also vereinfacht gesagt, bei einem guten Allround-Test wird derzeit Rybka immer vor Fritz rangieren, und Crafty nie zwischen beiden. Solche "Grobeinstufungen" sind nicht wertlos, gerade zumal ja derzeit ständig unbekannte Engines auftauchen, die sich in diesem Spektrum überall einordnen könnten, ganz unten oder ganz oben. So ein Test kann dann helfen, gleich geeignete Testmatchgegner auszuwählen.
Parent - By Karl Heinz Krasser Date 2011-02-14 21:49
Stellungstest sind "out" weil sie aus statistischer Sicht keine Berechtigung hatten. Das haben viele bis zum Bremertest einfach nicht verstanden oder verstehen wollen.

Es gibt aber auch einen einfach nachvollziehbaren schachlichen Grund: Schach wäre wohl zu einfach, wenn man die Spielstärke durch das Lösen von 100 oder auch 1000 Stellungen bestimmen könnte.
Parent - By U. Haug Date 2011-02-14 22:34
Hallo Peter,

[quote="Peter Schneider"]
Ich weiss, dass Stellungstests nicht alle Aspekte einer Engine-Spielstärke abdecken.
Aber so in den letzten Monaten und Jahren hört man eigentlich gar nichts mehr davon.
Bednorz/Tönissen, Eigenmanns Swisstest usw. usf.
Kein Aas scheint sich noch dafür zu interessieren.
(...)
Liebe Grüße
Peter  
[/quote]

ob etwas modern, "in" oder "out" ist, hat mich noch nie interessiert. Gilt für Mode genauso wie für Musik, Literatur oder Schach-Stellungstests.
Der große WM-Stellungstest von Michael Gurevich hat mir einst imponiert, hatte auch gelegentlich Emailkonatakt dazu mit Manfred Meiler, der mehr als 100 Engines durch den Test jagte und das Ganze in saubersten Excel-Tabellen übersichtlich auswertete.
Auch ein paar andere Testansätze fand ich interessant.
Die Hauptkritik einiger Gegner des Tests entzündete sich an der Auswertung und an der Frage, ob die Testergebnisse Rückschlüsse auf die Spielstärke erlauben. Dabei hatten sich einige Diskutierende im Ton kräftig vergriffen.

Objektiv gesichert kann man mit Stellungstests zunächst einmal herausfinden, welche Engine den entsprechenden Stellungstest am besten löst. Wenn der Test dazu noch verschieden Kategorien (Königsangriff, Endspiel, Verführung vermeiden, Strategie, ...) mit jeweils einer ansehlichen Anzahl von Aufgaben abdeckt, dann lässt sich darüber hinaus noch etwas über den Charakter einer Engine ablesen (Stärken / Schwächen). Diese Aussagen gelten heute genauso wie früher.
Sicher wäre es sinnvoll, Enginetests im Hinblick auf gestiegene Leistungsfähigkeit der Hard- und Software weiter zu entwickeln, aber diese Heidenarbeit kann man nur von einem fanatischen Idealisten erwarten. Ich denke, mann kann aber auch durch Sammeln von Aufgaben (z.B. die "harten Nüsse" hier im Forum usw.) selbst zu einer Anzahl von aussagekkräftigen Stellungen kommen.

Letztlich kommt es wahrscheinlich drauf an, was du mit einem Stellungstest erreichen willst.
Eine Spielstärkerangliste aufstellen?
Das gelingt wahrscheinlich damit nur grob, weil manche Aspekte unberücksichtigt bleiben.
Eine Spielstärkezahl (von manchen hier gar irrtümlich mit ELO bezeichnet) ermitteln?
Nein!
Herausfinden, welche Engine für einen bestimmten Stellungstyp bei Fernschachanalysen gut ist (Analysefähigkeit)?
Könnte ich mir immer noch sehr gut vorstellen.

Freundliche Grüße von deinem alten Fernschachgegner

Ulrich
Parent - By Peter Schneider Date 2016-02-19 13:59
Aus aktuellem Anlass (dem Parallelthread) schiebe ich diesen meinen Uralt-Beitrag mal nach oben.
Viele liebe Grüße
Peter
Parent - - By Frank Quisinsky Date 2016-02-19 15:27
Hallo Peter,

wurde ja schon hinreichend darüber diskutiert.

Ja, eine guter Stellungstest ist immer willkommen und in Ergänzung hinsichtlich "Möchte etwas mehr zu den Stärken und Schwächen von Engines herausfinden" nach wie vor ein richtig gute Ergänzung. Glaube das diese Art Engines zu testen niemals an Interesse verlieren wird.

Wir sollten aber schon in der Lage sein zu differenzieren.
Das ist keine Konkurrenz zu einer Ratingliste sondern eher eine willkommene Ergänzung.
Daher sollte ein Stellungstest auch nicht für Elo Berechnungen missbraucht werden, zumal alles was es dahingehend gab eher eine Vergewaltigung der ohnehin schon schwachen Elo Berechnung ist.

Ferner glaube ich fest daran, dass ein wirklich guter Test auch in etwa die Spielstärkeverhältnisse einer Ratingliste wiederspiegeln könnte. Dafür müssen wir aber das Schachspiel katalogisieren nach möglichen Schwächen und Stärken und dann darauf einen Test-Set aufbauen.

Wie gesagt, wurde ja schon alles diskutiert und weitere Diskussionen bringen nicht sehr viel.
Es ist eine Wahnsinnsarbeit und eine solche Arbeit kann nur als Gruppenarbeit durchgehen, das kann kein Einzelner wobei ...

Die seinerzeitige Arbeit von Gurevich war gut, für einen einzelnen bzw. Verfechter dieser Art zu testen enorm was auf die Beine gestellt wurden ist.

Gruß
Frank
Parent - - By Peter Schneider Date 2016-02-20 22:23
Ein weitere Idee wäre, - jetzt mit den viel besseren Programmen, der viel schnelleren Hardware, - mal die Testaufgaben der "ehemaligen Testsuites" kritisch zu beleuchten.
Vielleicht kann man ja nun mal die "alten" Tests auf Korrektheit testen 
Parent - - By Frank Quisinsky Date 2016-02-20 23:52 Edited 2016-02-21 00:09
Hallo Peter,

ja schon aber dann haben wir immer noch nicht katalogisiert. Material haben wir genügend aber dieses Material ist unorganisiert. Kommt hier und da mal eine Person um die Ecke welche Teststellungen in einen Set anbietet wie zuletzt Jon Dart. Ja mein Gott, ich habe auch über 2.000 Positionen in den letzten 30 Jahren gesammelt aber ich würde diese nicht zu einem Test-Set zusammen trommeln.

Bevor irgend etwas an Stellungen gesammelt wird muss eine vernünftige Aufteilung her.

Allein die zu erstellen ist eine echte Aufgabe.
Steht die Aufteilung können wir die Stellungen zu ordnen.

Es gibt ja viele Verfechter von Stellungen testen. Klar wir haben sehr schnell ein Ergebnis und da die Gemeinde eher unruhig und ungeduldig ist möchten wir schnelle Ergebnisse bei der Masse an verfügbaren Engines und ständigen Updates. Aber meines Erachtens wird immer von den gleichen Kandidaten laufend blöd rumdiskutiert anstatt mal endlich Hand anzulegen und etwas zu starten (meine nicht Dich). Wenn diese Gruppe von Personen es nicht versteht sich selbst zu organisieren wird es bei "leider" dummen gequatsche bleiben und aus lauter Frust wird dann gar noch strukturiertes angegriffen bzw. wird ein versucht ein Feindbild zu Ratinglisten zu bewirken. Klar sind Ratinglisten viel einfacher zu erstellen. Ein paar Conditions ausarbeiten und die Engines aufeinander hetzen. Das ist nicht schwierig. Hierbei ist nur Geduld angesagt weil jeder der damit mal anfängt wird erschlagen von ständigen Updates die oftmals auch noch fehlerhaft sind.

Diese Szene ist sich einfach nicht grün.
Ob Firmen die oftmals einfach an den Interessen vorbei entwickelt haben (Thema Engine Protokolle, Kompatibilitäten) oder bei den Usern selbst. Zu viele Stiere sind unterwegs und jeder ist beleidigt wenn er merkt er hat mal nicht die Weisheit gefressen.

Wir können zwar immer noch stolz auf diverse Dinge schauen ...
Gruppe von Personen zieht sich zusammen und bringt Stockfish auf ein hohes Niveau ... in der Vergangenheit machte ich das mit Arena (möglich viele ins Boot holen, Martin wird sich nicht gerne an die Zeit zurückerinnern als täglich x Mails hin-und hergingen ... mein Gott ... 40 Forenbeiträge im Durchschnitt täglich, über 200 eMails täglich ...) aber nur so wird etwas entstehen. Eine ToDo Liste bei dem ständig neue Optionen ausgearbeitet wurden die dann ständig wieder geprüft werden mussten. Martin und seine Aufteilung der Prozesse ... je mehr die GUI kann desto mehr Prozesse und RAM und desto Fehler anfälliger. Ständiges optimieren der Prozesse war für ihn sicherlich seinerzeit bei den vielen neuen Optionen das größte Problem.

Beim Thema Stellungstest brauchen wir eine starke Community und deren Verfechter müssen sich zusammenschließen weil hier einfach kein Bröttchen backen angesagt ist ... es wird aufgrund der Komplexheit einfach nichts vernünftiges dabei raus kommen. Das haben die Verfechter aber noch nicht so richtig verstanden und letztendlich nach vielen sinnlosen Diskussionen werden dann mal wieder Test-Set Arbeiten von anderen gefeiert weil ja auch nichts anders auf die Beine gestellt wurde.

Eine richtig gute Idee die auch wichtig ist um mehr über Engines zu erfahren wird von ein paar Nasen einfach zerredet.
Das ist dann der Beitrag der Verfechter von Stellungs-Test Klamotten.

Glaube die warten nur darauf das einer für sie die Arbeit erledigt.

Gruß
Frank

Gruevich hatte seinerzeit schon verstanden das Themenbereiche her müssen. Hier dann Stellungen zugeordnet werden sollten. Nur er beharrte auf seinen glaube ich 5 Stellungen zu Themenbereichen die auch noch nicht ausgefeilt genug waren. Er war auf den richtigen Weg und steckte sehr viel Arbeit in das Thema aber er war nicht in der Lage Kritik aufzunehmen um dann seine eigene Arbeit zu verbessern. Nun das ist nicht neu ... Kritik verträgt niemand so wirklich anstatt dankbar zu sein wenn sich jemand Gedanken macht um ein Thema nach vorne zu treiben.

Wieder Arena ...
Frank, wenn wir so öffentlich die Bugliste veröffentlichen denkt ja jeder ich könne ich nicht programmieren.
Ich sagte permanent zu Martin, da musst Du drüber stehen.
Nur so bringen wir Arena da hin wo es stehen sollte.
Auch Martin hatte damit ein Problem und war natürlich ständig bemüht die ToDo Liste abzuarbeiten.
So ganz korrekt war das seinerzeit sicherlich nicht aber nur so funktioniert es.
Wo etwas entwickelt wird sollte kein Platz für Eitelkeit sein und Martin war alles andere als eitel, eher stolz über das Ergebnis welches mit den Jahren immer besser wurde.
Habe bislang noch keinen so genauen Programmierer kennengelernt der wirklich in der Lage wäre auf jeder Anzeige einer Waschmaschine noch einen Eng-Eng Zweikampf zu programmieren.

Das haben viele in der Community immer noch nicht verstanden.
Sofern eine Kritik auch nur vermutet wird ... der Stier rennt los ohne Rücksicht auf Verluste und macht auch keinen Unterschied ob er auf ein Gummibärchen los läuft oder auf eine nicht friedfertiges Nashorn. Und glaube mir mal in der Community mussten schon viele Gummibärchen böse Qualen durchstehen.
Parent - By Frank Quisinsky Date 2016-02-21 00:22 Edited 2016-02-21 00:27
Viele Gummibärchen wollen auch nur in die Colorado Tüte und ergreifen jede Möglichkeit darein zu kommen.
Und dann gibt es noch die wilden Nashörner die vor lauter Frust vor dem Leben ihr Heil in den Computerschachforen suchen und Ihren merkwürdigen Gelüsten freien Lauf lassen. Nichts anderes zu tun haben als Entwicklungen wie Arena ständig zu blockieren, vor lauter Eifersucht aus welchen Gründen auch immer das Hirn so etwas unsinniges auch zugelassen hat.

18 Klageandrohungen sind in meinem 224.125 umfassenden Outlook e-Mail Verzeichnis zur seinerzeitigen Arena Entwicklung. Eine Klageandrohung ist immer das größte Kompliment welches natürlich gebührend gefeiert wurde. Wir hatten oft Gründe zu feiern zumal viele Gegner von Arena heute die größten Arena Fans sind sich aber in Zeiten der Entwicklung nicht daran beteiligt haben sondern eher blockierend unterwegs waren.

Wenn denn eine Gruppe von Personen wirklich mal etwas startet und das Interesse der Masse anzieht dann hoffe ich nur das diese Gruppe starken Nerven hat ... bei den Leuten die sich einfinden werden.
Mal schauen wer die Mut hat sich zu stellen und beginnt etwas zu organisieren. Personen aus aller Welt werden Stellungen senden und wenn dann eine geiles Matt in einen Zug nicht in ein Test-Set aufgenommen wird geht es los mit den Beschimpfungen. Möchte gar nicht daran denken ...

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Sind Stellungstests "out"?, - und falls ja, warum?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill