Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Plädoyer für Stellungstests
1 2 Previous Next  
- - By Walter Eigenmann Date 2016-02-02 10:49
Bei der Durchsicht von CEGT-Partien fiel mir kürzlich eine Partie Komodo vs Protector auf,
wo die folgende Stellung entstanden war (gespielt bei Tester Werner Schüle im Dez. 2015):

Weiss am Zuge


Die Stellung scheint ziemlich ausgeglichen (und die Programme bewerten sie auch durchwegs so).
Dementsprechend wollen sie hier alle rumddümpeln mit f3 oder h3 oder Td3 oder b3. Und liesse man sie
die Position in einem grösseren Engine-Turnier ausspielen, gäb's wohl eine Remis-Orgie.

Nicht so aber, wenn der aktuelle Co-Leader Komodo mitspielte! Dieser "sah" nämlich in der Partie richtig,
dass seine Bauernmehrheit am Königsflügel einen Durchbruch gestattet, und dass diese Option sogar den Verzicht
auf die einzige freie Linie erlaubt. Die Engine fand den in dieser Stellung wohl vielversprechendsten Zug,
um einen Freibauern zu protegieren:

23. Tf1! Td8 24. f4 Td2+ 25. Tf2 Td1 26. Kf3 Kd8 27. f5 Lc5 28. Tg2 Td4 29. f6 Ke8 30. h4 Td1
31. hxg5 hxg5 32. Th2 +-
Die Partie ist jetzt (mit dem weissen Freibauern auf f6 und dem schwarzen Schwächling auf g5)
"technisch" gewonnen für Weiss (und Komodo gewann sie auch: siehe untenstehende Original-Notation).

In obiger Stellung ist meines Erachtens das weisse Tf1 der objektiv beste Zug (und ich denke man könnte das auch
in langwieriger Analyse nachweisen), auch wenn es nicht ein zwingend gewinnender (ausserdem alles andere
als ein spektakulärer) Zug ist, und auch wenn andere Züge nicht sooo gravierend schlechter sind, weil sie die remisliche Stellung
halt nur zementieren, aber nicht verlieren.

Jedenfalls aber: Das möglichst häufige (Nicht-)Finden solcher Züge in möglichst vielen Partien entscheidet darüber, wo eine Engine
in Ranking-Listen wie dem CEGT schliesslich landet - wie stark sie also ist. Und darum spielt Komodo ein derart starkes
und attraktives Schach (und dominiert mit Stockfish so klar die Szene). Das hört sich trivial an, ist es aber nicht.

Ein gut designter Stellungstest macht nun aber gar nix anderes als in komprimierter Form nach vielen eben solcher Züge
suchen zu lassen. (Wobei Mittel- und Endspiel einigermassen ausgewogen berücksichtigt werden müssen. Die Eröffnungsphase
kann man hingegen in diesem Zusammenhang ignorieren: Kein gut konzipiertes Engine-Turnier wird in den Books oder
in seinen Stellungs-Vorgaben Eröffnungsvarianten zu klaren Un-/Gunsten einer Farbe gestatten, sondern die Programme
in ausgewogene Mittelspiele entlassen).

Kurzum: Ein Stellungstest mit drei- bis vierhundert ausgesuchten Positionen kann - entgegen der hier immer wieder
geäusserten Meinung - sehr wohl recht präzis die Stärke eines Programms eruieren. Ein wesentlicher Unterschied
zum "traditionellen" Engine-Turnier ist halt:
Der Stellungstest hat ein aussagekräftiges Ranking nicht nach einigen Wochen zusammen, sondern schon nach ein, zwei Tagen...

Gruss: Walter

____________________________________

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Stellungs-Analyse Komodo:

23.a3 a6
  =  (0.13 --)   Tiefe: 9   00:00:00  21kN
23.f3 Kb7 24.Lf2 c5 25.Le3 c4 26.h4 Kc6 27.hxg5 hxg5 28.Kg3 a6 29.b3 cxb3 30.cxb3 Tf7 31.Tc1+ Kb7 32.Th1 Kc6 33.Th5 Tg7 34.Th8 Lb4 35.Td8
  =  (0.22)   Tiefe: 9   00:00:00  27kN
  +/=  (0.32)   Tiefe: 21   00:00:02  9678kN
23.Tf1 Lc5
  +/=  (0.43 ++)   Tiefe: 21   00:00:02  11485kN
  =  (0.28 --)   Tiefe: 21   00:00:04  22435kN
23.f3 Lc5 24.Td3 Le7 25.Lf2 c5 26.c4 a6 27.Td1 Th8 28.Le3 Kb7 29.h3 Kc6 30.b3 Kb7 31.Td7 Th7 32.Kg3 Kc6 33.Td3 Tf7
  +/=  (0.33)   Tiefe: 21   00:00:04  26218kN
  +/=  (0.32)   Tiefe: 22   00:00:06  35387kN
23.Tf1 Td8 24.f4 Td2+ 25.Tf2 Td1 26.f5 Kd7 27.c3 Ke8 28.Kf3 Lc5 29.Te2 Kf7 30.b4 Lf8 31.Tc2 c5 32.Lf2 a6 33.Ke4 Td5 34.Le3 Lg7 35.f6 Lf8 36.a3 Td1 37.h3 Td5 38.Tc1 c4 39.Tc2 a5 40.Td2 Txd2 41.Lxd2 axb4 42.axb4 c6
  +/=  (0.40 ++)   Tiefe: 22   00:00:06  35561kN
  +/=  (0.58)   Tiefe: 34   00:03:29  1418MN, tb=10696

.
Parent - - By Ralf Mueller Date 2016-02-02 11:31
Hallo Walter,

interessante Stellung. Ich sehe bei Stellungstests immer ein methodisches Problem - wie willst du objektiv bestimmen, ob ein Stellungstest gut oder schlecht designt ist?
Parent - - By Benno Hartwig Date 2016-02-02 14:17

> wie willst du objektiv bestimmen, ob ein Stellungstest gut oder schlecht designt ist?


Was ist überhaupt die Zielsetzung für einen guten Stellungstest?
Ist solche ein Stellungstest dann besonders gut, wenn er die Reihenfolgen und Abstände widerspiegelt, die (mit sehr viel Zeitaufwand) durch eine sehr umfangreiche Rangliste gezeigt werden könnten?
Oder stehen da auch ganz andere Ziele im Raum?

Benno
Parent - By Michael Scheidl Date 2016-02-02 15:57
Zitat:
Oder stehen da auch ganz andere Ziele im Raum?

Realistischerweise sollten sich Stellungstests eng begrenzten Themen bzw. Partiephasen widmen.
Parent - By Tommy Tulpe Date 2016-02-14 14:56 Upvotes 1
Ralf Mueller schrieb:

Hallo Walter,

interessante Stellung. Ich sehe bei Stellungstests immer ein methodisches Problem - wie willst du objektiv bestimmen, ob ein Stellungstest gut oder schlecht designt ist?


Hallo miteinander,

die etwas Älteren hier erinnern sich wahrscheinlich noch an Michael Gurevichs "WM-Test". Der Autor vertrat die Aussagekraft dieses Test mit großer Heftigkeit, aber auch mit viel Sachkenntnis gegen Zweifler, die sowas für prinzipiell sinnlos hielten.
Ich will jetzt gar nich wieder über den Sinn oder Unsinn von Stellungstests streiten, sondern lediglich mitteilen, dass ich mir seitdem einen privaten Stellungstest "zusammengebastelt" habe mit dem Ziel, herauszufinden, welche der heutigen Spitzenenengines mit bestimmten Stellungstypen und in bestimmten Partiephasen besonders gut zurecht kommt. Das ist für meine Fernschachanalysen sehr nützlich. Ich will also nicht irgendwelchen praktischen Ranglisten Konkurrenz machen.

Details bleiben privat, da bitte ich um Verständnis. Wenn meine Gegner beim Fernschach meine bevorzugte Analyseengine kennen, bin ich noch ausrechenbarer und es wird noch schwieriger, ab und zu 'mal mehr als einen halben Punkt zu holen...

Gruß

Ulrich
Parent - - By Frank Qy Date 2016-02-02 11:56
Tja, war 45 Minuten schneller. Hatten offenbar die gleichen Gedanken. Nun haben wir zwei neue Threads zum Thema. Hättest Du deinen 45 Minuten früher geschrieben hätte ich meinen nicht eröffnet. Wobei dieses Thema schon vor 15 Jahren diskutiert wurde aber die Community nicht stark genug war das auch umzusetzen weil gigantisch viel Arbeit. heute sind wir ja viel verwöhnter und wollen anwenden und weniger entwickeln weil wir deutlich mehr haben womit wir uns beschäftigen könnten als als früher.

Eine Ratingliste erstellen kann jeder wenn er will und ist nichts besonderes, will nicht schreiben kann jeder Depp. Aber ein guter Test-Set ist eine Herausforderung.
Parent - By Benno Hartwig Date 2016-02-02 14:23

> will nicht schreiben kann jeder Depp.


Dann hast du aber seltsam fomuliert.
Ich bin den Jungs von CEGT und CCRL und Andreas und Ingo und Stefan und... zumindest sehr dankbar, und ich finde sie machen einen tollen Job und ihre Ergebnisse sind sehr interessant.
Beschäftigung mit Stellungstests mag natürlich faszinierend sein,
aber ob überhaupt irgendeiner davon auch nur in die Nähe der Aussagekraft der umfangreichen Ratinglisten kommt, ist für mich sehr fraglich.

Benno
Parent - - By GS Date 2016-02-02 16:02 Upvotes 2
Walter Eigenmann schrieb:

[...snip...]

Kurzum: Ein Stellungstest mit drei- bis vierhundert ausgesuchten Positionen kann - entgegen der hier immer wieder
geäusserten Meinung - sehr wohl recht präzis die Stärke eines Programms eruieren. Ein wesentlicher Unterschied
zum "traditionellen" Engine-Turnier ist halt:
Der Stellungstest hat ein aussagekräftiges Ranking nicht nach einigen Wochen zusammen, sondern schon nach ein, zwei Tagen...

[...snip...]


Umgekehrt wird ein Schuh daraus !

So-called "Stellungstests" sind Zeitverschwendung, denn sie
überprüfen folgende (wichtige) Elemente des Spieles überhaupt nicht:
- Zeiteinteilung
- die Fähigkeit einen Vorteil in zählbares umzumünzen (oder eben nicht)
- die Fähigkeit eine schlechte(re) Stellung zu halten (oder eben nicht)

Und da gibt es mit Sicherheit noch einige Dinge mehr, welche
ausschliesslich durch Partien überprüft/gemessen werden können,
nicht jedoch durch einzelne Züge !
Parent - - By Michael Scheidl Date 2016-02-03 13:30
Zitat:
...sie überprüfen folgende (wichtige) Elemente des Spieles überhaupt nicht:

- Zeiteinteilung
- die Fähigkeit einen Vorteil in zählbares umzumünzen (oder eben nicht)
- die Fähigkeit eine schlechte(re) Stellung zu halten (oder eben nicht)

Und da gibt es mit Sicherheit noch einige Dinge mehr, welche
ausschliesslich durch Partien überprüft/gemessen werden können,
nicht jedoch durch einzelne Züge !

Ja, das sehe ich auch so. Die Stellungen einer praktischen Partie haben idealerweise eine Art "organischen Zusammenhang", der bestimmt nicht zuletzt durch das Beibehalten der Hashinhalte voriger Züge mit bewirkt wird. Viele Positionen haben keinen brauchbaren Testcharakter (also eindeutig besten Zug), tragen aber ebenfalls zu Erfolg oder Mißerfolg bei, nicht nur die klassischen Knackpunkte.

Deswegen erlauben selbst gute umfassende Stellungstests keine so präzisen Einstufungen einer Gesamt-Partiespielstärke wie partiebasierte Ranglisten, sondern nur eine Annäherung, mit evtl. einzelnen Ausreißern. Was sie aber nicht nutzlos macht, können sie doch schnell einen "educated guess" liefern, eine begründete Annahme obzwar diese notgedrungen, im Sinne des obigen, auf einer unvollständigen Leistungsfeststellung beruhen muß.

Spartentests die auf Teilaspekte abzielen, wie etwa Endspielwissen, Unterverwandlungen, Opferkombinationen usw. sind auf jeden Fall nützlich, beschreiben aber natürlich keine gesamte Spielstärke. Diese zeigen meines Erachtens vor allem, welche Engines man am besten mit welchem Stellungstyp zum Analysieren hernimmt.
Parent - - By Walter Eigenmann Date 2016-02-03 20:02
Michael Scheidl schrieb:

Die Stellungen einer praktischen Partie haben idealerweise eine Art "organischen Zusammenhang"...


Das ist aber seeehr "ideal"isiert

Man schaue sich mal die Notationen von Fritz-GUI-Turnieren an, wo hinter dem eigenen Engine-Zug der erwartete/vorberechnete des Gegners
dokumentiert ist: Häufiger als nicht steht da was ganz anderes - von "organischem Zusammenhang" findet sich da nicht viel.

Ich meine vielmehr, dass eine Computerschach-Partie eine Reihung von "Spontan-Entscheidungen" ist. Diesen Effekt mögen üppige Hash-Füllungen
vielleicht abdämpfen, aber nicht entscheidend verhindern.
Und dieser Effekt unterscheidet das Maschinenschach wesentlich vom menschlichen (= enorm psychologisch determinierten).

Einem starken Schachspieler mit einem Stellungstest zu kommen würde ich also nie in Erwägung ziehen, das käme nicht mal in die Nähe seiner realen
Turnier-Performance. Beim Computerschach sind jedoch adäquate Sets IMHO ein probates Mittel, die Turnierstärke einzustufen:
es ist quasi das gleiche "genetische" Material.

Gruss: Walter

.
Parent - - By Ralf Mueller Date 2016-02-03 20:45
Zitat:
Beim Computerschach sind jedoch adäquate Sets IMHO ein probates Mittel, die Turnierstärke einzustufen:
es ist quasi das gleiche "genetische" Material.

Hallo Walter,

wie ich schon oben fragte: Wie willst du die Auswahl des Stellungstests objektivieren?
Ich habe da ein bestimmtes Gedankenspiel vor Augen: Angenommen, du machst einen Spielstärketest, von dem du der Meinung bist, dass er sehr ausbalanciert ist. Dann führst du ihn durch und stellst fest: Sein Ergebnis ist völlig anders als die herkömmlichen Ranglisten. Wer hat denn nun recht?
Meiner Meinung nach: Natürlich die durch Partien erzeugten Ranglisten. Der Stellungstest kann nur versuchen, dieses Ergebnis zu simulieren. Also ist das einzig gültige Qualitätskriterium des Stellungstests, dass er das Ergebnis der durch Partien erstellten Ranglisten kopiert.
Was hat das zur Folge? Nach langer mühseliger Arbeit hast du einen Test entwickelt, der die ohnehin schon bekannte Rangliste abbildet. Das ist aber leider überhaupt keine Garantie, dass das auch für neu hinzukommende Engines gilt. Der Stellungstest kann nie die Partientests ersetzen. Bei jeder neuen Engine könnte man mit dem Stellungstest einen ersten Spielstärkeeindruck gewinnen, aber ohne jegliche Sicherheit. Wäre es dann nicht genausogut, die Engine in der gleichen Zeit mit wenigen Partien zu testen?

Ich glaube nicht, dass sich aus dieser Ergebnisunsicherheit heraus der riesige Aufwand zu einem komplex designten Stellungstest lohnen würde.
Parent - - By Walter Eigenmann Date 2016-02-04 17:36
Ralf Mueller schrieb:

Zitat:
Beim Computerschach sind jedoch adäquate Sets IMHO ein probates Mittel, die Turnierstärke einzustufen:
es ist quasi das gleiche "genetische" Material.

Hallo Walter,

wie ich schon oben fragte: Wie willst du die Auswahl des Stellungstests objektivieren?
Ich habe da ein bestimmtes Gedankenspiel vor Augen: Angenommen, du machst einen Spielstärketest, von dem du der Meinung bist, dass er sehr ausbalanciert ist. Dann führst du ihn durch und stellst fest: Sein Ergebnis ist völlig anders als die herkömmlichen Ranglisten. Wer hat denn nun recht?

Mein Point ist, dass aus 400 sorgfältig ausgesuchten, schachthematisch möglichst breit abdeckenden Teststellungen
nicht ein "völlig anderes Ergebnis als die herkömmlichen Ranglisten" resultieren kann.
Diese Test-Rangliste hat evtl. durchaus Ranking-Ausreisser - aber das haben die "herkömmlichen" auch; guckst du hier:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=8832

Das Problem bei der ganzen Diskussion ist halt: Man muss einen Tatbeweis für diese Annahme liefern -
will heissen eine Menge Knowhow und Zeit und Geduld investieren in einen neuen modernen ultimativen Super-Hyper-Test...
(Es sei denn, Frank Quisinksys Anregung eines entspr. Netzwerkes kann realisiert werden, was allerdings bei der
extrem heterogenen Community schier illusorisch scheint...).

Bis aber so ein Stellungstest da ist und jeweils recht zuverlässig das Ranking-Potential einer neuen Engine prognostizieren kann,
werden die Skeptiker nicht schweigen - und irgendwie verstehe ich sie sogar...
Denn der Mechanismus scheint dem Menschen immanent zu sein: "Dass nicht sein kann, was nicht sein darf" (Morgenstern)

Gruss: Walter

.
Parent - - By Ralf Mueller Date 2016-02-04 17:52
Hallo Walter,
da hast du mich glaub ich missverstanden. 
Selbst wenn es so einen Kurztest zur Spielstärkebestimmung gäbe, verstehe ich die Vorteile von ihm gegenüber dem Ausspielen von wenigen Partien (wie es momentan von Leuten zur ersten Spielstärkeeinschätzung gemacht wird) nicht!? Oder ist das einfach Geschmackssache? Wenn ja, lohnt sich dann der hohe Design- und Wartungsaufwand?
Parent - - By Walter Eigenmann Date 2016-02-04 18:43
Hallo Ralf

Ralf Mueller schrieb:

Selbst wenn es so einen Kurztest zur Spielstärkebestimmung gäbe, verstehe ich die Vorteile von ihm gegenüber dem Ausspielen von wenigen Partien (wie es momentan von Leuten zur ersten Spielstärkeeinschätzung gemacht wird) nicht!? Oder ist das einfach Geschmackssache? Wenn ja, lohnt sich dann der hohe Design- und Wartungsaufwand?


Nun ja, ein solcher Stellungstest generiert natürlich - wenn er denn nicht nur Ranglisten erstellen, sondern auch noch
schachliche Auskünfte über die Engines geben soll - schon ein bisschen mehr Aufwand als einfach ein paar tausend
Blitzpartien runternudeln zu lassen.
Aber irgendwie muss man ja die 80 Jährchen bis zum Hinschied überbrücken...

Im Ernst: Mir persönlich gefällt es einfach, mich mit Schachstellungen und deren Wirkung auf Computerprogramme
auseinander zu setzen. Und wenn daraus ggf. noch ein Mehrwert für die Community entsteht, soll's mir recht sein.

Was den zeitlichen Vorteil gegenüber herkömmlicher Turnier-Statistik anlangt, so wäre dieser nicht zu unterschätzen:
400 Test-Stellungen x 30 Sek./Engine/4CPU ergibt knapp 3,5 Stunden, wonach die neue Engine(-Version) ihren Platz
in der Hierarchie zugewiesen erhält. Das ist schon deutlich schneller als die traditionelle Methode.
Ok, bei CEGT & Co. sind oft mehrere Leute gleichzeitig im Einsatz - aber das könnte man bei einem kleinen
Netzwerk von Stellungstestern ja ebenfalls praktizieren: 4 Leute testen je 100 Stellungen, und nach knapp
einer Stunde steht fest, wie gut/schlecht "die Neue" im Vergleich zu den anderen Schach spielt...
Und in diesem Falle könnten es ja dann auch 1000 Stellungen sein, die über Nacht erledigt würden.

Meine einzige Sorge ist wirklich: wie kommen wir zu diesen 1000 Stellungen? 

Gruss: Walter

.
Parent - By Ralf Mueller Date 2016-02-04 21:54 Edited 2016-02-04 21:56
Zitat:
Im Ernst: Mir persönlich gefällt es einfach, mich mit Schachstellungen und deren Wirkung auf Computerprogramme
auseinander zu setzen. Und wenn daraus ggf. noch ein Mehrwert für die Community entsteht, soll's mir recht sein.

Aber Daten werden doch auch bei herkömmlichen Tests genug produziert, du musst sie nur auswerten-.Was hindert dich daran, dir die Testpartien einfach anzuschauen, genauso wie du dir die Teststellungen anschauen würdest?  Frank macht doch dazu auch sehr schöne Statistiken.

Zitat:
400 Test-Stellungen x 30 Sek./Engine/4CPU ergibt knapp 3,5 Stunden, wonach die neue Engine(-Version) ihren Platz
in der Hierarchie zugewiesen erhält. Das ist schon deutlich schneller als die traditionelle Methode.

Da hast du Recht. Wobei der Test ja auch ständig gewartet werden muss und dadurch auch alte Ergebnisse wieder gelöscht und neu berechnet werden müssen. Das ist ja auch nicht zu übersehen.

Zitat:
aber das könnte man bei einem kleinen
Netzwerk von Stellungstestern ja ebenfalls praktizieren: 4 Leute testen je 100 Stellungen, und nach knapp
einer Stunde steht fest, wie gut/schlecht "die Neue" im Vergleich zu den anderen Schach spielt...
Und in diesem Falle könnten es ja dann auch 1000 Stellungen sein, die über Nacht erledigt würden.

Ich dachte, es ging um ein schnelles Abschätzen für den Hobbyschächer und nicht um professionelle Testteams? Die sollten doch auf jeden Fall bei den ergebnissichereren herkömmlichen Ausspielen bleiben!
Parent - - By Michael Scheidl Date 2016-02-03 20:51
Zitat:
Man schaue sich mal die Notationen von Fritz-GUI-Turnieren an, wo hinter dem eigenen Engine-Zug der erwartete/vorberechnete des Gegners dokumentiert ist: Häufiger als nicht steht da was ganz anderes - von "organischem Zusammenhang" findet sich da nicht viel.

Dann waren zu viele "weniger starke" Engines beteiligt. Unter den Top-10 müssen die Pondertreffer 65% oder mehr betragen. - Natürlich, wenn die Gegner Blödmänner sind liefern sie vielleicht oft nicht das Erwartete, aber das ist ja dann nicht Schuld der weitaus stärkeren Engines, wenn der organische Zusammenhang zerstört wird weil der Gegner zu dumm ist.
Parent - - By Walter Eigenmann Date 2016-02-04 16:46
Michael Scheidl schrieb:

Zitat:
Man schaue sich mal die Notationen von Fritz-GUI-Turnieren an, wo hinter dem eigenen Engine-Zug der erwartete/vorberechnete des Gegners dokumentiert ist: Häufiger als nicht steht da was ganz anderes - von "organischem Zusammenhang" findet sich da nicht viel.

Dann waren zu viele "weniger starke" Engines beteiligt. Unter den Top-10 müssen die Pondertreffer 65% oder mehr betragen. - Natürlich, wenn die Gegner Blödmänner sind liefern sie vielleicht oft nicht das Erwartete, aber das ist ja dann nicht Schuld der weitaus stärkeren Engines, wenn der organische Zusammenhang zerstört wird weil der Gegner zu dumm ist.


Irgendwie erinnert mich dein Argument an Aljechin: Der soll regelmässig fuchsteufelswild
geworden sein, wenn ihm mal wieder ein patzender Gegner das ganze ästhetische Kunstwerk
seiner hochfliegenden Pläne mit unerwartet schlechten Gegenzügen zerstörte

Aber was ich fragen wollte:
- Wie kommst du denn auf diese "65% oder mehr" Pondertreffer bei den Top-Ten?
Ist das statistisch eruiert oder einfach von dir "gefühlt"?
Wenn ersteres, wären entspr. Infos im Netz dazu interessant.

Und selbst wenn dies zuträfe, wären da immer noch eine Menge Zwangszüge sowie die teils
langen Eröffnungs-Vorgaben bei manchen Engine-Turnieren zu subtrahieren,
so dass es vielleicht noch +/- 50% tatsächliche Treffer wären.
(Ist ja auch "normal" so - Schach ist komplex).

Doch wenn so ungefähr jeder zweite Partiezug "daneben" liegt, kann zwar immer noch eine
hochinteressante Schachpartie entstehen, aber gewiss nicht ein "organischer Zusammenhang".

Und schliesslich haben wir noch den Aspekt, dass die aktuelle Computerschach-Szene
- soweit ich das überblicke - den überwiegenden Teil ihrer Partien ohne Pondering
absolvieren lässt. Dann hangeln sich die Programme erst recht von einer Überraschung
zur anderen.
(Zugegeben, wenn ein anderer als der erwartete Zug vom Gegner gespielt wird, heisst das nicht,
dass der "falsche" nicht auch in die Berechnung eingeflossen ist - aber sicher weitaus weniger.)

Was ich eigentlich meine: Menschliche Spitzenspieler verfolgen beim Schachspielen Pläne;
das heisst sie ziehen Strategien durch, denken weiträumig, und auch wenn die Stellung mal
objektiv bessere Züge birgt, werden diese zugunsten des einmal als richtig erkannten Weges
verworfen bzw. gar nicht erst gesucht/bemerkt, weil die hochselektive Mustererkennung des Menschen
ganz andere Stellungsprioritäten im Visier hat.
Die Maschinen bzw. ihre Software-Gehirne "denken" da komplett anders:
Ihre Such- und Bewertungsalgorithmen haben per se nach dem jedesmal richtigen Zug zu suchen,
dafür sind sie programmiert, und dafür ist ihnen jede Tiefe recht. Ihre Ausspiel-Präferenzen
sind nicht pragmatisch oder subjektiv, sondern streng hierarisch und determiniert, höchstenfalls
positionell, aber nie strategisch, und auch bei den modernen MP-Engines herrscht nicht König Zufall,
sondern entscheiden (durchaus minimste) Bewertungsunterschiede, die ihrerseits auf logischen Rechenprozessen beruhen.
Natürlich schneiden sie mittlerweile auch was das Zeug hält, und das ist ja auch der
Hauptgrund dafür, dass sie inzwischen, in Kombination mit der gewaltigen Rechenleistung,
dem Menschen so peinlich klar überlegen sind. Es ist eine komplett andere Art des Schachspielens.

Langer Rede kurzer Sinn: Für mich ist eine Computer-Schachpartie vor allem mal eines:
ein beidseitiger Stellungstest. Man setzt sich gegenseitig 30-70 Stellungen zur Lösung vor.
Dieses Stellungstest-Set nennen wir dann Partie...

Gruss: Walter

.
Parent - By Michael Scheidl Date 2016-02-04 19:05
Zitat:
Wie kommst du denn auf diese "65% oder mehr" Pondertreffer bei den Top-Ten?

Bei CCRL wurde diese Statistik nicht durchgezogen, aber illustriert es wie folgt:

http://computerchess.org.uk/ccrl/4040/cgi/compare_engines.cgi?class=All+engines&print=Ponder+hit+-+most+similar+pairs+%28different+families+only%29

Wie man heute allerdings weiß, sind machen Paare davon nicht wirklich different Families , aber man findet auch unverdächtige Paare insbesondere mit Fritz 11/12, die alle über 68% Treffer bei den erwarteten Gegenzügen hatten. Ein aktuellerer Vergleich zeigt allerdings, daß je nach Paarung die Übereistimmung schon bei 50% beginnt; am unterschiedlichsten sind offenbar Houdini 4 und Stockfish 7:

http://tinyurl.com/h9eo9eu

Stockfish 7 gegen Komodo 9.2 lieferte 68,4% Ponderhits

Zitat:
...den überwiegenden Teil ihrer Partien ohne Pondering absolvieren lässt. Dann hangeln sich die Programme erst recht von einer Überraschung zur anderen.


Dem ist nicht so, denn die beibehaltenen Hashinhalte bereiten die jeweilige Engine gut darauf vor, wenn der erwartete Gegenzug geschieht. Das konnte man bei TCEC (ponder off!) oftmals mit Houdini 4 beobachten, der bei Zügen die er in er HV. erwartet hatte, ohne Bedenkzeit einfach aus dem Hash heraus zog. Das waren natürlich Ausnahmesituationen, aber dann spielte Houdini den vorberechneten Shit einfach sofort aus, sehr zum Genuß des Publikums. - Im allgemeinen sieht das nicht so spektakulär aus, aber eine Engine die den Gegenzug richtig erraten hat, genießt immer den Vorteil nützliche Hashinhalte bereits zuvor berechnet zu haben, egal ob ponder on oder off.

Zitat:
Für mich ist eine Computer-Schachpartie vor allem mal eines: ein beidseitiger Stellungstest. Man setzt sich gegenseitig 30-70 Stellungen zur Lösung vor. Dieses Stellungstest-Set nennen wir dann Partie...

Daran glaube ich nicht mehr. Viele Positionen im Verlauf einer Partie haben den klassischen (notwendigen!) Testcharakter nicht. Viele Wege führen nach Rom sozusagen; Unterschiede im Hundertstelbauern-Bereich werden wirksam. Das bedeutet, wenn die stärkere Engine dort entscheidend besser agiert, ist das stellungstestmäßig nicht faßbar. D.h. Deine reduktive Philosphie bezüglich dessen zweifle ich an. Eine gute Schachpartie, wie sie unsere Topengines jederzeit abliefern können, kann nicht auf eine Abfolge einzelner, isolierte Stellungen reduziert werden. Das war vor 2000, mag sein. Jetzt sind wir weiter. Es ist eine neue Art von Schachintelligenz entstanden.
Parent - - By Walter Eigenmann Date 2016-02-03 19:45
GS schrieb:

So-called "Stellungstests" sind Zeitverschwendung, denn sie
überprüfen folgende (wichtige) Elemente des Spieles überhaupt nicht:
- Zeiteinteilung
- die Fähigkeit einen Vorteil in zählbares umzumünzen (oder eben nicht)
- die Fähigkeit eine schlechte(re) Stellung zu halten (oder eben nicht)


Grundsätzlich kein Einspruch - auch wenn Testszenarien denkbar sind,
die obige Points 2 & 3 genau beleuchten könnten...

Die "Zeiteinteilung überprüfen"?
Ok, wen's interessiert...

Womit wir beim Punkt sind: Es gibt in der Engine-Forschung - will sagen:
im Computerschach-Hobby - keine Disziplin, die alle Fragestellungen
abdeckt. Ich erspare mir jetzt die lange Liste, die entstünde,
wenn man alles aufzählte, was an Schachlichem auf der Strecke bleibt,
wo nur Partien auf Halde produziert werden.

Kurzum: Zeitverschwendung ist, anderen Zeitverschwendung vorzuwerfen

Gruss: Walter

.
Parent - - By GS Date 2016-02-03 20:03
Walter Eigenmann schrieb:

[...snip...]
Womit wir beim Punkt sind: Es gibt in der Engine-Forschung - will sagen:
im Computerschach-Hobby - keine Disziplin, die alle Fragestellungen
abdeckt.
[...snip...]


Und die gibt es eben doch, die Disziplin, welche alle Fragestellungen abdeckt,
nämlich das Spiel so zu spielen (spielen zu lassen) wie es vorgesehen ist.
Und genau das tun die Rating-Listen-Betreiber: Spiele spielen lassen unter möglichst
fairen Bedingungen, sprich Farbwechsel, Hardwarebedingungen etc. etc. !

h.a.n.d.
Parent - - By Frank Qy. Date 2016-02-04 07:48
Hallo Gerhard,

machen wir uns nichts vor nur weil wir Jahre daran arbeiten.
Eine Ratingliste gibt eine Zahl in Elo für Engine aus.

Wir kennen das Gesamtergebnis welches die Spielstärke darstellt.
Wir kennen nicht die Gründe die zu diesem Ergebnis führen.

Es gibt im Schach mehr als 100 Themenbereiche die wir auseinander nehmen könnten.
Diese 100 Themenbereiche (die Zahl 100 ist willkürlich) bilden die Gesamtspieltstärke.

Wir können nicht hingehen und sagen die Gesamtspielstärke liegt bei 3000 Elo also macht die Engine alles richtig und ist zu empfehlen für jene und diese Analysen. Mit einer Zahl aus einer Ratingliste kann ein ambitionierter Spieler nicht wirklich etwas anfangen. Er weiß lediglich die Engines macht einiges besser als eine Engine mit 2900 Elo. Mehr weiß er nicht.

Zu sagen hier ist das Partiematerial und da ist alles drin ...
Na ja, schön und gut aber mit dem erzeugten Partiematerial fängt es erst an spannend zu werden.
Damit hört die ganze Geschichte ja nicht auf bzw. mit der Zahl in Elo die dahinter steckt.

Das wir die Ratinglisten Betreiber tun ist nicht anderes als Partiematerial zur Verfügung stellen um mehr herauszufinden ... wenn sie es tun, wenn nicht kann mit einer Liste im Grunde nicht wirklich etwas angefangen werden. Ist dann mehr eher ein Selbstzweck aus mir schleierhaften Gründen.

Das Thema beginnt spannend zu werden wenn Partiematerial aufgebohrt wird. Das Thema beginnt nicht spannend zu werden wenn eine dumme Ratingzahl generiert wird. Das ist so wie mit Karten lesen. Wir können in eine Elo alles hineininterpretieren oder auch nicht. Ganz ehrlich, Karten lesen ist spannender als sich laufend nur Elo Zahlen anzusehen. Es ist nett zu wissen wie stark im Endergebnis eine Engine ist aber mehr auch nicht. In der Elo selbst verbirgt sich das Geheimnis beim Computerschach. Der Schatz muss noch gehoben werden, wartet nur darauf.

Gruß
Frank
Parent - - By GS Date 2016-02-04 10:27 Upvotes 1
Ziehe doch den Sport als Beispiel heran, Schach wird ja oft und sehr gerne
von manchen Leuten als Sportart bezeichnet.

Im Sport gibt es überwiegend Tabellen und Ranglisten (z.B. Ligen), und wer
in jenen oben steht ist der beste. Wie das im Einzelnen zustande gekommen
ist, wird nur immer direkt nach den Ereignissen (Spieltagen, Turnieren etc.)
diskutiert, ein paar Tage später ist "das wie" vollkommen egal. Dann reicht
ein Blick auf die Tabellen. Einige Sportarten werten übrigens nach "ELO"
resp. leicht abgewandelten ELO-System aus.

Auf die Engine-Rating-Listen gemünzt:
weshalb sollte es wichtig sein einzelne Faktoren zu selektieren ?
Um den Autoren zu sagen: "hey, pass auf, deine Engine ist schlechter als
manch andere in Bezug auf XY" ?

Keiner der Autoren (und auch sonst keiner mehr) hat eine eigene Spielstärke,
welche ein gezieltes Ändern (verbessern) eines Segmentes des Spieles ohne
negativen Einfluss auf die Gesamtspielstärke zulässt. Die können allesamt,
ob der nun erreichten Stärke der Spitzenengines, nur noch via "trial and error"
an diversen Parametern drehen und/oder neue (Teil)Algorithmen entwickeln, um
dies alles dann im praktischen Spiel auszuprobieren.
Bestimmt mehr als 99.90% dieser "Änderungen" fallen dabei durch resp. bringen
nichts (mehr) in Bezug auf Spielstärkensteigerung im Gesamten.
Auch Computerschach ist endlich.

Möglicherweise kommt ja noch einer daher und findet etwas total neues ?
Etwas was alles bisherige in den Schatten stellt ?
Sollte das kommen, so wird es jedoch nicht an Verbesserungen in Teil-
bereichen des Spieles liegen sondern am gesamten Aufbau, evtl. mittels
neuronaler Netze. Allerdings bezweifel ich persönlich dies in Bezug auf Schach
doch sehr.
Parent - - By Frank Qy. Date 2016-02-04 10:50
Hallo Gerhard,

das mag ja alles richtig sein aber bei jeder Sportart wird verbessert.

Warum hat Borussia M'gladbach derzeit ein Problem?
Wegen vielen Verletzten Stammspielern.
Weil in der Abwehr zwar sehr gute junge Spieler stehen die ihr bestes geben und sicherlich sich immer mehr entwickeln werden.
Aber mit zwei 19jährigen in der Abwehr fehlt die Erfahrung und Du siehst wie viele Gegentore Gladbach hat.
Der Teil Abwehr ist nicht so sicher wie der Angriff.

Das zeigen uns die Spielstile ...
Ein Tornado geht im Sturm einer anderen Engine unter aber wird dann wieder stärker bei wenigen Figuren auf dem Brett.
Hat Tornado viele Angreifer als Gegner die überdurschnittlich gut punkten wird das Gesamtergebnis schlechter sein als wenn Tornado gegen seines Gleichen spielt, sprich Engines die in der Eröffnung verhaltener sind. Plötzlich hat Tornado x Elo mehr.

Bei einer Ratingliste gleicht sich in der Regel alles aus und wir sehen das einfach nicht. Setzen viele Gegner ein etc..

Was können wir nun mit der Elo von Tornado anfangen wenn wir nichts hinterfragen.
Wir würden niemals in Erfahrungen bringen das die Engine doch eigentlich eine wirkliche Stärke aber auch eine wirkliche Schwäche hat.

Aber wie gesagt ich stimme Dir zu das wir uns Tabellen gerne ansehen und hoffen das in diesen Tabellen unsere Favoriten oben liegen. Weil es die Gesamtspielstärke ist.

Wenn wir aber so vorgehen wie Du es beschrieben hast benötigen wir keinen Bundestrainer der die besten Spieler herauspickt.
Wir benötigen einfach nur die beste Mannschaft und küren alle als Nationalspieler. Bayern wäre gleichzeitig unsere Nationalmannschaft und Löw wäre überflüssig.

Die Geheimnisse stecken im Detail und je besser dieses Detail erarbeitet wird desto besser wird das Ergebnis bzw. je stärker wird unsere Nationalmannschaft. Engine sind im Grunde Player und wir könnten mit Engines eine Nationalmannschaft formen. Im Sturm Junior, Spark, Hakkapeliitta und Komodo dahinter. Im Mittelfeld ... und so weiter.

Wenn wir z. B. mal die Möglichkeit haben per GUI in einer Eng-Eng Partie unsere Nationalmanschaft aufzustellen wird es richtig interessant weil wir wissen welche Engine wir auf welchen Positionen stellen. Weil wir wissen welche Engines stark für die jeweiligen Positionen sind.

Wir können natürlich beim Fernschach auch nur mit Houdini oder Rybka agieren und bewegen uns permanent laufend in Grauzonen.

Viele Grüße
Frank
Parent - By Frank Qy. Date 2016-02-04 12:47
Hoffe nur das Gladbach die beiden 19jährigen auch langfristig behält.
Sonst werden die wieder abgegeben wenn das Ziel erreicht ist.
Das Gladbach Problem ... aber je stärker Gladbach wird desto eher bleiben dann auch die Spieler.

Und insofern ich bewundere den Weg den der Trainer geht, der mit den Amateuren von Gladbach so erfolgreich war.
Gladbach Amateure gegen meinen Verein ... die SG Wattenscheid 09 ... wobei Gladbach meine Nummer 2 ist.

Das ist das absolute TOP Spiel für mich am Wochenende!
Es geht um den Aufstieg in Liga 3.

Und ich hoffe mit wenigen Spielbeobachtern von anderen Clubs die wieder Wattenscheider Talente ergaunern möchten.



Also nichts gegen die Gladbacher, dort läuft alles nach Plan und die Niederlagen sind in Anbetracht dessen was aufgebaut wird zu verschmerzen. Löw wird schon lange ein Auge auf die beiden 19jährigen geworfen haben und sich denken, die habe ich auf den Schirm für die Zukunft wenn die so weiter machen.

Nichts anders könnten wir ins Computerschach interpretieren wenn wir uns ansehen wie aufregend Hakkapaliitta in der Eröffnung zu Gange geht. Oder Rodent, oder Cheng ...
Die haben wir auf dem Schirm ...



Gruß
Frank
Parent - - By GS Date 2016-02-04 12:58
Frank Qy. schrieb:

[...snip..]
Im Sturm Junior, Spark, Hakkapeliitta und Komodo dahinter. Im Mittelfeld ... und so weiter.
[...snip...]


So etwas habe ich schon häufiger von Dir gelesen, es wird jedoch
nicht "richtiger" dadurch.

Junior ist auch im so-called Angriff sehr deutlich schwächer als
Komodo, Stockfish, Houdini, Gull etc. etc. Eben schwächer als alle Engines
welche vor Junior stehen. Dass die Engine mal einen "guten" Zug findet
bedeutet nicht, dass sie in dieser Phase des Spieles besser als andere ist.
Es lassen sich tausende Beispiele finden, in welchen der doch so starke
Junior gerade im so-called Angriff versagt resp. daneben greift.

Genauso wenig kann man einzelne Spieler einer Mannschaftssportart mit
den einzelnen Phasen einer Partie (gespielt durch ein und die selbe Engine)
vergleichen. Wenn schon, dann mit Individualsportarten vergleichen.
Parent - By Frank Qy. Date 2016-02-04 13:06
Hallo Gerhard,

auch richtig!
Aber nicht jeder Angriffszug von Junior wird von Komodo oder Stockfish gesehen.
Du kannst nicht sagen Komodo und Stockfish ist grundsätzlich jeder Taktik Analyse vorzuziehen weil Junior im direkten Vergleich weniger sieht.

Das ist der Aufhänger.
Junior sieht extrem viel aber übersieht auch extrem viel.

Spark:
Warum verliert Spark so wenige Partien schnell und gewinnt so viele Partien schnell. Engines die schnell den Gewinn sehen, sehen in der Regel auch schnell das Unheil kommen.

Ich kann nicht sagen Hakkapeliitta ist bei Analysen im Mittelspiel 300 Elo schlechter weil die Gesamtspielstärke von Komodo und Stockfish höher ist.

Letztendlich wissen wir folgendes:
Das Engines wie Komodo und Stockfish nicht alles sehen was aber wieder andere Engines sehen könnten. Wäre es so, dass Komodo und Stockfish ultimativ sind wäre das Endergebnis in einem Test-Run dieser Engines gegen die Gegner immer 100%.

Also logisch ...
Sie sind nicht perfekt und haben auch Schwächen und der Reiz ist es für jede Engine die Stärken und Schwächen einfach zu selektieren.

Niemals würde ich in einer taktischen Stellung nur Komodo oder Stockfish einsetzen.
Mein Gott was würde ich alles verpassen ... schrecklich!

Probiere es ...
Vier-Core Analyse von schnellen Gewinnpartien aus meiner oder von mir aus Deiner Ratingliste.
Lasse Hakkapeliita, Junior, Spark und Komodo rechnen und dann ...
Wundere Dich .. die Geheimnisse werden plötzlich sichtbar!

Gruß
Frank
Parent - By Frank Qy. Date 2016-02-04 13:14
Schaue Dir mal die für die Spielstärke katastrophalen Ergebnisse von Houdini an hinsichtlich schnelle Gewinnpartien.
Oder die bescheidenen von GullChess oder die fantastischen von Hakkapeliitta.

Kannst Du, einfach auf die Stats auf meiner Webseite klicken.

Ich kann das was Du schreibst dahingehend keines falls nachvollziehen.
Die Gesamtspielstärke bei Houdini wird nicht in der Eröffnung gebildet. Auch nicht die von Rybka.
Für die Gesamtspielstärke ist die Eröffnung unterer Durchschnitt.

Gerhard, ich komme zu keinem anderen Ergebnis und ich beschäftige mich sehr lange damit.
Das sind auch keine einfachen Eindrücke sondern klare Indizien die aus unseren Partiedatenbanken hervor gehen.

Gruß
Frank

Du kannst eine Gesamtspielstärke nicht über alle Partiephasen drücken anhand einer nackten Elo.
Auch eine Elo will von oben bis unten gut gekleidet sein.

Ein Houdini läuft oftmals unten ohne durch die Gegend und wird dort von anderen einfach ausgelutscht.
Bitte nicht falsch verstehen ...

Parent - - By Horst Sikorsky Date 2016-02-15 10:31
- die Fähigkeit einen Vorteil in zählbares umzumünzen (oder eben nicht)
- die Fähigkeit eine schlechte(re) Stellung zu halten (oder eben nicht)
ein Zug kann das Ergebnis mehr beeinflussen, als ein blindes runterrasseln von Partien 
Parent - - By GS Date 2016-02-15 11:01
Und ?
Parent - - By Horst Sikorsky Date 2016-02-15 13:36
Und ? 
im Stellungstest müssen die Engine gut ("spielen")
sonst null Punkte  
Parent - - By GS Date 2016-02-15 15:17
Ach ...

Und in Partien reicht bereits "schlecht spielen" um Punkte zu erhalten ?
Wusste ich bisher nicht, danke f.d. Aufklärung.
Parent - By Horst Sikorsky Date 2016-02-15 15:27
gute+nacht
Parent - - By Klaus Meier Date 2016-02-15 18:21
GS schrieb:

Ach ...


Ach... ist das jetzt das neue Schachspiel ?!

genannt "Stellung bewerten"  

anstatt eine Zug um Zug Folge auseinander hervorgehender Stellungen zu bewerten um den stärksten nächsten Zug zu finden.
wird jetzt eine Anzahl Stellungen bewertet, die nichts miteinander zu tun haben.
Lustiger Gedanke...

K.M.
Parent - - By GS Date 2016-02-15 19:17 Edited 2016-02-15 19:20
Zitat:
"anstatt eine Zug um Zug Folge auseinander hervorgehender Stellungen zu bewerten um
den stärksten nächsten Zug zu finden. wird jetzt eine Anzahl Stellungen bewertet, die nichts
miteinander zu tun haben.
Lustiger Gedanke..."


Meine Rede, nur was soll man machen ?
Es gibt errI* und es wird immer errI* geben - thats it.

h.a.n.d.

*errI lt. Duden:
2.a. (salopp) vom Üblichen abweichend und auf unvorhergesehene Weise ausgefallen, merkwürdig
Parent - - By Klaus Meier Date 2016-02-17 11:33
Meine ich auch, das man sich die Arbeit solche Positionstest zu basteln doch sparen sollte.
Einfach die Engins spielen lassen , z.B. in der Arena ... und anhand der Spielergebnisse eine Elo errechnen,
dafür ist alles Werkzeug vorhanden. Das kann jeder anwenden und ist sehr simpel.
Ein Position-Löse-Test hat mit dem Schachspiel nichts zu tun.
Kann bestenfalls als Trainingsmethode nützlich sein (siehe Chess-Hero)
oder gehört in die Schach-Rätsel-Spalte einer Wochenzeitschrift.
Ansonsten hirnrissiger Blödsinn.

K.M.
Parent - By GS Date 2016-02-17 12:39
Klaus Meier schrieb:

[...snip...]
Ansonsten hirnrissiger Blödsinn.


Parent - - By Roland Riener Date 2016-02-17 14:35 Upvotes 1
Zitat:
oder gehört in die Schach-Rätsel-Spalte einer Wochenzeitschrift.
Ansonsten hirnrissiger Blödsinn.

Warum so abwertend? Die Interessen hier sind eben verschiedenartig. Nicht interessierende Themen kann man ignorieren.
Parent - By Thorsten Czub Date 2016-02-18 21:55 Upvotes 2
Das sehe ich als Kritiker von Stellungstests auch so. Wer gerne sowas mag soll und kann sich beschäftigen damit.
Schachpartien sind wie das Leben. Und Stellungstests sind wie Fotos daraus.
Das eine ist eine kurze Situation aus dem anderen.
Verzichten wir auf Fotos ? Wohl kaum.
Parent - - By Benno Hartwig Date 2016-02-17 15:07 Upvotes 1

> Meine ich auch, das man sich die Arbeit solche Positionstest zu basteln doch sparen sollte.


Meine ich aber, dass man den Leuten ihre Themen lassen sollte.
Und solch eine Beschäftigung mit Stellungstests
- kann sicher sehr interessant wirken
- kann Einblicke in Stellungskriterien verschaffen
- kann Einblicke in Engine-Eigenschaften schaffen
- kann Spaß bringen
- kenn einen lernen lassen
- ...
Warum bitte soll man es dann lassen??
"Arbeit" mit dem Hobby ist schließlich nicht wirklich "Arbeit".

Nur:
Dass man heute noch mit Stellungstest etwas bekommt, welches einem in kürzerer Zeit Spielstärkeeinschätzungen ermöglicht als ein simpler Ratunglauf von 24 Stunden (oder auch deutlich weniger Zeit!), denke ich nicht.
Aber das wird ja inzwischen auch kaum noch als Begründung angeboten.

Benno
Parent - - By GS Date 2016-02-17 15:18
Benno Hartwig schrieb:

[...snip...]
Nur:
Dass man heute noch mit Stellungstest etwas bekommt, welches einem in kürzerer Zeit Spielstärkeeinschätzungen ermöglicht als ein simpler Ratunglauf von 24 Stunden (oder auch deutlich weniger Zeit!), denke ich nicht.
Aber das wird ja inzwischen auch kaum noch als Begründung angeboten.


Ach ...
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=99107#pid99107

Zitat:
"Kurzum: Ein Stellungstest mit drei- bis vierhundert ausgesuchten Positionen kann -
entgegen der hier immer wieder geäusserten Meinung - sehr wohl recht präzis die Stärke
eines Programms eruieren. Ein wesentlicher Unterschied zum "traditionellen" Engine-Turnier
ist halt: Der Stellungstest hat ein aussagekräftiges Ranking nicht nach einigen Wochen
zusammen, sondern schon nach ein, zwei Tagen..."
Parent - - By Benno Hartwig Date 2016-02-17 16:31
Thanx für den Hinweis auf Walters Statement.
Ja, ich finde, dass sowas seit mindestens 10 Jahren nicht mehr richtig ist.
Und ich höre sowas auch nur noch selten.

Ein ziemlich verlässliches Bild bekommst du mit Ausspielenlassen in 24 Stunden oder sogar weniger.
Auch wenn einen Turnierzeiten  interessieren, kommt man dort schnell hingeschätzt
Dass irgendein Stellungstest da auch nur annähernd hinkommt, sehe ich nicht.

Die meinsten Postings hier verstand ich aber auch gar nicht so, dass solch eine Spielstärkeeinschätzung im Vordergrund steht.
Stellungstests konnten aus anderen Gründen (s.o.) interessieren.

Benno
Parent - - By GS Date 2016-02-17 20:37
Benno Hartwig schrieb:

Thanx für den Hinweis auf Walters Statement.
Ja, ich finde, dass sowas seit mindestens 10 Jahren nicht mehr richtig ist.
[...snip...]


Nein und falsch !
"Das(s)" war noch n i e richtig und wird es auch niemals sein;
in punkto Spielstärkenbestimmung versteht sich.
Parent - By Horst Sikorsky Date 2016-02-18 00:10
   Thema: Plädoyer für Stellungstests

du bist hier falsch
Parent - - By Benno Hartwig Date 2016-02-18 07:37

> "Das(s)" war noch n i e richtig und wird es auch niemals sein;


In den 80ern und 90ern wurde von manchem noch sehr vehement vertreten, dass mit Stellungstests Spielstärkeeinschätzungen gelingen.
Allerdings war dies eine Zeit, in der alternativ nur händisch ausgeführte Brettcomputerpartien bei durchaus längeren Zeiten sonst eine Einschätzung gestattet hätten. (SSDF)
Mit enorm viel Zeitaufwand und enorm viel Mühe.

Damals war die These "Stellungstests zur Spielstärkeeinschätzung"  schon noch richtig, wobei man da eh sehr viel mehr Ungenauigkeit(!) zu akzeptieren hatte.
Wenn ein Rechner 50 Partien spielte, wurde das gern schon als "Wahrheitsfindung"  hinausposaunt.

Wahrscheinlich ist unsere Naivität inzwischen auch gar nicht kleiner geworden,
sie tummelt sich nur auf anderen Spielwiesen.


Benno
Parent - - By Klaus Meier Date 2016-02-18 11:24
Benno Hartwig schrieb:

Wahrscheinlich ist unsere Naivität inzwischen auch gar nicht kleiner geworden,
sie tummelt sich nur auf anderen Spielwiesen.


Benno


wird schon so sein !
Immer schön an die eigene Nase fassen und vor der eigenen Türe kehren. 
Parent - - By Horst Sikorsky Date 2016-02-18 16:49
Die meinsten Postings hier verstand ich aber auch gar nicht so, dass solch eine Spielstärkeeinschätzung im Vordergrund steht.
Stellungstests konnten aus anderen Gründen (s.o.) interessieren.


Richtig! es ist eine gute Ergänzung!
Niemand sieht sich das Diagramm an und lässt seine Engine im Ein-Variantenmodus ran!!
ist das Diagramm überhaupt noch da?
hier scheint sich keiner für Schach zu interessieren
Parent - - By Michael Scheidl Date 2016-02-18 17:24
Ich habs mir angesehen, aber es drängte sich mir nichts besonderes auf. Vielleicht h2-h3 zwecks g3-g4 usw...?


Analysis by Komodo 7a 64-bit:

23.Kg2 h5 24.f5 Rf8 25.Rf1 Rfe8 26.Rfe1 Rf8 27.h3 Kb8 28.a4 Nd5 29.Bg5 Rc8 30.Rxe4 Rxf5 31.Bd2 Bd6 32.Nxd5 cxd5
  =  (0.27)   Depth: 7   00:00:00  16kN
  +/=  (0.56)   Depth: 16   00:00:04  6645kN
23.Bf2 Bb6 24.Rd1 h5 25.b4 Rd7 26.Rde1 Rde7 27.Kg2 g6 28.a4 Kb8 29.a5 Bc7 30.Be3 Rd7 31.Na4 Nd5 32.Nc5 Rf7 33.Bd2 e3 34.Bxe3 Rfe7 35.Kf3 Nxb4 36.Bd2 Rxe2 37.Rxe2 Rxe2
  +/=  (0.59)   Depth: 16   00:00:05  8344kN
  +/=  (0.53)   Depth: 24   00:01:03  166MN, tb=150
23.Kg2 Bb6 24.Rd1 g6 25.Bf2 Rd7 26.b4 Kb8 27.Rde1 Rde7 28.Be3 h5 29.a4 Rd7 30.Bf2 Rde7 31.a5 Bc7 32.Be3 Rd7 33.h3 h4 34.g4 Bd6 35.Rb1 Nd5 36.Nxd5 cxd5
  +/=  (0.60)   Depth: 24   00:01:45  283MN, tb=165
  +/=  (0.57)   Depth: 25   00:02:33  416MN, tb=22446

Komodo hat sich auf Tiefe 25 längere Zeit mit 23.Tc1 beschäftigt, es aber letztlich nicht bevorzugt.

Was ist die vorgesehene Lösung?
Parent - - By Horst Sikorsky Date 2016-02-18 22:18 Edited 2016-02-18 22:21
hast du Fritz 15 ohje das war zuviel verr---
die besten KOMO+Stocki sind da Blind
Parent - By Thomas Müller Date 2016-02-19 08:47
keine ahnung ob das jetzt "richtig" ist oder wie lange man laufen lassen sollte....
Aber wo ist da jetzt ein unterschied 

Analysis by Komodo 9.3 64-bit:

23.Kf1-g2 Lc7-a5 24.b2-b4 La5-b6 25.Ta1-d1 Sf6-d5 26.Sc3xd5 Td8xd5 27.Te2-e1 Te8-d8 28.Le3-g1 Lb6xd4 29.Te1xe4
  +/=  (0.50)   Tiefe: 9   00:00:00  80kN
  +/=  (0.55)   Tiefe: 11   00:00:00  180kN
23.Le3-f2 Lc7-b6
  +/=  (0.63 ++)   Tiefe: 11   00:00:00  248kN
  +/=  (0.61 --)   Tiefe: 13   00:00:00  422kN
23.Kf1-g2 Lc7-b6
  +/-  (0.75 ++)   Tiefe: 13   00:00:00  725kN
  +/=  (0.70 --)   Tiefe: 15   00:00:00  1566kN
23.Le3-f2 Lc7-b6 24.Ta1-d1 g7-g6 25.Kf1-g2 Kc8-c7 26.b2-b4 Lb6-a7 27.Lf2-g1 Te8-e7 28.a3-a4 Sf6-d5 29.Sc3xd5+ Td8xd5 30.Lg1-f2 Kc7-d6 31.a4-a5 Td5-b5 32.Td1-b1
  +/-  (0.78)   Tiefe: 15   00:00:00  1794kN
  +/-  (0.75)   Tiefe: 16   00:00:00  2367kN
23.Kf1-g2 h7-h5
  +/-  (0.78 ++)   Tiefe: 16   00:00:00  2524kN
  +/=  (0.69 --)   Tiefe: 18   00:00:01  6766kN, tb=4
23.Le3-f2 Lc7-b6 24.Ta1-d1 h7-h5 25.b2-b4 Te8-e7 26.Td1-e1 Td8-e8 27.a3-a4 Kc8-b8 28.a4-a5 Lb6-c7 29.Kf1-g2 Lc7-d6 30.Te1-b1 Ld6-c7 31.Lf2-e3 h5-h4 32.d4-d5 Sf6xd5 33.Sc3xd5 c6xd5 34.g3xh4 Te8-h8 35.Te2-d2 Te7-d7 36.Tb1-d1 Th8xh4 37.Td2xd5 Td7xd5 38.Td1xd5 Lc7xf4 39.Td5-d8+
  +/-  (0.83 ++)   Tiefe: 18   00:00:02  8089kN, tb=4
  +/-  (0.73)   Tiefe: 25   00:00:16  89027kN, tb=776
23.Ta1-d1 Sf6-d5
  +/-  (0.82)   Tiefe: 25   00:00:26  144MN, tb=1472
  +/-  (0.71 --)   Tiefe: 28   00:01:55  655MN, tb=24506
23.Le3-f2 Lc7-b6
  +/-  (0.77)   Tiefe: 28   00:01:56  657MN, tb=24536
  +/-  (0.81 --)   Tiefe: 36   00:15:02  5974MN, tb=729909

Analysis by Fritz 15:

23.Kg2 Lb6 24.Td1 g6 25.h3 Td7 26.Lf2 Kc7 27.g4 h5 28.g5 Sd5 29.Lg3
  +/-  (0.81)   Tiefe: 7   00:00:00  51kN
  +/-  (0.81)   Tiefe: 14   00:00:01  4445kN
23.Td1 La5 24.b4 Lb6 25.Lf2 Kc7 26.Kg2 Sd5 27.Sxe4 Ta8 28.Td3
  +/-  (0.83)   Tiefe: 14   00:00:02  9664kN
  +/-  (0.82)   Tiefe: 15   00:00:03  12706kN
23.Kg2 La5 24.Lf2 b5 25.b4 Lb6 26.Tc1 Kb7 27.Tce1 Lxd4 28.Sxe4 Sxe4 29.Txe4 Txe4 30.Txe4 Lf6 31.Kf3 Kc7 32.Lc5 Td3+ 33.Te3 Txe3+ 34.Kxe3 Lb2 35.Ke4 Lxa3 36.h3 Kd7 37.f5
  +/-  (0.83)   Tiefe: 15   00:00:03  12706kN
  +/-  (0.91)   Tiefe: 19   00:00:20  99938kN
23.Td1 Lb6 24.Lf2 Te7 25.Kg2 La5 26.b4 Lb6 27.h3 Lc7 28.Tde1 Tde8 29.Le3 Kd7 30.a4 Sd5 31.Sxd5 cxd5 32.Tc2 Ld6 33.Tb1 Ke6 34.a5 Ta8 35.Tbb2 Tc7
  +/-  (0.94)   Tiefe: 19   00:00:20  99939kN
  +/-  (0.97)   Tiefe: 21   00:00:35  176MN
23.Lf2 Lb6 24.Td1 Td7 25.Kg2 g6 26.b4 Kd8 27.Tee1 Lc7 28.Td2 Tde7 29.Tde2 Lb6 30.Lg1 h6 31.Tf1 Lc7 32.a4 Ld6 33.f5 g5 34.b5 Lb4 35.Sa2 La5 36.bxc6
  +/-  (0.98)   Tiefe: 21   00:00:36  181MN
  +/-  (1.04)   Tiefe: 27   00:09:13  2989MN

gruß
thomas
Parent - - By Ludwig Buergin Date 2016-02-19 09:55
Hallo Horst

Der nichtskönnende Stockfish 140216 meint Lf2.

Gruß Ludwig
Up Topic Hauptforen / CSS-Forum / Plädoyer für Stellungstests
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill