Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Analyse von remis-Partien
Poll Trefferquote: stärkere Engine raten bei remis-Partien (Closed)
weniger als 40% 2 29%
40% bis 45% 0 0%
45% bis 50% 0 0%
50% bis 55% 5 71%
55% bis 60% 0 0%
60% bis 65% 0 0%
65% bis 70% 0 0%
70% bis 75% 0 0%
75% bis 80% 0 0%
80% bis 85% 0 0%
85% bis 90% 0 0%
90% bis 95% 0 0%
95% bis 100% 0 0%
100% (!!!) 0 0%
- - By Benno Hartwig Date 2010-06-15 09:38 Edited 2010-06-15 09:47
In anderen Threads wurde schon darüber gesprochen, in welchem Maße sich durch das Analysieren der Züge, die eine Engine gegen eine Gegnerengine fand, die relative Spielstärke besser abschätzbar ist als durch reine Betrachtung der Ergebnisse. Mich würde sehr interessieren, in welchem Maße das tatsächlich gelingt.

In Gedanken folgender Versuch:
Angenommen ich habe zufällig 100 remis-Partien gewählt von diversen recht guten Engines, wobei jeweils ca. 100 ELO (gem. CEGT oder CCRL, konkret z.B. zwischen 80 und 120 ELO) Differenz zwischen den geschätzten Spielstärken der Kontrahenten liegen soll. Die Partien seien so gewählt, dass die stärkeren Engines gleich oft weiß und schwarz gespielt hätten.
Versierte Computerschächer oder auch gute Schachspieler, die um diese Spielregeln wissen, bekommen nun diese Partien zum Analysieren gezeigt, und sie entscheiden jeweils, welcher der beiden Gegner vermutlich der Stärkere ist.

Was für eine Trefferquote könnte dann erwartet werden?
Wirklich deutlich über 50%?
Was schätzt ihr?

Benno
Parent - - By Kurt Utzinger Date 2010-06-15 09:54
[quote="Benno Hartwig"]
In anderen Threads wurde schon darüber gesprochen, in welchem Maße sich
durch das Analysieren der Züge, die eine Engine gegen eine Gegnerengine
fand, die relative Spielstärke besser abschätzbar ist als durch reine
Betrachtung der Ergebnisse. Mich würde sehr interessieren, in welchem
Maße das tatsächlich gelingt.

In Gedanken folgender Versuch:

Angenommen ich habe zufällig 100 remis-Partien gewählt von diversen
recht guten Engines, wobei jeweils ca 100 ELO (gem. CEGT oder CCRL, konkret
z.B. zwischen 80 und 120 ELO) Differenz zwischen den geschätzten Spielstärken
der Kontrahenten liegen soll. Die Partien seien so gewählt, dass die stärkeren
Engines gleich oft weiß und schwarz gespielt hätten. Versierte Computerschächer
oder auch gute Schachspieler, die um diese Spielregeln wissen, bekommen nun
diese Partien zum Analysieren gezeigt, und sie entscheiden jeweils, welcher
der beiden Gegner vermutlich der Stärkere ist.

Was für eine Trefferquote könnte dann erwartet werden? Wirklich deutlich
über 50%? Was schätzt ihr?

Benno
[/quote]

Hallo Benno
Die Trefferquote wäre wahrscheinlich echt mies, sofern er sich um Partien
mit "normalen" Bedenkzeiten handelt (60m+20s, 90m+30s, 120'/40) weil das
durchschnittliche Niveau der Partien hoch ist und niemand genügend Zeit
finden würde, diese Spiele auch nur in annähernd notwendiger Suchtiefe
analysieren zu können. Und schliesslich: es gibt in einer Partie derart viele
(normale, gute) Züge, die auch von Engines gespielt werden können, die
200-500 Elo schwächer sind ... und ein Remis bedeutet ja meistens, dass
keiner der beiden Partner auch wirklich offensichtliche Fehler gemacht hat.
Kurzum: m.E. ein (fast) unmögliches Unterfangen.
Mfg
Kurt
Parent - By Benno Hartwig Date 2010-06-15 13:14 Edited 2010-06-15 13:18
[quote="Kurt Utzinger"]Die Trefferquote wäre wahrscheinlich echt mies, sofern er sich um Partien mit "normalen" Bedenkzeiten handelt (60m+20s, 90m+30s, 120'/40) weil das durchschnittliche Niveau der Partien hoch ist und niemand genügend Zeit finden würde, diese Spiele auch nur in annähernd notwendiger Suchtiefe analysieren zu können. [/quote]Klar.
Andererseits rufen viele, dass Blitz sie gar nicht interessiert, dass nur die langen Zeiten richtig zählen, und damit diese Spielstärke.
Aber OK, man kann gern an 5min/Partie oder auch weniger denken. Man braucht halt nur Zeiten, für die einigermaßen verlässliche Ratinglisten existieren.

[quote="Kurt Utzinger"]und ein Remis bedeutet ja meistens, dass keiner der beiden Partner auch wirklich offensichtliche Fehler gemacht hat.[/quote]OK,
man könnte die Partienauswahl auch so ändern, dass nur Partien mit einem Gewinner betrachtet werden.
Je 25 : die stärkere Engine gewinnt mit weiß
Je 25 : die stärkere Engine gewinnt mit schwarz
Je 25 : die schwächere Engine gewinnt mit weiß
Je 25 : die schwächere Engine gewinnt mit schwarz (OK, da muss man ggf. etwas länger suchen)
Und dann gut mischen

[quote="Kurt Utzinger"]Kurzum: m.E. ein (fast) unmögliches Unterfangen.[/quote]Das denke ich auch, auch beim geänderten Modell.

Wenn vergleichsweise wenige Partien zwischen zwei Engines gespielt wurden, gestattet das eine Schätzung des Spielstärkeunterschiedes. Die ist dann aber recht ungenau, die Wahrscheinlichkeit für größere Fehler ist recht groß.
Und immer wieder erklären manche, sie würden mit Blick auf die gespielten Züge aber eine deutlich bessere, verlässlichere Schätzung hinbekommen können.
Wenn A der B vielleicht 60:40 überlegen ist, und wenn dann 20 Partien gespielt würden, und es käme heraus
15:5 - Würden die Leute dann wirklich sehen, dass A hier doch deutlich höher gewonnen hat als es der Stärkedifferenz entsprach?
9:11 - Würden die Leute dann wirklich sehen, dass A hier eigentlich die stärkere Engine war?
Wenn diesen Leuten das wirklich gelingen soll, dann sollte ihnen im meinem Gedankenexperiment auch eine recht gute Trefferquote gelingen.
Und ich wäre auch überrascht, wenn das gelingt.

Benno
Parent - - By Michael Waesch Date 2010-06-15 16:49
Ich finde, daß diese Idee recht undeutlich formuliert ist. Meinst du 100 Partien von Eng A vs Eng B oder wild durcheinander mehrere Engines? Und da würden mich dann die realen Ergebnisse eines solchen Versuchs deutlich mehr interessieren, als die Schätzungen der Leser.

Wenn es nur um einen Vergleich zwischen Eng A und Eng B mit 10 Partien ginge, würde ich mich für einen Versuch melden.

Mike
Parent - - By Benno Hartwig Date 2010-06-16 08:52
[quote="Michael Waesch"]Ich finde, daß diese Idee recht undeutlich formuliert ist. Meinst du 100 Partien von Eng A vs Eng B oder wild durcheinander mehrere Engines? [/quote]Ich schrieb halt "Angenommen ich habe zufällig 100 remis-Partien gewählt von diversen recht guten Engines,..." und ja, ich meinte die Partien mehrerer Engines, durcheinandergeworfen.
Mir war nun gerade meine 'Undeutlichkeit' nicht bewusst. 

[quote="Michael Waesch"]Und da würden mich dann die realen Ergebnisse eines solchen Versuchs deutlich mehr interessieren, als die Schätzungen der Leser.[/quote]Klar, mich auch.

[quote="Michael Waesch"]Wenn es nur um einen Vergleich zwischen Eng A und Eng B mit 10 Partien ginge, würde ich mich für einen Versuch melden.[/quote]Thanx für das Angebot. Dass du '10 Partien' sagst, verstehe ich natürlich sehr gut.
Ein Versuchsaufbau "du bekommst 10 A-B-Partien und am Ende sagst du, ob A oder B besser ist" würde aber fast gar nichts bringen. Selbst jemand, der nur rät, hat eine 50%-Chance, richtig zu liegen. Und was wüssten wir dann, wenn du richtig liegst? oder wenn du daneben liegst? Gar nichts. Wir könnten nicht mal sehr grob Wahrscheinlichkeiten abschätzen. Das wäre so: jemand befürchtet, seine Münze wäre getürkt und würde häufiger Zahl als Wappen zeigen, er wirft einmal, und sieht Zahl. Und nun?

Nein, ich denke, wir müssen schon die einzelnen Partien werten, zählen wieviele Partien richtig geschätzt wurden. Und das bedeutet, es darf jeweils nicht gesagt werden, wer A und wer B ist.
Und damit das nicht am Stil erkannt wird, schlug ich einen Engine-Mix vor. Das muss aber wohl nicht so sein. Wir könnten auch gern sagen:
Ich wähle 2 Engines mit ca. 100 ELO Differenz, sage dir nicht welche, und zufällig (d.h. ohne die Partie näher anzusehen) 10 remis-Partien zwischen diesen Engines, die stärkere bekommt 5 mal weiß und 5 mal schwarz.
Du bekommst diese Partien zum Analysieren, weißt jeweils nicht, wer welche Seite hat, und gibst jeweils an, welche Seite du für die stärkere hältst.
(Und du bist Sportsmann, und versuchst nicht, im Internet die Partien direkt zu finden.)

Benno
Parent - By Michael Waesch Date 2010-06-16 18:13
Ich finde das eigentlich eine ganz lustige Idee - auch wenn ich nicht genau vorhersagen kann, was dabei herauskommt. Wahrscheinlich ist, daß ich voll daneben lange, denn wie soll einer, der an einem guten Tag vielleicht mal auf 1900-2000 Elo kommt [und die Tage sind selten] zwei Programme beurteilen, von denen eines 2900 und das andere 3000 Elo hat, beurteilen. Dennoch könnte der Versuch lohnend sein, sei´s auch nur, wenn er allen Spaß bringt.

Also wenn du´s durchziehen willst, schick mit 10 präparierte Partien an miwaesch[at]web.de

Mike
Parent - - By Frank Quisinsky Date 2010-06-16 09:53
Hallo Benno,

denke ein unmögliches Unterfangen.

Schon schwierig genug Stärken und Schwächen bei den Engines herauszuarbeiten. Denke ein Schachspieler von ca. 1.800 ELO kann das schon in Angriff nehmen aber auch nur Mithilfe von starken Datenbanksystemen. Viele Dinge sind bei den diversen Engines dann wirklich auffällig. Z. B. die Endspielstärke von Ktulu, Umgang mit Bauern bei Critter und Fritz, die angestrebtle Linienöffnung bei Fritz, taktische Fähigkeiten von Spark etc..

Deutlicher wird das dann auch in Verbindung (zusehen bei Eng-Eng) mit Serien von Stellungen bzw. einen Stellungs-Test-Verfahren.

Aber jetzt anhand von Remispartien Engines auseinander zu halten, die ca. 80-120 ELO voneinander entfernt liegen, ist schwierig. Klar können Engines erkannt werden aber auch nur in vielleicht jeder 5 Remispartie. Vielleicht schaut es im Endspiel anders aus. Einen Rybka würde ich beim Live zusehen schon an der Mattführung erkennen

An der Stellungsbewertung bei Endspielen würde ich auch diverse Engines erkennen.

Ein GM würde eine Engine erkennen an dem Spiel nach dem Eröffnungsbuch. Aber auch nur dann wenn er die Engine wirklich richtig gut kennt.

Hier und da ist also etwas möglich, sicherlich auch im Mittelspiel anhand von Kombinationen bei wenigen oder vielen Figuren auf dem Brett. Aber das ist schon echt eine Herausforderung und die Trefferquote ist dann vielleicht 1:4 anstatt 1:5.

Bei AnMon würde ich sagen, dass ich jede dritte Partie die mir vorgelegt wird erkennen sollte
Das Experiment hatte ich mal selbst gemacht. Aber diese Engine kenne ich sehr gut, weil ich selbt bevorzugt gegen AnMon spiele bzw. nur noch gegen AnMon und zwei Schachcomputer selbst Computerschach spiele.

Gruß
Frank
Parent - - By Benno Hartwig Date 2010-06-16 10:36
Hallo Frank,
Danke für deine Anmerkungen.
[quote="Frank Quisinsky"]denke ein unmögliches Unterfangen.[/quote]
Ich zweifle auch, und selbst könnte es sicher nicht.
Manche behaupten aber, sie könnte bei Sichtung der Züge auch aus einer kleineren Partienzahl die Spielstärkeverhältnisse zweier Engines deutlich genauer ermitteln als jemand, der nur die Ergebnisse betrachtet (und der daher eine große Partienzahl vorzieht). Und das heißt, sie erkennen, dass eine Engine bei diesen wenigen Partien deutlicher gewann, als es der tatsächlichen Spielstärkedifferenz entspricht, oder dass sie weniger hoch gewann, dass sie vielleicht sogar verlor, obwohl sie die stärkere Engine ist.

Ob solche Leistungen wirklich möglich sind, wollte ich mit meinem 'gedachten Experiment' beleuchten.
Vielleicht sollte man es ja aber auch anders aufziehen.

Benno
Parent - By Frank Quisinsky Date 2010-06-16 10:45
Hi,

also ich glaube auch nicht, dass eine sehr starker GM das kann.
Die GMs haben weniger Chancen hierzu als die Computerschächler.

Viele Computerschächler kennen die Engines, die GMs analysieren meist nur mit ganz wenigen Engines bzw. nutzen diese als Kiebitz unter ChessBase.
Wir sind deutlich im Vorteil, auch mit geringerer Spielstärke.

Muss mir mal Gedanken um ein solches Experiment machen.
Auf Anhieb fällt mir auch nichts ein um das deutlicher herauszuarbeiten.

z. B. gerade in der SWCR ...
Rybka 4 gegen Deep Fritz 12 ...
Deep Fritz 12 gewann 2 Partien und verlor 15, 23x Remis.

Schaust Du Dir nur die 23 Remispartien an erkennst Du relativ wenig. Selbst wenn Du dir alle 40 Partien anschaust und nicht weist wer ist Fritz oder Rybka wirst Du vermuten das hier 2 gleich starke Spieler zu Werke gehen.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Analyse von remis-Partien

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill