Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Computerratings und Verbands-Elo (Fortsetzung)
- - By Michael Scheidl Date 2011-11-17 15:50
Da der andere Thread erfeulicherweise so lebhaft war, aber dadurch schwer leserlich wurde (Postings drängen sich schmal am rechten Bildschirmrand zusammen), habe ich mir gedacht man könnte bequemer hier in einem zweiten Thread weiterdiskutieren, falls gewünscht.
Parent - - By Thomas Mayer (Quark) Date 2011-11-17 18:01
Hi Michael,

sinnvoll ! -> Du hattest übrigens recht, zumindest seit 1997 wurde nur einmal um 100 Elo reduziert.
Prinzipiell stimme ich mit Dir voll überein, man kann die Elo nicht vergleichen und deshalb wäre es besser, man würde von vorneherein einen anderen Wertebereich nehmen. Warum meinetwegen Shredder 12 nicht bei 0 setzen und alle anderen dazu relativ ?
Ein Beispiel, warum es nicht vergleichbar ist:
In den Computer-Ranglisten bekommt man bei Verdopplung der Geschwindigkeit ca. +50 - +70 Elo. Menschliche Spieler sehen aber in der Regel keinen derartigen Leistungssprung, die Engines fallen trotz doppelter Geschwindigkeit immer noch auf die selben Sachen herein, bewerten die selben Positionstypen falsch etc. - weil durch die doppelte Geschwindigkeit hat sich lediglich ihr taktisches Vermögen verbessert, positionell sind sie genauso blind. Das wirkt sich eben gegen Menschen ganz anders aus als gegen andere Computerprogramme.
Den von Ben Hur vorgeschlagenen Test von Smirf gegen den Superconny kann ich leider nicht machen, ich habe keinen. Wir wärs mit nem Mephisto Mondial 68000XL ? Der wird bei Schachcomputer.info mit ca. 1980 gelistet, in der SSDF taucht er leider nicht mehr, wäre wohl bei ca. 1880.

Gruß, Thomas
Parent - By Frank Quisinsky Date 2011-11-17 18:19
Na ja!
Die älteren Thesen an denen durchaus etwas dran ist.
Aber mit den höheren Suchtiefen und immer weniger Steine auf dem Brett wird ebend nichts positionelles mehr übersehen. Das ist eigentlich heute nur noch eingeschränkt im Mittelspiel bzw. nach der Eröffnung aussagbar. Im frühen Mittelspiel und nach der Eröffnung würde ich den Engines auch nicht mehr als 2.700 ELO im Schnellschach geben. Wahrscheinlich eher noch weniger, vielleicht 2.600. Und ob die dann, wie Du richtig aussagst bei sagen wir mal 15-20 Figuren auf dem Brett mit 3.000 oder 3.050 spielen fällt eh niemanden mehr auf bzw. den Ratinglisten die das messen weil hier dann die meisten Partien entschieden werden die zu diesem Zeitpunkt nicht mehr ausgeglichen sind.

Das ist alles total paradox.

Computer drehen das Menschenschach total auf dem Kopf.
Während hier die Menschen mit Plänen und Strategien immer noch überlegen sind (zumindest die super starken Schachspieler) bauen die Menschen dann mit immer weniger Figuren auf dem Brett drastisch ab, die Computerschachprogramme legen drastisch zu.

Bilden wir nun hieraus den Querschnitt wird die ELO-Ausgabe bzw. Vergleichbarkeit wieder plausibel. Also, ich denke schon das wir Menschen ELO mit Computerschach ELO vergleichen können. Na ja, wenn jetzt z. B. ein Schachprogramm extrem gut auf das Eröffnungswissen von einem Menschen eingestellt ist, der Mensch nichts riskiert bleibt er chancenlos. Dann kann das Verhältnis auch 2.800 Anand zu 3.300 TOP-1 PC Programm sein. Wenn aber jetzt z. B. ein Anand gegen die Schwächen der PC-Programme in der Eröffnung spielt, ein Programm z. B. schnell aus dem Buch wirft dann vielleicht 2.800 - 3.100 wenn mit mehreren Cores auf aktueller Hardware. Und wenn Anand ultra aggressiv auf Angriff spielt, Fehler nicht passieren dann gar ausgeglichen.

Alles eher Theorie aber es wird deutlich wo die Programme die Stärken haben und dem Menschen haushoch überlegen sind.

Eine Ratingliste mit 0 bei Shredder zu starten macht nicht so viel Sinn. Das verstehen zu viele Besucher nicht. Aber die Partien stehen ja von CEGT, CCRL oder auch meiner Liste zur Verfügung. So kann jeder damit experimentieren. Gut wäre z. B. wenn eine Datenbank Partien kappen könnte. z. B. bei Zug 30 und dann das Ergebnis nach dem Kommentar der Stellungsbewertung bewertet. Mache so Experimente sehr gerne, sehr zeitaufwendig und dabei kommt verblüffendes heraus. Die Unterschiede der TOP-30 sind sehr gering, die jetzigen TOP-7 stehen nicht in dieser Form vorne, nur 2 von den 7, stehen unter den TOP-7.

Gruß
Frank
Parent - - By Peter Krug Date 2011-11-17 19:15
ich denke, dass eine realistische Angleichung mit der menschl. Elo am besten ist.
Das heißt die GEGT Liste um ca. 200 elo heruntersetzen.

Eine elo mit dem Wert 0 finde ich nicht reizvoll und man müsste erst recht
wieder umrechnen um irgendeine Vorstellung von der Stärke zu haben,
obwohl wohl kein Mensch mehr sich vorstellen kann, was beispielsweise
3100 elo sind. Aber wir wissen wenigstens, dass das eine extrem hohe
elo ist.
Die GEGT Liste aber ist meiner Meinung in Ordnung so wie sie ist, da diese ihren
Sinn vollständig erfüllt, indem sie schon sehr präzise ausdrückt, welche
Engines an welchen Rang steht.
Dass die Elozahl aber eher symbolisch ist, als real das wurde hier schon
eingehend diskutiert.

Peter
Parent - By Thomas Müller Date 2011-11-17 19:25
CEGT nicht gegt
Parent - - By Simon Gros Date 2011-11-17 19:37
3100 ELO kann man sich sehr leicht vorstellen. Carlson (2826) gegen ELO 3100 bedeutet z.B. +7 =20 -73 aus 100 Spielen.
Simon_G
Parent - By Peter Krug Date 2011-11-17 23:42
Vielleicht kann sich das Carlson noch vorstellen.
Wir nicht.
Parent - - By Thomas Mayer (Quark) Date 2011-11-17 21:02
Hallo Peter,

Code:
ich denke, dass eine realistische Angleichung mit der menschl. Elo am besten ist.
Das heißt die GEGT Liste um ca. 200 elo heruntersetzen.


das ist das Problem, das funktioniert einfach nicht -> Du betrachtest nur die Spitze und möchtest diese um 200 Elo absenken. Damit tust Du aber den viel weiter unten gelisteten Engines unrecht, denn die dürften gegen Menschen mitunter sogar stärker abschneiden als sie in der CEGT gelistet werden. Das macht deutlich, daß Computer-Elolisten einfach nicht vergleichbar sind mit Menschen-Elo, weil die Spreitzung eine ganz andere ist. In Computerlisten gibt es Effekte, die so gegen Menschen nicht funktionieren.

Gruß, Thomas
Parent - By Benno Hartwig Date 2011-11-17 21:30
[quote="Thomas Mayer (Quark)"]das ist das Problem, das funktioniert einfach nicht -> Du betrachtest nur die Spitze und möchtest diese um 200 Elo absenken. Damit tust Du aber den viel weiter unten gelisteten Engines unrecht, denn die dürften gegen Menschen mitunter sogar stärker abschneiden als sie in der CEGT gelistet werden.[/quote]Ich befürchte, du hast recht.
Um eine Vergleichbarkeit von menschlichen und Engine-ELO zu erreichen, bräuchte man dan eine echte 'Umrechnungsfunktion', zunächst sollte sie wohl eine geeignete Gerade sein.

Oder aber man modifiziert den Computer-ELO-Algorithmus so, dass solch eine Anpassung gar nicht mehr nötig ist.
Das fänd ich noch besser.
(ohne im Moment konkret zu wissen, wie die Modifikation aussehen müsste)

Benno
Parent - - By Reinhard Scharnagl Date 2011-11-17 21:24
Der alte Herr Árpád Imre Éló; hat sicher nicht geahnt, dass sein Rangschema einmal
auf Computerprogramme angewandt werden würde. Aber warum sollte man zu einem
anderen Schema überwechseln? Hauptsache ist doch, es gibt eine monotone Abstufung:
die Boliden-Freaks werden sich ohnehin nur am oberen Ende umsehen und jegliche
Nummer beweihräuchern; die frischen Entwickler werden sich am unteren Ende um-
sehen und hoffen, möglichst rasch an möglichst vielen Konkurrenten vorbei ziehen
zu können, wobei die exakte Zahl wiederum zweitrangig ist.

Also wieso nicht einfach den Namen wechseln, etwa zu AElo, etwa in dem Sinn von
Artificial Elo. Da weiß man dann sofort, dass nicht von Menschen gesprochen wird.
Parent - - By Frank Brenner Date 2011-11-18 00:33
Die Spielstärkeermittlung so wie sie bei EloStat von Frank Schubert geschieht ist keine unikate, persönliche Erfindung von Herrn Elo.

In jeder intelligenten Zivilisation würde genau diese Idee zur Spielstärkeermittlung ebenfalls erfunden werden, denn sie ist kanonisch.

So ähnlich kanonisch wie die Berechnung des Durchschnittsalter einer Menge von Personen aus einer Gruppe. Elo ist vielleicht der erste der sie niedergeschrieben hat.

Jeder  versierte Mathematiker würde ohne vorherige Kenntnis dieser Methode mit recht hoher Wahrscheinlichkeit allein durch nachdenken in einer Black Box ein "EloStat" programmieren.

Die einzigen variablen Parameter sind: Translation (auf welchen Wert setzen wir z.B Shredder ?) und Skalierung (zb. 60% entsprechen 100 Punkte).  Diese Parameter sind aber reine Geschmackssache. Die (nennen wir sie einfach) Elo-Listen mit unterschiedlichen Parametersäten sind alle äquivalent zueinander, von daher sind die Parameter völlig egal; man muß sie nur dazuschreiben.

Ich persönlich finde die Einteilung wie sie bei Ingo Bauer geschieht sehr gut. Shredder 12 auf 2800. Prima. 

Eine exakte Kalibrierung mit den menschlichen Wertungszahlen ist nicht so einfach machbar, denn welcher Mensch ist bereit hunderte von ernsten Spielen gegen viele unterschiedliche  Engines zu spielen ?
Es müssten ca 10 Menschen und 10 Engines mitmachen.

Zur Elo-Inflation:
----------------
Ingo Althöfer hatte einmal erwähnt, dass für die Ermittlung der Spielstärke ein sehr großes Tupel erforderlich wäre. Bei Schach glaube ich reicht ein kleines Tupel aus für eine exzellente Näherung.

Menschliche Großmeister verfügen noch über ein Talent welches Engines noch überhaupt nicht haben: GM können das Spiel "führen". Sie können z.B dynamisch entscheiden ob sie das Spiel lieber passiv oder aktiv fortsetzen, ob es sinnvoll ist in z.B. einem großen Schlagabtausch alle Figuren abzutauschen  und in ein triviales Endspiel zu gelangen (mit Remis) oder nicht. Sie können Stellungen gut einschätzen und das Spiel manchmal  einigermassen erfolgreich dorthin lenken wo engines nicht so verteufelt stark sind.

Eine Engine würde z.B nur um die Bewertung um 0.01 Punkte zu erhöhen stets einen Generalabtausch aller Figuren anstreben, auch dann wenn die Stellung anschliessend so vereinfacht ist , dass jeder 2000 ELO er Spieler ein Remis halten würde.

Würden Menschen (GM) nicht über dieses Talent verfügen, würde auch  ein Magnus Carlsson haushoch gegen Houdini&Co verlieren; vielleicht sogar höher als die Ipon Liste es vermuten lässt.
Parent - By Michael Scheidl Date 2011-11-18 07:31
Ein exzellentes Posting, das zu lesen ich jedem Computerschachfan empfehlen möchte.
Parent - - By Benno Hartwig Date 2011-11-18 13:06
[quote="Frank Brenner"]Eine Engine würde z.B nur um die Bewertung um 0.01 Punkte zu erhöhen stets einen Generalabtausch aller Figuren anstreben, auch dann wenn die Stellung anschliessend so vereinfacht ist , dass jeder 2000 ELO er Spieler ein Remis halten würde.[/quote]Das ist aber kein Problem dieses Entscheidungsprinzips, welches auch 1/00 Bauern berücksichtigt, sondern der Stellungsbewertungen. Die Engine muss eben die Stellungschancen einigermaßen korrekt und vergleichbar abschätzen. Wenn sie das fehlerhaft macht, kommt sie eben zu unglücklichen Zugentscheidungen.

Mit vergleichbar meine ich folgendes, was bei Stockfish oft so interpretiert habe:
Im Mittelspiel bedeutet +1,00 Vorteil im Wert eines Bauern, der schon einige Gewinnchancen bietet.
Im Endspiel bedeutet +1,00 einen gewissen Vorteil, der aber weit weniger bedeutet. Echte Vorteile werden sehr schnell mit deutlich höheren Werten angezeigt.
Solange die Bewertungen ähnlicher Stellungstypen verglichen werden, macht das nichts.
Der Vergleich der Bewertung einer Mittelspielstellung und einer Endspielstellung ist da schon weit problematischer.
Ggf. kann ein besonders langer Schlagabtausch in der Ruhesuche durchaus in einen solchermaßen verschiedenen Stellungstyp führen, dass die Bewertungen an der Wurzel solch einer Ruhesuchenvertiefung und in tiefen Blättern nicht mehr guten Gewissens vergleichen werden können. Trotzdem aber konsequent und direkt verglichen werden!

Benno
Parent - - By Frank Brenner Date 2011-11-18 21:28
>Das ist aber kein Problem dieses Entscheidungsprinzips



Doch. Genau das ist es.

Betrachte eine Mittelspielstellung mit vollem Brett. Die Engine ist Weiß und hat nach langer Rechnerei zwei Züge A und B zur Auswahl.

A führt zu einer Sequenz von erzwungenen Schlagzügen die jeweils einfach zu finden sind und mündet in einem trivialen Spiel: König vs König, also Engine-Bewertung 0,00

B führt zu einer völlig anders gearteten Mittelspielstellung wo vorerst keine oder nur sehr wenige Schlagzüge auftreten aber mit Bewertung -0,01 für Weiß

Jede heutige Engine wählt Zug A.
Parent - - By Benno Hartwig Date 2011-11-18 23:59
[quote="Frank Brenner"]Jede heutige Engine wählt Zug A.[/quote]Klar, sollte sie ja auch.
-0,01 bedeutet ja, dass sie meint bestenfalls eine Stellung zu erreichen, bei der die Wahrscheinlicheit zu gewinnen zumindest etwas kleiner ist als die zu verlieren.
Gegen einen gleichstarken Gegner wohl auch die opimale Strategie, um eine möglichst hohe Punktausbeute zu erwarten.
Nur gegen schwächere Gegner sollte sie halt trotzdem lieber das Remis vermeiden. Das musst du ihr dann durch die Parameterisierung mitteilen "Remis ist schlecht!". Dann wird sie das Remis auch in deinem Szenario vermeiden.
Das Entscheidungsprinzip ist sicher nicht das Problem, sondern eben die Stellungbewertung.
Gegen einen schwächeren Gegner muss die Engine eben urteilen "Remisstellungen sindt -0,09" oder so.
Dann liefert das minimax in seinen Spielarten auch wunderbar das, was du vermutlich möchtest.

Benno
Parent - By Frank Brenner Date 2011-11-19 03:33
Ich denke du hast es noch nicht richtig verstanden:

Wenn in der Baumsuche ein 0,17 zurückkommt, dann kann die Baumsuche in den heutigen Schachengines nicht entscheiden ob es sich bei der Blattstellung um eine einfache Endspielstellung handelt die jeder 1800 ELO Spieler Remis hält oder um eine komplexe ausgeglichene 0,17 Stellung in der noch alles offen ist (z.B. die Startstellung). Diese Information fehlt schlicht und einfach bei allen heutigen Engines.

Auch wenn du der Engine mitteilen würdest dass sie gegen einen viel  stärkeren Spieler spielt (und damit ein Remis anstreben soll): Die Engine würde lieber in eine sehr verzwickte Stellung hineinmanövrieren wenn ihr Bewertungsalgorithmus dafür eine +0,07  liefert als  in ein sehr figurenarmes. einfaches Endspiel  mit 0,03 Bewertung die die Engine mit Leichtigkeit Remis halten würde ...

Das Problem ist viel viel umfangreicher als ein von dir gewünschter "Remis ist Schlecht/Gut" Parameter oder ein contempt faktor.
Parent - By Michael Scheidl Date 2011-11-19 05:57
Zitat:
Jede heutige Engine wählt Zug A.

Einige Engines wie z.B. Houdini oder Rykba (ab -3?) leisten sich per Default einen kleinen Geringschätzungfaktor oder ähnliches. Komodo 3 hat "Drawscore -5":



Komodo 3:
   1  00:00             8  512  -0.04  99.Kd4
   2  00:00            34  2.179  +0.04  99.Kd4 Kf5
   3  00:00            94  6.025  -0.05  99.Kd4 Kf5 100.Kc3
(...)
  99  00:02        16.343  7.031  -0.05  99.Kd4 Kf5 100.Kc3

Rybka 232a hat per default einen Geringschätzungfaktor von 0. Wenn ich diesen auf plus 5 Centipawns setze, ergibt sich derselbe Effekt:

Rybka 2.3.2a:
   5  00:00           164  167.936  -0.05  99.Kd4 Kf5
(...)
  18  00:05       337.065  65.444  -0.05  99.Kd4 Kf5 100.Kd5 Kf4 101.Kd6 Ke4 102.Ke6 Kd4 103.Kd6 Ke4 104.Ke6 Kd4 105.Kd6 Ke4
Best move: Kd4, Value: -0.05, Depth: 18, Time: 00:06.949, 437.686 Nodes, 67.590 N/sec.
Parent - - By Werner Mueller Date 2011-11-17 22:48
[quote="Thomas Mayer (Quark)"]
Hi Michael,

sinnvoll ! -> Du hattest übrigens recht, zumindest seit 1997 wurde nur einmal um 100 Elo reduziert.
Prinzipiell stimme ich mit Dir voll überein, man kann die Elo nicht vergleichen und deshalb wäre es besser, man würde von vorneherein einen anderen Wertebereich nehmen. Warum meinetwegen Shredder 12 nicht bei 0 setzen und alle anderen dazu relativ ?
Ein Beispiel, warum es nicht vergleichbar ist:
In den Computer-Ranglisten bekommt man bei Verdopplung der Geschwindigkeit ca. +50 - +70 Elo. Menschliche Spieler sehen aber in der Regel keinen derartigen Leistungssprung, die Engines fallen trotz doppelter Geschwindigkeit immer noch auf die selben Sachen herein, bewerten die selben Positionstypen falsch etc. - weil durch die doppelte Geschwindigkeit hat sich lediglich ihr taktisches Vermögen verbessert, positionell sind sie genauso blind. Das wirkt sich eben gegen Menschen ganz anders aus als gegen andere Computerprogramme.
Den von Ben Hur vorgeschlagenen Test von Smirf gegen den Superconny kann ich leider nicht machen, ich habe keinen. Wir wärs mit nem Mephisto Mondial 68000XL ? Der wird bei Schachcomputer.info mit ca. 1980 gelistet, in der SSDF taucht er leider nicht mehr, wäre wohl bei ca. 1880.

Gruß, Thomas
[/quote]
Du beschreibst das Grundproblem an der ganzen Sache, ich habe die Tage ähnlich argumentiert: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=43798

Eine grundlegende Annahme der Eloschen Theorie ist die Transitivität der Spielstärke in der Form: ist A x:1-Favorit gegenüber B und B y:1-Favorit gegenüber C, so ist A xy:1-Favorit gegenüber C.
In der menschlichen Praxis ist dies nicht streng aber doch (Pi mal Daumen) hinreichend der Fall. Ähnliches gilt wohl für den Vergleich von Engines untereinander.

Bei einem Mix Menschen/Engines dürfte eine Transitivität in der o.a. Form nicht mehr hinreichend gewährleistet sein, und die (hypothetische) reguläre und intensive Teilnahme von Engines am menschlichen Spielbetrieb würde wahrscheinlich das ganze ELO- bzw. DWZ-System über den Haufen werfen.

Deshalb (wenn der Mix vom Grundsatz her schon in die Hose geht) muss man sich über eine bessere Vergleichbarkeit der Rating-Listen keine allzu großen Gedanken machen.
Parent - By Werner Mueller Date 2011-11-18 10:26
Wenn man sich schon selbst zitiert, dann wenigstens die richtige Stelle.

Ich meinte http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=43876, sorry. 
Parent - - By Benno Hartwig Date 2011-11-18 14:22
[quote="Werner Mueller"]ist A x:1-Favorit gegenüber B und B y:1-Favorit gegenüber C, so ist A xy:1-Favorit gegenüber C.[/quote]Und solch ein Zusammenhang kann nur durch die Praxis bestätigt oder widerlegt werden.
Ich vermute, man hat das ELO-System so geschaffen, weil dieser Zusammenhang beim Menschenschach hinreichend genau gegeben schien.
Im Spiel von Engines gegeneinander, und auch von einer gemischten Engine-Menschen-Teilnehmerschaft muss das nicht gegeben sein.

Andererseits bietet das verfügbare Material reichlich Gelegenheit, dies immerhin für die Computer-Begegnungen zu überprüfen.

Benno
Parent - By Werner Mueller Date 2011-11-18 14:44
[quote="Benno Hartwig"]
[quote="Werner Mueller"]ist A x:1-Favorit gegenüber B und B y:1-Favorit gegenüber C, so ist A xy:1-Favorit gegenüber C.[/quote]Und solch ein Zusammenhang kann nur durch die Praxis bestätigt oder widerlegt werden.
[/quote]
Ja

[quote="Benno Hartwig"]
Ich vermute, man hat das ELO-System so geschaffen, weil dieser Zusammenhang beim Menschenschach hinreichend genau gegeben schien.
[/quote]
Ja

[quote="Benno Hartwig"]
Im Spiel von Engines gegeneinander, und auch von einer gemischten Engine-Menschen-Teilnehmerschaft muss das nicht gegeben sein.
[/quote]
Ja, im Spiel von Engines gegeneinander würde ich es aber (mehr als) stark vermuten - bei einem Mix Engine/Mensch ist es meiner Überzeugung nach auszuschließen.

[quote="Benno Hartwig"]
Andererseits bietet das verfügbare Material reichlich Gelegenheit, dies immerhin für die Computer-Begegnungen zu überprüfen.
[/quote]
Ich denke, dass alle gängigen Listen mehr oder weniger zu denselben Ergebnissen kommen bzw. sich nicht widersprechen, ist schon mehr als ein Indiz dafür, dass die Sache Hand und Fuß hat.
Up Topic Hauptforen / CSS-Forum / Computerratings und Verbands-Elo (Fortsetzung)

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill