[quote="Ben Hur"]Um diese simple Tatsache festzustellen, benötigt die CEGT ca. 700 Partien,
was für ein riesengrosser Aufwand!
Andererseits wurden hier zufällig ca. 5 Partien gepostet, die von zwei
unabhängigen Personen ausgewertet wurden. Deren Einschätzung hat
sich zu 100 Prozent bestätigt.[/quote]Was (zumindest mich) hier z.B. interessiert, ist die Einschätzung der Spielstärke im Vergleich zu anderen Engines.
Solche Informationen können durch genügend umfangreiche Turniere ermittelt werden. OK, das heißt Aufwand.
Wenn dir 2 Personen bekannt sind, die dies ähnlich zuverlässig anhand von 5 Partien können, ist das ja auch toll. Klar.
Aber wie verlässlich ist das deiner Meinung nach?
Angenommen, sie bekommen eine bislang unbekannte recht gute Engine in die Hände und dürfen sich 5 Partien dieser Engine ganz genau ansehen.
Was meinst du: wie genau werden sie die Spielstärke dann einschätzen können? Nur aufgrund dieser Informationen?
Also zumindest mir fehlt dann das Vertrauen und ich schaue lieber und gern auf die Statistik!
Und wenn sie dann (mal, oder auch ein paar mal mehr) so ungefähr Recht hatten, dann verdient das ja gern auch ein anerkennendes Kopfnicken.
Und wenn sich jemand mit einer ggf. schwächeren Engine die Mühe der vielen Partien machen will, ist das doch toll, und dies sollte niemanden ärgern.
(Andere schütteln eh verständnislos den Kopf, weil wir mit dem Computerschach so viel Zeit verbringen. Und auch die sollten sich darüber nicht ärgern)
Benno
By Wolfgang Battig
Date 2011-11-14 16:29
Hallo Anon "Ben Hur",
eigentlich wollte ich mich aus dieser Diskussion raushalten, aber jetzt muss ich doch mal was dazu schreiben...
[quote="Ben Hur"]
Anlass Smirf:
Mit einem ungeheurem Aufwand an Power, Zeit und Aufwand wird
der neueste Smirf in der CEGT eine elo Zahl von knapp über 2000
zugewiesen bekommen.
Dir ist nicht so wirklich klar, wie Engines getestet werden, oder?
Von "ungeheurem" Aufwand kann keine Rede sein, bestenfalls was die Stromrechnung angeht... Aber es ist nunmal bei Hobbies so, dass sie was kosten!
Ansonsten läuft alles automatisch ab, der Tester - hier G.S. - startet den Rechner, ein Interface, setzt das Match auf und das wars, Rest automatisch!
Zitat:
Ich stellte bereits dar, dass dort die Zahlen um ca. 400 elo Punkte zu hoch sind.
Und wenn Du es darstellst, muss es stimmen?
Unsere Zahlen sind zu hoch, keine Frage, ich gehe mal von ca. 200 Punkten aus. Auf 400 kann man nur
kommen, wenn man den Ranglistenersten beim Computerschach (Houdini 2.0) mit dem/den besten
menschlichen Spielern gleichsetzt. (Beispiel: Houdini 2.0 mit 64 bit und nur EINER CPU hat bei uns 3231, minus 400 also 2831, in etwa Carlsen-Niveau, wenn
ich recht informiert bin).
Bei allem Respekt (vor Carlsen!!): DAS IST TOTALER QUATSCH! (sorry an die Moderatoren, dass ich laut werde...)
Niemand, der auch nur ein bisschen Ahnung von der Materie hat glaubt, dass Nr.1 im Computerschach und Menschenschach gleich stark sind, schon gar nicht
im Blitz- oder Schnellschach. Ich weiß, dass das nicht beweisbar ist, weil die aktuellen Vergleiche fehlen, weil kein Super-GM heute noch gegen die besten Engines antreten wird,
oder es wird so teuer, dass sich kein Veranstalter das leisten kann.
Trotzdem ist das Rennen schlicht gelaufen, kein Mensch gewinnt heute noch ein Mehrpartienmatch gegen Topsoftware auf Tophardware. Selbst Mittelklassehardware reicht!
Leider muss man sich dazu auf frühere Ergebnisse verlassen (Fritz schlägt Kramnik, Rybka gewinnt Matches mit Figurenvorgabe gegen diverse GM, Adams verliert 0,5:5,5 gegen Hydra usw.).
Wenn ein waschechter GM (Meier) Rybka 3 auf ca. 2900 ELO schätzt, ist das ein weiteres Indiz für die mittlerweile überdeutliche Überlegenheit der Maschinen. Und Rybka 3 liegt
MINDESTENS 100 Punkte hinter der aktuellen Spitze! Somit sind die Zahlen, die Frank (SWCR) und Ingo (IPON) ausweisen, recht nah an der Realität.
Zitat:
Berücksichtigt man diese Tatsache, dann ist Smirf mit ca. 1600 Elo einzustufen!
keine "Tatsache" sondern schlicht falsch. Gerhards Test würden einen (halbwegs) realistischen Wert von 1800-1850 ergeben, die stärkere Version - Test hat gerade begonnen -
scheint nochmals deutlich höher zu liegen.
....
Zitat:
Um diese simple Tatsache festzustellen, benötigt die CEGT ca. 700 Partien,
was für ein riesengrosser Aufwand!
Zum Aufwand bzw. "Nicht"-Aufwand habe ich schon was geschrieben.
Ranglisten werden nunmal nicht nach dem Motto "ich guck mal auf ein paar Partien und schätze dann" erstellt,
ganz im Gegensatz zu Deinen Vermutungen!
Zitat:
Andererseits wurden hier zufällig ca. 5 Partien gepostet, die von zwei
unabhängigen Personen ausgewertet wurden. Deren Einschätzung hat
sich zu 100 Prozent bestätigt.
s.o.
Zitat:
Also, warum wird so ein immenser Aufwand getrieben, wenn wenige Stellungen
ausreichen um die Spielstärke abzuschätzen?
Reichen sie eben nicht, es sei denn man gibt sich mit "abschätzen" zufrieden. Das tun
wir nicht, es bleibt Dir aber unbenommen.
Wolfgang
CEGT-Team
PS: Dein Verhalten, ein eigentlich erledigtes Thema durch neue Threads wieder aufzuwärmen erscheint mir ein wenig "trollig", kann mich aber auch täuschen (glaube es aber nicht)...
By Ingo Bauer
Date 2011-11-14 17:53
Edited 2011-11-14 18:02
Hallo Wolfgang,
[quote="Wolfgang Battig"]
...
Zitat:
Ich stellte bereits dar, dass dort die Zahlen um ca. 400 elo Punkte zu hoch sind.
Und wenn Du es darstellst, muss es stimmen?
Unsere Zahlen sind zu hoch, keine Frage, ich gehe mal von ca. 200 Punkten aus. Auf 400 kann man nur
kommen, wenn man den Ranglistenersten beim Computerschach (Houdini 2.0) mit dem/den besten
menschlichen Spielern gleichsetzt. (Beispiel: Houdini 2.0 mit 64 bit und nur EINER CPU hat bei uns 3231, minus 400 also 2831, in etwa Carlsen-Niveau, wenn
ich recht informiert bin).
Bei allem Respekt (vor Carlsen!!): DAS IST TOTALER QUATSCH! (sorry an die Moderatoren, dass ich laut werde...)
Niemand, der auch nur ein bisschen Ahnung von der Materie hat glaubt, dass Nr.1 im Computerschach und Menschenschach gleich stark sind, schon gar nicht
im Blitz- oder Schnellschach. Ich weiß, dass das nicht beweisbar ist, weil die aktuellen Vergleiche fehlen, weil kein Super-GM heute noch gegen die besten Engines antreten wird,
oder es wird so teuer, dass sich kein Veranstalter das leisten kann.
Trotzdem ist das Rennen schlicht gelaufen, kein Mensch gewinnt heute noch ein Mehrpartienmatch gegen Topsoftware auf Tophardware. Selbst Mittelklassehardware reicht!
Leider muss man sich dazu auf frühere Ergebnisse verlassen (Fritz schlägt Kramnik, Rybka gewinnt Matches mit Figurenvorgabe gegen diverse GM, Adams verliert 0,5:5,5 gegen Hydra usw.).
Wenn ein waschechter GM (Meier) Rybka 3 auf ca. 2900 ELO schätzt, ist das ein weiteres Indiz für die mittlerweile überdeutliche Überlegenheit der Maschinen. Und Rybka 3 liegt
MINDESTENS 100 Punkte hinter der aktuellen Spitze! Somit sind die Zahlen, die Frank (SWCR) und Ingo (IPON) ausweisen, recht nah an der Realität.
...
Alles 100% richtig was du hier schreibst. Meine Liste liegt so 190 Elo (+/- ein bisschen) hinter eurer 40/20. Nachdem ich mit S12 der Erste war, der auf Playchess eine makellose Bilanz hingelegt hat (bin ein bisschen stolz, nicht wegen Menschen "verprügeln", sondern weil das bis heute kein anderer Comp Account geschafft hat
), also 400 Spiele, länger geht die Historie nicht, ohne einen Verlust oder ein Remis*, bin ich bei Computer gegen Menschen sehr desilusioniert. Ohne mit der Wimper zu zucken und ohne das ich es Beweisen könnte würde ich auf meine Liste 100 Elo draufpacken und wäre sicher das es gegen Menschen nicht zu hoch wäre. Insofern ist euer Rating vielleicht sogar dichter an der Wahrheit als meins!
* Die größte Schwierigkeit war, 400 Spiele ohne Verbinungsabbruch hinzubekommen. Der wird in der Historie dann als Gewinn für den Menschen gewertet ... Auch habe ich ohne spezielles Eröffnungsbuch gespielt, sondern das S12 Buch auf "Weit" und maximal 12 Züge. Um Anti-Comp Schach zu unterbinden, habe ich die Springer so weit abgewertet, das die Engine mal einen reingehauhen hat um einen Bauern zu bekommen und eine Linie zu öffnen*, zusätzlich noch King Safty auf 120, also sehr agressiv und keine Spiele gegen Gegner unter 2400 - es waren einige der Super-GMs mit 3000 Wertung dabei. De fakto war dieses Setting mit Sicherheit deutlich schwächer als S12, gegen Menschen langt es allemal! Danach war allerdings der Reiz weg, im Menschenraum zu spielen da fehlt es jetzt an Motivation ... warum?
*An dieser Stelle haben die AntiCompSchachSpieler dann, egal wie gut sie objektiv standen, regelmäßig aufgegeben!
[quote="Wolfgang Battig"]
PS: Dein Verhalten, ein eigentlich erledigtes Thema durch neue Threads wieder aufzuwärmen erscheint mir ein wenig "trollig", kann mich aber auch täuschen (glaube es aber nicht)...
By Werner Mueller
Date 2011-11-14 19:21
@ Wolfgang Battig
Hallo Wolfgang,
nur damit keine neue Legenden entstehen: Rybka hat ein Match mit Figurenvorgabe gegen einen FM (oder IM?) Meyer oder Meyers o.ä. aus den USA gespielt und meines Wissens verloren.
also a) nicht Matches sondern ein Match b) nicht gegen GMs sondern gegen einen FM und c) nicht gewonnen sondern verloren.
Wenn mich meine Erinnerung täuschen sollte, entschuldige ich mich schon jetzt.
Deine Einschätzung bzgl. Houdini (vs. Carlsen) teile ich in etwa. Und von den Stärkeverhältnissen im Blitz brauchen wir erst gar nicht reden.
Dass die CEGT deswegen zu hohe Werte hätte, würde ich aber gar nicht sagen - das ist letzlich Geschmacksache. Welche Engine man auch als Bezugspunkt nimmt - wie man's macht ist es falsch.
Das ist kein Mangel der CEGT sondern eine prinzipielle Sache: Wenn der GM patzt, ist die Partie weg - völlig wurscht, ob das Programm 3 Halbzüge mehr oder weniger rechnet, wohingegen zwischen zwei Programmen 3 Halbzüge mehr oder weniger schon ein gewichtiger Unterschied ist, simulieren sie doch sozusagen ein relativ besseres positionelles Verständnis.
Meiner Überzeugung nach (aber das kann ich natürlich nicht beweisen) schmelzen bzgl. eines menschlichen Vergleichs z.B. die 550 Punkte Elo-Differenz zwischen z.B. Houdini 1.5 und Deep Fritz 8 vielleicht auf gerademal 100 Punkte.
Und um es nochmal zu betonen: das ist kein Mangel der CEGT oder sonstiger Ratinglisten - der Punkt ist, dass Mensch und Programm ein 'anderes' Schach spielen und Fortschritte eines Programms bzgl. anderer Programme nicht automatisch Fortschritte bzgl. der menschlichen ('anderen') Herangehensweise bedeuten.
Ein ähnliches Problem existiert auch in den niederen Bereichen einer Ratingliste, und damit bin ich beim Thema.
Wie weiter oben schon angedeutet ('von den Stärkeverhältnissen im Blitz brauchen wir erst gar nicht reden'), baut der Mensch im Vergleich zur Engine bei kurzen Bedenkzeiten unverhältnismäßig ab (was wiederum an der 'anderen' Herangehensweise liegt).
Wenn also ein Programm gegen einen Spieler <2100 IM BLITZ nahezu jede Partie verliert (dazu kommt für mich noch WIE das Programm verliert), dann geht die Erwartung dieses Programm bei langen Bedenkzeiten gegen Null. In einem Turnier mit menschlichen Spielern > 2000 wird dieses Programm högschtwahrscheinlich
keinen halben Punkt machen.
So weit so schlecht - und mit einer Einsortierung bei max. 1500 ELO könnte man die Sache als erledigt betrachten.
Ist sie aber nicht, denn in einem Turnier mit menschlichen Spielern um die 1500 ELO würde dieses Programm ebenso högschtwahrscheinlich
100% erreichen - diese Spieler verderben ihre Partien durch Patzer und Überseher regelmäßig und zuverlässig selbst. Ein ähnlich geartetes Problem also wie am oberen Ende der Liste.
Fazit: Computer-Ratinglisten sind weder im oberen noch im unteren (und auch nicht im mittleren) Bereich sinnvoll mit menschlichen Spielstärken in Beziehung zu setzen.