Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Manonen auf Spatzen?
- - By Ben Hur Date 2011-11-14 11:05
Anlass Smirf:

Mit einem ungeheurem Aufwand an Power, Zeit und Aufwand wird
der neueste Smirf in der CEGT eine elo Zahl von knapp über 2000
zugewiesen bekommen.

Ich stellte bereits dar, dass dort die Zahlen um ca. 400 elo Punkte zu hoch sind.

Berücksichtigt man diese Tatsache, dann ist Smirf mit ca. 1600 Elo einzustufen!

Der Programmierer reagierte darauf sehr verschnupft, warum?

Um diese simple Tatsache festzustellen, benötigt die CEGT ca. 700 Partien,
was für ein riesengrosser Aufwand!

Andererseits wurden hier zufällig ca. 5 Partien gepostet, die von zwei
unabhängigen Personen ausgewertet wurden. Deren Einschätzung hat
sich zu 100 Prozent bestätigt.

Also, warum wird so ein immenser Aufwand getrieben, wenn wenige Stellungen
ausreichen um die Spielstärke abzuschätzen?
Parent - - By Frank Rahde Date 2011-11-14 11:36 Edited 2011-11-14 11:43
Hallo "Ben",

wieso schießt Du hier weiter auf Spatzen? Nix besseres zu tun?! Vermutlich bist Du enttäuscht, weil man Deine Testarbeit nicht gebührend würdigte.

Bitte den konkreten Link zur CEGT posten, ich fand die Liste mit einen Neueintrag von Smirf und 700 Partien auf Anhieb nicht. Vermutlich meinst Du http://cegt.siteboard.eu/f6t150-testing-smirf-bc-176f-2.html, aber dort ist der Test noch im Gange. Die stärkere Engine Version "MS ..." wurde noch gar nicht getestet.

Jede Engine hat(t) doch ein Recht auf Ranking, das finde ich gut, zumal wenn sie frei sind. Hier geht es um Verdienste. Warum sollte gerade Smirf gedisst werden?! Zum Glück gehörst Du nicht zu den Ranglistenbetreibern!
Ich baue auf Testreihen und Statistik, also auf viele Testpartien und vergleichbare Ergebnisse - und nicht auf 5 Partien und subjektiven Einschätzungen. Ich selbst führe eine private Rangliste. Hinterher ist man immer schlauer.

Eine Engine mit 1600 "ELO" hat natürlich auch ihre Existenzberechtigung. Ich als alter DWZler mit 1600 hätte eine gleichstarke Engine zum Gegner.

Ich verstehe den Programmierer gut, Du anscheinend nicht. Es ging ihm weniger um 8x8-Schach und nicht um die Krone des Computerschachs (per Abgucken des Codes). Hast Du eine Engine programmiert?!

Gruß, Frank
Parent - By Werner Schüle Date 2011-11-14 12:10
[quote="Frank Rahde"]
Hallo "Ben",
Hast Du eine Engine programmiert?!
Gruß, Frank
[/quote]

Hallo Ben,
das würde mich auch interessieren.
Gruß, Werner
Parent - - By Ben Hur Date 2011-11-14 12:12
Hallo Frank,

Du verstehst mich völlig falsch, denn ich habe hier mehrfach betont dass mir Smirf
sehr wohl gefällt. Es ist Herrn Scharnagl gelungen ein Schachprogramm zu programmieren,
das die die Spielstärke eines durchschnittlichen Vereinsspielers besitzt. Das ist doch gut so!

Das Smirf endlich "offiziell" getestet wurde ist doch wohl zu einem sehr grossen
Teil meinen Postings zu verdanken.

Ich habe auch zeigen wollen, dass so ein immenser Aufwand gar nicht erforderlich ist,
um die Spielstärke real einzuschätzen, was soll daran so falsch sein?
Zitat:
Ich baue auf Testreihen und Statistik, also auf viele Testpartien und vergleichbare Ergebnisse - und nicht auf 5 Partien und subjektiven Einschätzungen.

Code:
Wenn es im Ergebnis auf das Selbe herauskommt, ist mir das egal.
Immer eine Frage des Aufwandes an Ressourcen(Zeit+...) Wenn ich schneller an das richtige
Resultat komme, dann ist es doch besser!


Letztlich zeigt sich, dass die Einschätzung des Programmierers nicht zutreffend ist!
Aber das soll schon bei anderen Programmieren vorgekommen sein, nichts neues also!

Also nicht mit Kanonen auf Spatzen schiessen.

MfG

Ben Hur
Parent - By Wolfgang Battig Date 2011-11-14 16:31
[quote="Ben Hur"]
...Das Smirf endlich "offiziell" getestet wurde ist doch wohl zu einem sehr grossen
Teil meinen Postings zu verdanken.
...
[/quote]

Ist es nicht! Gerhard liest und schreibt hier nicht (mehr) und bezog sich eindeutig auf
Reinhards Posting bei Open Chess! Also überschätz Dich bitte nicht!
Parent - By Ben Hur Date 2011-11-14 12:40
[quote="Frank Rahde"]
...
Zitat:
Warum sollte gerade Smirf gedisst werden?!

Code:
Also  "gedisst" bzw. "boykottiert" haben doch die Ranglistenbetreiber, nicht ich!
http://www.open-chess.org/viewtopic.php?f=39&t=1655

Gruß, Frank


Also, nicht Ursache mit Wirkung vertauschen.

P.S.

Eine Engine habe ich noch nicht programmiert, wozu auch?
Parent - - By Simon Gros Date 2011-11-14 13:48
Ich vermutet mal, daß einige (sehr viele?) ihrer Testpartien nicht gut gelaufen sind von der technischen Seite her gesehen. Hier steht nämlich, daß es bisher keine Probleme gab (no problems until now), siehe: http://cegt.siteboard.eu/f6t150-testing-smirf-bc-176f-2.html. Sie jedoch berichteten von über 50% Zeitüberschreitungen! Vielleicht schreibt der CEGT-Tester hier mal auf was man genau achten muß?
Simon_G
Parent - - By Ben Hur Date 2011-11-14 14:14
Stimmt, aber das spielt keine Rolle, da die veröffentlichen Partien ja fehlerfrei abliefen.
Herr Scharnagl gab ja auch Auskunft woran es liegen könnte. Es müsen für die
verschiedenen Smirf Versionen auch die dazu passenden smirfoglot Adapter eingebunden
werden.

Ben
Parent - By Reinhard Scharnagl Date 2011-11-14 18:17
[quote="Ben Hur"]... Herr Scharnagl gab ja auch Auskunft woran es liegen könnte. Es müsen für die
verschiedenen Smirf Versionen auch die dazu passenden smirfoglot Adapter eingebunden werden. ...[/quote]
Eh dass hier Missverständnisse aufkommen: hier ein paar technische Hinweise:

Der SMIRF-o-Glot Adapter wurde in den letzten Wochen verbessert und ergänzt. Er
unterstützt SMIRF für die Winboard-F GUI, damit HGM damit über den Jahreswechsel
ein sicherlich wieder sehr interessantes Turnier "Battle of the Goths" auch mit Smirf
veranstalten kann, in dem zahlreiche, nicht Clon-gedopte Engines antreten werden.

SMIRF-o-Glot übersetzt aus dem TMCI-Protokoll, damit werden auch automatisch ältere
Versionen von SMIRF spielbar. Die wurden allerdings NIE mit diesem neuen Adapter
und insbesondere NICHT für Blitz vorgetestet. Hätte mich seinerzeit jemand angesprochen,
solche ausführlichen Tests wie zur Zeit durchführen zu wollen, was mir ja nicht unwill-
kommen gewesen wäre, so hätte ich entweder zu einem anderen Zeitrahmen geraten,
oder aber eine für Blitz vorgetestete Version von SMIRF zur Verfügung gestellt.

Es soll auch nicht übersehen werden, dass man nur einen seiner wesentlichsten
Fähigkeiten amputierten SMIRF testet. Keine GUI-Eigenschaften, keine 10x8 Partien,
keine Random-Schach-Varianten, keine aussagekräftigen Bedenkzeiten, die etwas
über SMIRFs Spielcharakter aussagen könnten.
Parent - - By Benno Hartwig Date 2011-11-14 13:49 Edited 2011-11-14 13:55
[quote="Ben Hur"]Um diese simple Tatsache festzustellen, benötigt die CEGT ca. 700 Partien,
was für ein riesengrosser Aufwand!
Andererseits wurden hier zufällig ca. 5 Partien gepostet, die von zwei
unabhängigen Personen ausgewertet wurden. Deren Einschätzung hat
sich zu 100 Prozent bestätigt.[/quote]Was (zumindest mich) hier z.B. interessiert, ist die Einschätzung der Spielstärke im Vergleich zu anderen Engines.
Solche Informationen können durch genügend umfangreiche Turniere ermittelt werden. OK, das heißt Aufwand.

Wenn dir 2 Personen bekannt sind, die dies ähnlich zuverlässig anhand von 5 Partien können, ist das ja auch toll. Klar.
Aber wie verlässlich ist das deiner Meinung nach? 
Angenommen, sie bekommen eine bislang unbekannte recht gute Engine in die Hände und dürfen sich 5 Partien dieser Engine ganz genau ansehen.
Was meinst du: wie genau werden sie die Spielstärke dann einschätzen können? Nur aufgrund dieser Informationen?

Also zumindest mir fehlt dann das Vertrauen und ich schaue lieber und gern auf die Statistik!
Und wenn sie dann (mal, oder auch ein paar mal mehr) so ungefähr Recht hatten, dann verdient das ja gern auch ein anerkennendes Kopfnicken.

Und wenn sich jemand mit einer ggf. schwächeren Engine die Mühe der vielen Partien machen will, ist das doch toll, und dies sollte niemanden ärgern.
(Andere schütteln eh verständnislos den Kopf, weil wir mit dem Computerschach so viel Zeit verbringen. Und auch die sollten sich darüber nicht ärgern)

Benno
Parent - - By Ben Hur Date 2011-11-14 14:54
[quote="Benno Hartwig"]
...
Also zumindest mir fehlt dann das Vertrauen und ich schaue lieber und gern auf die Statistik!
...
Benno
[/quote]

Dann antworte ich wie Arpad Elo: http://de.wikipedia.org/wiki/Arpad_Elo
Er selbst sagte über das von ihm entwickelte System: Manchmal denke ich, ich habe Frankensteins Monster erschaffen! Die jungen Spieler interessieren sich mehr für die Elo-Wertung als für die Dinge auf dem Brett.

Noch Fragen? 
Parent - By Benno Hartwig Date 2011-11-14 18:53
[quote="Ben Hur"]Noch Fragen?  [/quote]Ja: Was bedeutet das nun für die Verlässlichkeit der Einschätzung einer Engines-Spielstärke durch zwei Experten nach dem Blick auf 5 Partien? 
Benno
Parent - - By Wolfgang Battig Date 2011-11-14 16:29
Hallo Anon "Ben Hur",

eigentlich wollte ich mich aus dieser Diskussion raushalten, aber jetzt muss ich doch mal was dazu schreiben...

[quote="Ben Hur"]
Anlass Smirf:
Mit einem ungeheurem Aufwand an Power, Zeit und Aufwand wird
der neueste Smirf in der CEGT eine elo Zahl von knapp über 2000
zugewiesen bekommen.


Dir ist nicht so wirklich klar, wie Engines getestet werden, oder?
Von "ungeheurem" Aufwand kann keine Rede sein, bestenfalls was die Stromrechnung angeht... Aber es ist nunmal bei Hobbies so, dass sie was kosten!
Ansonsten läuft alles automatisch ab, der Tester - hier G.S. - startet den Rechner, ein Interface, setzt das Match auf und das wars, Rest automatisch!

Zitat:

Ich stellte bereits dar, dass dort die Zahlen um ca. 400 elo Punkte zu hoch sind.


Und wenn Du es darstellst, muss es stimmen?
Unsere Zahlen sind zu hoch, keine Frage, ich gehe mal von ca. 200 Punkten aus. Auf 400 kann man nur
kommen, wenn man den Ranglistenersten beim Computerschach (Houdini 2.0) mit dem/den besten
menschlichen Spielern gleichsetzt. (Beispiel: Houdini 2.0 mit 64 bit und nur EINER CPU hat bei uns 3231, minus 400 also 2831, in etwa Carlsen-Niveau, wenn
ich recht informiert bin).

Bei allem Respekt (vor Carlsen!!): DAS IST TOTALER QUATSCH! (sorry an die Moderatoren, dass ich laut werde...)

Niemand, der auch nur ein bisschen Ahnung von der Materie hat glaubt, dass Nr.1 im Computerschach und Menschenschach gleich stark sind, schon gar nicht
im Blitz- oder Schnellschach. Ich weiß, dass das nicht beweisbar ist, weil die aktuellen Vergleiche fehlen, weil kein Super-GM heute noch gegen die besten Engines antreten wird,
oder es wird so teuer, dass sich kein Veranstalter das leisten kann.
Trotzdem ist das Rennen schlicht gelaufen, kein Mensch gewinnt heute noch ein Mehrpartienmatch gegen Topsoftware auf Tophardware. Selbst Mittelklassehardware reicht!
Leider muss man sich dazu auf frühere Ergebnisse verlassen (Fritz schlägt Kramnik, Rybka gewinnt Matches mit Figurenvorgabe gegen diverse GM, Adams verliert 0,5:5,5 gegen Hydra usw.).

Wenn ein waschechter GM (Meier) Rybka 3 auf ca. 2900 ELO schätzt, ist das ein weiteres Indiz für die mittlerweile überdeutliche Überlegenheit der Maschinen. Und Rybka 3 liegt
MINDESTENS 100 Punkte hinter der aktuellen Spitze! Somit sind die Zahlen, die Frank (SWCR) und Ingo (IPON) ausweisen, recht nah an der Realität.

Zitat:

Berücksichtigt man diese Tatsache, dann ist Smirf mit ca. 1600 Elo einzustufen!


keine "Tatsache" sondern schlicht falsch. Gerhards Test würden einen (halbwegs) realistischen Wert von 1800-1850 ergeben, die stärkere Version - Test hat gerade begonnen -
scheint nochmals deutlich höher zu liegen.

....

Zitat:

Um diese simple Tatsache festzustellen, benötigt die CEGT ca. 700 Partien,
was für ein riesengrosser Aufwand!


Zum Aufwand bzw. "Nicht"-Aufwand habe ich schon was geschrieben.
Ranglisten werden nunmal nicht nach dem Motto "ich guck mal auf ein paar Partien und schätze dann" erstellt,
ganz im Gegensatz zu Deinen Vermutungen!

Zitat:

Andererseits wurden hier zufällig ca. 5 Partien gepostet, die von zwei
unabhängigen Personen ausgewertet wurden. Deren Einschätzung hat
sich zu 100 Prozent bestätigt.


s.o.

Zitat:
Also, warum wird so ein immenser Aufwand getrieben, wenn wenige Stellungen
ausreichen um die Spielstärke abzuschätzen?


Reichen sie eben nicht, es sei denn man gibt sich mit "abschätzen" zufrieden. Das tun
wir nicht, es bleibt Dir aber unbenommen.

Wolfgang
CEGT-Team

PS: Dein Verhalten, ein eigentlich erledigtes Thema durch neue Threads wieder aufzuwärmen erscheint mir ein wenig "trollig", kann mich aber auch täuschen (glaube es aber nicht)...
Parent - - By Ben Hur Date 2011-11-14 17:09
Herr Battig,

da haben Sie aber eine grosse Keule hervorgeholt! 

Ich frage mich auch wie kompetent Sie sein müssen, bei so einem Posting.
Gerade schaute ich mal beim DSB nach, als Schachspieler kann ich Sie nicht finden.
Frage: Spielten Sie mal Schach, wo und wie hoch war die beste Wertungszahl?

Bin mal gespannt auf die Antwort, kommt eine?

Von Peter Krug weiss ich, dass er ein sehr guter Schachspieler war, und seinem Urteil
vertraue ich! Bei meinen überschlägigen Berechnungen kam ich in den gleichen
Bereich der Spielstärkeeinschätzung.

Schön, das Sie zugeben, dass die CEGT Zahlen zu hoch sind. Warum passen Sie sie
nicht an?

MfG

Ben Hur
Parent - By Wolfgang Battig Date 2011-11-14 20:29 Edited 2011-11-14 20:32
[quote="Ben Hur"]
....
Ich frage mich auch wie kompetent Sie sein müssen, bei so einem Posting.
Gerade schaute ich mal beim DSB nach, als Schachspieler kann ich Sie nicht finden.
Frage: Spielten Sie mal Schach, wo und wie hoch war die beste Wertungszahl?


ja klar, jetzt kommt die Masche "ich bin aber der bessere Spieler als Du und deshalb hab ich mehr Ahnung"
Kenn ich aus anderen Sportarten. Beim Tischtennis maßen sich manche (!) höherklassigen Spieler (z.B. Regionalliga)
auch gern mal an zu meinen, dass ein Kreisklassenspieler keine Ahnung vom TT hat.
Ist natürlich lächerlich und nein, ich spiele nicht in der TT-KK sondern deutlich höher. Kompetenz hat
nicht nur was mit Spielstärke zu tun!

Nebenbei: Einen "Ben Hur" gibt es in der Liste des DSB auch nicht, oder?

Zitat:
Bin mal gespannt auf die Antwort, kommt eine?


wie Du siehst kam eine, allerdings auch die letzte, denn mit anonymen Trollen diskutiere ich nicht weiter!

Wolfgang
Parent - By Ingo Bauer Date 2011-11-14 17:53 Edited 2011-11-14 18:02
Hallo Wolfgang,

[quote="Wolfgang Battig"]
...

Zitat:

Ich stellte bereits dar, dass dort die Zahlen um ca. 400 elo Punkte zu hoch sind.


Und wenn Du es darstellst, muss es stimmen?
Unsere Zahlen sind zu hoch, keine Frage, ich gehe mal von ca. 200 Punkten aus. Auf 400 kann man nur
kommen, wenn man den Ranglistenersten beim Computerschach (Houdini 2.0) mit dem/den besten
menschlichen Spielern gleichsetzt. (Beispiel: Houdini 2.0 mit 64 bit und nur EINER CPU hat bei uns 3231, minus 400 also 2831, in etwa Carlsen-Niveau, wenn
ich recht informiert bin).

Bei allem Respekt (vor Carlsen!!): DAS IST TOTALER QUATSCH! (sorry an die Moderatoren, dass ich laut werde...)

Niemand, der auch nur ein bisschen Ahnung von der Materie hat glaubt, dass Nr.1 im Computerschach und Menschenschach gleich stark sind, schon gar nicht
im Blitz- oder Schnellschach. Ich weiß, dass das nicht beweisbar ist, weil die aktuellen Vergleiche fehlen, weil kein Super-GM heute noch gegen die besten Engines antreten wird,
oder es wird so teuer, dass sich kein Veranstalter das leisten kann.
Trotzdem ist das Rennen schlicht gelaufen, kein Mensch gewinnt heute noch ein Mehrpartienmatch gegen Topsoftware auf Tophardware. Selbst Mittelklassehardware reicht!
Leider muss man sich dazu auf frühere Ergebnisse verlassen (Fritz schlägt Kramnik, Rybka gewinnt Matches mit Figurenvorgabe gegen diverse GM, Adams verliert 0,5:5,5 gegen Hydra usw.).

Wenn ein waschechter GM (Meier) Rybka 3 auf ca. 2900 ELO schätzt, ist das ein weiteres Indiz für die mittlerweile überdeutliche Überlegenheit der Maschinen. Und Rybka 3 liegt
MINDESTENS 100 Punkte hinter der aktuellen Spitze! Somit sind die Zahlen, die Frank (SWCR) und Ingo (IPON) ausweisen, recht nah an der Realität.
...


Alles 100% richtig was du hier schreibst. Meine Liste liegt so 190 Elo (+/- ein bisschen) hinter eurer 40/20. Nachdem ich mit S12 der Erste war, der auf Playchess eine makellose Bilanz hingelegt hat (bin ein bisschen stolz, nicht wegen Menschen "verprügeln", sondern weil das bis heute kein anderer Comp Account geschafft hat ), also 400 Spiele, länger geht die Historie nicht, ohne einen Verlust oder ein Remis*, bin ich bei Computer gegen Menschen sehr desilusioniert. Ohne mit der Wimper zu zucken und ohne das ich es Beweisen könnte würde ich auf meine Liste 100 Elo draufpacken und wäre sicher das es gegen Menschen nicht zu hoch wäre. Insofern ist euer Rating vielleicht sogar dichter an der Wahrheit als meins!

* Die größte Schwierigkeit war, 400 Spiele ohne Verbinungsabbruch hinzubekommen. Der wird in der Historie dann als Gewinn für den Menschen gewertet ... Auch habe ich ohne spezielles Eröffnungsbuch gespielt, sondern das S12 Buch auf "Weit" und maximal 12 Züge. Um Anti-Comp Schach zu unterbinden, habe ich die Springer so weit abgewertet, das die Engine mal einen reingehauhen hat um einen Bauern zu bekommen und eine Linie zu öffnen*, zusätzlich noch King Safty auf 120, also sehr agressiv und keine Spiele gegen Gegner unter 2400 - es waren einige der Super-GMs mit 3000 Wertung dabei. De fakto war dieses Setting mit Sicherheit deutlich schwächer als S12, gegen Menschen langt es allemal! Danach war allerdings der Reiz weg, im Menschenraum zu spielen da fehlt es jetzt an Motivation ... warum?

*An dieser Stelle haben die AntiCompSchachSpieler dann, egal wie gut sie objektiv standen, regelmäßig aufgegeben!

[quote="Wolfgang Battig"]
PS: Dein Verhalten, ein eigentlich erledigtes Thema durch neue Threads wieder aufzuwärmen erscheint mir ein wenig "trollig", kann mich aber auch täuschen (glaube es aber nicht)...


Wär mir gar nicht aufgefallen, aber jetzt wo du es sagst ...

Gruß
Ingo
Parent - - By Werner Mueller Date 2011-11-14 19:21
@ Wolfgang Battig

Hallo Wolfgang,

nur damit keine neue Legenden entstehen: Rybka hat ein Match mit Figurenvorgabe gegen einen FM (oder IM?) Meyer oder Meyers o.ä. aus den USA gespielt und meines Wissens verloren.
also a) nicht Matches sondern ein Match b) nicht gegen GMs sondern gegen einen FM und c) nicht gewonnen sondern verloren.
Wenn mich meine Erinnerung täuschen sollte, entschuldige ich mich schon jetzt.

Deine Einschätzung bzgl. Houdini (vs. Carlsen) teile ich in etwa. Und von den Stärkeverhältnissen im Blitz brauchen wir erst gar nicht reden.
Dass die CEGT deswegen zu hohe Werte hätte, würde ich aber gar nicht sagen - das ist letzlich Geschmacksache. Welche Engine man auch als Bezugspunkt nimmt - wie man's macht ist es falsch.
Das ist kein Mangel der CEGT sondern eine prinzipielle Sache: Wenn der GM patzt, ist die Partie weg - völlig wurscht, ob das Programm 3 Halbzüge mehr oder weniger rechnet, wohingegen zwischen zwei Programmen 3 Halbzüge mehr oder weniger schon ein gewichtiger Unterschied ist, simulieren sie doch sozusagen ein relativ besseres positionelles Verständnis.
Meiner Überzeugung nach (aber das kann ich natürlich nicht beweisen) schmelzen bzgl. eines menschlichen Vergleichs z.B. die 550 Punkte Elo-Differenz zwischen z.B. Houdini 1.5 und Deep Fritz 8 vielleicht auf gerademal 100 Punkte.

Und um es nochmal zu betonen: das ist kein Mangel der CEGT oder sonstiger Ratinglisten - der Punkt ist, dass Mensch und Programm ein 'anderes' Schach spielen und Fortschritte eines Programms bzgl. anderer Programme nicht automatisch Fortschritte bzgl. der menschlichen ('anderen') Herangehensweise bedeuten.

Ein ähnliches Problem existiert auch in den niederen Bereichen einer Ratingliste, und damit bin ich beim Thema.

Wie weiter oben schon angedeutet ('von den Stärkeverhältnissen im Blitz brauchen wir erst gar nicht reden'), baut der Mensch im Vergleich zur Engine bei kurzen Bedenkzeiten unverhältnismäßig ab (was wiederum an der 'anderen' Herangehensweise liegt).

Wenn also ein Programm gegen einen Spieler <2100 IM BLITZ nahezu jede Partie verliert (dazu kommt für mich noch WIE das Programm verliert), dann geht die Erwartung dieses Programm bei langen Bedenkzeiten gegen Null. In einem Turnier mit menschlichen Spielern > 2000 wird dieses Programm högschtwahrscheinlich keinen halben Punkt machen.
So weit so schlecht - und mit einer Einsortierung bei max. 1500 ELO könnte man die Sache als erledigt betrachten.

Ist sie aber nicht, denn in einem Turnier mit menschlichen Spielern um die 1500 ELO würde dieses Programm ebenso högschtwahrscheinlich 100% erreichen - diese Spieler verderben ihre Partien durch Patzer und Überseher regelmäßig und zuverlässig selbst. Ein ähnlich geartetes Problem also wie am oberen Ende der Liste.

Fazit: Computer-Ratinglisten sind weder im oberen noch im unteren (und auch nicht im mittleren) Bereich sinnvoll mit menschlichen Spielstärken in Beziehung zu setzen. 
Parent - - By Benno Hartwig Date 2011-11-14 20:15 Edited 2011-11-14 20:21
[quote="Werner Mueller"]Meiner Überzeugung nach (aber das kann ich natürlich nicht beweisen) schmelzen bzgl. eines menschlichen Vergleichs z.B. die 550 Punkte Elo-Differenz zwischen z.B. Houdini 1.5 und Deep Fritz 8 vielleicht auf gerademal 100 Punkte.[/quote]Eine interessante These, die sich sogar bestätigen oder widerlegen lässt.
Man nehme gute Schachspieler, die ersnthaft zu diesem Experiment bereit sind, und lasse sie gegen Engines spielen, die ungefähr ihre Spielstärke haben. Es müssen slso keine GMs sein!
Aus welcher Spielklasse ließen sie sich gewinnen? Welche menschlichen ELO-Werte könnten dann dabei sein?

Und dann nehme man Engines, die ca 400 ELO stärker sind gemäß Computerrangliste.
Mal sehen, was die dann gegen die Menschen herausspielen würden.
-  +400 ELO? (entsprechend 92%:8%)
-  oder nur +200? (entsprechend 76%:24%)
-  oder sogar wirklich nur +100, wie du es vermutest? (entsprechend 64%:36%)

Ich weiß es nicht (zweifele aber die sehr mageren 100 ELO an).
400 ELO Differenz ist immerhin der Sprung von Genius7 zu Shredder10!
Aber es würde mich sehr(!) ineressieren.
"Entsprechen die Computer-ELO-Differenzen den Differenzen, die gegen Menschen erspielt werden können?"
Benno
Parent - - By Ingo Bauer Date 2011-11-14 20:29 Edited 2011-11-14 20:35
Hallo Benno,

[quote="Benno Hartwig"]
[quote="Werner Mueller"]Meiner Überzeugung nach (aber das kann ich natürlich nicht beweisen) schmelzen bzgl. eines menschlichen Vergleichs z.B. die 550 Punkte Elo-Differenz zwischen z.B. Houdini 1.5 und Deep Fritz 8 vielleicht auf gerademal 100 Punkte.[/quote]Eine interessante These, die sich sogar bestätigen oder widerlegen lässt.
Man nehme gute Schachspieler, die ersnthaft zu diesem Experiment bereit sind,...
[/quote]

An der Stelle ist es auch vorbei. Korrekt wäre ein Blindversuch. Also z.B. ein Schachserver bei dem die Menschen glauben gegen andere Menschen zu spielen ...

Leider werden wir keinen ernsthaften Wettkampf mehr erleben. Wenn dann gegen viel Geld und da könnte es auch sein das es dem GM egal ist weil er seine Chancen kennt, er nimmt halt die Kohle mit und geht.

Gruß
Ingo
Parent - By Benno Hartwig Date 2011-11-14 21:11 Edited 2011-11-14 21:16
[quote="Ingo Bauer"]Leider werden wir keinen ernsthaften Wettkampf mehr erleben. Wenn dann gegen viel Geld und da könnte es auch sein das es dem GM egal ist weil er seine Chancen kennt, er nimmt halt die Kohle mit und geht.[/quote]Mein Vorschlag zielte daher ja auch auf niedrigere Spielstärken ab.
Vielleicht ließen sich aus mittleren Spielklassen Spieler gewinnen, die versuchen, sehr ernsthaft und stark zu spielen.
Und die treten dann zunächst gegen eine etwa gleichstarke Oldi-Engineklasse an.
Die Listen (und sei es SSDF) bieten da ja ein weit zurückreichendes Portfolio.
GMs brauchen wir hier also nicht (unbedingt)!
Wenn Werners These stimmt, sollte sie sich wohl auch hier bestätigen lassen.
Benno
Up Topic Hauptforen / CSS-Forum / Manonen auf Spatzen?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill