Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Warum 100 Spiele gegen eine Engine nicht langen ...
- - By Ingo Bauer Date 2010-03-16 22:45
... um eine Engine zu bewerten.

Wenn es interessiert:

Dies ist aus meinem aktuellen Test mit J11.1a:

J111a_1

Deep Junior 11.1a - Crafty 23.1 JA (2537)           65.5  -  34.5    65.50%    Perf=2648
Deep Junior 11.1a - Spike 1.2 Turin 32b (2572)      56.5  -  43.5    56.50%    Perf=2617
Deep Junior 11.1a - Twisted Logic 20100131x (2594)  52.5  -  47.5    52.50%    Perf=2611
Deep Junior 11.1a - Loop 13.5/6 (2606)              52.5  -  47.5    52.50%    Perf=2623
Deep Junior 11.1a - Critter 0.52b (2645)            45.5  -  54.5    45.50%    Perf=2614
Deep Junior 11.1a - Hiarcs 12.1 MP 32b (2658)       52.5  -  47.5    52.50%    Perf=2675
Deep Junior 11.1a - Toga II 1.4 beta5c BB (2660)    47.5  -  52.5    47.50%    Perf=2643
Deep Junior 11.1a - Deep Sjeng WC2008 (2669)        41.5  -  58.5    41.50%    Perf=2610
Deep Junior 11.1a - Spark-0.3 VC(a) (2671)          42.5  -  57.5    42.50%    Perf=2619
Deep Junior 11.1a - Onno-1-1-1 (2680)               41.0  -  59.0    41.00%    Perf=2617
                                                   497.5  -  502.5   49.75%    Perf=2628



Wie man sehen kann reicht die Spanne an unterschiedlichen Ergebnissen von 2610 bis 2675. Also eine Differenz von 65 Elo. Je nachdem gegen wenn man jetzt testet bekommt man "falsche" Ergebnisse. Im obigen Fall ist also Deep Sjeng der "Angstgegner" von Junior und Hiarcs 12.1 der "Lieblingsgegner".
Natürlich sind auch die 65 ELo relativ, da 100 Spiele mit einer riesigen Fehlerspanne behaftet sind (So groß, dass man auch nach 100 Spielen nicht mal den Angst- bzw den Leiblingsgegner bestimmen kann), allerdings wird leider immer nur auf das "52.5 zu 47.5" geschaut ...

Wie jeder gerne anhand der Daten auf der IPON Seite nachrechnen kann ist J11.1a eine eher durchschnittliche Engine. Es gibt Enines die sich wesentlich EXTREMER verhalten ... Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.

Gruß
Ingo
Parent - - By Peter Martan Date 2010-03-17 09:59
Verflixt, das juckt schon wieder so.

Wir hatten in der letzten Zeit schon hin und wieder die Überlegung, was für Eröffnungs-(Test-)stellungen mögen wohl die besten sein.
Begriffe wie ausgewogen, praxisrelevant, im Gleichgewicht...., kommen da immer wieder vor, eigentlich wissen wir nur, dass es keine "besonderen" sein sollen, was nachweisbare best moves hat, ist als Ausgangsstellung natürlich pfui, die engine, die den bm findet, profitiert nicht nur einmal davon, (vorausgesetzt, die Gegnerengine findet ihn nicht, dann verliert sie wahrscheinlich gleich relativ sicher einen halben bis einen ganzen Punkt), sondern zweimal, weil automatischer Farbwechsel muss ja sein und wenn nun die in diesem Fall halt eindeutig doofere engine den Lösungszug auf der einen Seite nicht findet, findet sie mit einer gewissen Wahrscheinlichkeit vielleicht auch nicht einmal auf der anderen Seite die beste Fortsetzung, zu dumm aber auch, wie kann man sowas auch nur als Teststellung für ein ordentliches match erwägen?
Naja, man könnte defetistischer Weise einwenden, jede Stellung müsste genau genommen einen besten Zug haben, man findet ihn nur in manchen Stellungen schwerer, daher bezeichne ich diese Stellungen jetzt mal wieder frech als schwere Stellungen, so takisch knifflig eine bm- Aufgabe auch ist, sie ist eine einfachere Stellung, einfach weil der besten Zug vermutlich (was weiß man schon ) ein einziger sein dürfte und noch dazu kann man ihn finden.
Soweit ist's ja noch halbwegs einfach, kompliziert wird meine Überlegung jetzt dann erst:
Man will also mit ausgewogenen Teststellungen nicht besondere taktische Fähigkeiten der engines belohnen, man will überhaupt gerecht sein und nimmt daher gerechter Weise ausgewogene Stellungen, ich nenne sie noch einmal schwer, kenne dann aber jedenfalls einfach keine ausgewogenere oder schwerere Stellung als die Grundstellung.
Verzeih mir wieder mal eine, ich geb's gleich mal wieder unumwunden zu, rhetorische Frage dazu, ich fürchte du wirst mich so durchschauen, worauf ich hinaus will, dass du gleich gar nix antworten wirst und mach's daher gleich wieder selber, warum nicht doch einfach die matches ohne Bücher, ohne Stellungsvorgaben, von der Grundstellung aus laufen lassen?
Ich weiß schon, das ist ungerecht, weil damit engines belohnt werden, die mit der Grundstellung am besten zurecht kommen, ist das aber nicht wenigstens auch irgendwie gerecht im Hinblick auf die Relevanz dieser als Teststellung? Zumindest gehen doch alle anderen Teststellungen aus ihr hervor, nicht?
Verstehe, es kommt darauf an, dass es viele viele viele Teststellungen sein sollen, damit keine einzelne von den vielen vielen vielen engines (das macht das Ergebnis ja auch viel viel relevanter, wie wir wissen, als wenn immer nur eine gegen eine spielt, leuchtet mir auch ein) von einer einzelnen bestimmten Stellung viel viel profitiert.
Je mehr Teststellungen und je ausgewogener dieselben, desto gerechter das Ergebnis.
Halt, wäre es nicht eigentlich gerechter, man würde genau die Hälfte genau halb so "schwerer", "ausgewogener" Stellungen nehmen und die andere Hälfte wäre genau doppelt so schwer und ausgewogen, sagen wir also einfach, wir nehmen zur Hälfte Stellungen wie bisher, schwer und ausgewogen und die andere Hälfte sozusagen zweitbestmove- Aufgaben?

Naja, überlegenswert wär's schon, wenn wir nicht engines bevorzugen wollen, die weniger taktisch auf Zack sind und dafür positionell stark, hmh?
Was schätzt du, wieviele Partien müsstest du wenigstens bei der Einfachheit halber nur 2 Gegnern spielen, wenn du statt deiner wenigstens 50 Teststellungen wenigstens 100 (halt pro engine, wenn wir das dann weiter rechnen wollen) nehmen, um nicht die eine von der du ja auch schon einfach vorab mit einem Probelauf (Vorsicht Stellungstest ! ) feststellen kannst, wie gut sie mit welchen Teststellungen zu recht kommt, zu benachteiligen?
Ich schäme mich für die vielen Fragen und fasse sie zu einer zusammen, warum machst du nicht wenigstens auch mal den Versuch zu echten Doppelblindstudien?
Parent - - By Ingo Bauer Date 2010-03-17 12:05
Hallo

[quote="Peter Martan"]
...warum nicht doch einfach die matches ohne Bücher, ohne Stellungsvorgaben, von der Grundstellung aus laufen lassen?
[/quote]

Weil ich dann bei einer Single Enigne womöglich 100 gleiche Spiele bekomme. Die Grundstellung als EINE valide Eröffnungsstellung mit in einem Test macht durchaus Sinn. Tatsächlich habe ich ein paar SEHR kurze Eröffnungen (2-3 Züge) die nur in eine bestimmte Richtung weisen sollen und ich überlasse danach den Engines das Feld.

[quote="Peter Martan"]
..
Was schätzt du, wieviele Partien müsstest du wenigstens bei der Einfachheit halber nur 2 Gegnern spielen, wenn du statt deiner wenigstens 50 Teststellungen wenigstens 100 (halt pro engine, wenn wir das dann weiter rechnen wollen) nehmen, um nicht die eine von der du ja auch schon einfach vorab mit einem Probelauf (Vorsicht Stellungstest ! ) feststellen kannst, wie gut sie mit welchen Teststellungen zu recht kommt, zu benachteiligen?
[/quote]

Zwei Dinge:
1. Obigen Satz gekürzt um zur Frage zu kommen: Wieviel Partien müßte man spielen wenn man statt 50, 100 Teststellungen nehmen würde.
Genauso viele wie mit 50. Die Abweichung hängt mit der Anzahl der Spiele zusammen und nicht mit der Anzahl der Teststellungen. Es kommt auf die "Güte" der Stellungen an. Wer natürlich 50 verschiednene Sizilianer nimmt hat ein Problem. Aber: ein Test mit Büchern ändert am Problem nichts, da bei 50 oder 100 Stellungen genau so schlechte Stellungen für eine Engine gepsielt werden können ... Man muß sich natürlich kritisch mit den gewählten Eröffnungsstellungen auseinander setzen. Das muß man nicht mal mit Verständniss für sie Stellung tun, sondern kann einfach Statistisch über alle Engines aussagen treffen ob eine Position vorwiegend mit Weiß gewonnen oder verloren wird. Weicht dieser Durchschnitt weit vom Durchschnitt über alle Stellungen ab ist sie als Eröffnungsstellung ungeeignet. Ich habe mal mit einem 50er Set angefangen und über die Jahre insgesammt 15 Stellungen ausgetausch. Natürlich darf man nicht so lange austauschen bis man nur noch Remisen fabriziert - sondern muß sehen das die "+=-" Quote im ganzen ungefähr dem allgemeinen Durchschnitt entspricht. Ich untersuche gelegentlich meine Datenbank um zu sehen ob eine Eröffnung weit von meinem Durchschnitt abweicht, mußte jetzt aber seit gut einem Jahr nicht mehr ran ...

2.Es tut mir leid, aber ich will und kann nicht mehr ewig über deinem etwas 'selbstverliebtem' Stil brüten. Entweder benutzt du deutlich mehr Punkte und Kommas oder meine Antworten werden weniger. Das Problem ist, dass du selbst im oben zitierten Satz Kommas nicht setzt, womit die Übersichtlichkeit verloren geht und ich auch noch sicher bin,  dass er gramatikalisch falsch ist. Ich verlange nicht das jemand perfekt Kommas setzt oder seine Sätze bis ins letzte Ausfeilt, ich selber bin weit davon entfernt, wenn man aber zu Bandwurmsetzen neigt, sollte man das auch beherschen. Sprich, wer den meint lange Sätze wären wertvoll muß auch wissen wie es geht. Deine Texte kostet meinem beschränkten Intelekt eine Unmenge an Zeit um ihn zu verstehen. Ich nicht bereit diese zu investieren - sorry!

Gruß
Ingo

PS: Wenn du mal ein paar schöne Bsp für perfekte lange Sätze lesen willst darf ich dir Kleist im allgemeinen und "Der zerbrochenen Krug" im Besonderen empfehlen!
Parent - - By Peter Martan Date 2010-03-17 12:55
[quote="Ingo Bauer"]
Zwei Dinge:
1. Obigen Satz gekürzt um zur Frage zu kommen: Wieviel Partien müßte man spielen wenn man statt 50, 100 Teststellungen nehmen würde.
Genauso viele wie mit 50. Die Abweichung hängt mit der Anzahl der Spiele zusammen und nicht mit der Anzahl der Teststellungen. Es kommt auf die "Güte" der Stellungen an.
[/quote]

Gute Güte, so etwas hatte ich doch wirklich auch schon vermutet.
Stop
Gesetzt den Fall, du nimmst nicht nur die Grundstellung und nicht nur Sizilianer:
Deren gibt's in der Literatur schon mehr als das meiste andere, wenn du absichtlich nicht danach gehst, was wem liegen könnte, solltest du daher um der Literatur irgendwie ein Recht einzuräumen, jedenfall mehr Sizilianer nehmen als Skandinavier, oder dich prinzipiell der Bewertung der Literatur in dieser ihrer Statistik der Meisterpraxis völlig entschlagen.
Stop. (War aber auch höchste Zeit für Satzende, uff.)
Wie willst du das machen, auch wenn du kein "Buch" nimmst, sondern die Stellungen von Hand wählst, irgendwo sind sie zu Hause oder wir kommen wieder zur Grundstellung.
Stop
Wenn du einfach sehr nahe der Grundstellung bleibst mit möglichst allen Stellungen wird der Unterschied im Ergebnis von dem "ohne Buch" nicht sehr weit weg sein, was meinst du?

Nur eine bestimmte engine die Bewertung in +- der Stellungen vornnehmen zu lassen, kann's auch nicht sein, oder?
Auch wird sie dir nicht sagen, wie weit in die Eröffnung du mit deinen Teststellungen hinein gehen sollst.
Stop.

Aus all dem folgere ich, wie auch immer du versuchst, ausgewogen zu sein, deine Wahl wird mehr Einfluss haben, als ob du dann mit deinen 50 Stellungen 100 Partien spielst, oder 200, oder 400, oder 800,
Stop, stop, stop.

Ich würde also sagen, nimm lieber, statt mit 50 Teststellungen 100 Partien zu spielen, 500 Teststellungen für 1000 Partien, darunter machst du's ja sowieso nicht, zählen tun die einzelnen Stellungen doppelt beim Farbwechsel, jede einzelne Partie nur einmal.
Stop, das war unnötig einem Mathematiker und Statistiker gegenüber, tschuin.

[quote="Ingo Bauer"]
2.Es tut mir leid, aber ich will und kann nicht mehr ewig über deinem etwas 'selbstverliebtem' Stil brüten. Entweder benutzt du deutlich mehr Punkte und Kommas oder meine Antworten werden weniger. Das Problem ist, dass du selbst im oben zitierten Satz Kommas nicht setzt, womit die Übersichtlichkeit verloren geht und ich auch noch sicher bin,  dass er gramatikalisch falsch ist. Ich verlange nicht das jemand perfekt Kommas setzt oder seine Sätze bis ins letzte Ausfeilt, ich selber bin weit davon entfernt, wenn man aber zu Bandwurmsetzen neigt, sollte man das auch beherschen. Sprich, wer den meint lange Sätze wären wertvoll muß auch wissen wie es geht. Deine Texte kostet meinem beschränkten Intelekt eine Unmenge an Zeit um ihn zu verstehen. Ich nicht bereit diese zu investieren - sorry!
[/quote]

Danke, dass du noch ein letztes Mal in deinen Antworten trotz der immer länger werdenden Fragen nicht kürzer geworden bist, sondern vielleicht sogar selbst noch länger als sonst, wäre ich wirklich boshaft, würde ich sagen, du hast dich in deinem Stil sogar schreibend schon fast meinem angenähert,
stop, stop, stop, das ging jetzt wirklich unter unser beider Niveau.
Ich will dich tatsächlich nicht ärgern, Ingo, so leicht würde mir das ja bei dir vermutlich auch gar nicht gelingen, selbst wenn ich es wollte.
Meine Fragen haben und hatten schon einen Inhalt zum Thema Statistik.
Dass ich nicht nur was fragen wollte, sondern auch gleich was dazu sagen, ist ja auch kein Geheimnis, so sokratisch ist meine Ironie wieder nicht.
Daher noch einmal in der von dir zu Recht geforderten Klarheit, man konnte es wahrscheinlich bisher wirklich noch nicht so ganz einfach verstehen:
Ich glaube, dass statistisch betrachtet, mehr als die Zahl der Spiele, die Zahl der Teststellungen zählt und dass es an der Randomisierung mangelt, wenn du um 100 Spiele zu spielen, 50 Stellungen willkürlich auswählst.
Was das dann für welche sein sollen, musst du nämlich irgendwie entscheiden und es zählt einfach je mehr, je mehr Spiele du mit ein- und denselben spielst.
Schachliche Gerechtigkeit wirst du in dieser Frage sehr schwer definieren können, wenn du sie auch irgendwie in Zahlen ausdrücken müsstest, sagen wir einfach:
Wieviel zählt die Häufigkeit einer Eröffnungsstellung in der Statistik in der Meisterpraxis (warum gerade nicht in der? )?
Wenn sie nicht zählt, triffst du dann nicht erst recht deine Enscheidung nach reinen Computer- und nichtschachlichen Maßstäben oder deinem eigenen schachlichen Urteil?
Deshalb, weil sich ein paar Tester auf ein paar Teststellungen geeinigt haben, heißt das wirklich, dass sie ausreichend sind in der Zahl und konnte man sich nicht vielleicht nur dadurch so leicht darüber einigen, dass man meinte, sei eh wurscht?
Hat man sich nicht geeinigt, kann man dann die Kriterien, die zur Auswahl verwendet werden, unter einen Hut bringen und wie setzt man sich den schachlich gesehen, auf?
Oder wäre es jetzt mal vom schachlichen mal ganz abgesehen nicht doch eigentlich rein statistisch betrachtet zu fordern, die Tester sollten gar nicht wissen, mit welchen Teststellungen sie testen?
Diese Definition von Doppelblindstudie hätte ich dir auch nicht noch nachreichen müssen, weil das hattest du eh schon verstanden, dass die engines nicht wissen, was sie spielen, davon geh ich aus.

(Dass das eigentlich auch nicht so ist, stimmt zwar, würde es jetzt aber wirklich unnötig kompliziert machen.)
Uff, jetzt kann ich nur noch hoffen, dass ich die Beistriche halbwegs gleichmäßig über den Bildschirm verteilt habe, an denen kann's aber bei mir und dem, was ich so schreibe, immer wieder ohnehdies viel weniger mangeln, wenn's nicht gleich alle verstehen...

[quote="Ingo Bauer"]
PS: Wenn du mal ein paar schöne Bsp für perfekte lange Sätze lesen willst darf ich dir Kleist im allgemeinen und "Der zerbrochenen Krug" im Besonderen empfehlen!
[/quote]

Kenn ich, kenn ich, das ist doch der, der so lange zum Brunnen geht, bis man bricht, nicht?
Ach nein, doch nicht, dein Beispiel ist auch gut, wie jeder Vergleich hinkt er (nicht der Dorfrichter, der Vergleich) aber, weil:
das ist ein Bühnenstück, Ingo, das ist zum Anschauen- und -Hören, nicht zum Lesen.
Parent - - By Ingo Bauer Date 2010-03-17 13:22
Moin

[quote="Peter Martan"]
...
Ich würde also sagen, nimm lieber, statt mit 50 Teststellungen 100 Partien zu spielen, 500 Teststellungen für 1000 Partien,...
[/quote]

Nur kann ich bei 500 Stellungen, Farbwechsel, also 1000 Partien die Prämisse gegen möglichst viele Engines zu spielen nicht erfüllen ...

Das Ganze ist natürlich ein Kompromiss; und mit 50 Stellungen, also 100 mit Farbtausch, bewege ich mich gefühlt auch durchaus am unteren Rand dessen was mir noch sinnvoll erscheint.

Gruß
Ingo
Parent - By Peter Martan Date 2010-03-17 14:21
[quote="Ingo Bauer"]
Nur kann ich bei 500 Stellungen, Farbwechsel, also 1000 Partien die Prämisse gegen möglichst viele Engines zu spielen nicht erfüllen ...

Das Ganze ist natürlich ein Kompromiss; und mit 50 Stellungen, also 100 mit Farbtausch, bewege ich mich gefühlt auch durchaus am unteren Rand dessen was mir noch sinnvoll erscheint.
[/quote]

Wenn du das wirklich so meinst, wie du schreibst, Ingo, sind wir uns fast einig, am unteren Rand, meinem Gefühl nach eher drunter, aber ich will dich nicht dein Handwerk lehren, verzeih, wenn es manchmal so klang.
Warum das für mich ganz viel Konsequenz hat über das Listenerstellen hinaus, ganz allgemein computerschachlich, kommt vielleicht demnächst in einem eigenen thread von mir, derzeit bin ich es fast schon etwas müde, das Ganze.
Parent - - By Udo Kaiser Date 2010-03-17 14:46
das ist ja das "Problem" das es ein Kompromiß ist. Einfacher wäre m.E. weniger Partien und dafür in die Partien hereinschauen.
Parent - - By Ingo Bauer Date 2010-03-17 14:56
Hallo

[quote="Udo Kaiser"]
das ist ja das "Problem" das es ein Kompromiß ist. Einfacher wäre m.E. weniger Partien und dafür in die Partien hereinschauen.
[/quote]

Ich weiß, es geht um Provokation, aber trotzdem: Mit "hineinschauen" kann man keine Rangliste erstellen!

Ingo
Parent - - By Udo Kaiser Date 2010-03-17 16:09
mag sein. aber braucht man denn eine ratingliste erstellen wenn es schon 3 andere gibt , die das auch machen ?

Und nein, es geht nicht um Provokation.
Sondern um die Sinnfrage.
Parent - - By Bert Rinzel Date 2010-03-17 16:18
Es könnten doch ein erbsen zählfehler vorliegen.

Und der liegt vor, da man die besten erbsen bewußt nicht mitzählt.

Code:
Viel mehr ist mir 'bange' vor ein paar "kleineren" Engines, von denen ich weiß, dass sie überdurschschnittliche Chancen haben. Da sieht es dann nämlich nach riesiger Überraschung aus und ist viel schlechter fürs Ego


Aber auch im unteren mittelfeld vergißt man erbsen zu zählen, da sie das gute aussehen der eigenen favorisierten erbse beeinträchtigen könnte.
Parent - - By Ingo Bauer Date 2010-03-17 16:51
Ach Bert,

Ich bin ganz sicher du weiß was ich von dir halte!

Ingo
Parent - By Bert Rinzel Date 2010-03-17 17:17
ich bin mir auch ganz sicher: du weißt genausogut, was ich von dir halte.
Parent - By Ingo Bauer Date 2010-03-17 16:53
[quote="Udo Kaiser"]
mag sein. aber braucht man denn eine ratingliste erstellen wenn es schon 3 andere gibt , die das auch machen ?

Und nein, es geht nicht um Provokation.
Sondern um die Sinnfrage.
[/quote]

Hmm, muß man ein Buch erstellen wenn es schon 3 andere gibt? Muß man ein Auto bauen wenn es schon 3 andere gibt? Muß man Briefmarken sammeln wenn es schon 3 Sammler gibt? Glaube ich, dass du über deine Frage nachgedacht hast?

Nein es geht nicht um Provokation ... na dann ist ja gut.

Ingo
Parent - - By Kurt Utzinger Date 2010-03-18 20:19
Hallo Peter
Ohne Dir nahe treten zu wollen, eine Frage: Ist/wäre es Dir nicht möglich, Deine
Gedanken sprachlich etwas klarer/kürzer zu formulieren. Vielfach habe ich
echt Mühe, Dir zu folgen, ohne Deine Texte zwei- bis dreimal zu lesen. Das
kann dann nach einem ermüdenden Arbeitstag dazu führen, dass ich gar
nicht erst zu lesen beginne, was u.U. schade sein könnte.

Mfg
Kurt
Parent - - By Peter Martan Date 2010-03-18 21:03
Hallo Kurt!
Nur damit du siehst, wieviel einfacher das dir gegenüber geht:
Die Zahl und die Wahl der Eröffnungs- oder Teststellungen macht mehr aus als die Zahl der Partien.
Dich brauch ich davon ja auch nicht zu überzeugen und Ingo gegenüber wird es mir auch noch so wortreich nicht gelingen.
Parent - By Kurt Utzinger Date 2010-03-18 22:30
Hallo Peter
Wunderbar, ein klares und kurzes Statement.
Mfg
Kurt
Parent - - By Frank Quisinsky Date 2010-03-17 11:14
Hi Ingo,

ein Shredder Fan wird enttäuscht sein wenn ein Ktulu in der Liste ist.
Ktulu punktet überdurchschnittlich gut gegen Shredder 12.

Es ist wirklich wichtig viele unterschiedliche Engines in einer Liste zu haben.
100 Partien zwischen zwei Engines sind meiner Meinung nicht notwendig (ein vielleicht schlechtes Ergebnis nach weniger Partien relativiert sich bei vielen unterschiedlichen Gegnern) aber sei es drum. Besser ist natürlich immer mehr Partien zu haben auch wenn die Statistiken kaum noch berührt werden.

Schönes Beispiel ist z. B. Junior.
Auf mein Notebook habe ich mal Just for Fun Junior 2000 - Junior 11.1, 40 in 20 spielen lassen.
2 GHz, 32-Bit, Ponder = On, je mit 256Mb für Hash.

Ergebnis war +52 nach 80 Partien für Junior 11.1
Wäre das so, würden sich viele freuen

Von daher sind auch Matches, Rybka 3 - Clone X nicht sonderlich aussagekräftig. Selbst für den direkten Vergleich sagen solche Matches wenig aus. Auf der anderen Seite, viele haben die Zeit, Hardware nicht um Ratinglisten zu erpsielen, ganz zu Schweigen von der Lust darauf. Und irgendwie möchte ja jeder ein wenig testen.

Ich empfehle immer kleine Schweizer Turniere spielen zu lassen. Das macht Spaß. Die Ergebnissen von vielen kleinen Turnieren können auch zu einer kleinen Liste zusammengefasst werden. Liegen ca. 350 Partien gegen viele unerschiedliche Engines vor, wäre das schon ein diskussionswürdiges Ergebnis.

Viele Grüße
Frank
Parent - - By Ingo Bauer Date 2010-03-17 12:33
Moin Frank

[quote="Frank Quisinsky"]
...
ein Shredder Fan wird enttäuscht sein wenn ein Ktulu in der Liste ist.
Ktulu punktet überdurchschnittlich gut gegen Shredder 12.
...
[/quote]

Ktulu kenne ich nicht, aber ich schaue schon ein bischen, zumindest bei den Topengines, ob eine Engine extrem weit ausserhalb des Durchschnitts gegen eine andere Engine punktet.

Man könnte argumentieren daß natürlich Rybka der Angstgegner aller Engines ist, aber dem ist nicht so. Rybka punktet gegen die meisten Engine im Rahmen seiner Erwartungen. Viel mehr ist mir 'bange' vor ein paar "kleineren" Engines, von denen ich weiß, dass sie überdurschschnittliche Chancen haben. Da sieht es dann nämlich nach riesiger Überraschung aus und ist viel schlechter fürs Ego

"Kenne den Feind ... " möchte ich da nur Copyrightfrei zitieren!

Gruß
Ingo
Parent - By Frank Quisinsky Date 2010-03-17 12:52
Hi Ingo,

hier die Ktulu 9.03 Ergebnisse, wie gesagt läuft in der SWCR als Beta-Version (nur Bugfixes zur offiziellen 9.0).
Ist aber noch nicht stabil ...

Shredder führt jetzt zwar mit 5:2 muss aber in jeder Partie wirklich kämpfen und hat schon 2 Partien verloren (sehenswerte Partien von Ktulu). In der aktuell laufenden Partie gibt es gegen Naum 4.1 die nächste Packung. Mal schauen wie das endet ...

Code:
Ktulu auf Q9550 ...

ktulu-903
Ktulu 9.03 - Critter 0.52b  4.0 - 4.0  50.00%  
Ktulu 9.03 - Fruit 05_11_03  3.5 - 4.5  43.75%  
Ktulu 9.03 - Hiarcs 12.1 Sharpen PV  4.0 - 4.0  50.00%  
Ktulu 9.03 - Komodo 1.0  4.0 - 4.0  50.00%  
Ktulu 9.03 - Loop 13.6  5.0 - 3.0  62.50%  
Ktulu 9.03 - Naum 4.1  0.5 - 6.5  7.14%  
Ktulu 9.03 - Onno 1.1.1  4.0 - 3.0  57.14%  
Ktulu 9.03 - Protector 1.32  1.0 - 6.0  14.29%  
Ktulu 9.03 - Rybka 3  1.5 - 5.5  21.43%  
Ktulu 9.03 - Shredder 12  2.0 - 5.0  28.57%  
Ktulu 9.03 - Sjeng WC-2008  3.0 - 4.0  42.86%  
Ktulu 9.03 - SmarThink 1.20  4.0 - 3.0  57.14%  
Ktulu 9.03 - Spark 0.3a  3.5 - 3.5  50.00%  
Ktulu 9.03 - Stockfish 1.6.3  1.5 - 5.5  21.43%  
Ktulu 9.03 - Thinker 5.4d Inert  1.5 - 5.5  21.43%  
Ktulu 9.03 - Twisted Logic 20100131x  3.5 - 3.5  50.00%  
Ktulu 9.03 - Zappa Mexico II  3.5 - 3.5  50.00%  
  50.0 - 74.0  40.32%  

124 von 680 Partien gespielt
Spielstufe: 40 Züge in 10 min

Gegen Junior 11.1 und Deep Fritz 12 dann wieder unter der Fritz GUI.
Ergebnisse Shredder 12 GUI Spießrutenlauf.

Frank
Parent - - By Benno Hartwig Date 2010-03-17 15:12
[quote="Frank Quisinsky"]Es ist wirklich wichtig viele unterschiedliche Engines in einer Liste zu haben.[/quote]Ich mag auch gern gemischte Listen um von vorn herein sowas wie Lieblingsgegner und Angstgegner und sehr speziell getunte Engines zu entschärfen. Auch wenn das übervorsichtig sein sollte.
Aber wie real sind diese Phänomene wirklich?
Gibt es wirklich Engines, die gegen andere Engines signifikant besser oder schlechter abschneiden als es aufgrund der ELO-Differenzen zu erwarten ist?
Ist das mal wirklich mit statistisch relevanten Partienmengen erkannt worden?

Solche Listen wie jetzt die von Ingo (und die erfordert ja sicher auch schon bei der Erstellung reichlich Mühe, thanx Ingo) tauchen bisweilen auf, und es wären die Abweichungen der jeweiligen errechneten ELO-Werte wohl allein durch die mit 100 jeweils sehr geringe Partienzahl problemlos erklärbar.
Ich vermute mal, er hätte auch 10 mal gegen dieselbe Engine 100 Partien spielen lassen können, und die 10 errechneten ELO-Werte hätten eine ähnliche Streuung bekommen.
Das sollte ich eigentlich mal genauer betrachten...

Benno
Parent - By Gerhard Sonnabend Date 2010-03-17 15:36
Zitat:

Ich mag auch gern gemischte Listen um von vorn herein sowas wie Lieblingsgegner und Angstgegner und sehr speziell getunte Engines zu entschärfen. Auch wenn das übervorsichtig sein sollte.
Aber wie real sind diese Phänomene wirklich?
Gibt es wirklich Engines, die gegen andere Engines signifikant besser oder schlechter abschneiden als es aufgrund der ELO-Differenzen zu erwarten ist?
Ist das mal wirklich mit statistisch relevanten Partienmengen erkannt worden?

Solche Listen wie jetzt die von Ingo (und die erfordert ja sicher auch schon bei der Erstellung reichlich Mühe, thanx Ingo) tauchen bisweilen auf, und es wären die Abweichungen der jeweiligen errechneten ELO-Werte wohl allein durch die mit 100 jeweils sehr geringe Partienzahl problemlos erklärbar.
Ich vermute mal, er hätte auch 10 mal gegen dieselbe Engine 100 Partien spielen lassen können, und die 10 errechneten ELO-Werte hätten eine ähnliche Streuung bekommen.
Das sollte ich eigentlich mal genauer betrachten...


Hallo Benno !

Aus meiner "Erbsenzähler-Praxis" kann ich folgendes vermelden:
die von Ingo genannten "Streuungen" kommen immer vor. Für meine *QBRL
http://www.pcschach.de/Punkt3.htm ist das bei fast jedem Testdurchgang der Fall.
Abweichungen von +- 70 Punkte in der ELO-Performance bei einem Test gegen 20 verschiedene Gegner
(also 2000 Games) sind "normal" und eben dem Kompromiss geschuldet, dass 100 Spiele gegen jeden
Gegner die Obergrenze sind. Wichtig ist das Gesamtresultat und hierbei kann man Tag für Tag
erkennen, dass sich die Resultate fast aller Listen sehr stark angleichen. Und das trotz z.T.
doch deutlichen Unterschieden bei den Durchführungsbedingungen, also PCs, PB on/off, Bücher oder
Vorgabestellungen, Bedenkzeit, Grösse der HTs etc. etc.
Wiederholungen einzelner Matches jedoch haben (zumindest bei mir) bislang keinerlei bemerkenswerte
Streuungen produziert ! Das würde mir auch zu Denken geben und mich an den Testbedigungen zweifeln
lassen.
Ein weiteres Beispiel:
Wolfgang lässt für die CEGT-Blitz-Ratingliste meist mit Kurzbüchern spielen. Ich selbst verwende
ausschliesslich Vorgabestellungen. Oftmals lassen wir beide die selbe Engineversion die Tests
durchlaufen. Natürlich unterscheidet sich auch hierbei die Einzelperformance. Was jedoch sehr
wichtig und gleichzeitig sehr beruhigend ist ist die Tatsache, dass wir nach einer vernünftig hohen
Anzahl an Spielen fast immer zu 100% die selbe Gesamtperformance erhalten !

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2010-03-17 15:46
[quote="Benno Hartwig"]
...

Solche Listen wie jetzt die von Ingo (und die erfordert ja sicher auch schon bei der Erstellung reichlich Mühe, thanx Ingo) tauchen bisweilen auf, und es wären die Abweichungen der jeweiligen errechneten ELO-Werte wohl allein durch die mit 100 jeweils sehr geringe Partienzahl problemlos erklärbar.
Ich vermute mal, er hätte auch 10 mal gegen dieselbe Engine 100 Partien spielen lassen können, und die 10 errechneten ELO-Werte hätten eine ähnliche Streuung bekommen.

[/quote]

Hallo Benno,

Zunächst mal Danke für das Danke. Ein wenig Zuspruch tut auch mal gut!

Ansonten glaube ich nicht, das ich nach 100 Spielen, wenn ich sie auf einerm Single 10 mal wiederhole ich Abweichungen von den oben erwähnten 65 Elo bekomme. Ich habe versehentlich die ein oder andere Enginekombination schon 2 mal gespielt und bin eigentlich sehr erstaunt wie konstannt die Ergebnisse bei Wiederholung sind (Single!) (natürlich NICHT gleich!). Wenn ich nicht völlig daneben liege sind 7 Elo rund ein 1%. Um also die 65 Elo abweichung zu bekommen müßte es in 100 Spielen 6.5 Punkte mehr oder weniger geben ...
Ich habe zwar keinen 10fach Test, aber immerhin einen aktuellen 2fachen laufen. J11.1 und J11.1a. Wie es scheint spielen beide Engines ungefähr gleich. Heute Abend bin ich mit 11.1a durch, dann poste ich mal die Ergebnisse beider Versionen gegen je die selben Gegner. Mal sehen wie die Ergebnisse sich gleichen oder  voneinander abweichen.

Ansonsten sind 100 Spiele, wie ich schon schrieb, zu wenig. Aus obiger Liste kann man keinen Angstgegenr ableiten, sondern höchstens das Junior mit Hiarcs besser klar kommt als mit Sjeng. Mehr zu schließen wäre schon gewagt.

Gruß
Ingo
Parent - By Ingo Bauer Date 2010-03-17 18:42 Edited 2010-03-17 18:46
[quote="Ingo Bauer"]
... Wenn ich nicht völlig daneben liege sind 7 Elo rund ein 1%. Um also die 65 Elo abweichung zu bekommen müßte es in 100 Spielen 6.5 Punkte mehr oder weniger geben ...
[/quote]

Hmm, Kopfrechnen 6 - setzen!

Natürlich sind es bei 7Elo/% und 65 Elo Unterschied 9.29% respektive 9.29 Punkte bei 100 Spielen und nicht obige falsche Zahl!

Gruß
Ingo
Parent - By Frank Quisinsky Date 2010-03-17 18:00
Hallo Benno,

ich denke das eine wissenschaftliche Arbeit nicht notwendig ist (Anzahl Partien bei einer Eng-Eng Match Gestaltung für eine Ratingliste). Wichtig sind einfach nur viele unterschiedliche Gegner, die auch nicht zu weit voneinander entfernt liegen dürfen, ca. 200 ELO. Das ist aber bei den TOP-20 nicht möglich, denn die liegen 300 ELO von einander weg. So werden die Ratinglisten genauer, wenn die Remis-Partien, sprich die Remisquote steigt.

Spielst Du jetzt 40, 80 oder 120 Partien pro Match ist es klar das ein Match bei 40 Partien ein ungenauere Ergebnis zu Tage bringt. Aber das gleicht sich mit anderen Matches wieder aus. Wird die SWCR also verglichen mit der IPON sind die Ergebnisse gleich, Ausnahme ist der gute Junior.

Über Anzahl der Partien habe ich ja schon so oft geschrieben. Vor 2 Wochen habe ich das nochmals berechnet und war überrascht das bei dem Anspruchsdenken "Genauigkeit +-10" im Grunde knappe 700 Partien notwendig sind. Bei 700 Partien dann in 1 von 41 Fällen lt. statistischer Hochrechnung eine höhere Abweichung von +-5. Bei +-10 sind es nach meinen neues Berechnungen keine 380 sondern 410 Partien. Und je mehr ELOs die Engines auseinander liegen desto mehr Partien werden notwendig bzw. selbst bei 4.000 Partien pro Engine in einer Liste wo Platz 1-20 500 ELO auseinander liegen, reichen nicht mehr aus. Platz 1-2 und 19-20 ist immer bevorteilt / benachteiligt.

Nun möchte ja jeder der eine Liste erstellt ein möglichst genaues Ergebnis. Daher macht es natürlich besonders viel Spass wenn eine Engine deutlich zulegt. Die ganze Liste wird genauer.

Zu dem anderen Teilbereich der Frage:
Es gibt Angstgegner Konstellationen. Bei Ktulu scheint es Protector zu sein. Die Engines liegen normal ca. 50 ELO auseinander. Wird eine Serie an Partien gespielt sind es wahrscheinlich 150 bei einem solchen Eng-Eng Match. Oder Onno mag Fritz überhaupt nicht. Onno spielt z. b. sehr eigensinnig. In der SWCR ein Paradebeispiel für sehr gute Ergebnisse bis sehr schlechte Ergebnisse (im Verhältnis zur ELO). Wie gesagt, daher ist es wichtig viele unterschiedlichen Programme in der Liste zu haben.

Ich könnte z. B. ein Engine - Engine Turnier aus 6 Teilnehmern so gestalten, dass eine der Engines ein um 50-100 ELO besseres Ergebnis erreichen wird. Wenn mir diese Engine wichtig ist, oder ich böses im Schilde führen würde um eine Werbeattacke zu fahren So Dinger habe ich nie gemacht aber rein theoretisch denkbar mit dem Wissen aus der beständigen Arbeit an einer Ratingliste.

Dann gibt es auch noch Konstellationen die auf den ersten Blick nicht auffällig sind.

Beispiel:
Crafty spielt gegen Thinker. Zwischen den Engines liegt ca. 160 ELO. Spielen die beiden gegeneinander wird Thinker deutlich gewinnen aber niemals mit 160 ELO mehr Ausbeute. Das fällt dann kaum auf, denn Thinker hat einfach nur gegen Crafty gewonnen.

Gruß
Frank
Parent - - By Ralf Badera Date 2010-03-17 11:22
[quote="Ingo Bauer"]
... um eine Engine zu bewerten.



Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.

Gruß
Ingo
[/quote]
Das ist doch völlig unstrittig und führt hoffentlich nicht erneut zu der sinnfreien Diskussion, ob es besser ist, je 20 Partien gegen 5 Gegner oder 100 Partien gegen 1 Gegner zu spielen. Den Erbsenzähler-Schach-Verachtern geht es doch nicht um die Anzahl der Gegner, sondern um die Menge der in kürzester Zeit produzierten Partien.

MfG,
Ralf
(Der jetzt einen Antrag an die FIFA formuliert, Fussballspiele nicht mehr in 90 Minuten austragen zu lassen, sondern in der gleichen Zeit lieber 90 Spiele in je einer Minute - der statistischen Sicherheit wegen. )
Parent - By struwel Date 2010-03-17 11:57
[quote="Ralf Badera"]
[quote="Ingo Bauer"]
... um eine Engine zu bewerten.



Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.

Gruß
Ingo
[/quote]
...

(...Fussballspiele nicht mehr in 90 Minuten austragen zu lassen, sondern in der gleichen Zeit lieber 90 Spiele in je einer Minute - der statistischen Sicherheit wegen. )
[/quote]
ich lieg grad unterm tisch    
Parent - By Udo Kaiser Date 2010-03-17 11:59
noch besser wäre diese kostenintensiven Fußballspiele abzuschaffen und das Ergebnis durch eine amtliche Ziehung zu ersetzen.
Für die Tabellenfreunde der Bundesliga würde sich ja nichts ändern.
Sie könnten weiterhin ihre Meisterschaft feiern. Bayern wäre immer noch Meister. Nur die sinnlosen Spiele könnten wir uns schenken
und die 90 Minuten Spiel durch ein Zahlenergebnis ersetzen. Geht schneller. Ist energiesparender.
Ich schlage vor 2 mal zu würfeln. Einmal für den einen Gegner. Die 2. Würfelzahl für den Gegner.
Schon haben wir das Ergebnis, sagen wir mal 2-4 für Schalke vorliegen.
Die gesparten Gehälter für Mannschaften und Trainer und Mediziner und Stadien könnte man einem gemeinnützigen Zweck zukommen lassen.

An der statistischen Aussagekraft würde sich nichts ändern.
Parent - - By Ingo Bauer Date 2010-03-17 12:12
Hallo

[quote="Ralf Badera"]
[quote="Ingo Bauer"]
... um eine Engine zu bewerten.



Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.

Gruß
Ingo
[/quote]
Das ist doch völlig unstrittig und führt hoffentlich nicht erneut zu der sinnfreien Diskussion, ob es besser ist, je 20 Partien gegen 5 Gegner oder 100 Partien gegen 1 Gegner zu spielen. Den Erbsenzähler-Schach-Verachtern geht es doch nicht um die Anzahl der Gegner, sondern um die Menge der in kürzester Zeit produzierten Partien.
[/quote]

Das ist eben nicht unstrittig, nicht umsonst tauchen hier in letzter Zeit immer wieder Riesenmatche zw. zwei Engines auf, die belegen sollen wie viel besser eine der beiden Engines ist.

[quote="Ralf Badera"]
(Der jetzt einen Antrag an die FIFA formuliert, Fussballspiele nicht mehr in 90 Minuten austragen zu lassen, sondern in der gleichen Zeit lieber 90 Spiele in je einer Minute - der statistischen Sicherheit wegen. )
[/quote]

Das geht am Thema vorbei, da eine Rangliste eben ein Rangliste und NICHT ein Spiel ist. Die Ästetik eines Spieles ist von einer möglichst akuraten Rangliste ziemlich weit entfernt und ist etwas was ich nie bestritten habe. Das eine hat aber mit dem anderen nichts zu tun.
Aber schon klar, es gibt halt ein paar hier die gerne spotten ... ok.

Gruß
Ingo
Parent - - By Ralf Badera Date 2010-03-17 14:10
[quote="Ingo Bauer"]
Das ist eben nicht unstrittig, nicht umsonst tauchen hier in letzter Zeit immer wieder Riesenmatche zw. zwei Engines auf, die belegen sollen wie viel besser eine der beiden Engines ist.[/quote]
Solche Beiträge sind mir wohl entgangen.
[quote="Ingo Bauer"]
Das geht am Thema vorbei, da eine Rangliste eben ein Rangliste und NICHT ein Spiel ist.
[/quote]
Und ich dachte immer, eine Rangliste ist eine Ergebnisauswertung von SPIELEN.
[quote="Ingo Bauer"]
Die Ästetik eines Spieles ist von einer möglichst akuraten Rangliste ziemlich weit entfernt und ist etwas was ich nie bestritten habe. Das eine hat aber mit dem anderen nichts zu tun.[/quote]
Ästhetik nicht, korrekt, aber Spielverlauf und ähnliches. Mannschaft A kann nur eine Halbzeit aufdrehen, holt eine 2:0 Führung binnen einer Minute heraus und ihr gehen danach die Kräfte aus. Mannschaft B nutzt in der zweiten Halbzeit die nachlassenden Kräfte für den Ausgleich oder gar Sieg. Was kann ich hier also erkennen im Gegensatz zu 90 1-Minute-Spielen?
[quote="Ingo Bauer"]
Aber schon klar, es gibt halt ein paar hier die gerne spotten ... ok.

Gruß
Ingo
[/quote]
Es gibt Fälle, in denen man Kritik und Spott an sich abprallen lassen sollte, es gibt aber auch Fälle, in denen man sich die Kritik zu Herzen nehmen sollte. Es ist halt Deine Art, Daten zu sammeln, statt sich mit Inhalten auseinander zu setzen. Knöpfchen drücken, Ergebnis ablesen, fertig. Jeder wie er mag. Das sollte man respektieren, verstehen muss man es indes nicht. Dass hier offenbar mehr Leute als ich dachte eine andere Herangehensweise bevorzugen, finde ich sehr erfreulich.    Und wenn Dich die Frotzeleien stören, frotzel doch einfach zurück. 

MfG,
Ralf
Parent - By Gerhard Sonnabend Date 2010-03-17 18:39
[quote="Ralf Badera"]
[...snip...]
Es gibt Fälle, in denen man Kritik und Spott an sich abprallen lassen sollte, es gibt aber auch Fälle, in denen man sich die Kritik zu Herzen nehmen sollte. Es ist halt Deine Art, Daten zu sammeln, statt sich mit Inhalten auseinander zu setzen. Knöpfchen drücken, Ergebnis ablesen, fertig. Jeder wie er mag. Das sollte man respektieren, verstehen muss man es indes nicht. Dass hier offenbar mehr Leute als ich dachte eine andere Herangehensweise bevorzugen, finde ich sehr erfreulich. 
[...snip...]
[/quote]

Nun, 1.5 Personen (Portionen) als "mehr als ich dachte..." zu bezeichnen halte ich für recht gewagt.

Viele Grüsse,
G.S.
Parent - By Gerhard Sonnabend Date 2010-03-17 18:35
[quote="Ralf Badera"]
Das ist doch völlig unstrittig und führt hoffentlich nicht erneut zu der sinnfreien Diskussion, ob es besser ist, je 20 Partien gegen 5 Gegner oder 100 Partien gegen 1 Gegner zu spielen. Den Erbsenzähler-Schach-Verachtern (*) geht es doch nicht um die Anzahl der Gegner, sondern um die Menge der in kürzester Zeit produzierten Partien.
[/quote]

Gibt es die (*) denn tatsächlich ?
Mal abgesehen von den 1.5 Personen (Portionen),
welche sich dazu schon mal hier gemeldet hatten ??

Viele Grüsse,
G.S.
Parent - - By Udo Kaiser Date 2010-03-17 12:02
Zitat:
Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.


in der Tat eine Binsenweisheit.
Parent - By Ingo Bauer Date 2010-03-17 12:08
[quote="Udo Kaiser"]
Zitat:
Insofern ist die erste Prämisse bei einem Enginetest eine möglichst große Zahl an verschiedenen Gegnern.


in der Tat eine Binsenweisheit.


Um so erschreckender das man sie immer wieder formulieren muß!

Gruß
Ingo
Parent - - By Benno Hartwig Date 2010-03-17 12:57 Edited 2010-03-17 12:59
Ich ergänze mal durch eine andere Tabelle:
Bei 100 Partien zwischen gleichstarken Gegnern (Annahme 35% remis) hast du

Wahrscheinlichkeit 0.0494 für 50.0:50.0
Wahrscheinlichkeit 0.1474 für irgendwas zwischen 49.5:50.5 bis 50.5:49.5
Wahrscheinlichkeit 0.2432 für irgendwas zwischen 49.0:51.0 bis 51.0:49.0
Wahrscheinlichkeit 0.4229 für irgendwas zwischen 48.0:52.0 bis 52.0:48.0
Wahrscheinlichkeit 0.5795 für irgendwas zwischen 47.0:53.0 bis 53.0:47.0
...
Wahrscheinlichkeit 0.8071 für irgendwas zwischen 45.0:55.0 bis 55.0:45.0
...
Wahrscheinlichkeit 0.9281 für irgendwas zwischen 43.0:57.0 bis 57.0:43.0
...
Wahrscheinlichkeit 0.9892 für irgendwas zwischen 40.0:60.0 bis 60.0:40.0
...
Wahrscheinlichkeit 0.9999 für irgendwas zwischen 35.0:65.0 bis 65.0:35.0

In ca. jedem 5 Fall wirst du also einer der eigentlich gleichstarken Engines eine Überlegenheit von mindestens 40 ELO zubilligen.
Die Wahrscheinlichkeit, irrtümlicherweise sogar mindestens 75 ELO Differenz festzustellen, ist mit gut einem Prozent aber recht klein.
100 Spiele erlauben halt nur wahlweise sehr unsichere oder sehr ungefähre Aussagen.

Benno
Parent - - By Ernest Bonnem Date 2010-03-17 17:53
[quote="Benno Hartwig"]
Wahrscheinlichkeit 0.8071 für irgendwas zwischen 45.0:55.0 bis 55.0:45.0 [/quote]
Hallo Benno,
Ich bin "fast" mit Deine Data einverstanden!   
Bei 100 Partien mit Annahme 35% remis,
kriege ich eine Standard Deviation (SD) von 0.5*Sqrt(W+L) = 0.5*Sqrt(65) = 4.03
(W+L : wins + losses)

Also für irgendwas zwischen 45.0:55.0 bis 55.0:45.0 ist das 5/4.03 = 1.24 mal die SD

Wenn man jetzt auf eine Gauss Tafel schaut, findet man (für 1.24 mal die SD) eine Wahrscheinlichkeit von 0.785

usw...

Aber die Abweichungen sind nich groß!
..........................
...Aber jetzt IDEE !!!
... wenn das zwischen 45.0:55.0 bis 55.0:45.0 wirklich (und korrekt!!!)
zwischen 44.75:55.25 bis 55.25:44.75 ist,
bin ich mit Deine Data ganz und gar einverstanden!!!      
Parent - - By Benno Hartwig Date 2010-03-17 20:55 Edited 2010-03-17 21:00
Hallo Ernest.

Ich habe die Daten direkt aus einem vbscript, welches mir die direkten Wahrscheinlichkeiten für die einzelnen Ergebnisse berechnet.
Remiswahrscheinlichkeit 0,35 habe ich einfach zugrunde gelegt. Ich könnte es natürlich auch mit 0,4 oder so berechnen lassen.

W(p,z) sei die Wahrscheinlichkeit, dass nach z Partien p Punkte erreicht wurden.
Ws=Sieg-Wahrscheinlichkeit in einer Partie
Wr=Remis-Wahrscheinlichkeit in einer Partie
Wv=Verlust-Wahrscheinlichkeit in einer Partie

Das Script basiert dann einfach auf den beiden Regeln:
Code:
W(0,0) = 1                               (0 Punkte nach 0 Partien ist sicher)
W(x,0) = 0 für x!=0                      (was anderes als 0 Punkte ist nach 0 Partien unmöglich)
W(p,z) = W(p,z-1)*Wv + W(p-0.5,z-1)*Wr + W(p-1,z-1)*Ws für z>=1
                                         (Ich habe nach z Partien p Punkte, wenn ich
                                            - vorher auch schon p Punkte hatte und nun verlor oder
                                            - vorher schon p-0.5 Punkte hatte und nun remisierte oder
                                            - vorher p-1 Punkte hatte und nun gewann)

Das rechnet dir die genauen Wahrscheinlichkeiten für konkrete Serien-Ergebnisse direkt aus.
(OK, natürlich nicht mit einer solchen rekursiven Implementierung. Soviel Zeit habe ich nicht )
Die ELO-Werte habe ich dann von http://www.schachcomputer.at/elo.htm übernommen. Ggf. habe ich da mit halben Punkten geschlampt. Sorry.

Daraus entstand meine Tabelle.

Aber vielleicht sollte ich wirklich lieber 0,4 als Remis-Wahrscheinlichkeit nehmen. Ist vielleicht realistischer.

Benno

Parent - By Ernest Bonnem Date 2010-03-18 01:37
[quote="Benno Hartwig"]Ich habe die Daten direkt aus einem vbscript, ...[/quote]
Schön, daß meine Approximation mit der Gauss Kurve (und klar, da muß ich den Abstand 44.75:55.25 nehmen, und nicht 45.0:55.0) dasselbe findet als Dein vbscript (der, in Überstimmung mit der Theorie, nur mit integers rechnet) 
Parent - By Ingo Bauer Date 2010-03-17 20:14
Hi

Deep Junior 11.1a             : 1700 (+413,=588,-699), 41.6 %

Naum 4.1                      : 100 (+ 11,= 30,- 59), 26.0 %
Zappa Mexico II               : 100 (+ 22,= 46,- 32), 45.0 %
Komodo64 1.0 JA               : 100 (+ 12,= 34,- 54), 29.0 %
Deep Shredder 12              : 100 (+ 13,= 31,- 56), 28.5 %
Stockfish 1.6.x JA            : 100 (+  4,= 33,- 63), 20.5 %
Critter 0.52b                 : 100 (+ 28,= 35,- 37), 45.5 %
Protector 1.3.2 JA            : 100 (+ 23,= 37,- 40), 41.5 %
Twisted Logic 20100131x       : 100 (+ 34,= 37,- 29), 52.5 %
Toga II 1.4 beta5c BB         : 100 (+ 32,= 31,- 37), 47.5 %
Spike 1.2 Turin 32b           : 100 (+ 37,= 39,- 24), 56.5 %
Loop 13.5/6                   : 100 (+ 37,= 31,- 32), 52.5 %
Hiarcs 12.1 MP 32b            : 100 (+ 32,= 41,- 27), 52.5 %
Rybka 3 mp                    : 100 (+  8,= 22,- 70), 19.0 %
Deep Sjeng WC2008             : 100 (+ 22,= 39,- 39), 41.5 %
Onno-1-1-1                    : 100 (+ 22,= 38,- 40), 41.0 %
Spark-0.3 VC(a)               : 100 (+ 25,= 35,- 40), 42.5 %
Crafty 23.1 JA                : 100 (+ 51,= 29,- 20), 65.5 %

Deep Junior 2010              : 1700 (+435,=502,-763), 40.4 %

Naum 4.1                      : 100 (+ 10,= 31,- 59), 25.5 %
Zappa Mexico II               : 100 (+ 20,= 28,- 52), 34.0 %
Komodo64 1.0 JA               : 100 (+  9,= 40,- 51), 29.0 %
Deep Shredder 12              : 100 (+ 12,= 25,- 63), 24.5 %
Stockfish 1.6.x JA            : 100 (+ 13,= 26,- 61), 26.0 %
Critter 0.52b                 : 100 (+ 31,= 33,- 36), 47.5 %
Protector 1.3.2 JA            : 100 (+ 19,= 40,- 41), 39.0 %
Twisted Logic 20100131x       : 100 (+ 39,= 34,- 27), 56.0 %
Toga II 1.4 beta5c BB         : 100 (+ 31,= 27,- 42), 44.5 %
Spike 1.2 Turin 32b           : 100 (+ 51,= 25,- 24), 63.5 %
Loop 13.5/6                   : 100 (+ 46,= 21,- 33), 56.5 %
Hiarcs 12.1 MP 32b            : 100 (+ 29,= 28,- 43), 43.0 %
Rybka 3 mp                    : 100 (+  7,= 19,- 74), 16.5 %
Deep Sjeng WC2008             : 100 (+ 25,= 28,- 47), 39.0 %
Onno-1-1-1                    : 100 (+ 19,= 36,- 45), 37.0 %
Spark-0.3 VC(a)               : 100 (+ 31,= 30,- 39), 46.0 %
Crafty 23.1 JA                : 100 (+ 43,= 31,- 26), 58.5 %

Deep Junior 11.1              : 1700 (+395,=576,-729), 40.2 %

Naum 4.1                      : 100 (+ 12,= 32,- 56), 28.0 %
Zappa Mexico II               : 100 (+ 26,= 34,- 40), 43.0 %
Komodo64 1.0 JA               : 100 (+ 13,= 43,- 44), 34.5 %
Deep Shredder 12              : 100 (+ 12,= 32,- 56), 28.0 %
Stockfish 1.6.x JA            : 100 (+  9,= 27,- 64), 22.5 %
Critter 0.52b                 : 100 (+ 25,= 38,- 37), 44.0 %
Protector 1.3.2 JA            : 100 (+ 19,= 43,- 38), 40.5 %
Twisted Logic 20100131x       : 100 (+ 32,= 37,- 31), 50.5 %
Toga II 1.4 beta5c BB         : 100 (+ 29,= 39,- 32), 48.5 %
Spike 1.2 Turin 32b           : 100 (+ 35,= 35,- 30), 52.5 %
Loop 13.5/6                   : 100 (+ 36,= 34,- 30), 53.0 %
Hiarcs 12.1 MP 32b            : 100 (+ 23,= 34,- 43), 40.0 %
Rybka 3 mp                    : 100 (+  4,= 13,- 83), 10.5 %
Deep Sjeng WC2008             : 100 (+ 21,= 37,- 42), 39.5 %
Onno-1-1-1                    : 100 (+ 24,= 25,- 51), 36.5 %
Spark-0.3 VC(a)               : 100 (+ 24,= 41,- 35), 44.5 %
Crafty 23.1 JA                : 100 (+ 51,= 32,- 17), 67.0 %


So, wer will darf jetzt "losvergleichen".

Gruß
Ingo
Up Topic Hauptforen / CSS-Forum / Warum 100 Spiele gegen eine Engine nicht langen ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill