Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Shredder 12 against Toga II 1.4.2JD
- - By Orlando de la Vega Date 2009-11-05 12:59
Shredder 12 against Toga II 1.4.2JD

PlaceEngineAuthorCountryPointsSingle results
1Shredder 12Stefan Meyer-Kahlen36.5/50010111111½-½011½11½½½-1½½1111111-111½½1½001-11½½111½½0
2Toga II 1.4.2JDT. Gaksch & J. Donald13.5/50101000000½-½100½00½½½-0½½0000000-000½½0½110-00½½000½½1



50 of 50 matches played.
Shredder 12 v/s Toga II 1.4.2JD (50: + 29,= 15,- 6)

Start of tournament: ......... 2009.11.03, 19:14:43
Town/ Country: .............. Dax, France
Level: ............................ Blitz 40/5' repeated
Hardware: ...................... AMD Phenom(TM) 9750 Quad-Core
Engines: ......................... Shredder 12 / Toga II 1.4.2JD
Hash: ............................. 128 MB / 128 MB
GUI: ............................... Shredder Classic 3
OS: ................................ Windows Vista
Ponder OFF
Nalimov TB ..................... 3+4+5
Book: ............................. Shredder book, stopped using after 5 moves.
Openings: ....................... 25 different openings randomly chosen by GUI, large mode.



Best regards,
Orlando
Parent - - By Michael Scheidl Date 2009-11-05 13:21
I don't know this "J. Donald" version of Toga, anyway this is a brutal victory by Shredder 12!

I think there may be a tendency that five book moves only, relatively favour Shredder compared to almost all competing engines, because I consider Shredder to be a good "opening engine" especially. I would expect that Toga scores a bit better (but of course no total win) against Shredder if 10 or 15 book moves happen.
Parent - - By Ingo Bauer Date 2009-11-05 20:43
Hello Michael

[quote="Michael Scheidl"]
I don't know this "J. Donald" version of Toga, anyway this is a brutal victory by Shredder 12!

I think there may be a tendency that five book moves only, relatively favour Shredder compared to almost all competing engines, because I consider Shredder to be a good "opening engine" especially. I would expect that Toga scores a bit better (but of course no total win) against Shredder if 10 or 15 book moves happen.
[/quote]

There is nothing brutal except that one sould never draw conclusions out of 50 games!

Bye and regards
Ingo
Parent - - By Michael Scheidl Date 2009-11-06 10:54
Na gut, dann muß wohl jemand 50.000 Partien Toga vs. S12 spielen, damit alles bis auf den letzten Elopunkt genau und 100% verläßlich ist.
Parent - - By Georg Hutschenreuter Date 2009-11-06 11:30
Hallo Michael,
ich kann die Leier auch nicht mehr hören, dass alle Ergebnisse unterhalb von 500-1000 Partien keine Aussagekraft hätten.
Ich sehe im Ergebnis von 50 Partien schon eine Menge. Natürlich kann man daraus falsche Schlüsse ziehen. Aber auch richtige. Und damit meine ich nicht die Folgerung, dass 50 Partien keine Aussagekraft haben. 
Wichtiger als die Frage nach der Partieanzahl ist mir die Frage nach den Matchbedingungen. Aber darüber kann man natürlich endlos diskutieren. 
Parent - By Ingo Bauer Date 2009-11-06 11:46
Hallo

[quote="Georg Hutschenreuter"]
...
Ich sehe im Ergebnis von 50 Partien schon eine Menge. Natürlich kann man daraus falsche Schlüsse ziehen. Aber auch richtige.
...
[/quote]

Die obigen Sätze lass ich mir ob des Erkenntnissgewinns nochmal durch den Kopf gehen

Falls du es schaffst aus 50 Spielen mehrheitlich richtige Schlüsse zu siehen hast du mir etwas vorraus worum ich dich beneide, ich übe mich aber weiter am Wahrsagen! 

Gruß
Ingo
Parent - By Frank Quisinsky Date 2009-11-06 12:38
Hi,

ich beobachte seit vielen Jahren die Entwicklung von Ratinglisten
(meine Lieblingsstatistik ... Ratingliste nach 50, 100, 150, 200, 250 etc. Partien pro Engine).

Meine Ergebnisse waren immer eindeutig, in diesem Fall verhält sich eine Statistik gleich. Hatte ja auch mal die sehr umfangreichen ATL-Ratinglisten mit vielen dieser Statistiken Online gestellt. Dort spielten 40 Engines über 20.000 Partien.

Interessant wird eine Liste wenn pro Engine 250 Partien gespielt sind. Im Vergleich zu 500 Partien passiert es nur sehr selten (in einem von 10 Fällen) das eine Engine um mehr als 30 ELO abweicht. Es ruckeln allerdings 4-5 Engines immer noch um +-15 hin und her. Wenn ich jetzt vergleiche zwischen 500 und 1000 Partien dann passiert es ca. in einem, vielleicht maximal 2 Fällen das eine Engine um mehr als 20 ELO abweicht (wenn überhaupt). Viele Engines ruckeln dann zwischen +-5 also um 10 ELO hin und her.

ELOstat sagt ja auch nur aus wie groß die Abweichungen nach x Partien noch sein können. Das ist sehr abstrackt und stimmt of nicht (gar zu gering).

Beispiel:
Engine hat 200 Partien gespielt und ELOstat sagt 40 40.
Wirklich, in der ATL hatte ich einen Fall da lag ELOstat nach 200 Partien 25 Punkte daneben, dass heißt nach 200 Partien verschlechterte sich die Engine um 60 ELO. Witzig war, dass ich solche Ausreißer bei allen Ratinglisten hatte. Meine das eine Engine total krass abgewichen ist, auch 500 Partien aber es auch nie mehr als eine Engine war, egal wie viele in er Ratingliste waren.

Nach meinen Eindrücken ist eine Ratingliste schon sehr aussagekräftig wenn um 300-350 Partien pro Engine gespielt wurden. Natürlich immer wichtig, das die Engines gegen viele verschiedene andere Engines spielen. Und optimal wäre dann wenn alle Engines die gleiche Anzahl an Partien gespielt haben (optimal aber nicht Voraussetzung).

Bei CEGT und CCRL regulieren sich kleine Unregelmäßigkeiten oder Ungenauigkeiten (unterschiedliche Einstellungen bei den Testern, GUIs, unterschiedliche Menge an Partien, Bücher etc..) durch die Anzahl der Partien. Wolle ich z. B. auch nie so richtig wahr haben aber es ist so. Die Anzahl der Partien haut sämtliche Kritikpunkte nieder ...

So:
Jetzt zu den Aussagen:

Unterhalb von 500-1000 Partien = keine Aussagekraft
Halte ich auch für übertrieben. Wenn allerdings der Anspruch erhoben wird, das alle Engines in einer Ratingliste ganz genau bewertet sein sollen, wären 500-1000 Partien schon sehr gut. Wobei ganz genau wird es nie gehen.

Bei 50 Partien siehst du schon eine Menge:
Ich auch
Erste Eindrücke wo es hin geht, wie eine Engine spielt und meist stimmen dann auch die Prognosen.
Aber an Sicherheit fehlt es leider ... habe gerade ein solches Problem nach 60 Partien in einem Qualle-Turnier. Lasse jetzt bis 180 Partien pro Engine spielen, bin mir aber dennoch sicher zu wissen wie das ausgeht
Aber ich lasse mich auch gerne überraschen.

Gruß
Frank
Parent - - By Ingo Bauer Date 2009-11-06 11:36
Moin

Auch wenn ich das folgende bestimmt noch viele male schreiben könnte:

Ich habe hier 20er Serien die S12 gegen R3 gewonnen hat (!) und ich habe 50 Serien die ausgeglichen waren. Ich habe 340er Serien Enigne X1 - X10  gegen Engine Y die um mehr als 15% abweichen und alle verhielten sich im Test gegen VIELE Engines komplett anders als gegen EINE Engine.

Kurz: 50er Serien sind völlig nutzlos um irgendwelche Schlüsse zu ziehen!

50 Spiele gegen 20 Engine (20x50), dann auswerten, ohne auf Einzelresultate zu blicken, das ist ein Test! Ich selber spiel 100er Serien und habe S12 gegen 16 Enignes getestet, die Einzelresultate weichen um mehr als 150 Elo voneinander ab! Wie will man aus einem solchen 100er Einzelresultat etwas lesen wenn keiner weiß ob es gegen diese Engine gut oder schlecht lief? Ich habe mir abgewöhnt auf die Einzelresultate zu schauen, da selbst 100er Serien nicht zuverlässig sind.

Wer etwas anderes behauptet der WILL schlicht leiber ein schnelles, als ein gutes Ergebniss!

Gruß
Ingo
Parent - By Gerhard Sonnabend Date 2009-11-06 14:20
[quote="Ingo Bauer"]
Auch wenn ich das folgende bestimmt noch viele male schreiben könnte:
Ich habe hier 20er Serien die S12 gegen R3 gewonnen hat (!) und ich habe 50 Serien die
ausgeglichen waren. Ich habe 340er Serien Enigne X1 - X10  gegen Engine Y die um mehr
als 15% abweichen und alle verhielten sich im Test gegen VIELE Engines komplett anders
als gegen EINE Engine.
Kurz: 50er Serien sind völlig nutzlos um irgendwelche Schlüsse zu ziehen!
50 Spiele gegen 20 Engine (20x50), dann auswerten, ohne auf Einzelresultate zu blicken,
das ist ein Test! Ich selber spiel 100er Serien und habe S12 gegen 16 Enignes getestet,
die Einzelresultate weichen um mehr als 150 Elo voneinander ab! Wie will man aus
einem solchen 100er Einzelresultat etwas lesen wenn keiner weiß ob es gegen diese Engine
gut oder schlecht lief? Ich habe mir abgewöhnt auf die Einzelresultate zu schauen, da selbst
100er Serien nicht zuverlässig sind.
Wer etwas anderes behauptet der WILL schlicht leiber ein schnelles, als ein gutes Ergebniss!
[/quote]

100% Zustimmung !

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2009-11-06 19:11 Edited 2009-11-06 19:21
Hallo

[quote="Ingo Bauer"]
... die Einzelresultate weichen um mehr als 150 Elo voneinander ab! ...
[/quote]

Um das zu Untermauern, habe ich meine S12 Einzelergebnisse mal mit den aktuellen Ranglistenzahlen verrechnet:

Deep Shredder 12 x64 1T   : 2722  1600 (+734,=584,-282), 64.1 %

Zappa Mexico II x64 1T        : 100 (+ 47,= 37,- 16), 65.5 % 2731
Deep Shredder 10 x64 1T       : 100 (+ 67,= 28,-  5), 81.0 % 2756
Spike 1.2 Turin               : 100 (+ 66,= 26,-  8), 79.0 % 2709
Fruit 05/11/03                : 100 (+ 60,= 29,- 11), 74.5 % 2717
Rybka 2.3.2a mp 1T            : 100 (+ 33,= 45,- 22), 55.5 % 2755
H12.1 MP 1T                   : 100 (+ 58,= 35,-  7), 75.5 % 2761
Toga II 1.4 beta5c BB         : 100 (+ 64,= 30,-  6), 79.0 % 2800
Rybka 3 1T                    : 100 (+ 15,= 40,- 45), 35.0 % 2718
Rybka 2.2n2 mp 1T             : 100 (+ 34,= 39,- 27), 53.5 % 2705
DSjeng WC2008 x64 1T          : 100 (+ 41,= 42,- 17), 62.0 % 2662
Naum 4                        : 100 (+ 38,= 33,- 29), 54.5 % 2726
Glaurung 2.2 JA 1T            : 100 (+ 50,= 40,- 10), 70.0 % 2694
Rybka 3 1T 32-bit             : 100 (+ 25,= 44,- 31), 47.0 % 2746
Stockfish 1.4 JA 64bit 1T     : 100 (+ 41,= 43,- 16), 62.5 % 2711
Fritz 12                      : 100 (+ 41,= 40,- 19), 61.0 % 2724
Onno-1-1-1 x64                : 100 (+ 54,= 33,- 13), 70.5 % 2748


Die letze Zahl ist jeweils das Rating nach 100 Spielen gegen die entsprechende Engine. Wie man sehen kann sind es "nur" 138 Elo Abweichung. Aber welch ein Unterschied wenn ich 100 SPiele mit einer 2660er oder einer 2800er Performance veröffentliche - am besten noch VOR Erscheinen von S12. Entweder wäre die Enigne hier hochgejubelt oder völlig zerschmettert worden!

Wer sich jetzt noch die Mühe macht mal in die Ranglisten zusehen wird feststellen, dass Shredder gegen einen schweren Gegner hier, woanders in einer kurze Reihe spitzenmäßig performt hat. Alles was wir daraus lernen können ist - Einzelergebnisse sind beliebig!

Gruß
Ingo

PS: Wahrscheinlicher wäre gewesen das einige gesagt hätten "Bei Shredder ist die Luft raus" oder mir Parteilichkeit vorgeworfen hätten. Aber das ist ja auch so geschehen, war bei S11 und S10 so und wird vor Erscheinen des nächsten Shredders wieder passieren
Parent - By Ingo Bauer Date 2009-11-06 19:51
Hallo

Und um nochmal zu zeigen wie wichtig viele Spiele sind.

Angenommen ich hätte durch puren Zufall die beste oder die schlechteste Engine weggelassen:

1500 Spiele OHNE Toga als bester Gegner für Shredder 12 der insgesammt 2722 Elo hat wären :
+670 =554 -276
Gegnereloschnitt: 2624
Neue Elo Shredder12 = 2717

1500 Spiele OHNE Deep Sjeng als schlechtester Gegner für Shredder 12 der insgesammt 2722 Elo hat wären :
+693 =542 -265
Gegnereloschnitt: 2623
Neue Elo Shredder12 = 2724

Also gerade mal eine Schwankung von 7 Elo!

Jetzt könnte man die Statistik auf die Spitze treiben, und die jeweils die zwei, drei, vier ... besten und schlechtesten rausnehmen und sehen WANN die Abweichung für den persönlichen Geschmack zu groß wird. Allerdings sind da die Geschmäcker verschieden. Ich kann jetzt also eine Rangliste "konstruieren" die von 7 Elo Abweichung bis zu 138 Elo im schlimmsten Fall reicht und für sich, mit perfekten Daten, VÖLLIG valide wäre ...

Deswegen traue ich grundsätzlich nur dem Mist den ich selber verzapft habe, da weiß ich wenigstens wie er entstanden ist!

Gruß
Ingo
Parent - - By Roland Rösler Date 2009-11-06 20:08
Hallo Ingo,

Dir scheint ja sehr daran gelegen zu sein, uns Unwissende zu bekehren!
Aber mich bekehrst Du nicht!

Meine Behauptung: Ziehe zufällig 10 Vorgabestellungen von Deinen 50 und zeige uns dann mal die Eloauswertung von DS12. Das Rating von DS12 wird annähernd gleich sein (+-5 Elo)! Und das nach nur 320 Partien (statt 1600)! Du brauchst die Spiele gar nicht neu zu spielen, die Daten sind vorhanden.
Ich bin mir sicher, wenn Du dir richtig Mühe gibst bei einer nicht zufälligen Ziehung der 10 Vorgabestellungen, kannst Du uns richtig überraschen (+-50 Elo). Aber das wäre Betrug! In etwa vergleichbar mit dem Betrug den ich machen könnte, wenn ich aus einer Testsuite mit 500 Stellungen immer 100 Stellungen auswählen könnte, um jede halbwegs funktionierende Engine auf den 1. Platz zu hieven.
Ich gebe Dir Recht, daß man nach 50 Spielen Engine X gegen Engine Y nicht zuverlässig sagen kann, um wieviel jetzt eine Engine besser ist in Elo. Aber wer will das schon (wenn man mal von den Ippolit Cretins absieht)? Die Breite machts! Klaus hat es vorgemacht! 10 Vorgabestellungen und ~ 20 Engines!

Gruß Roland
Parent - - By Ingo Bauer Date 2009-11-06 20:43
Hallo

[quote="Roland Rösler"]
Hallo Ingo,

Dir scheint ja sehr daran gelegen zu sein, uns Unwissende zu bekehren!
Aber mich bekehrst Du nicht!
[/quote]

Nicht bekehren, überzeugen!

[quote="Roland Rösler"]
Meine Behauptung: Ziehe zufällig 10 Vorgabestellungen von Deinen 50 und zeige uns dann mal die Eloauswertung von DS12. Das Rating von DS12 wird annähernd gleich sein (+-5 Elo)! Und das nach nur 320 Partien (statt 1600)! Du brauchst die Spiele gar nicht neu zu spielen, die Daten sind vorhanden.
[/quote]

Das brauche ich nicht, das können wir im griechischen Stil theoretisch abhandeln.

Ohne Zufall könnten drei Dinge passieren:
Ich wähle
10 Stellungen in denen Shredder besonders gut war
10 in denen er besonders schlecht war
und 10 Stellungen die über alle Engines genau den Duchschnitt produzieren.

Das Problem ist, wenn ich nicht genug Spiele habe, weiß ich das VORHER nicht was "die Wahrheit" ist. Hinterher, kann man natürlich immer sagen das "mit den richtigen Stellungen das wirkliche Ergebniss erzeugt wird". Dummerweise können die richtigen Stellungen für jede Engine verschieden sein. Ansonsten kann man es zuspitzen und sagen man nimmt DIE richtigste Stellung (1) und spielt gegen 1000 Enigines ... macht auch keinen Sinn!?
Andersherum kann man auch viele Spiele gegen nur EINE Engine spielen. Bsp: S12/F12. Perfektes Paar. 100 Spiele spielen und ich hätte praktisch genau mein Shredder Rating - dummerweise kann das für den nächsten Shredder eine andere Engine sein, und ich weiß nicht welche ... (das würde mir das testen aber sehr erleichtern!)
Um jetzt auf deinen 10 Stellungen zurückzukommen - Zufall hilft nicht weil die nächste Enigne mit genu diesen Stellungen oder diesen wenigen Engines nicht zurechtkommen kann. Das einzige was hilft ist Quantität (Auch hier hat Computerschach viel mit dem wirklichen Leben zu tun. Bsp: Viel Geld ist besser als schönes Geld! )

[quote="Roland Rösler"]
...
Ich gebe Dir Recht, daß man nach 50 Spielen Engine X gegen Engine Y nicht zuverlässig sagen kann, um wieviel jetzt eine Engine besser ist in Elo. Aber wer will das schon...
[/quote]

Geh mal hoch und schau dir diesen Thread nochmal genau an!

[quote="Roland Rösler"]
... Die Breite machts! Klaus hat es vorgemacht! 10 Vorgabestellungen und ~ 20 Engines!
[/quote]

Das wären mit Farbtausch 400 Spiele ... mir zu wenig! (Wobei mehr die wenigen Stellungen, 20 Engines ist schon sehr gut)

Gruß
Ingo
Parent - By Roland Rösler Date 2009-11-06 21:33
[quote="Ingo Bauer"]Das Problem ist, wenn ich nicht genug Spiele habe, weiß ich das VORHER nicht was "die Wahrheit" ist. [/quote]
Das "wahre" Problem ist: Was ist genug?
Bei 1600 Spielen hast Du immer noch Schranken von +-14 Elopunkten (Bandbreite 28 Elo) und die Gewißheit, daß bei jeder 20. Engine (95% Wahrscheinlichkeit!) diese Schranken nicht eingehalten werden.
Parent - - By Gerhard Sonnabend Date 2009-11-06 21:28
[quote="Roland Rösler"]
[...snip...]
Meine Behauptung: Ziehe zufällig 10 Vorgabestellungen von Deinen 50 und zeige uns dann mal die Eloauswertung von DS12. Das Rating von DS12 wird annähernd gleich sein (+-5 Elo)! Und das nach nur 320 Partien (statt 1600)! Du brauchst die Spiele gar nicht neu zu spielen, die Daten sind vorhanden.
[/quote]

Falsch !

[quote="Roland Rösler"]
[...snip..]
In etwa vergleichbar mit dem Betrug den ich machen könnte, wenn ich aus einer Testsuite mit 500 Stellungen immer 100 Stellungen auswählen könnte, um jede halbwegs funktionierende Engine auf den 1. Platz zu hieven.
[/quote]

Von Lars Bremer abgeschaut !

Wo ist denn nun Deine eigene "Leistung" zum Thema ?
Parent - By Roland Rösler Date 2009-11-06 21:34
+1!
Parent - - By Roland Rösler Date 2009-11-06 21:39
Weist Du was Lars jetzt so macht?
Hier im Forum habe ich Ihn seit Jahren nicht mehr gesehen und in der c´t auch nichts mehr von Ihm gelesen.

PS: Mit Lars konnte man sich gut über Computerschach unterhalten!
Parent - - By Gerhard Sonnabend Date 2009-11-06 21:41
[quote="Roland Rösler"]
Weist Du was Lars jetzt so macht?
[/quote]

Ja !
Er erfreut sich guter Gesundheit und ist "voll im Geschäft".

Aber Du hast meine Frage (noch) nicht beantwortet !
Parent - - By Roland Rösler Date 2009-11-06 22:23
Okay!
Dein "Falsch" akzeptiere ich nicht, bevor Ingo meinen Vorschlag nicht umgesetzt hat. Ich bin sicher, daß ich Recht habe!

Zu dem geschickten Auswählen von Testpositionen kann ich mich noch gut erinnern, weil ich damals eifrig mitdiskutiert habe (bestimmt schon 5 Jahre her!). Walter war nicht amüsiert! Spielte sich damals alles auf der CSS online homepage ab. Lars hatte meines Wissens sogar ein Programm geschrieben, um die optimale Auswahl treffen zu können bei den Testpositionen (damals ging es glaube ich um den WM-Test und man brauchte nur ca 40% wegzulassen, um absurde Ergebnisse zu erzielen).
Walter (Eigenmann) hat sich davon nicht beirren lassen und weiter Testsuites erstellt (Swisstest, EET), um die Spielstärke der Engines zu ermitteln. Ich bin auch immer noch an Testsuites interessiert. Nicht um Spielstärke der Engines zu testen, sondern um zu sehen, was die mich interessierenden Engines nicht sehen (egal bei welcher Zeit). Man bekommt so ein besseres "Gefühl" für die Engines! Man sieht, welche Kompromisse die spielstarken Programme eingehen, um eine gute Performance im Spiel zu erzielen. Tiefe vs. Gründlichkeit!

PS: Habe ich mich einer Copyright-Verletzung schuldig gemacht, weil ich Lars nicht als ursprünglichen "Stellungstestkritiker" zitiert habe? Du hast es erkannt und die "alten Hasen" haben es sicherlich auch erkannt!
Parent - - By Horst Wandersleben Date 2009-11-06 23:25 Edited 2009-11-06 23:29
Zu dem geschickten Auswählen von Testpositionen kann ich mich noch gut erinnern, weil ich damals eifrig mitdiskutiert habe (bestimmt schon 5 Jahre her!). Walter war nicht amüsiert! Spielte sich damals alles auf der CSS online homepage ab. Lars hatte meines Wissens sogar ein Programm geschrieben, um die optimale Auswahl treffen zu können bei den Testpositionen (damals ging es glaube ich um den WM-Test  und man brauchte nur ca 40% wegzulassen, um absurde Ergebnisse zu erzielen).

Das war in CSS online, ausgabe 7+8/2005:
"Was Stellungstests testen"
http://www.computerschach.de/index.php?option=com_content&task=view&id=387&Itemid=205

Leider sind die inhalte von CSS online noch nicht öffentlich zugänglich.

Hallo Lars,
liebe grüße!
Horst
Parent - By Roland Rösler Date 2009-11-07 00:39
Vielen Dank für den Link Horst!
Ist immer wieder schön einen Artikel von jemanden zu lesen, der Schreiben kann und auch noch was zu sagen hat!
Fazit: Der Lars, der kann´s!

PS: Nach Durchsicht der alten Stellungnahmen zu dem Artikel merkt man doch, daß man heute einige Schritte weiter ist!
Parent - - By Michael Scheidl Date 2009-11-06 20:12
Das alles will ich gar nicht bestreiten. Natürlich gilt

1. Je mehr verschiedene Gegner desto besser, und
2. je mehr Partien desto besser.


Als drittes würde ich sogar noch ergänzen: Je mehr verschiedene Testbedingungen (Bedenkzeit, Bücher...) desto besser.

Aber bei meiner obigen Anmerkungen ging es mir überhaupt nicht um Elo; im ursprünglichen Posting scheinen gar keine Elos auf.

Was ich eigentlich ausdrücken wollte ist: Die Verhältnisse im Direktvergleich zweier Engines sind bei einem Resultat wie 36,5 zu 13,5 mit für mich akzeptabler Wahrscheinlichkeit geklärt. - Auch bei 500 Partien und 365 zu 135 bestünde keine absolute Sicherheit, allerdings eine wesentlich höhere Verläßlichkeit daß das - für dieses Enginepaar, nicht ingesamt - so ist. Ich glaube ja nicht, daß Orlando mit diesen Testmatches jeweils eine "Kompletteinschätzung" einer neuen Engine geben will, sondern daß es ihm primär auf diese jeweiligen "Head-to-head"-Konfrontationen ankommt. Zumindest fasse ich das so auf.

Außerdem darf es natürlich nicht unabhängig von den konkreten Testbedingungen gesehen werden; diesen Gesichtspunkt fand ich wegen der nur fünf Buchzüge eigentlich interessanter...

Die beiden Resultate S12-Toga 1.4 sind zufällig recht ähnlich ausgefallen, 73% und 79%.

Aber die - vereinzelt - elomäßig so unterschiedlichen Performances je Gegner, selbst bei je 100 Partien, sind erstaunlich. War mir in dieser Größenordnung nicht bewußt. Andererseits zeigt Deine Liste bei 14 von 16 Paarungen Performances von 2694...2761, also weitaus überwiegend innerhalb einer nur halb so großen Bandbreite wie die zwei Extremfälle.
Parent - By Ingo Bauer Date 2009-11-06 21:45
Moin

[quote="Michael Scheidl"]
...
Aber bei meiner obigen Anmerkungen ging es mir überhaupt nicht um Elo...


Der erste der hier "Elo" erwänte tat dies mit diesem Satz:
Zitat:
Na gut, dann muß wohl jemand 50.000 Partien Toga vs. S12 spielen, damit alles bis auf den letzten Elopunkt genau und 100% verläßlich ist.


... und ja, ich habe den Smiley gesehen und ja, ich nehme das alles nicht soooo ernst!

Zitat:

...
Aber die - vereinzelt - elomäßig so unterschiedlichen Performances je Gegner, selbst bei je 100 Partien, sind erstaunlich. War mir in dieser Größenordnung nicht bewußt.


Wenn ich mir andere Engines und deren Gegner in meiner Liste ansehe habe ich bei 100 Spielen auch noch größte Abweichungen als 138 Elo, wenngleich das schon über Durchschnitt ist.

Gruß
Ingo
Parent - - By Roland Rösler Date 2009-11-06 21:51
[quote="Michael Scheidl"]Andererseits zeigt Deine Liste bei 14 von 16 Paarungen Performances von 2694...2761, also weitaus überwiegend innerhalb einer nur halb so großen Bandbreite wie die zwei Extremfälle.[/quote]
Sehr richtig! Immer auf die Streuung (Varianz) achten! Ausreisser stören nur bei der Interpretation der Ergebnisse.
Parent - - By Ingo Bauer Date 2009-11-06 21:56
[quote="Roland Rösler"]
[quote="Michael Scheidl"]Andererseits zeigt Deine Liste bei 14 von 16 Paarungen Performances von 2694...2761, also weitaus überwiegend innerhalb einer nur halb so großen Bandbreite wie die zwei Extremfälle.[/quote]
Sehr richtig! Immer auf die Streuung (Varianz) achten! Ausreisser stören nur bei der Interpretation der Ergebnisse.
[/quote]

Jetzt biegst du dir das wieder zurecht! Bitte nicht vergessen worum es hier geht, nämlich um die Betrachtung eines Einzelergebnisses gegen eine Engine von dem du unmöglich wissen kannst ob das vielleicht genau so ein störender Ausreißer ist!

Bye
Ingo
Parent - By Roland Rösler Date 2009-11-06 22:50
Ich geb ja zu, daß ich Orlandos Spielereien keinerlei Wert zumesse. Aber man muß zugeben, er ist hartnäckig! Wirft immer mal wieder ein Testergebnis in den Ring. Und würde man das nachhalten, könnte man vielleicht auch eine Systematik erkennen. Aber die Mühe mache ich mir nicht!
Möglicherweise sehen wir von Ihm ja auch mal eine eigene Rangliste.
Parent - - By Michael Scheidl Date 2009-11-06 22:39
Diese Betrachtungsweise ist mir übrigens aus einer beruflichen Tätigkeit sehr vertraut, wo es um Ermittlung "typischer" Kostenkennzahlen ging, die sich z.B. für Budgetvoranschläge eignen sollten. Da mußte man Sonderfälle erkennen und aus den Berechnungen ausklammern.

Aber ich glaube, im Hobby und für Schachengine-Ratings muß man das nicht so weit treiben... Weiters ist hier, vereinfacht gesagt, die Streuung vergleichsweise eher gering. Wenn ich mir die Eloperformanzen in Ingos Liste quasi "rein linear" ansehe, obwohl das nicht zur Elo-Logik paßt, dann stelle ich fest daß der Höchstwert nur 5,2% über dem kleinsten Wert liegt (2800/2662). Wären das keine Elos sondern kaufmännische Kennziffern z.B. irgendwelcher Nebenkosten mehrerer Filialen, dann wäre das seinerzeit für mich eher unauffällig gewesen.
Parent - By Ingo Bauer Date 2009-11-07 12:32 Edited 2009-11-07 12:34
Moin moin

[quote="Michael Scheidl"]
... Weiters ist hier, vereinfacht gesagt, die Streuung vergleichsweise eher gering. Wenn ich mir die Eloperformanzen in Ingos Liste quasi "rein linear" ansehe, obwohl das nicht zur Elo-Logik paßt, dann stelle ich fest daß der Höchstwert nur 5,2% über dem kleinsten Wert liegt (2800/2662). Wären das keine Elos sondern kaufmännische Kennziffern z.B. irgendwelcher Nebenkosten mehrerer Filialen, dann wäre das seinerzeit für mich eher unauffällig gewesen.
[/quote]

Nein, sorry, böser Fehler! Die Abweichung ist deshalb gering, weil ich die Durchschnittselo willkürlich sehr hoch angesetzt habe (S11 auf 2600Elo). Hätte ich den auf 1300 Gesetzt wäre deine Abweichung schon bei 10.4% ... wo soll ich das hinsetzen damit du von großer Abweichuing sprichst?

Toga II 1.4 beta5c BB         : 100 (+ 64,= 30,-  6), 79.0 % 2800
DSjeng WC2008 x64 1T          : 100 (+ 41,= 42,- 17), 62.0 % 2662


Wenn du da eine prozentualle Abweichung festlegen willst mußt du die absolut erspielten Zahlen nehmen:

Toga    21/100
DSjeng  38/100


und dann sind es 17% Unterschied, wie man auch an den 79% und 62% sieht - ist das auffällig?


Interessant vielleicht noch zu wissen das die beiden Engines sich in der Rangliste gerade einmal um 7 Elo unterscheiden. Man kann also davon ausgehen das Deep Sjeng und Toga/Fruit ziemlich verschieden spielen!
Ein Grund warum ich extrem gerne mit Sjeng teste, Fruits und Abkömmlinge gibts genug!

Gruß
Ingo

PS: Wobei mir bei "kaufmännisch" und Wirschaftsbetrachtungen immer das Zitat von Danny Kayne einfällt: "Wirtschaftswissenschaft: das einzige Fach, in dem jedes Jahr auf dieselben Fragen andere Antworten richtig sind!".
Parent - - By Roland Rösler Date 2009-11-06 20:29
[quote="Ingo Bauer"]Aber welch ein Unterschied wenn ich 100 SPiele mit einer 2660er oder einer 2800er Performance veröffentliche - am besten noch VOR Erscheinen von S12. Entweder wäre die Enigne hier hochgejubelt oder völlig zerschmettert worden![/quote]
Wenn ich mich recht erinnere hast Du damals das Ergebnis von 100 Spielen Shredder XP gegen Onno veröffentlicht. Das war fair!
Parent - - By Ingo Bauer Date 2009-11-06 20:46
Hallo

[quote="Roland Rösler"]
[quote="Ingo Bauer"]Aber welch ein Unterschied wenn ich 100 SPiele mit einer 2660er oder einer 2800er Performance veröffentliche - am besten noch VOR Erscheinen von S12. Entweder wäre die Enigne hier hochgejubelt oder völlig zerschmettert worden![/quote]
Wenn ich mich recht erinnere hast Du damals das Ergebnis von 100 Spielen Shredder XP gegen Onno veröffentlicht. Das war fair!
[/quote]

Das war Onno 1.0.0  glaube ich und Shredder XP, nicht Shredder 12, das Veröffentlichen hatte andere Gründe. Aber auch da meinten manche (wer war das nochmal) sie müßten aus 100 Spielen "Hochrechnungen" anstellen.

Gruß
Ingo
Parent - By Roland Rösler Date 2009-11-06 22:43
In der Not frisst der Teufel Fliegen!
Parent - By Roland Rösler Date 2009-11-06 22:59
Übrigens: Ich bin mit Deep Shredder 12 sehr zufrieden!
Spielstark und gründlich! Für Analysen bestens geeignet!
Parent - By Benno Hartwig Date 2009-11-07 16:50
[quote="Ingo Bauer"]There is nothing brutal except that one sould never draw conclusions out of 50 games![/quote]Natürlich.
Andererseits ist 36.5:13.5 ein sehr deutliches Ergebnis.
Mal für eine kurze Überlegung frech 0.3 als Remis-Wahrscheinlichkeit angesetzt. Dann ergibt sich:

Falls S12 und Toga gleich stark sind:
Wahrscheinlichkeit 0,00010876, dass irgendeiner der beiden so deutlich oder noch deutlicher gewinnt.

Bei anderen S12-Überlegenheiten ergeben sich folgende Wahrscheinlichkeiten dafür, dass S12 bei 50 Partien mindestens 36.5 Punkte holt
Code:
55:45     0,00115949
60:40     0,01320103
65:35     0,08532109
70:30     0,32073673
Dass S12 dem Toga recht deutlich überlegen ist, vermögen also auch bereits 50 Partien zu zeigen.
"S12 ist mindesten 60:40" überlegen" hat nur eine Irrtumswahrscheinlichkeit von deutlich weniger als 2%

Benno
Up Topic Hauptforen / CSS-Forum / Shredder 12 against Toga II 1.4.2JD

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill