Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Aussagekraft von einem Rating ...
- - By Frank Quisinsky Date 2011-06-23 11:44 Edited 2011-06-23 11:51
Hallo,

anhand der SWCR Datenbank habe ich mal wieder die Frage etwas genauer untersucht, wie vielen Partien es durchschnittlich benötigt, bis ein Rating eine gewisse Aussagekraft hat. Dabei habe ich die schlechtesten 2 und besten 2 Ergebnisse jeweils weggelassen.

100 Partien ... Schwankungen bis zu 80 ELO
200 Partien ... Schwankungen bis zu 65 ELO
300 Partien ... Schwankungen bis zu 40 ELO
400 Partien ... Schwankungen bis zu 35 ELO
500 Partien ... Schwankungen bis zu 25 ELO
600 Partien ... Schwankungen bis zu 20 ELO
700 Partien ... Schwankungen bis zu 20 ELO
800 Partien ... Schwankungen bis zu 15 ELO
900 Partien ... Schwankungen bis zu 15 ELO
1.000 Partien ... Schwankungen bis zu 15 ELO
1.500 Partien ... Schwankungen bis zu 10 ELO
2.000 Partien ... Schwankungen bis zu 10 ELO
2.500 Partien ... Schwankungen bis zu 10 ELO
3.000 Partien ... Schwankungen bis zu 10 ELO unglaublich
4.000 Partien ... wahrscheinlich Schwankungen bis zu 5 ELO

Könnten wir in 3 Stufen setzen ... immer dann wenn die Statistiken deutlich mehr Partien benötigen um gleichbleibender zu bleiben.

Das Ergebnis wäre ...

Stufe 1 = ca. 475 Partien
Stufe 2 = ca. 775 Partien
Stufe 3 = ca. 1.125 Partien

Alles was darüber hinaus geht ist besser aber bringt im Grunde hinsichtlich Genauigkeit durchschnittlich 0,325 ELO. Schaue ich mir also die Engines an, die z. B. schon über 2.000 Partien gespielt haben und vergleiche den Stand dieser Engines bei Partienummer 1.125 ergibt das ein wahrscheinliche bessere durchschnittliche Genauigkeit von 0,325 ELO. Wie gesagt, je die beiden genauesten und die beiden ungenauesten Engines herausgenommen damit bessere Statistiken erstellt werden konnten.

Kommt nun ein User und behauptet nach 150 Partien ein klares Ergebnis zu haben liegt die Wahrscheinlichkeit bei 18%, dass dieses Ergebnis um 70 ELO daneben liegt, bei 22% das es 65 ELO daneben liegt ...



Gruß
Frank

Alles mit sehr viel Vorsicht zu genießen denn bei einer genauen Betrachtungsweise muss die Anzahl der Gegner noch mit rein. Beides ca. gleichberechtigt nebeneinander bei der Frage der Genauigkeit eines Ratings. Kann im Grunde auch nur mit komplizierten Formeln berechnet werden, eine Nummer zu hoch für mein Statistik-Wissen. Was ich ja schon hatte ist eine Berechnung um wie viel ELO sich ein Rating verändern kann wenn immer mehr Engines hinzukommen. Das optimale Ergebnis war hier: Zwischen 24-27 Gegner sollte eine Engine haben!
Parent - - By Clemens Keck Date 2011-06-23 12:12
Hallo Frank

in meinem Die_Basis Turnier hab ich 2 Ausreisser, sjeng und Spike.  Die liegen beide vor Shredder. Und sjeng hat sich schon einen gehörigen Abstand erarbeitet.
Das deckt sich nun mit keinen Listen. Was ist wenn das so bleibt? Immerhin hat am Ende jede engine 1200 Partien gespielt. Sjeng im Moment 25 RatingPunkte vor shredder.

Gruß, Clemens

http://www.clemens-keck.de/livegames/rating.dat

EloStat update alle 5 min automatisch. Deswegen keine genaue Angleichung an Shredder 2800 möglich.
Parent - - By Frank Quisinsky Date 2011-06-23 12:16 Edited 2011-06-23 12:18
Hallo Clemens,

das ist kein Ausreißer. Shredder w32 ist exakt 10 ELO stärker als Shredder x64 (habe für beide ca. 6.000 Partien). CEGT hat ca. das gleiche Ergebnis, lediglich Ingo stellte fest gleich stark. Um genau zu sein ...

Shredder 12 x64 5.740 Partien = 2.791
Shredder 12 x64 6.080 Partien = 2.800

9 ELO Differenz ... sagen wir maximal um 3 ELO ungenau verbleiben 6 ... im günstigsten Fall!

Sjeng liegt nach 4.000 SWCR Partien auch bei 2.790 und Spike schwankt bei mir stärker (die ungenaueste SWCR Engine überhaupt) und liegt derzeit bei 2.782. Alles im normalen Rahmen, musst Dir keine Gedanken machen!

Gruß
Frank

Tausche einfach aus, x64 zu w32 und Du wirst es selbst sehen!
Parent - By Clemens Keck Date 2011-06-23 12:53
Frank,

das ist ein guter Vorschlag mit Shredder 64 bzw. 32 bit.
Ich werde nach dem Turnier die 32 bit version in die Liste reinnehmen mit einem gauntlet gegen alle anderen(ausser shredder64).
Ebenso geplant Gull und Junior.

Danke für Deine Rückmeldung

Gruß, Clemens
Parent - - By Benno Hartwig Date 2011-06-23 12:55
[quote="Frank Quisinsky"]Shredder w32 ist exakt 10 ELO stärker als Shredder x64 (habe für beide ca. 6.000 Partien). CEGT hat ca. das gleiche Ergebnis...[/quote]Frank, ich sehe da auf CEGT:

http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html sagt,
dass Deep Shredder 12 4CPU für 32 und 64 bit gleichstark ist.
dass Deep Shredder 12 2CPU für 32 um 41 ELO schwächer ist als für 64 bit.
dass Deep Shredder 12 1CPU für 32 um 27 ELO schwächer ist als für 64 bit.

http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html erklärt:
dass Deep Shredder 12 2CPU für 32 und 64 bit gleichstark ist.
dass Deep Shredder 12 1CPU für 32 um 3 ELO stärker ist als für 64 bit.

Da halte ich deine These so als Tatsachenbehauptung doch für sehr 'mutig'.
Die Streuung bei CEGT ist überraschend groß, auf einen Nenner gebracht vermute ich aber, dass Shredder12-x64 schon ein wenig stärker ist als -w32.
(und ggf. sind sie tatsächlich doch gleichstark und wir diskutieren eifrig das Rauschen)

Benno
Parent - - By Frank Quisinsky Date 2011-06-23 13:01 Edited 2011-06-23 13:06
Hi,

nee, ist nicht mutig ...
Bei 6.000 Partien muss ich auf keine andere List mehr schauen Benno.

Habe jetzt auch nicht erneut auf CEGT geschaut, erinnerte mich jedoch an ein Posting von Wolfgang Battig zu dem Thema.

Die Schwankungen bei 2-Core, 4-Core interessieren mich nicht sonderlich bei der CEGT, es sei denn ich will mal einen Wert überprüfen den ich mit Stellungs-Postionen selbst erreichen kann (Zuwachswert von 1 Core auf 2, 4 Cores, dafür muss ich keine Tausende von Partien spielen lassen, hoffe die CEGT ist mir nicht böse aber dieses messen von Ratings halte ich nicht nur für total überflüssig sondern für 100% unnütz !! Vielleicht für Werbezwecke interessant ... den die Mehr-Core-Versionen kosten ja auch mehr was auch total überdreht ist das laufend doppelt zu zahlen. Ist und bleibt das gleiche, wird mit jeder Version wieder erneut abgerchnet meist ... wir haben Multi-Core verbessert ... klar doch

Ratingliste sollte knallhard den Unterschied zwischen Engines messen und nicht anhand von Partien spekulieren, wie dieser bei 1-2 Cores sein könnte wenn dieser wie gesagt sehr einfach hochgerechnet werden kann.

Klingt total überheblich, ich weiß aber das sind nunmal Tatsachen! Und da können mir noch 100 andere Tester etwas anderes erzählen ... die Sache ist eindeutig und muss nicht schön geredet werden, nur weil vielleicht die Tester selbst eine höhere Spielstärke in Ihren Matches sehen wollen. Mit Ratinglisten und testen von ELO-Unterschieden ... Unterschiede zwischen den Engines hat das nichts zu tun.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-23 13:10
Hi,

gerade mal Deep Fritz 12 gemacht.
Hat 3 Minuten gedauert ... sind 36 ELO mehr von 1 Core auf 2 Cores.



Gruß
Frank
Parent - By Frank Quisinsky Date 2011-06-23 14:48
Nur anhand von 3 Endspielstellungen.

Jetzt mal ein Mix:
3 Stellungen aus Mittelspiel und Endspiel:

Nur Endspiel war:
Deep Fritz 12 2 Cores zu 1 Core = + 36
Shredder 12 2 Cores zu 1 Core = + 41

Natürlich ohne Endspieldatenbanken

Mittelspiel:
Deep Fritz 12 2 Cores zu 1 Core = 52
Shredder 12 2 Cores zu 1 Core = 57 ... witzig 5 ELO

Und da die Partien ohne Aufgabefaktor durchschnittlich bei 85 Zügen enden ist das Endspiel etwas höher zu bewerten.

Mix aus diesem Test ...

Deep Fritz 12 2 Cores zu 1 Core = 46 ELO
Shredder 12 2 Cores zu 1 Core = 51 ELO

Wir wissen ... Verdoppelung der Geschwindigkeit ... nach meine Berechnungen 55 ELO.
Allgemein wird von 60 ausgegangen, wenn ich so lese was andere herausgefunden haben.

Faktor 1.7 - 1.8 bedeutet also 46 / 51 ELO ... passt.

Und mehr muss ich nicht wissen, auch keine Listen haben wo ich Zufallstreffer ablesen kann.
Finde das ist unnötig!

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-23 13:49
[quote="Frank Quisinsky"]Bei 6.000 Partien muss ich auf keine andere List mehr schauen Benno.[/quote]Dann wirst du der Sache nicht gerecht, Frank,
Du präsentierst 2 mal 6000 Partien. Das hat statistisches Gewicht. Sicher! Aber:
CEGT liefert für für Shredder 32 bit aber auch ((1948+2800+5260)+(834+1500)) = 10008+2334 = 12342 Partien (kurze Zeiten + lange Zeiten)
und für Shredder 64 bit immerhin ((3700+1900+7538)+(1868+2699)) = 13138+4567 =17705 Partien


Wenn also zwei Listen mit sehr großem Partienumfang sehr unterschiedliche Ergebnisse liefern, dann ist ein sehr viel genauerer Blick ganz sicher angebracht! Denn der Zufall erscheint hier als Erklärungsversuch kaum befriedigend. UNd selbst dann wäre die 'Wahrheit' irgendwo in der Mitte zu suchen. Die Statistik liefert ja Methoden dafür.
Vielmehr erscheinen hier oder da systematische Fehler vorstellbar.
Das kurzsichtige Vertrauen auf die selbsterstellt Liste ist dann eigentlich kaum vermittelbar, finde ich. Insbesondere wenn es den Blick auf andere ergibige Informationsquellen verstellt.

[quote="Frank Quisinsky"]Klingt total überheblich, ich weiß aber das sind nunmal Tatsachen![/quote]Tatsache ist lediglich, dass sich die Ergebnisse zweier sehr großer Listen zu widersprechen scheinen. Und dass dafür keine Erklärung existiert.


Benno
Parent - - By Frank Quisinsky Date 2011-06-23 14:06
Hi Benno,

ja, CEGT hat viele Partien aber schaue mal weiter unten ...
Thema Beeinflussungsfaktoren ...

+ 41 Shredder 12 1 auf 2 Cores zu + 36 Fritz 12 1 auf 2 Cores.
Oder auch der Ponder Faktor ...

Shredder 12 spielt sehr ausgewogen, hat taktische Stärken (aber auch überdurchschnittlich taktische Lücken) postionelle Stärken und spielt im Endspiel gut. Das verringert natürlich auch die Wahrscheinlichkeit das ELOs springen.

Schau z. B. auf Komodo 2.0.3 Ergebnis bei Ingo ...
Warum war Komodo bei Ingo so stark im Test ...

Musste nicht gegen Fire spielen, musste nicht gegen Angstgegner SF direkt 2x spielen und dann auch noch gegen die taktische Bombe PHQ. Musste gegen 10 ELO schwächeren Shredder spielen, musste gegen 20 ELO schwächeren Rybka spielen. Spielte gegen Junior bei Ingo stark ... Junior ist bei längeren Bedenkzeiten um 30 ELO stärker, etc, etc..

Hatte vielleicht auch etwas Glück ... bei den vielen Partien von Ingo ... Rating könnte noch 5-10 zu hoch sein.
Komodo = Positionelles Programm ... blitzt besser!

Das Ergebnis ist einfach zu erklären!

Meines Erachtens gar nicht mehr wichtig ... IPON, CEGT oder SWCR Ergebnis. Es gibt seit geraumer Zeit nichts mehr was nicht sehr einfach zu erklären ist. Die 10 ELO Differenz bei Shredder ... OK, hier werden nur 10 ELO zu einem Problem weil viele viele Partien vorliegen. Aber den gemeinen User wirds nicht interessieren ... 10 ELO mehr oder weniger. Personen die an einer Ratingliste werkeln, stellen natürlich die Frage.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-23 14:14
Hi,

und das z. B. Rybka 4.1 nicht so gut bei Ingo punktet als in andere Listen (habe aber jetzt nachgesehen)

Auch klar.
Die Statistiken von Rybka 4.1 sind ähnlich wie von denen der Exp. Settings, stark unterschiedlich zu denen von Rybka 4.0. Und da im Blitz die Taktiker alle minimal ... schwierig zu vergleichen ...

Bin echt am Überlegen ob ich die SWCR mit 40 in 10 einstelle und neu starte mit 40 in 40. An Erkenntnissen bringt mir die eigene Liste nicht viel aber um diese Dinge, die zugegeben schwamming sind weil zu viele Partien und Statistiken nötig werden zu untermauern ... brauche ich ca. 4x mehr Bedenkzeit als die, die ich jetzt habe. Dann sollte es deutlicher werden.

Dauert aber sehr lange

Gruß
Frank
Parent - - By Ingo Bauer Date 2011-06-23 15:23
[quote="Frank Quisinsky"]
..
und das z. B. Rybka 4.1 nicht so gut bei Ingo punktet als in andere Listen (habe aber jetzt nachgesehen)
...
[/quote]

Soso, dann schau doch mal genauer. Die Elostat Auswertung (im Downlaod) hat die 4.1 vorne

3 Deep Rybka 4.1 SSE42           : 2958   11  11  2600    73.9 %   2777   36.2 %
4 Deep Rybka 4                   : 2956    9   9  4400    75.5 %   2760   32.2 %


Was wiederum heist, wenn man sich die Statistiken mal genau ansieht und wirklich nur die Gegner vergleicht die beide gespielt haben, ist die 4.1 auch bei mir vorne. Da die 4.0 gegen die zusätzlichen Gegner aber durchschnittlich höher gepunktet hat als gegen die gemeinsamen, setzt Bayes die 4.1 im Moment mit dem riesigen Abstand von 2 Punkten hinter die 4.0. Kann man das "nicht so gut" nennen? Du schon, ich schaue halt gerne mal genau hin und bin da etwas kritischer.

Gruß
Ingo
Parent - By Frank Quisinsky Date 2011-06-23 15:36
Ingo,

aber letztendlich schaust Du auf ErrorBar, auf ELOstat und Bayesian, so wie sich Deine Beiträge lesen aber nicht in die Partien selbst. Ist auch schwieriger Dich mal von etwas zu überzeugen wenn Du so einseitig schaust.

Lasse Rybka 4.0 und 4.1 mit doppelter IPON Zeit gegen die gleichen Engines spielen. Unterschied wird 20 ELO sein, dafür muss ich nicht hellsehen können

Hast doch Rechner mit 6 Cores ...

Nehme Dir mal ein paar bekannte Problemstellungen und lade gleichzeitig mit einem Core:

Rybka 4.0
Rybka 4.1
Rybka 4.1 Exp. 79
Rybka 4.0 Exp. 42
Rybka 4.0 Exp. 61
Und jetzt ... nehme Houdini 1.5 dazu!

Viel Spaß und ich bin mir sicher Dein Posting wäre anders ausgefallen als das was Du gerade geschrieben hast.

Frank
Parent - - By Benno Hartwig Date 2011-06-23 14:19
[quote="Frank Quisinsky"]Shredder 12 spielt sehr ausgewogen, hat taktische Stärken (aber auch überdurchschnittlich taktische Lücken) postionelle Stärken und spielt im Endspiel gut. Das verringert natürlich auch die Wahrscheinlichkeit das ELOs springen.[/quote]Was meinst du mit "...dass ELOs springen"?
Ganz egal wodurch die Spielstärke eines Programmes zustande kommt, gilt: Wenn unter bestimmten Rahmenbedingungen (cores, bit, Zeit, Buch...) zwei Engines A und B aufeinandertreffen, dann existieren ganz konkrete (und meist unbekannte) Wahrscheinlichkeiten pA, pR und pB für die Ausgänge "A gewinnt", "remis" und  "B gewinnt".
In welchem Maße (in welchem Maße, mit welcher Wahrschienlichkeit) die ELOs sich im Turnier ändern, richtet sich nur nach dem, was die Statistik generell beschreibt, es hat nichts mehr damit zu tun, durch welche Charakteristiken die Spielstärke der jeweiligen Engines zustande kommt.
OK, das bedeutet auch: Engines mit kleiner Remis-Wahrscheinlichkeit schwanken also dann etwas mehr als die, die häufig ein Remis erzwingen.

Benno
Parent - - By Frank Quisinsky Date 2011-06-23 14:28 Edited 2011-06-23 14:32
Hi Benno,

ich meine folgendes:

Wir haben ...
CEGT Blitz / IPON Blitz ... die Listen haben kaum Unterschiede.

CEGT 40 / 20 und SWCR ... SWCR hat eine minimal bessere Zeitkontrolle wenn der Ponder = On Faktor, die Hardware einberechnet wird. Die beiden haben auch kaum Unterschiede, vielleicht hier und da wenn mal weniger oder mehr Partien vorliegen, normal im Rahmen.

Knapp darüber liegt die CCRL mit der höchsten Zeitkontrolle. Wäre ca. 40 in 16 ... verglichen mit SWCR bei 40 in 10.
Die CCRL hat die meisten Abweichungen zu den anderen Listen.

Das wissen wir und das untermauert auch meine eigenen Hochrechnungen!
Das heißt ... CCRL ist gar nicht so schwach wie immer gedacht sondern auch absolut korrekt.

Jeder Listenbetreiber denkt (meist in geheimer Mission) ... seine Liste kommt mit den besten Ergebnissen. Ist ja einfach rauszulesen wenn so darauf geachtet wird was geschrieben wird (CEGT hält sich hier schön zurück)

OK ... Schwankungen, ELOs springen.

Offenbar haben wir zwischen den Listen eine Besonderheit.
Wir können erkennen das ELOs um bis zu 20 Punkten springen. Mal mehr mal weniger ... dauert länger bis sich ein Ergenbnis ohne springen zu Stande kommt. Betroffen sind meist immer Engine die zu einem Extrem neigen.

Komodo ... sehr positionell
Junior ... anders als die anderen
Stockfish ... sehr taktisch

Springen ... weil die Bedenkzeiten aller Listen im Grunde nicht so weit auseinander liegen. Aber offenbar ausreichend weit auseinander liegen um dieses springen zu beobachten. Wie gesagt, die Partien der ganzen Listen könnten im Grunde wirklich miteinander vereint werden. Es würden hierdurch keine groben Unterschiede in den Werten erkennbar sein.

Aber ...
Wenn nun die Bedenkzeit stark angehoben wird, werden einzelne Engines, genau die, die mit extremen Spieleigenschaften daher kommen ... andere Ergebnisse produzieren.

Daran glaube ich noch nicht sehr lange, im Grunde so lange seit mir meine eigenen Statistiken dies immer und immer wieder vorgaukeln.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-23 14:38 Edited 2011-06-23 14:43
Übrigens,

bei CEGT Blitz zu IPON Blitz sind es zwischen Shredder 12 w32 und x64 auch ca. 6 ELO weniger.

Schaue mal bei Gerhard Sonnabend ins Forum ... Vergleich der TOP-10 dieser beiden Listen.
Sofern richtig verstanden!

Gruß
Frank
Parent - - By Simon Gros Date 2011-06-23 18:55
Bezüglich Sonnabend, der liest nur Werte ab und vergleicht. Da gefällt mir persönlich deine Art und Weise besser, du beschreibst auch die Spielweise der einzelnen Programme! Weiter so.
Simon_G
Parent - By Frank Quisinsky Date 2011-06-24 19:20
Hallo Simon,

ja, die Spielstilbeschreibungen muss ich auch mal wieder updaten. Nur aufgrund dieser Arbeit, einst für die Schachwelt, hatte ich begonnen Engines besser einzuschätzen und erstellte zahlreiche Statistiken aufgrund eigenes Partiematerial. Viele Fernschachspieler halfen auch ein wenig. Nun ist die SWCR schon viel weiter als einst bei der Schachwelt und viele neue Erkenntnisse zu den Spielstilen der Engines sind hinzugekommen. Muss mal schauen wie ich Zeit habe um die Beschreibungen auch mal wieder upzudaten.

Schön, dass Dir die Arbeiten gefallen.
Ohne Ansprüche auf genaue Aussagen zu hegen, was absolut nicht möglich ist, kann das aber zumindest so gut es geht versucht werden. Und genau das reizt auch, denn Computerschach ist viel spannender wenn die wirklich wichtigen Informationen zu den Programmen vorliegen. Nur blanke Zahlen und ELO-Unterschiede zu den Vorgängern sagen leider nicht sehr viel aus.

Viele Grüße und Dir weiterhin viel Spaß an der SWCR.

Übrigens, ich bin sehr zufrieden mit dem Zuspruch der Liste. Natürlich kommt auch immer mal negatives aber auch das ist wichtig. Schließlich möchte ich das auch alles verbessern. Kommt nur negatives, tja das bin ich von Arena oder Frank's Chess Page gewöhnt. Weiß der Geier warum aber ich gönne jeden Anwender seinen Spaß an "fachkundigen" Kommentaren

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2011-06-25 10:25
Hi,

übrigens, habe ich von Gerhard Sonnabend als Tester eine sehr positive Meinung. Schaue ich zurück auf die ganzen Jahre Computerschach hat er durch viele kleinere Experimente immer mal etwas herausgefunden und sich Gedanken gemacht. Gerhard hat mich selbst oft animiert, gehört zu den wenigen in deutschen Computerschachforen die das überhaupt geschaft haben. Er gehört nicht zu den Testern die nur ablesen, sondern zu den Testern die hinterfragen. Auch wenn ich seine Meinung zum Testen von mehreren Cores nicht teile weil es einfach keinen Sinn für mich ergibt. Der Einsatz von mehreren Cores ist natürlich wichtig bei Analysen (sezte natürlich hier auch mehrere Cores ein). Nicht beim Messen von Spielstärken in einer Ratingliste.

Aber das ist nicht wichtig, welcher Tester zu x oder y welche Meinung vertritt, sondern eher das versucht wird etwas herauszufinden. Das kann natürlich nicht erreicht wenn dumm nur Ergebnisse abgelesen werden, denn ob eine Engine sage ich mal 50 ELO stärker oder schwächer als eine andere ist, ist nicht wichtig. Dann nicht wenn die 50 ELO schwächere Engine herausragende Eigenschaften hat, die in einer Liste so nur untergehen würden.

zum Beispiel PHQ Setting von SF.
Was interessiert mich 10 ELO mehr wenn ich als Taktik Fan die doppelte Anzahl von schnellen Gewinnpartien produzieren kann. Viel mehr Dramatik aufgebaut werden kann und es viel mehr Spass macht SF beim Spielen zu beobachten.

Die Frage ist ja immer, was will man denn überhaupt erreichen mit einer Ratingliste?
Meines Erachtens sollten die vielen Partien auch zu irgend welchen Erkentnissen nützlich sein!

Wie gesagt, uns fehlt ein wirklich gutes Auswertungsprogramm für PGN files. Eine GUI die nichts anders macht als vorgefertigte Muster auszuwerten und übersichtlich darzustellen. Und je stärker die Programme werden, desto mehr fehlt dieses Tool !!!

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-23 15:10
[quote="Frank Quisinsky"]OK ... Schwankungen, ELOs springen.[/quote]Sorry, ich weiß immer noch nicht, was du mit diesem 'Springen' meinst.
Die Unterschiede zwischen den Tabellen? Soweit ich dich verstehe, meinst du dies wohl nicht. Richtig?
Das Auf und Ab des ELO-Wertes während der Ranglistenerstellung? Ich vermute, dass du das meinst.

Etwas größere Schwankungen wirst du haben, wenn die remis-Marge einer Engine besonders klein ist.
Ansonsten können wir aber sehr sicher sein, dass die von die aufgeführten Kritereien keinerlei Einfluss haben auf die Stärke der Schwankungen, auf die 'Heftigkeit des Springens'.
Alle Kriterien gehen ein in jene Wahrscheinlichkeiten für Gewinn, remis und Verlust gegen einen speziellen Gegner.
Und nur von diesen hängt ab, welches Ergebnis wohl kommen wird, besser: mit welchen Wahrscheinlichkeiten eben die  einzelnen Ergebnisse kommen werden.
pGewinn=0,4, pRemis=0,4, pVerlust=0,4 leifert die eine ganz bestimmte Verteilung der Ergebnisse, und das ist vollkommen unabhängig davon, dank welcher Stärken oder Schwächen die Engine zu diesen Wahrscheinlichkeiten kam. Das gilt für den Taktiker, und das gilt für die Positions-Engine (gibt es die?)

Benno

PS:
Das gilt übrigens auch für Blitzergebnisse, bei denen nach meinem Eindruck mancher auch einen 'stärkeren Zufall' am Werke vermutet.
Parent - By Frank Quisinsky Date 2011-06-23 15:18 Edited 2011-06-23 15:21
Hi Benno,

Engines die sich grob durch Stärken oder Schwächen von anderen Engines unterschieden springen (ELOs gehen bis zu 20 rauf und runter nach ca. 500 vorliegenden Partien) öfters. Habe mir gerade mal die CEGT Ergebnisse von Komodo angesehen ... egal wo hin Du schaust ... diese Engines springen!

Remis-Statistiken sind schwierig auszuwerten. Grundsätzlich sollten stärkere Engines eher Remis vermeiden, schwächere forcieren. Fallen starke Engines in den Listen auf, die z. B. bei 2.900 ELO liegen und eine Remisquote von 35% haben stimmt etwas mit den Settings nicht. War bei SF der Fall, daher reizt es natürlich auch ein Setting zu testen, weil die Wahrscheinlichkeit recht hoch ist das sich etwas verbessern könnte, wenn an möglichen und richtigen Schrauben gedreht wird.

Gruß
Frank

Taktiker und positonelle Engines ...
Tja, wahrscheinlich gibt es die gar nicht
Aber sofern Du dann wirklich viele Auswertungen durchführst steckst Du die Engines automatisch in die entsprechende Schubladen. Kannst ja nicht bei SF sagen ... spielt wie ein Karpov ... kannst sagen ... spielt wie ein Shirov!
Parent - By Thorsten Czub Date 2011-06-23 18:11
[quote="Frank Quisinsky"]
Schau z. B. auf Komodo 2.0.3 Ergebnis bei Ingo ...
Warum war Komodo bei Ingo so stark im Test ...

Musste nicht gegen Fire spielen, musste nicht gegen Angstgegner SF direkt 2x spielen und dann auch noch gegen die taktische Bombe PHQ. Musste gegen 10 ELO schwächeren Shredder spielen, musste gegen 20 ELO schwächeren Rybka spielen. Spielte gegen Junior bei Ingo stark ... Junior ist bei längeren Bedenkzeiten um 30 ELO stärker, etc, etc..

Hatte vielleicht auch etwas Glück ... bei den vielen Partien von Ingo ... Rating könnte noch 5-10 zu hoch sein.
Komodo = Positionelles Programm ... blitzt besser!

Das Ergebnis ist einfach zu erklären!

[/quote]

also bei mir hat komodo gegen fire gespielt, gegen SF in 2 versionen, gegen den PHQ, gegen Shredder, gegen 2 Rybkas...

und liegt immer noch mit Houdini zusammen an nummer 1 !

    Motor                        Punkte       Ko    Ho    St    De    De    St    Cr    Ti    Ko    Ry    Fi    Cr    Iv    St    De    Na    De    Gu    Sp    Hi    Sp    Za    De    Ha    Cr    No    Ka    Jo    Ch    Ch    He    Ro    He    Pr    N2    Ar    Bi    Ku    S-B
01: Komodo-201-64-ja             140,5/175 ····· 10=0= =101= =0101 10==1 111=1 ====0 ==110 ====  1=10  =0111 11=== 110== =1==1 1=11  11011 111== 11111 1=111 1=111 1111= 11=11 11=1= 1111  ==11  111=  11111 11111 11=11 =111  1=1=  11111 1111  11111 1=111 11111 11111 1111   11120,
02: Houdini_15_x64 [t1]          140,0/175 01=1= ····· =0100 0001= ====1 111=  11=1= =0=10 1=11  11101 1011  0=01  =110= 1=0=1 110== 001== 1111  1=11= 11==1 11111 1=11= 1111  =1=1= 1=111 11111 11111 1111  11111 11111 111=1 11111 11111 1111  1111  11111 1111  11111 11111  10792,
03: Stockfish-211-64-ja [t1]     131,5/163 =010= =1011 ····· 1=111 000== ====  1==0  =1==  ==11  =1=1  1111  1101  ==01  =1==1 1110  1=111 =110  101=1 111=1 =1=11 1111= 1100  1111  1=11  1111  1111  1111  11111 1111= 1111  =111  11111 1111  1111  11111 11=1  11111 1111   10356,
04: DeepSaros23c4-win32          129,0/175 =1010 1110= 0=000 ····· 11=10 ===0  =10== ==1=0 1110  1==== ==0=  =1==  ===10 =0111 111=  1=1== 0==11 011== 011=1 11=11 1==11 1=111 1=1== 11=11 111== =11=1 =111  1=111 11111 11=11 111=  =1111 1=11  1111  =1111 1111  1111= 11111  9961,2
05: Deep Rybka 4.1 x64 [t1]      127,0/174 01==0 ====0 111== 00=01 ····· 1==0  1=1=1 0==11 =10=  =01=  ==001 ==1=  =1=1= 01=11 =1==  ===== 1=1=1 =1=11 1=111 ===== ====1 =1=11 11111 ====1 1=111 01111 1111  =1111 11=11 1=111 11==  11111 =011  1111  11111 1111  1111= 1111   9943,0
06: Stockfish-21-64-ja [t1]      126,5/174 000=0 000=  ====  ===1  0==1  ····· ==00= 1==0= 00=== 0===0 =0=11 1=111 =101  1101  11111 =11=1 =01=1 01==  111=  110=1 =011  =110= 111=1 11=1= 11011 11111 11110 11111 1=1=1 111=1 11111 1111  11111 1111= 11111 11111 1111  11111  9326,0
07: Crab-x64_PGO [t1]            125,5/173 ====1 00=0= 0==1  =01== 0=0=0 ==11= ····· ====1 001=  01==  ===00 =110= 11111 ===1  ===0= =1==  1=011 ==1=0 10101 1111  1111= 10=11 =1111 1111  11=1  11=1  111== 11111 11110 1=1=  11101 11111 1111  11111 11111 11111 11111 1111   9478,2
08: Tinapa1.01 [t1]              125,5/173 ==001 =1=01 =0==  ==0=1 1==00 0==1= ====0 ····· ==00  0100= 1==0  110== 0011  ====  01=11 00==1 1101  =11=0 1==0  ====  11111 1111  1111  11111 11111 11111 11111 1111= 1111= 111=1 11111 11111 1=11  1=1=1 11111 11111 1111  11111  9214,7
09: Komodo-203-64-ja             124,5/163 ====  0=00  ==00  0001  =01=  11=== 110=  ==11  ····· 0=1=1 1=111 ===0= 0==0  11==  1111= 01=1  11=10 ==1=  1111  =11=1 1110  11=11 1111  1111  11101 1111  1111= =011  11=1  11=1  11111 1111  11111 11111 1111  11111 1111  11111  9368,7
10: Rybka 3_64 [t1]              124,0/175 0=01  00010 =0=0  0==== =10=  1===1 10==  1011= 1=0=0 ····· =0=== ===== =0=== =11=  01=1= ==1=  =0111 0==== 101== =1111 =01== 11=11 =11=1 11=11 1=111 =111  =11=1 1111  1=11  10111 11111 1111= 11111 11111 1111  11111 11111 11111  9102,2
11: Fire 1.5 xTreme x64 [t1]     123,0/174 =1000 0100  0000  ==1=  ==110 =1=00 ===11 0==1  0=000 =1=== ····· =11=1 =1=0  0000  ==111 1==11 =111= =1=1  110=  1=111 1=01? 11=10 11==1 11110 11111 1=111 10111 1=11= 11=11 1=111 111=1 11==  10111 11111 11111 11111 1111  11111  9079,2
12: Critter_1.0_64bit [t1]       122,5/174 00=== 1=10  0010  =0==  ==0=  0=000 =001= 001== ===1= ===== =00=0 ····· =000= 1===  =1=01 =011= 11111 ====  101=  1=110 1=11  1111= 11111 101=1 11111 11111 1111= 111=  11111 11111 11111 =111  1111= 1=111 1111  11111 11111 11111  8782,2
13: IvanHoe53_64 [t1]            121,5/173 001== =001= ==10  ===01 =0=0= =010  00000 1100  1==1  =1=== =0=1  =111= ····· 0=01  ====1 1=1=1 =1=1  111== =1111 11=1  10011 ==1=  1==1  10=== 110=0 11111 =1=11 11==1 111=1 111=1 11111 11111 1111  11=11 11111 1=111 1111  11111  9034,2
14: Stockfish-211-64-ja [t1_PHQ] 117,0/162 =0==0 0=1=0 =0==0 =1000 10=00 0010  ===0  ====  00==  =00=  1111  0===  1=10  ····· 1011  11=1  ====  =1111 111=1 11111 1111= 1110  01==  1111  1111  1110  1111  11111 1=111 1=11  1111  11111 1111  1111  11111 =111  11111 1111   8594,5
15: Deepsjeng2010_32_ct          107,0/175 0=00  001== 0001  000=  =0==  00000 ===1= 10=00 0000= 10=0= ==000 =0=10 ====0 0100  ····· =0=1= 01=== 1===  1=11= 11==1 11=1  =1111 11111 ===== =1=11 ===11 100=1 1111  1111  1111= 1111= 11=11 =1=11 ==111 1=11  11=11 11111 11111  7409,2
16: Naum4.2_64 [t1]              105,5/173 00100 110== 0=000 0=0== ===== =00=0 =0==  11==0 10=0  ==0=  0==00 =100= 0=0=0 00=0  =1=0= ····· =1101 ====0 10001 10=1  =1111 101=1 1=11= 1===  ==01  11==  0111= 11111 =110= 1111  1111  11111 1111  11111 11111 1111= 11111 1111   7423,5
17: DeepShredder12UCIx64 [t1]    101,5/173 000== 0000  =001  1==00 0=0=0 =10=0 0=100 0010  00=01 =1000 =000= 00000 =0=0  ====  10=== =0010 ····· =100  ====  1=01  =1==1 =111  11=1  01=11 11=10 1=1=1 11111 =1011 ==11= 1111= 11111 1111  11111 11111 10111 111=1 1111  11111  6745,2
18: Gull 1_1 x64                 99,5/175  00000 0=00= 010=0 100== =0=00 10==  ==0=1 =00=1 ==0=  1==== =0=0  ====  000== =0000 0===  ====1 =011  ····· =11=0 ===11 =1=0= ==0== 010=1 1==1= =01=1 110== =1=1  1111= 01=1= =1101 =111= 111=1 1110  1111  11111 1111  11111 11111  6971,7
19: Spark-1.0-win64-mp [t1]      95,5/175  0=000 00==0 000=0 100=0 0=000 000=  01010 0==1  0000  010== 001=  010=  =0000 000=0 0=00= 01110 ====  =00=1 ····· =01== =11=1 11==  ==1=  =11== 1101= 1111= 1==1  1111= 11101 ===1= 1=111 01=11 1111  11=11 11111 =0111 11111 11111  6263,0
20: Hiarcs12MPUCI [t1]           85,5/175  0=000 00000 =0=00 00=00 ===== 001=0 0000  ====  =00=0 =0000 0=000 0=001 00=0  00000 00==0 01=0  0=10  ===00 =10== ····· 0011= =00=  11=1  111=  110== 1001  101=1 ==111 11111 1==0  1111= 11111 =101= 101=1 11=11 11111 11111 11111  5339,5
21: Spike1.4                     84,0/174  0000= 0=00= 0000= 0==00 ====0 =100  0000= 00000 0001  =10== 0=10? 0=00  01100 0000= 00=0  =0000 =0==0 =0=1= =00=0 1100= ····· =0=10 1=1== =0101 11==1 1111= 11==  1=0=0 1=111 =11== 0111  11=11 1=1=  =011  11111 1111  11111 1111   5513,2
22: Zappa Mexico II x64 [t1]     77,5/173  00=00 0000  0011  0=000 =0=00 =001= 01=00 0000  00=00 00=00 00=01 0000= ==0=  0001  =0000 010=0 =000  ==1== 00==  =11=  =1=01 ····· 0==1  11=00 ===1= 11=== 0==0= 0==01 11=11 =10== 10101 0111  1=11  1===1 11=11 =111= 1111  11111  5034,2
23: Deep-onno-1-2-70-x64 [t1]    76,0/173  00=0= =0=0= 0000  0=0== 00000 000=0 =0000 0000  0000  =00=0 00==0 00000 0==0  10==  00000 0=00= 00=0  101=0 ==0=  00=0  0=0== 1==0  ····· 101== 0==1= =1=0= 1=111 11==1 1=111 =1111 111=1 11=1  0101  11101 11=== 1111= 1111  11111  4576,2
24: Hannibal1.0ax64              74,5/173  0000  0=000 0=00  00=00 ====0 00=0= 0000  00000 0000  00=00 00001 010=0 01=== 0000  ===== 0===  10=00 0==0= =00== 000=  =1010 00=11 010== ····· 010=  ==11  ==11= ==011 ===1  =111  0=11= 11011 1111  11011 111=0 111=0 1=111 11111  4619,0
25: Crafty-234-64-ja             74,5/175  ==00  00000 0000  000== 0=000 00100 00=0  00000 00010 0=000 00000 00000 001=1 0000  =0=00 ==10  00=01 =10=0 0010= 001== 00==0 ===0= 1==0= 101=  ····· 011=  1111= =110  1==1  ==11= 1=111 =1101 11=01 ==111 111=  11111 =0111 11111  4485,0
26: Now2t                        61,0/173  000=  00000 0000  =00=0 10000 00000 00=0  00000 0000  =000  0=000 00000 00000 0001  ===00 00==  0=0=0 001== 0000= 0110  0000= 00=== =0=1= ==00  100=  ····· =10== =0=0= ==10= 10=1  11011 =111= 1110  =1101 11==1 1=111 11111 10111  3396,7
27: Kassandra X64 [tc005]        56,5/174  00000 0000  0000  =000  0000  00001 000== 00000 0000= =00=0 01000 0000= =0=00 0000  011=0 1000= 00000 =0=0  0==0  010=0 00==  1==1= 0=000 ==00= 0000= =01== ····· 0000  11000 11=1= 1==1= 01=1  11110 11001 10==0 011=1 1111  =1111  3346,7
28: Jonny400                     56,0/174  00000 00000 00000 0=000 =0000 00000 00000 0000= =100  0000  0=00= 000=  00==0 00000 0000  00000 =0100 0000= 0000= ==000 0=1=1 1==10 00==0 ==100 =001  =1=1= 1111  ····· 10==0 00=0= =0=1  =0011 11=0  01=1  =1111 1101  11111 1111   3160,7
29: ChessTiger2007.1 [gambit]    54,5/174  00=00 00000 0000= 00000 00=00 0=0=0 00001 0000= 00=0  0=00  00=00 00000 000=0 0=000 0000  =001= ==00= 10=0= 00010 00000 0=000 00=00 0=000 ===0  0==0  ==01= 00111 01==1 ····· 111=  0010  =1110 1===  =111  11111 100=  11111 1=11   3173,5
30: ChessTiger2007.1             51,5/173  =000  000=0 0000  00=00 0=000 000=0 0=0=  000=0 00=0  01000 0=000 00000 000=0 0=00  0000= 0000  0000= =0010 ===0= 0==1  =00== =01== =0000 =000  ==00= 01=0  00=0= 11=1= 000=  ····· 101== 1=00= =111  ==000 110=  11100 11=11 11111  3061,2
31: Hermann_2.6_64               42,5/175  0=0=  00000 =000  000=  00==  00000 00010 00000 00000 00000 000=0 00000 00000 0000  0000= 0000  00000 =000= 0=000 0000= 1000  01010 000=0 1=00= 0=000 00100 0==0= =1=0  1101  010== ····· ===01 ==10= 001=0 0100  =1010 11111 11111  2276,7
32: Rotor06                      41,0/175  00000 00000 00000 =0000 00000 0000  00000 00000 0000  0000= 00==  =000  00000 00000 00=00 00000 0000  000=0 10=00 00000 00=00 1000  00=0  00100 =0010 =000= 10=0  =1100 =0001 0=11= ===10 ····· 11==  11=1  1==00 10000 11111 11111  1967,0
33: Hermann 2.8 64 bit           38,5/162  0000  0000  0000  0=00  =100  00000 0000  0=00  00000 00000 01000 0000= 0000  0000  =0=00 0000  00000 0001  0000  =010= 0=0=  0=00  1010  0000  00=10 0001  00001 00=1  0===  =000  ==01= 00==  ····· 11101 0010  11100 1111  1=111  2081,0
34: ProDeo1.6 [mach011]          37,5/174  00000 0000  0000  0000  0000  0000= 00000 0=0=0 00000 00000 00000 0=000 00=00 0000  ==000 00000 00000 0000  00=00 010=0 =100  0===0 00010 00100 ==000 =0010 00110 10=0  =000  ==111 110=1 00=0  00010 ····· 1=00  00101 1101= =1111  1977,5
35: N2_x64                       36,0/174  0=000 00000 00000 =0000 00000 00000 00000 00000 0000  0000  00000 0000  00000 00000 0=00  00000 01000 00000 00000 00=00 00000 00=00 00=== 000=1 000=  00==0 01==1 =0000 00000 001=  1011  0==11 1101  0=11  ····· 1111  11101 111=   1631,0
36: Arasanx12.2-64               34,0/175  00000 0000  00=0  0000  0000  00000 00000 00000 00000 00000 00000 00000 0=000 =000  00=00 0000= 000=0 0000  =1000 00000 0000  =000= 0000= 000=1 00000 0=000 100=0 0010  011=  00011 =0101 01111 00011 11010 0000  ····· 10011 =1111  1642,0
37: Bikjump2.01_64bit            11,5/175  00000 00000 00000 0000= 0000= 0000  00000 0000  0000  00000 0000  00000 0000  00000 00000 00000 0000  00000 00000 00000 00000 0000  0000  0=000 =1000 00000 0000  00000 00000 00=00 00000 00000 0000  0010= 00010 01100 ····· 011=1  482,25
38: Kurt_0_9_2_beta_x64          5,5/175   0000  00000 0000  00000 0000  00000 0000  00000 00000 00000 00000 00000 00000 0000  00000 0000  00000 00000 00000 00000 0000  00000 00000 00000 00000 01000 =0000 0000  0=00  00000 00000 00000 0=000 =0000 000=  =0000 100=0 ·····  206,75

3285 Partien von 3515 gespielt
Name des Turniers: Arena Turnier
Ort/ Land: ORION8-LATITUDE, Deutschland
Spielstufe: Turnier 40/5
Hardware: Intel(R) Core(TM)2 CPU         T7600  @ 2.33GHz  mit 4.096 MB Speicher
Betriebssystem: Microsoft Windows Vista Professional (Build 6000)
PGN-Datei: C:\schach\arena201\Arena.pgn
Internetseite:
E-Mail Adresse:
Parent - By Frank Quisinsky Date 2011-06-23 16:11
Hallo Benno,

so, habe ja genug Partien.

Die CEGT Ergebnisse sind recht einfach zu simulieren.
Ich nehme die gleichen Engines die von CEGT bei Shredder 12 x64 und Shredder 12 w32 eingesetzt wurden und komme auf 4 ELO Differenz (Shredder 12 w32 besser). Also im Grunde 1 ELO Differenz zu der CEGT.

Hm, kann dann nur noch an der zweiten wichtigen Komponente bei der Ermittlung der Ratings liegen ... die Gegner!

Fahre ich nun eine Auswertung aller Engines die von CEGT nicht getestet wurden (immer noch über 3.000 Partien, meine 40-Partien Matches) ist der Unterschied gar -16 ELO. Läßt mich wach werden, Sache wird jetzt richtig interessant.

Lassen wir mal alle Houdini, IvanHoe, Fire Ergebnisse raus und auch die Ergebnisse gegen die deutlich schwächeren Engines sind es 5 ELO Differenz.

Zeigt mir nun zumindest ...
CEGT Ergebnisse lassen sich einfach erklären, da -1.
Hätte die CEGT nun alle Gegner die ich habe wäre das Ergebnis sehr wahrscheinlich auch -9.

Liegt also mehr an den Gegnern ...
Was auch schwierig zu beeinflussen ist (die vielen Updates und leider oftmals 4 Updates einer Engine im Jahr). Die werden getestet ... z. B. Stockfish und plötzlich hat ein BugChess2 160x gegen Stockfish (verschiedene Versionen) und nur 40x gegen Hannibal ... da nur 1x im Jahr ein Update ... gespielt.

Könnte daran liegen ... nur
Ich habe fast die gleichen Gegner bei meinen 6.000 Partien pro Engine.
Also das CEGT Ergebnis beeindruckt mich nicht ... alles normal erklärbar ... wie immer wenn genauer geschaut wird.

Gruß
Frank
Parent - - By Ingo Bauer Date 2011-06-23 13:22
Hallo Frank

[quote="Frank Quisinsky"]
Shredder w32 ist exakt 10 ELO stärker als Shredder x64 ... CEGT hat ca. das gleiche Ergebnis,... lediglich Ingo stellte fest gleich stark. Um genau zu sein ...
[/quote]

Kontrolierst du eigentlich ab und zu vorher was dur hier etwas schreibst oder hoffst du das schon keiner nachsehen wird?
Jeweils die 1 CPU Version: Die CEGT 40/20 hat gerade mal 3 Elo Abstand (bei 10 und 13 Elo Errorbar) De Fakto identisch, die CEGT 40/4 hat 27 Elo Abstand, allerdings die 64bit Version besser, die CCRL 40/40 hat die 64 bit Version sogar 30 ELo vor der 32 bit Version (OA ON OFF +- ein bischen, aber immer die 64 bit vorne). Die CCRL 40/4 hat einen 'Deep Shredder 12 x64' und einen 'Shredder 12' ohne Angabe, die 64 liegt 4 Elo VOR der ohne Angabe. Sogar du bist auf 9 Elo, von ehemals viel mehr, runter. Soviel zu "IST 10 Elo stärker und gleichem Ergebniss der CEGT"!
Wie wäre es wenn du deine vorgefaßte Meinung mal überdenkst!

[quote="Frank Quisinsky"]
Um genau zu sein ...
[/quote]
Sehr innovative Auffassung von "Genau" deinerseits.

Ansonsten gillt: Auch der Programmierer sieht keinen Unterschied zw. den Versionen. Was auch immer angezeigt ist ist schlicht Errorbar bzw Messungenauigkeit!

Gruß
Ingo

PS: Du wolltest mir doch Positionen liefern wo sie die 32 und 64 bit Version bei gleicher HW als Singleengine in der HV unterscheiden. Ich warte immer noch gespannt, denn das wäre ein Bug, gehe aber davon aus das hat sich erledigt.
Parent - - By Frank Quisinsky Date 2011-06-23 13:38
Hallo Ingo,

es war ein Beitrag von Wolfgang Battig zu diesem Thema, ca. 1 Jahr alt. Kann ja leicht heraus gesucht werden.

Ferner, ganz egal was die anderen haben ... in diesem Fall Ingo.
Ich habe 6.000 für w32 und 6.000 für x64 und von daher gibt es keinen Zweifel.

Sorry!
Weitere Diskussionen bringen mir nichts, Thema ist für mich abgeschlossen, wenn für Dich nicht ... Dein Problem!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-23 13:40
Es kann natürlich sein, dass es selbst bei 6.000 Partien zu einem Zufallstreffer von 10 ELO gekommen sind.
Aber ich gehe nie davon aus, das ein seltener Fall eintritt, denn meist zeigt es sich immer das sich Ratings regulieren.
Suche also nie, sofern nicht mehr zu begründen ... den Ausweg in die ErrorBar als Standardausrede!
Parent - By Frank Quisinsky Date 2011-06-23 13:53 Edited 2011-06-23 13:57
Ingo,

schau ...

Nehmen wir Junior 12.5.03 und vergleichen IPON zu SWCR ... ca. 30 ELO Unterschied.
Nehmen wir Komodo 2.03 ... ca 30 ELO wird der Unterschied sehr wahrscheinlich werden.

Gehst Du hin und schiebst auf die ErrorBar ... minimal maximal kommt ja mit Shredder schon der dritte Fall, der vierte, fünfte, sechste ... etc. wird offensichtlich wenn genauer hingeschaut wird. Das ein Ratingausrutscher von 30 Punkten bei der SWCR dabei war, passierte bislang 1x so krass bei Spike. Ausrede ErrorBar ... sehr beliebt um eigene Thesen zu untermauern.

Aber warum und weshalb zu Abweichungen in den Listen kommt hat andere Gründe als "Ergebnis = Zufall". Genau das ist interessant und genau daraus entstehen auch neue Erkenntnisse.

z. B. Taktiker benötigen mehr Zeit, positionell starke Programme finden recht schnell gute Züge und blitzen besser.

Warum hat z. B. Spark die beste Königssicherheit im Mittelspiel und jetzt die zweitbeste Mittelspiel Angriffsheuistik punktet aber nicht stärker gegen ein positionelles Programm wie Komodo? Klar, weil Spark selbst positionell stark ist und Königsangriffe nur nach wenigen Mustern gezielt fährt. Weil Spark im Endspiel sehr schwach ist und Komodo im Vergleich überragend ... die beiden liegen hier zu weit auseinander und daher ... Spark kassiert die Packung.

Das sind z. B. Aussagen die sich festigen mit Analysen der Partien. Die eigenen Eindrücke reichen nicht mehr um das genauer zu beurteilen. Shredder 12 hat z. B. einen sehr guten Faktor bei 2 oder 4 Cores. Wenn diese Version verglichen wird in Listen fallen die vielleicht vorhandenen 10 ELO Unterschied zwischen w32 und x64 unter dem Tisch.

Und zu begründen ... der Programmierer von Shredder sagt aber ... klar Stefan wird es wissen aber nach 6.000 Partien muss er sich bei einer Begründung schon etwas einfallen lassen, mit ErrorBar zu kommen ... wieder den 1/52 Fall anzusprechen wäre zu einfach. So viele 1/52 Fällt gibt es gar nicht Würde es nach 10 Ratinglistenbetrieber gehen hätten wir wahrscheinlich den 52/1 Fall ...

Gruß
Frank

Auch mal den 3-Minuten Test wie bei Fritz gemacht ...
Bei Shredder 12 von 1 auf 2 Cores = 41 ELO Differenz ... 5 mehr als bei Deep Fritz!
Und schon fällt ein 10 ELO Unterschied nicht weiter auf wenn weitere Beeinflussungsfaktoren ... wie mehrere Cores in eine Liste eingehen!
Parent - - By Ingo Bauer Date 2011-06-23 15:17
[quote="Frank Quisinsky"]
...
Weitere Diskussionen bringen mir nichts, Thema ist für mich abgeschlossen, ...
...
[/quote]

Ja  Frank, wie abgeschlossen das ist sehe ich daran das du dir wieder x mal weiterhin und selber anwortest.

Ich habe dem was Benno geschrieben hat nichts hinzuzufügen ausser, dass nach deiner 'genauen' Denkweise offensichtlich alle anderen Unrecht haben, auch wenn du sie vorher noch als falschen Beweis angeführt hast, und nur du mit deiner ganz eigenen Mathematik weißt was die Wahreit ist. "... daher gibt es keinen Zweifel", um dich zu zitieren.

Kopfschüttelnden Gruß
Ingo
Parent - - By Frank Quisinsky Date 2011-06-23 15:25
Ingo,

lasse doch einfach mal Deine blödsinnigen Kommentare weg.
Die bringen doch niemanden etwas!!

Nicht immer provozieren ...
Ingo, schalte mal das Gehirn ein!
Provozieren ist doch langweilig ... finde mit den Jahren wird das auch immer langweiliger zu lesen!

Versuche mal etwas beizutragen von Deinen Erkenntnissen aus Deiner IPON.
Wenn aber jede Minute eine Partie beendet wird ... verbleibt bei Dir nichts an schachlichen Komponenten.
Das ist kein Computerschach mehr sondern nur noch eine statistische Auswertung ohne alles.

Gruß
Frank
Parent - - By Werner Mueller Date 2011-06-24 14:32
[quote="Frank Quisinsky"]
Ingo,

lasse doch einfach mal Deine blödsinnigen Kommentare weg.
Die bringen doch niemanden etwas!!

Nicht immer provozieren ...
Ingo, schalte mal das Gehirn ein!
Provozieren ist doch langweilig ... finde mit den Jahren wird das auch immer langweiliger zu lesen!

Versuche mal etwas beizutragen von Deinen Erkenntnissen aus Deiner IPON.
Wenn aber jede Minute eine Partie beendet wird ... verbleibt bei Dir nichts an schachlichen Komponenten.
Das ist kein Computerschach mehr sondern nur noch eine statistische Auswertung ohne alles.

Gruß
Frank
[/quote]
Ich bin zwar nicht Schiedsrichter von Beruf - aber wenn Du so die Dinge von den Füßen auf den Kopf stellst will ich doch kurz Stellung nehmen.

Ingos Postings haben immer (vielleicht auch nur meistens) Hand und Fuß und er provoziert auch nicht.

Ganz im Gegensatz zu Deiner Voodoo-Mathematik. Da biegt es mir mitunter die Fußnägel um und nur die Gewissheit, dass Du es eh nicht verstehen würdest hält mich von einem Kommentar ab.

Mir ist schon klar, dass Ehrlichkeit mitunter eine Form der Unhöflichkeit ist, aber bei so starkem Tobak wie "Deine blödsinnigen Kommentare" oder "Ingo, schalte mal das Gehirn ein!" musst Du Dich darüber nicht beklagen.
Parent - - By Frank Quisinsky Date 2011-06-24 19:05
Hallo Werner,

Aktion - Reaktion ...
Aktion = Unseriös ... darauf folgt eine Reaktion!

etc..

Aber ich will jetzt hier keinen IPON Fan verärgern

Statistik und sich einfach mal intensiver mit Ergebnissen beschäftigen hat nichts mit Voodoo zu tun.
Zumindest für mich nicht, vielleicht für Dich ... und wenn ... schade!

Aber es steht Dir natürlich auch weiterhin frei Dich mit Voodoo zu beschäftigen, was Du ganz offensichtlich machst, sonst hättest Du jetzt nicht geantwortet.
Und bei der Beschäftigung mit Voodoo-Mathematik wünsche ich Dir zumindest viel Spaß, denn sich etwas mehr mit den Engines zu beschäftigen und zu versuchen etwas herauszufinden kann sehr spannend sein. Und da mein erstes Ziel nicht die Ratingliste selbst ist, sondern wie schon seit x Jahren zu animieren ... denn Animation = Entwicklung ... werde ich ganz einfach auch weiter über Erkenntnisse berichten.

Es steht der Stockfish PHQ-2 Test an ...
Wahrscheinlich wird das Default Setting um 25 ELO verbessert.
Also noch ein wenig Voodoo wird folgen ...

Dir ein schönes Wochenende, ob mit IPON und ohne SWCR oder wie auch immer.
Das ist gar nicht so wichtig, Hauptsache Du hast Gründe auf ein Posting zu antworten ... ganz egal was dabei herauskommt.

Gruß
Frank
Parent - By Werner Mueller Date 2011-06-25 09:05
[quote="Frank Quisinsky"]
...
Statistik und sich einfach mal intensiver mit Ergebnissen beschäftigen hat nichts mit Voodoo zu tun.
...
[/quote]
Eben
Parent - By Thorsten Czub Date 2011-06-25 18:56
mensch streitet euch doch nicht die ganze zeit.
wir sind doch erwachsene Menschen.

Lasst das.

Lasst uns lieber zusammen computerschach machen.
Welche Liste nun richtiger ist. Wieviele Partien man nun
auch immer fuer sich selbst fuer wahrer hält. ist doch ganz egal.

hauptsache jeder hat spass und es gibt UNTERSCHIEDLICHE ansätze.
jeder macht das was er macht irgendwie anders. eine vielfalt.
Parent - - By Michael Scheidl Date 2011-06-23 15:32
Momentan sehe ich noch Errormargins von +/- 20...21 bei diesen Engines, also noch zu ungenau für eine verläßliche Rangfolge in diesem offenbar engen Wertungsbereich. Sjeng/Spike/Shredder/Spark innerhalb von 30 Elo. Ansonsten könnte man noch spekulieren, ob EGTBs Shredder evtl. etwas mehr nützen (würden) als Sjeng, aber da würde ich eher das Gegenteil annehmen.

P.S. Danke für das Rating für Fire 1.5, die in den meisten anderen Listen nicht aufscheint. Gull 1.2 wäre m.E. ein guter Kandidat zur Erweiterung des Feldes. Diese ist vermutlich derzeit die spielstärkste der fehlenden, abgesehen von div. Ippoliten (und Fritz; leider keine UCI-Engine).
Parent - By Frank Quisinsky Date 2011-06-24 19:15
Hi Michael,

+20 / 21 ... ist maximal.

Besser wäre die Angabe + 12 / 12 ...
Das es zu +20 / 21 kommt passiert in 1/54 Fällen (nach derzeitiger Voodoo Berechnung)

+12 / 10 ist realistischer ... wenn ausreichend Gegner!
Das passiert dann wirklich ca. zu 20%.

Gruß
Frank

Und zu Fire ...
Wenn Fire z. B. mehr gegen IPP familie getestet wird oder gegen positionelle Programme könnte das Rating vielleicht in der SWCR noch ein wenig hochgehen, vielleicht um 5 Punkte.
Der Unterschied zu dem stärksten IvanHoe ist sehr gering, wahrscheinlich liegen beide gleich auf.
Up Topic Hauptforen / CSS-Forum / Aussagekraft von einem Rating ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill