Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / FGRL-Rating List: 30 Minutes - Gull 3, DH14, Senpai 1.0
- - By Andreas Strangmüller Date 2014-05-05 19:50
Update 05.05.2014

Neu:
Gull 3: 3056 (+36 Elo zu Gull 2.8 beta)
Deep HIARCS 14 WCSC: 2873
Senpai 1.0: 2849

http://www.fastgm.de

Download der Top10-Partien unter Downloads, direkt auf der Startseite.

Grüße,
Andreas
Parent - - By Tom Paul Date 2014-05-05 20:17
Wie stark ist der Stockfish vom 300414 der beim TCEC mitspielt?
Parent - - By Andreas Strangmüller Date 2014-05-05 20:27
Ich teste erst wieder die nächste offizielle Stockfish-Version, da ein Durchlauf bei dieser Bedenkzeit ca. 10 Tage dauert.

Grüße,
Andreas
Parent - - By Thomas Schoenegger Date 2014-05-06 08:22
Andreas, danke für das Bereitstellen deiner Daten. Interessant finde ich ja, und das bei nicht wenigen 30min. Partien, dass Houdini noch immer die Nr.1 ist

Thomas
Parent - - By Benno Hartwig Date 2014-05-06 09:09 Edited 2014-05-06 09:31
...und das mit immerhin 19 ELO Distanz zu Stockfish 140303 64
(Aber die 'nur' 360 oder 480 Partien können natürlich nur sehr stattliche Fehlertoleranzen von ca. +-25 ELO generieren, mit Gewackel annähernd für jede Engine für sich.)

Benno
PS: Bei TCEC in der 12. Runde von Stage-4 hat SF eben auch sehr zäh um sein Remis gegen H ringen müssen.
Houdini wird ggf. inzwischen von manchem auch kritischer betrachtet als der der Engine gerecht würde.
Parent - - By Frank Brenner Date 2014-05-06 13:29
Ich stelle immer wieder fest, dass einige immer die Fehlertoleranzen ins Spiel nehmen und damit versuchen alle Abweichungen zu erklären. Stefan Pohl ist z.B. ein Meister darin.

Die Wahrscheinlichkeit dass sich der eine Messwert um -25 ELO und der andere Messwert der anderen Engine sich um +25 ELO verkrümmt liegt bei weitem nicht mehr im Fehlertoleranzbereich von 5% sondern hierfür beträgt die Wahscheinlichkeit 2,5% von 2,5% also  2,5%/40 = 0,0625%

Grundsätzlich sollte stets das bei einem Turnier erzielte Elo Rating zur Diskussion stehen, denn dieses Ergebnis stellt das wahrscheinlichste Ergebnis dar.

Bei Andreas Turnier ist die Bedenkzeit von 30 Min/Partie aufgefallen.  Ich wundere mich, dass solche Bedenkzeiten ohne Fischerbonus überhaupt noch bei Enginespielen durchgeführt werden.  Das ist bei Menschenturnieren vielleicht erheiternd, weil dann die Elemente  Zeitnot und SuperBlitzen, instantanes Ziehen noch ins Spiel kommen, aber um die Spielstärke einer Engine zu überprüfen ist  ein Spiel ohne Fisherbonus ungeeiget.
Parent - By Werner Mueller Date 2014-05-06 14:26
Frank Brenner schrieb:

Die Wahrscheinlichkeit dass sich der eine Messwert um -25 ELO und der andere Messwert der anderen Engine sich um +25 ELO verkrümmt liegt bei weitem nicht mehr im Fehlertoleranzbereich von 5% sondern hierfür beträgt die Wahscheinlichkeit 2,5% von 2,5% also  2,5%/40 = 0,0625%

... weil's in diesem Promillebereich mitunter durchaus auf Genauigkeit ankommen kann: (0,045/2)^2=0,000517625 also knapp 0,52 Promille
Parent - - By Benno Hartwig Date 2014-05-06 16:00

> 2,5%/40 = 0,0625%


stimmt. + denselben sehr kleinen Wert für den entgegengesetzten Fehler.
Aber damit beschreibst du ja auch den 'gigantischen' Fehler von mindestens 50 ELO. Das kommt natürlich nur sehr selten vor.
der "25 ELO oder mehr"-Fehler einer Engine ist aber 5%, 2,5% in jede Richtung.

Nun fehlt mir die nötige Mathematik:
Falls H und SF tatsächlich gleich stark sind und nun 95%-Intervalle ausgespielt werden, die jeweils +-25 als Breite haben, wie groß ist dann die Wahrscheinlichkeit dafür, dass irgendeiner der beiden 19 ELO mehr als der andere erhält? Ich befürchte, dass diese Wahrscheinlichkeit gar nicht so klein ist.

Benno
Parent - By Werner Mueller Date 2014-05-06 17:23
Benno Hartwig schrieb:

Aber damit beschreibst du ja auch den 'gigantischen' Fehler von mindestens 50 ELO. Das kommt natürlich nur sehr selten vor.

Die Rechnung gilt ganz allgemein für 'ErrorBars' von +-(2xStandardabweichung) - völlig unabhängig davon, ob +-25 Elo oder z.B. +-5 Elo.
Parent - - By Frank Brenner Date 2014-05-06 19:08
Angenommen die Verteilung der Spielstärkemesung sei normalverteilt und wir haben eine Verteilung mit Fehlertoleranz +/-25 in 95% der Fälle.

Bei normalverteilten Zufallsvariablen (hier die Elomessung nach n partien) gibt es eine allgemeine Regel:
Im Intervall der Abweichung +/-  2*Standardabweichung vom Erwartungswert sind 95,45 % aller Messwerte zu finden

Die Standardabweichung  beträgt in unserem Fall also 12.5
Den Mittelwert setzen wir auf 0
Eine Normalverteilung wird üblicherweise mit N(Erwartungswert,Varianz) bezeichnet und die Varianz ist per
Definition das Quadrad der Standardabweichung.
Die Varianz ist in unserem Beispiel 12,5^2

Die erste Messung  X ist also N(0, 12.5^2)  normalverteilt
Die zweite Messung Y ebenfalls.

Die Frage ist nun wie hoch ist die Wahrscheinlichkeit dass die Differenz der beiden
Messungen größer als  19 bzw kleiner als -19 ist.  (Oder anstatt 19 ein beliebig anderer Wert)

Bei normalverteilten Zufallsvariablen ist die Differenz ebenfalls NV und zwar mit folgenden Parametern:
Var (X-Y) = Var X + Var Y
E (X-Y) = E X - EY

(Dies Ergebnis ist übrigens alles andere als trivial, normalerweise muss man ein integral vom integral berechnen. Nur bei der NV hat man
bereits sehr mühselig nachgewiesen dass diese Faltung ebenfalls wieder eine NV ist)


Also ist in unserem Beispiel  X-Y = N(0,   2*12,5^2), varianz = 2*12,5^2 und Standardabweichung = wurzel(2*12,5^2).

Sei P die wahrscheinlichkeit  eines Ereginisses:

Wir berechnen also P(X-Y > +19)  =  P ( N01 > 19/wurzel(2*12,5^2)) = ca. P(N01 > 1.0748..)  =  1-0,843  = 15,7%

*Bem: der Wert 0,843 muss man in der Tabelle zur Normalverteilung nachblättern, oder alternativ die N01 Funktion numerisch integrieren*

Im umgekehrten Fall P(X-Y < -19) erhalten wir aus symmetriegründen ebenfalls 15,7%

Wir erhalten also in ca 31,4% der Fälle eine Differenz von  19 ELO oder mehr, wenn jeder einzelne der beiden Tests
zu 95% innerhalb eines +/- 25 Intervalls um den exakten  Wert (Erwartungswert) liegt.
Parent - By Benno Hartwig Date 2014-05-06 20:37
Thanx!
Ja, ich finde die Wahrscheinlichkeit von gut 30% schon ganz stattlich.
Immerhin war die Annahme, dass die Engines gleich stark sind, und die betrachtete mindest-ELO-Differenz war immerhin 19 ELO .

Benno
Parent - By Stefan Pohl Date 2014-05-06 17:12
Frank Brenner schrieb:

Ich stelle immer wieder fest, dass einige immer die Fehlertoleranzen ins Spiel nehmen und damit versuchen alle Abweichungen zu erklären. Stefan Pohl ist z.B. ein Meister darin.

Die Wahrscheinlichkeit dass sich der eine Messwert um -25 ELO und der andere Messwert der anderen Engine sich um +25 ELO verkrümmt liegt bei weitem nicht mehr im Fehlertoleranzbereich von 5% sondern hierfür beträgt die Wahscheinlichkeit 2,5% von 2,5% also  2,5%/40 = 0,0625%


Ich habe auch nie behauptet, daß die Wahrscheinlichkeit für dieses Worst-Case-Szenario bei 5% liegt. Ich stelle nur fest, daß es bei Vergleichen von Ergebnissen und/oder gar verschiedenen Ranglisten möglich ist, daß dieser Fall vorliegt und daher solche Vergleiche mit größter Vorsicht zu geniessen sind.

Stefan
Parent - - By Andreas Strangmüller Date 2014-05-06 17:18
Zitat:
Ich wundere mich, dass solche Bedenkzeiten ohne Fischerbonus überhaupt noch bei Enginespielen durchgeführt werden.

Das ist der Grund warum ich diese Bedenkzeit gewählt habe, da ohne Fischerbonus so selten gespielt wird.
Bei dieser Bedenkzeit ohne Bonus wird auch das Zeitmanagement einer Engine berücksichtigt und das war mir bei dieser Rangliste wichtig. Das Zeitmanagement ist nunmal Teil der Spielstärke.
So sehe ich es zumindest.
Parent - By Stefan Pohl Date 2014-05-06 17:22
Andreas Strangmüller schrieb:

Zitat:
Ich wundere mich, dass solche Bedenkzeiten ohne Fischerbonus überhaupt noch bei Enginespielen durchgeführt werden.

Das ist der Grund warum ich diese Bedenkzeit gewählt habe, da ohne Fischerbonus so selten gespielt wird.
Bei dieser Bedenkzeit ohne Bonus wird auch das Zeitmanagement einer Engine berücksichtigt und das war mir bei dieser Rangliste wichtig. Das Zeitmanagement ist nunmal Teil der Spielstärke.
So sehe ich es zumindest.


So kann man das natürlich auch sehen. Aber auch dann würde ich lieber einen sehr kleinen Fischerbonus einräumen.  28'+1'' zum Beispiel. Dann wäre eine Engine mit schlechtem Zeitmanagement gezwungen, ggf. auch sehr schnell zu ziehen , aber es würde nicht zu ganz krasser Zeitnot und/oder Zeitverlusten kommen.

Stefan
Parent - By Stefan Pohl Date 2014-05-06 17:19
Frank Brenner schrieb:

Bei Andreas Turnier ist die Bedenkzeit von 30 Min/Partie aufgefallen.  Ich wundere mich, dass solche Bedenkzeiten ohne Fischerbonus überhaupt noch bei Enginespielen durchgeführt werden.  Das ist bei Menschenturnieren vielleicht erheiternd, weil dann die Elemente  Zeitnot und SuperBlitzen, instantanes Ziehen noch ins Spiel kommen, aber um die Spielstärke einer Engine zu überprüfen ist  ein Spiel ohne Fisherbonus ungeeiget.


Stimmt. Besonders deshalb, da reine Computerpartien auch in endloses Endspielgeschiebe ausarten können. Ich finde diese Bedenkzeiteinstellung auch wenig optimal. 20'+5'' sollte in etwa gleich lange dauern und wäre viel geeigneter.
Mein RoundRobin mit langer Bedenkzeit und 4 Cores hat deshalb auch 15'+3'' als Bedenkzeit, zumal auch bei mir ohne Aufgabe- und Remisgeben durch die GUI gespielt wird. Partien mit 150-200 Zügen kommen da durchaus vor (und gar nicht mal so selten).

Stefan
Parent - - By Stefan Pohl Date 2014-05-06 11:47
Tom Paul schrieb:

Wie stark ist der Stockfish vom 300414 der beim TCEC mitspielt?


Mein neues Endlos-RoundRobin ist ja noch in einem sehr, sehr frühen Stadium, aber bisher ist das Ergebnis (nach nur knapp 200 Partien allerdings) bzgl. Stockfish 140430, der dort ja mitspielt (zusammen mit Houdini 4, Komodo TCEC und Gull 3 (also die creme-de-la-creme unter sich)) nur als erschreckend zu bezeichnen. Stockfish 140430 spielt (mit 15'+3'' und 4 Cores (1 GB Hash, keine Endspielbases) alles in Grund und Boden (Erfolgsscore z.Zt. 64.7% (Houdini als Zweiter hat 47.9% (!!!)))...
Man kann nur hoffen, daß das ein statistischer Ausreißer ist, sonst kann sich die Konkurrenz bei diesen langen Bedenkzeiten (+4 Cores) bzw. auf zukünftiger, schnellerer Hardware begraben lassen. Allerdings spielt Stockfish bei mir nur gegen die besten 3 Gegner der Welt, eben nicht gegen diverse schwächere Engines, gegen die es für Stocki immer deutlich schlechter läuft (als z.B. für Houdini). Aber das ist durchaus so gewollt, es soll ja ein Turnier der allerbesten Engines und keine Rangliste oder ähnliches sein.
Das Endlos-RoundRobin läuft ja wie der Name schon sagt, unbegrenzt (bis ich mir irgendwann ein neues Notebook zulege...), daher ist lediglich etwas Geduld gefragt. Bei diesem Spieltempo schaffe ich knapp 40 Partien pro Tag und somit knapp 1200 Partien pro Monat.
Meine Website mit den Ergebnissen und einer Kreuztabelle wird recht bald bald online gehen, dann kann dort die Entwicklung weiter verfolgt werden.
Auch die Stockfish-Tests mit 70''+700ms (Tempo angepasst/umgerechnet an Andreas Strangmüllers Bullet-Liste) laufen. Im Moment läuft noch (als Referenz und Ergänzung) der Test von Stockfish DD. Ab voraussichtlich Mittwoch geht es dann mit allerneuesten Stocki-Version weiter.
Stay tuned!

Stefan
Parent - - By Tom Paul Date 2014-05-06 12:18
Und wie sieht es bei Komodo aus?
Beim TCEC führt Komodo zurzeit.
N Engine           Rtng Pts  Gm    SB Ko   St   Ho   Cr 

1 Komodo 1223      3148 7.5  12 39.25 ···· 1=== ==01 =1=1
2 Stockfish 300414 3157 7.5  12 36.25 0=== ···· 1=== 1=11
3 Houdini 4        3148 6.5  12 33.75 ==10 0=== ···· 1=1=
4 Critter 1.6a     3038 2.5  12 17.75 =0=0 0=00 0=0= ····

Die letzte Partie H vs S war remis aber wenn man sich die Bewertungen anschaut, da hätten beide Engine jetzt 7,0 Punkte und Komodo wäre alleine an der Spitze.

M.M.n ist die TCEC Bedenkzeit viel zu lang und auf dieser Hardware bekommen die schwachen Engines wegen der Bedenkzeit einen großen ELO Schub während Stockfish nichts bekommt.
Wie wäre es mit doppelter TCEC Bedenkzeit und Deep Fritz 14 auf dem geteilten ersten Platz.
Parent - By Benno Hartwig Date 2014-05-06 13:20

> Die letzte Partie H vs S war remis aber wenn man sich die Bewertungen anschaut, da hätten beide Engine jetzt 7,0 Punkte


H hatte seinen (geschenkten) Anfangsvorteil erst etwas ausbauen können, dann konnte SF trotz diese 'Vorsprungs' doch das Remis erreichen.
Wie kommtst du darauf, dass SF sich dieses Remis dann nicht irgendwie auch verdient hatte? (Oder soll ich dein 'wenn man sich die Bewertungen anschaut' irgendwie anders verstehen?)

Benno
Parent - By GS Date 2014-05-06 12:38
Tom Paul schrieb:

Wie stark ist der Stockfish vom 300414 der beim TCEC mitspielt?


Im 1'+1" siehe:
http://www.pcschach.de ---> UFRL
Up Topic Hauptforen / CSS-Forum / FGRL-Rating List: 30 Minutes - Gull 3, DH14, Senpai 1.0

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill