Stockfish 5 tatsächlich bereits Nummer 1 ?

By Ingo B. Date 2014-06-01 19:04

Hallo Gerhard.

Ich habe die Ergebnisse gegen DF14 schon durch, wenn meine Runde fertig ist, sollte mein Endergebniss schnell vorliegen.

Die Frage ist, wird es langen für SF? Da meine Onlineberechnung statisch ist, ist sie natürlich nicht mit einer ordentlichen Bayesauswertung zu vergleichen. Ich würde mal sagen es wird verdammt knapp, könnte aber gerade so reichen.

Jedenfalls gefällt mir dein (und mein) Ansatz besser, dass Ergebniss auf eine breite Basis zu stellen und nicht Bedinungen zu schaffen unter denen dann eine Lieblingsengine Nr. 1 ist (Ich könnte easy gerade die Engines raussuchen mit der schlechtesten Indivudalperformance und SF5 wahrscheinlich damit sogar auf den 3 Platz drücken ...)

Ehrlich gesagt kann ich es nicht genau absehen, die anderen Engines ändern sich ja auch ... keine Ahnung. in ein paar Stunden wissen wir mehr.

Gruß
Ingo

By GS Date 2014-06-01 19:49

Hi Ingo !

Ingo B. schrieb:

[...snip...]
Ich habe die Ergebnisse gegen DF14 schon durch...
[...snip...]

Wie ist das Resultat dieses Matches ?

Viele Grüsse,
G.S.

By ? Date 2014-06-01 19:52

GS schrieb:

Hi Ingo !

Ingo B. schrieb:

[...snip...]
Ich habe die Ergebnisse gegen DF14 schon durch...
[...snip...]

Wie ist das Resultat dieses Matches ?

Öhh, keine Ahnung!
Habe da 4 GUI's dran knabbern lassen und die fertigen PGN's ins "Auswerteverzeichniss" kopiert. CB GUI muß ich halt machen, "gerne" mach ich das nicht. Eigentlich interessiert mich das nicht sonderlich. Am Ende sehe ich es in den Individualstatistiken.

Gruß
Ingo

By Benno Hartwig Date 2014-06-01 20:03 Edited 2014-06-01 20:06

> Ich könnte easy gerade die Engines raussuchen mit der schlechtesten Indivudalperformance und SF5 wahrscheinlich damit sogar auf den 3 Platz drücken ...

Ich vermute aber, du denkst nicht wirklich, dass irgendwer in seiner Liste "seiner Lieblingsengine zuliebe" die Teilnehmerschaft deinem Vorschlag gemäß nachträglich frisiert, oder?

Benno

PS:
Wäre solch ein Frisieren eigentlich auch durch gezielte Wahl bestimmter 'schwacher' Engines zu erreichen? Nicht dass ich denke...

By Ingo B. Date 2014-06-01 20:18

Benno Hartwig schrieb:

Ich vermute aber, du denkst nicht wirklich, dass irgendwer in seiner Liste "seiner Lieblingsengine zuliebe" die Teilnehmerschaft deinem Vorschlag gemäß nachträglich frisiert, oder?

Benno

Nachträglich nicht, sind ja erst vor kurzem entstanden.
Es kommt darauf an welche Interessen und Intensionen man hat und dann legt man sich mehr oder weniger bewußt, die Sachen zurecht. Meine ursprüngliche Intension war eine Liste zu haben mit der ich Betas vergleichen kann, irgendwann merkte ich das das zur Rangliste taugt. Welche Intension hinter anderen Listen liegt kann ich nicht sicher sagen, bestimmt nicht SF zur Nr. 1 zu machen, aber vielleicht ist der Gedanke im Hintergrund vorhanden und dann sucht man sich die richtigen Bedinungen und kann die sicher auch argumentativ begründen ... und ich kann das Argument, dass H4 nur deswegen da oben steht weil er einen hohen Contempt hat auch nicht von der Hand weisen (das wird auch noch auf ihn zurückschlagen wenn mehr vergleichbare Engines auftauchen).
Ich will nur sagen, dass man mit der gewählten Gegnerschaft auch Ergebnisse beeinflußen kann (wie bewußt sei mal dahingestellt), insofern sind mir Listen die seit Jahren nach dem selben Konzept arbeiten deutlich lieber als "single purpose" Listen.
Ich schrieb es schon neulich, letztendlich muß jeder selbst entscheiden was er davon halten würde wenn Carlsen nur noch gegen Aronian und Grischuck spielen würde ...

Gruß
Ingo

PS: In der Praxis wirst du sehen wie viele Postings wir in nächster Zeit bekommen werden weil SF gegen die TOPs ja alles gewinnt und man Listen die das evtl. nicht zeigen vergessen kann ... Das sind dann meistens die Leute die sich über obiges keine Gedanken machen.
PPS: So, genug ins Wespennest gestochen

By Michael Scheidl Date 2014-06-01 22:16

Mich würde interessieren wie H4 mit Contempt 0 performt. Angesichts der erstarkten Konkurrenz mit Komodo 7 und Stockfish 5 ist diese Änderung des Defaultsettings ja spätestens jetzt äußerst plausibel.

Möglicherweise ein Nullsummenspiel, weil evtl. ein Rückgang der Performance gegen die weniger starken Engine zu erwarten ist, aber wer weiß...

By ? Date 2014-06-01 20:22

Benno Hartwig schrieb:

PS:
Wäre solch ein Frisieren eigentlich auch durch gezielte Wahl bestimmter 'schwacher' Engines zu erreichen? Nicht dass ich denke...

Das PS kam erst später.
Klar, nimm meine auswertung, such dir die schlechtere Hälfte* an Engines für SF raus und streich die anderen Ergebnisse und schwups, ist SF bestimmt nicht mal Zweiter. Ein Gut teil von SFs guter Performance ist ja dem hervoragenden Abschneiden gegen H4 geschuldet*. Nach 2942 Spielen immerhin 3171 Elo, das sind 67 über Durchschnitt ...

*Oder besser dem nun falschem Contempt von H4. SF macht das schon richtig.

By Benno Hartwig Date 2014-06-01 21:29

> Das PS kam erst später.

Ja. Eben ein PS.

Benno

By Andreas Aicher Date 2014-06-01 21:36

das könnte man aber auch umgekehrt machen und H4 wäre plötzlich die Nummer 3

Aber ich hoffe dieser abstruse Vorwurf wird nicht kommen !
Gut einerseits hat Stockfish das hervorragende Abschneiden gegen H4 ist doch was ! (mehr als Carlsen gegen Anand und zwar nicht unerheblich)
Aber andererseits gibt es auch diesen Ausreisser nach unten mit Hanibal, sonst ist meist über 3100, meist sehr deutlich drüber.
Wenn Hanibal nicht dabei wäre, sehe es ja auch anders aus, bei dem allen sieht man, wie knapp es ist und eben nicht nur am guten Score gegen H4 liegt !
Aber was will man mehr, es ist sehr spannend und ich danke Dir für Deine Tests, schön, dass Du weitermachst.
Schlussendlich sind Ipon CCRL und CEGT für mich die besten Ranglisten, ohne die es sehr kaotisch wäre.

Andreas

By Ingo B. Date 2014-06-01 22:19

Andreas Aicher schrieb:

das könnte man aber auch umgekehrt machen und H4 wäre plötzlich die Nummer 3

Korrekt, nur steht ja mein Setup seit Jahren ...

Andreas Aicher schrieb:

Aber ich hoffe dieser abstruse Vorwurf wird nicht kommen !

Abstrus:
[1] abwertend: absonderlich, töricht
[2] schwer verständlich, verworren, ohne gedankliche Ordnung
http://de.wiktionary.org/wiki/abstrus

Nein, abstrus wäre er nicht!

Andreas Aicher schrieb:

... bei dem allen sieht man, wie knapp es ist ...

Ja, es ist so knapp das Bayes und Elostat bei mir mit der Komplettliste jeweils einen anderen an Nr. 1 haben

Gruß
Ingo

By Andreas Aicher Date 2014-06-01 23:19

Abstrus i. Si. von unverständlich (abstrus Kirchner/Michaelis).

Dass es so knapp würde, hätte ich nicht gedacht, aber so soll es ja auch sein !
Hatten wir das schonmal ? Kann mich nicht erinnern

Andreas

By Ingo B. Date 2014-06-02 06:49

Andreas Aicher schrieb:

...
Dass es so knapp würde, hätte ich nicht gedacht, aber so soll es ja auch sein !
Hatten wir das schonmal ? Kann mich nicht erinnern
...

Ich bin ziemlich sicher das wir in der Vergangenheit zw. den Top-Engines schon mal 5 Elo hatten, nur war die Testmethodik da noch nicht so ausgereift. Eigentlich sollte der jetzige Zustand der Normalzustand sein - zumindest macht es das spannender. Für mich ist 10 Elo Errorbar sowie ausreichend, bei 5 Elo abstand ist das eigentlich sowieso eine "Soße"

Der Unterschied zw. Bayes und Elostat ist, das ich Bayes mit "Draw Rate Consideration" (mm01) auswerten lasse, und da hat H4 halt das deutlich aktivere Spiel hingelegt (31% zu 39% Remisen und das sind Welten!). Im menschlichen Sinne sind entschiedene Spiele dramatischer, interessanter. Auch ist Bayes schon etwas "ausgeklügelter", insofern kann ich mit dem Ergebniss leben.

Ich mache heute Abend mal eine Auswertung mit BAyes ohne mm01 und mit Ordo. Bin gespannt.

Gruß
Ingo

By GS Date 2014-06-02 09:17

Andreas Aicher schrieb:

[...snip...]
Aber andererseits gibt es auch diesen Ausreisser nach unten mit Hanibal, sonst ist meist über 3100, meist sehr deutlich drüber.
Wenn Hanibal nicht dabei wäre, sehe es ja auch anders aus, bei dem allen sieht man, wie knapp es ist und eben nicht nur am guten Score gegen H4 liegt !
[...snip...]

Das betrifft nicht immer und bei jedem Test die selbe Engine !
Bei mir für die UFRL z.B. scored Stockfish 5 gegen Hannibal 1.4a
sogar etwas besser als es zu erwarten gewesen wäre, siehe:

Code:


Stockfish 5.0 x64 1CPU (stockfish_14053109_x64_modern / 31.05.2014 - 00:23)
 
vs Chiron 2.0 x64 1CPU       [2864]  170.0- 30.0  perf=3165 (85.0%)
vs Equinox 3.00 x64 1CPU     [2990]  138.0- 62.0  perf=3129 (69.0%)
vs Gull 3.0 x64 1CPU         [3025]  127.5- 72.5  perf=3123 (63.7%)
vs Hannibal 1.4a x64 1CPU    [2844]  169.0- 31.0  perf=3139 (84.5%)
vs Houdini 4.0 x64 1CPU      [3100]  110.0- 90.0  perf=3135 (55.0%)
vs Komodo 7.0a x64 1CPU      [3047]  117.5- 82.5  perf=3108 (58.7%)
vs Protector 1.6.0 x64 1CPU  [2841]  165.5- 34.5  perf=3113 (82.8%)
vs Rybka 4.1 x64 1CPU        [2951]  138.5- 61.5  perf=3092 (69.2%)
------------------------------------------------------------------------------------
Stockfish 5.0 x64 1CPU    ELO 3113 out of 1600 games + 36 (margins 95% = +14 -14)
Stockfish DD x64 1CPU     ELO 3077 out of 2000 games

Dafür scored Stockfish 5 bei mir etwas zu schlecht gegen Rybka.

By ? Date 2014-06-02 09:53

GS schrieb:

Andreas Aicher schrieb:

[...snip...]
Aber andererseits gibt es auch diesen Ausreisser nach unten mit Hanibal, ...
[...snip...]

Das betrifft nicht immer und bei jedem Test die selbe Engine !
Bei mir für die UFRL z.B. scored Stockfish 5 gegen Hannibal 1.4a
sogar etwas besser als es zu erwarten gewesen wäre, siehe:
...

Es ist halt eine verdammt kleine Sample-Größe. Bei mir nur 220 Spiele. Das ist ein Grund warum ich Einzelergebnisse gegen EINE (oder zwei/drei) für ziemlich irrelevant halte was die Gesamtperformance betrifft.
Einer unserer Kanzeler sagte mal: Wichtig ist was hinten rauskommt

Gruß
Ingo

By Andreas Aicher Date 2014-06-02 10:43

ich sehe auch. der Score gegen H4 und K7 ist fast umgekehrt,
IPON gegen H4 47,95 % also rund 58 % , gegen K7 Ipon 55.23 %,
auch gegen Equinox, Protector und Chiron sieht es bei Dir wesentlich besser aus für Stockfish.
Bei Rybka - IPON 72.5 %.
Insgesamt betrachtet scored Stockfish bei Dir besser, wenn ich richtig verglichen habe.
Nur einmal unter 3100, sonst immer, mehr oder weniger, deutlich darüber.

Andreas

By GS Date 2014-06-02 12:08

Bei mir (UFRL) liegt Komodo 7.0a spürbar zu niedrig, wenn ich andere seriöse
Listen zu Vergleich hernehme, also z.B. die CEGT-Listen und/oder die IPON.
Auch deshalb stimmt mein bisheriges Result nicht so ganz, dies ist hauptsächlich
der deutlich zu niedrigen Bedenkzeitvorgabe (1'+1") geschuldet, damit kommen
schon mal eigenartigen Dinge zum Vorschein.

Wir (CEGT) haben nun mit dem 5'+3" Test für Stockfish 5.0 begonnen, siehe:
http://cegt.forumieren.com/t153-testing-stockfish-50-x64
davon erhoffe ich mir weitere wichtige Erkenntnisse.

By Andreas Aicher Date 2014-06-02 12:54

das war dann ein Missverständnis, dachte es es geht um Eure 5+3 Liste.
Wusste gar nicht, dass Du sowas testest 1+1

By GS Date 2014-06-02 13:24

Andreas Aicher schrieb:

das war dann ein Missverständnis, dachte es es geht um Eure 5+3 Liste.
Wusste gar nicht, dass Du sowas testest 1+1

Manchmal, jedoch eher selten, mache ich doch
tatsächlich etwas eigenes, z.B. meine QBRL,
und seit kurzem halt die UFRL.

By Benno Hartwig Date 2014-06-02 13:13

> dies ist hauptsächlich
> der deutlich zu niedrigen Bedenkzeitvorgabe (1'+1") geschuldet, damit kommen
> schon mal eigenartigen Dinge zum Vorschein.

Das finde ich interessant.
Welche "eigenartigen Dinge" passieren denn so, wenn man mit 1'+1'' spielt?
Houdini wird ggf. erfolgreicher sein als bei längeren Zeiten.
Was vermutest du ggf. sonst noch so?

Benno

By GS Date 2014-06-02 13:28

Benno Hartwig schrieb:

Einfach dass die Ergebnisse resp. die Performances nicht "stimmen"
verglichen mit Ranglisten, welche vernünftige Bedenkzeiten verwenden.
Man sieht dies z.B. an Komodo 7.0a und an Critter 1.6 in meiner UFRL,
vermutlich auch an Stockfish 5.0.
In keiner anderen mir bekannten Liste stehen die vergleichbar.
Unterschiede von +-25 sind mir persönlich einfach zu hoch.

By Werner Mueller Date 2014-06-01 20:32 Upvotes 2

Ingo B. schrieb:

Ich könnte easy gerade die Engines raussuchen mit der schlechtesten Indivudalperformance und SF5 wahrscheinlich damit sogar auf den 3 Platz drücken ...

So ist es. Lars Bremers vernichtende Kritik an Stellungstests gilt eben nicht nur für Stellungstests.

Wenn man sich die Ergebnisse gegen die auch nur annähernde Konkurrenz um Platz 1 ansieht ...

Stockfish 5 - Houdini 4 (3111) 123.0 - 87.0
Stockfish 5 - Komodo 7a (3083) 115.0 - 94.0

... und am Ende dann irgendwas anderes als Platz 1 für Stockfish herauskommt ... dann staunt der Laie und der Fachmann sollte sich eigentlich auch wundern.

By Andreas Aicher Date 2014-06-02 00:46

Was solls, die Ipon Liste hat halt kein eindeutiges Ergebnis gebracht, H4 bleibt 5 Elo vor Stockfish (Errorbar), also irgendwie kein Ergebnis, remis würde ich sagen.
Da Stockfish die direkte Begegnung für sich entschied und das ziemlich klar, viel klarer als die 5 Elos, ist für mich Stockfish die neue Nummer 1.
Ich denke doch, man kann das so sehen.

Andreas

By Peter Martan Date 2014-06-02 19:34

Andreas Aicher schrieb:

Kann man, natürlich, sehe ich auch so.
Nur, findest du nicht auch, dass ein gewisser Widerspruch darin gesehen werden könnte, dass Stockfish zwar für den gesunden Menschenverstand (Michael, was sagt der Hausverstand?) klare Nr.1 ist, die Listen aber bestenfalls ein Remis ergeben?

Und zählt jetzt für dich mehr das "Quasiremis" einer Liste oder deine "SF5=Nr.1"- Einschätzung?

By Andreas Aicher Date 2014-06-02 20:54

den Widerspruch sehe ich durchaus, siehe auch meine Postings weiter unten.
Jedoch die Ergebnisse der IPON Liste war für mich bisher ein guter Anhaltspunkt und die Bedingungen waren stets die selben.
Stockfish hat aber auch bei diesem Test sämtliche Zweikämpfe sehr souverän für sich entschieden, für mich eben genau das, was eine Nummer Eins Engine auszeichnet, nicht wie H4, der gleich zwei Zweikämpfe verloren hat.
Das ist das, was mir der berühmte Hausverstand (diese komische TV Werbung hat also auch schon hier im Forum Einzug gehalten

)
Warten wir mal ab, was die anderen Rangliste ausspielen.

Andreas

By Peter Martan Date 2014-06-02 21:45

Andreas Aicher schrieb:

(diese komische TV Werbung hat also auch schon hier im Forum Einzug gehalten

)

Naja, hier in Österreich ist das so bekannt wie das JaNatürlichSchweinderl von derselben Firma, Michael Scheidl hat den Hausverstand schon länger drauf, ich werd mir vielleicht mehr das Schweinchen reservieren, das hat hier noch weniger Einzug gehalten.
Ja natürlich!

By Michael Scheidl Date 2014-06-02 22:51

Die Diskussion ist momentan nur deshalb so lebhaft, weil der Abstand noch so knapp ist. In einigen Wochen wird sich das erledigt haben.

By Peter Martan Date 2014-06-03 05:46 Edited 2014-06-03 05:55

Der Abstand zwischen Hausverstand und JaNatürlichSchweinderl?

Selbst wenn sich SF jetzt dann wirklich absetzt, wird's bei den Verfolgern, die noch dazu einer GPL- engine hinterher sind, umso knapper werden und dann wird halt die Gretchenfrage, wer darf mitspielen, die Reihenfolge zwischen dem 2. und 3. oder dem 3. und dem 4. immer mehr in Richtung austauschbarer entscheiden.
Man soll nix prognostizieren, nur weil's momentan so sticky ist, muss das nicht so bleiben, wenn wirklich neue Ideen kommen, auf die wollen wir schon auch noch hoffen, dann ist aber immer noch die Frage, können sich die bei dem Aufwand, den man dafür treiben muss mittlerweile, auch durchsetzen.
Ja, natürlich!

By ? Date 2014-06-03 07:08

Andreas Aicher schrieb:

... nicht wie H4, der gleich zwei Zweikämpfe verloren hat....

Welche zwei meinst du? Bei mir hat H4 NUR gegen SF5 verloren:

   1 Houdini 4                  3111 6630.0 (5060.5 : 1569.5)
                                     220.0 ( 92.5 : 127.5) Stockfish 5                3106
                                     220.0 (119.0 : 101.0) Komodo 7a                  3083
                                     220.0 (117.5 : 102.5) Stockfish DD               3066
                                     220.0 (110.5 : 109.5) Gull 3                     3056
                                     220.0 (118.5 : 101.5) Komodo TCECr               3052
                                     150.0 ( 89.5 :  60.5) Komodo 6                   3045
                                     150.0 ( 88.5 :  61.5) Stockfish 4                3022
                                     220.0 (132.5 :  87.5) Gull 2.8                   3019
                                     220.0 (154.0 :  66.0) Gull 2.2                   2983
                                     220.0 (155.5 :  64.5) Critter 1.4a               2982
                                     220.0 (157.5 :  62.5) Equinox 2.02               2973
                                     220.0 (164.0 :  56.0) Deep Rybka 4.1             2959
                                     220.0 (178.5 :  41.5) Rybka 3 mp                 2902
                                     220.0 (181.0 :  39.0) Deep Fritz 14              2896
                                     220.0 (170.5 :  49.5) Chiron 2                   2887
                                     220.0 (179.0 :  41.0) Protector 1.6.0            2870
                                     220.0 (177.5 :  42.5) Hannibal 1.4b              2869
                                     150.0 (125.5 :  24.5) Chiron 1.5                 2852
                                     220.0 (189.5 :  30.5) Senpai 1.0                 2840
                                     220.0 (191.5 :  28.5) Texel 1.04                 2839
                                     220.0 (190.5 :  29.5) Protector 1.5.0            2836
                                     220.0 (192.0 :  28.0) Naum 4.2                   2833
                                     220.0 (187.5 :  32.5) HIARCS 14 WCSC 32b         2818
                                     220.0 (195.5 :  24.5) Deep Shredder 12           2803
                                     220.0 (191.0 :  29.0) Jonny 6.00                 2803
                                     220.0 (188.5 :  31.5) Deep Sjeng c't 2010 32b    2791
                                     220.0 (192.0 :  28.0) Spike 1.4 32b              2783
                                     150.0 (138.5 :  11.5) spark-1.0                  2762
                                     150.0 (137.0 :  13.0) Deep Junior 13.3           2746
                                     150.0 (138.5 :  11.5) Booot 5.2.0                2744
                                     150.0 (139.5 :  10.5) Quazar 0.4                 2738
                                     150.0 (139.0 :  11.0) Zappa Mexico II            2717
                                     150.0 (138.5 :  11.5) Toga II 3.0 32b            2716

Allerdings weiß ich wie knapp das war. Ich hatte mal eine Beta die gegen H4 gewonnen hat. Die Finale Version war im ganzen besser, hat aber wieder gegen H4 verloren ... zeigt nur wieder das diese 220 individuellen Spiele eine zu kleine Datenbasis sind, ganz besonders wenn es kanpp ist!!!

Gruß
Ingo

By Andreas Aicher Date 2014-06-03 10:30

Da hat mir meine Erinnerung einen Streich gespielt, hatte das Match gegen Gull 3 damals falsch herum gelesen 109.5-110.5 und dachte mir schau mal an, dieser Gull wird richtig stark.

Andreas

By Peter Martan Date 2014-06-02 05:06

Werner Mueller schrieb:

So ist es. Lars Bremers vernichtende Kritik an Stellungstests gilt eben nicht nur für Stellungstests.

Tut er ja auch, wie's scheint. Ich persönlich wundere mich schon lange, dass sich immer noch niemand zu wundern schien.

Und wo ist eigentlich das Wunder? Wenn man jahrzehntelang engines auf einen bestimmten Test hin entwickelt, wird endlich die Wahl der zu testenden engines ebenso entscheidend wie die Wahl der übrigen Testbedingungen.
Es werden so lange alle möglichen "Kleinigkeiten", wie die Auswahl der Teststellungen, die ja auch immer noch eines der wesentlichsten Kriterien ist (die Kritik gilt natürlich nicht nur für Stellungstests,für die aber insbesonders,und Ranglisten sind Stellungstests, wie auch immer wir sie nennen wollen, was wir Rose nennen, wie's auch immer hieße, würde duften

), immer ausschlaggebender, bis es endlich durch praktisch jede beliebige Veränderung der Testumgebung ein anderes Ergebnis wird, weil die Merkmalsdifferenzen in Hinblick auf den Test immer kleiner werden durch die gemeinsame Anstrengung, dem Test zu genügen.

By Benno Hartwig Date 2014-06-02 09:11

> dann staunt der Laie und der Fachmann sollte sich eigentlich auch wundern.

SF wird schon lange 'vorgeworfen', gegen Schwache zu viele halbe Punkte abzugeben.
Und dass sich das tatsächlich geändert hat, hat doch eigentlich noch niemand so richtig gesehen. Bestenfalls Prinzip Hoffnung und so eine Ahnung.
Gerade 'Fachmänner' werden daher doch immer noch eher erwarten, dass sich auch ein aktueller SF im Feld mit vielen Schwachen im Vergleich zu H und K eher schwer tut.
Etwas anderes wäre doch gerade die Überraschung und könnte Laien und 'Fachmänner' ins Staunen bringen!

Benno

By Andreas Aicher Date 2014-06-02 11:02

ich sehe auch, dass es irgendwie eine ganz komische Sache ist.
Gut Houdini ist in der IPON Liste 5 Elo vorne, ich würde aber jetzt die höhere Remisquote von Stockfish, die sicher ärgerlich ist, eher als ganz besondere Stärke von Houdini sehen, vielleicht der viel besprochene contempt faktor?
Wenn man die Ergebnisse von Stockfish ansieht, die Ergebnisse sind ja wirklich nicht schlecht, bei GS sogar noch besser (da sollte es für Rang 1 langen, bei A.S. hat es ja auch für Rang eins gelangt), sieht man ja durchwegs an die 80 %, teilweise etwas darunter, teils nahe an die 90%, also mir kommt das jetzt nicht schlecht vor, nur eben bei schwächeren Engines im Vergleich zu Houdini.
Natürlich ist es irgendwie befremdlich für mich, wenn eine Engine nach wie vor die Rangliste anführt, auch wenn es hauchdünn ist (bei anderer Auswertungsmethode wie Ingo schrieb sogar umgekehrt) die gegen den 2. sehr deutlich und gegen den 3. der Rangliste auch den Zweikampf verliert (Houdini wird es sehr schwer haben, gegen diese Gegner zB in ein TCEC Finale zu kommen).
Andererseits haben wir Stockfisch, der alle Zweikämpfe in der Ipon Liste (bei anderen könnte oder wird es anders sein) souverän gewinnt und es trotzdem an die zweite Stelle kommt.
Auch ein Vergleich mit Carlsen liegt nicht unbedingt auf der Hand, die Super GMs spielen ja fast nur gegeneinander, maximal bei einem Englischen Turnier ist mal Short und Adams dabei, bei einem Niederländischen ein van Wely, Sokolov dabei, aber die haben ja auch eine sehr hohe Elowertung.
Und welche Engine hätte dann den Part von Carlsen, Houdini? der gegen die direkte Konkurrenz klar verliert ?

Andreas

By Benno Hartwig Date 2014-06-02 11:17 Edited 2014-06-02 11:19

Ja.
Man muss sich eben überlegen, was eine Engine zur besten Engine krönen soll.

Und je nach dem, wie man sich entscheidet, führt das dann dazu, dass entweder
- die "beste Engine" ggf. gegen die vielen, vielen Schwächeren nicht so vernichtend überzeugt, wie es einige andere können
oder
- dass die "beste Engine" im direkten Vergleich zum 2. und wohl auch 3. regelmäßig unterliegt.

Hier muss man sich überlegen, was man für "die beste Engine" halten will, welche Kröte einem leichter verdaulich erscheint.

Benno
(ich könnte mich mit der ersten Option leichter anfreunden)

By Andreas Aicher Date 2014-06-02 11:30

nun, es ist ja auch nicht so, dass Stockfish gegen jede schwächere Engine schlechter punktet als Houdini, zum Teil ja auch besser, nur sind eben Ausreisser nach unten dabei, die sind auch nicht bei jeder Ranglisten die gleichen.
Einmal ist es Hanibal, ein andermal Rybka....
Ich schätze mal, in den meisten Ranglisten wird es für Stockfish trotzdem langen, wenn auch knapp. Die Bedingungen der Ipon Liste scheinen Stockfish nicht so sehr zu liegen.
Aber, ich bin auch der Ansicht, dass eine Engine, die relativ klar gegen die beiden direkten Verfolger verliert, nur aufgrund einer speziellen Remisvermeidung schwächere Engines niederringt, wobei das natürlich eine Stärke ist, irgendwie nicht die beste Schachengine sein sollte.
Schwächere Engines sollten nicht diesen Einfluss auf eine Rangliste haben, dieses Gefühl habe ich auf jedem Fall.
Wenn man gegen eine starke Engine wie Rybka 72.5 % oder gar nur 70 % machst, verliert man eine menge Elos - das ist schon recht seltsam.

Andreas

By Werner Mueller Date 2014-06-02 10:29 Upvotes 1

Von Werner Mueller Datum 2014-06-01 20:32 Gut 1

Dass meine Posting gut war und die Note 1 verdient, sehe ich auch so.

Trotzdem die Frage: wie kommt das dorthin?

By Benno Hartwig Date 2014-06-02 15:48 Upvotes 1

Wenn ein Leser voller Begeisterung auf das 'Gut' unter deinem Posting klickt, wird das gezeigt. (habe ich just gemacht, müsstest du jetzt sehen können)
Und der nächste Begeisterte hat dann die Chance, ein "Gut 2" zu produzieren, denke ich.

Benno

By Werner Mueller Date 2014-06-02 18:00

Benno Hartwig schrieb:

Benno

Aaah, verstehe.
Diesen Button o.ä. kann ich als Gast nicht sehen und mir ist dieses "Gut 1" usw. bisher noch nirgends aufgefallen.
Danke.

By Michael Scheidl Date 2014-06-02 18:01

...wobei das nur Stammposter können, sodaß Werner vermutlich den "Gut-Button" noch nicht gesehen hat. Ist ähnlich wie "Gefällt mir" auf Facebook. Es erspart einem einen kurzen zustimmenden Reply zu posten, der sonst nichts neues enthielte.

By Benno Hartwig Date 2014-06-01 23:52 Edited 2014-06-01 23:55

> Jedenfalls gefällt mir dein (und mein) Ansatz besser

Das ist natürlich OK, und ggf. stimmen dir auch manche/viele zu.

"Welche Erfolge machen eine Engine zu besten Engine?"
und
"Was ist die Spielstärke einer Engine?"
sind aber Fragen, zu denen halt jeder seine eigenen Antwort finden kann und muss.
Absolute Wahrheiten gibt es da nicht.

Und wenn man sich da entschieden hat, dann kann man versuchen ein Testszenario aufzubauen, das dazu passt.

Benno

By ? Date 2014-06-02 06:54

Benno Hartwig schrieb:

"Welche Erfolge machen eine Engine zu besten Engine?"

Im Allgemeinen dürfen wir gerne weiter nach einer ANtwort suchen, im Konkreten Fall war es wohl die geringe Remistendenz von H4 (31% zu 39%)

Benno Hartwig schrieb:

"Was ist die Spielstärke einer Engine?"

Hmm, bei Menschen würden 99% aller Schachspieler so nicht fragen, sondern einfach auf die Elozahl* verweisen (geh mal in einen Verein oder auf die Straße und frag).

*Wobei die Zahl als solche natürlich abstrakt ist, eigentlich geht es auch beim Menschen nur um die Abstände dieser Zahlen zueinander.

Gruß
Ingo

By Benno Hartwig Date 2014-06-02 07:35

> bei Menschen würden 99% aller Schachspieler so nicht fragen, sondern einfach auf die Elozahl* verweisen

"Und gegen welche Gegnerschaft soll diese ELO-Zahl erspielt werden?" ist aber wohl bei Mensch und Engine die gleichwichtige Frage.
Magnus Carlson tritt ggf. nur selten gegen nur-regionale Schachgrößen an.

"Warummeneignlich?"

Benno

By Ingo B. Date 2014-06-02 07:50

Benno Hartwig schrieb:

"Warummeneignlich?"

Das ist jetzt aber eine andere Frage als du sie oben gestellt hast.

Zu deiner Präzisierung kann ich nur wieder erwähnen wie es wohl wäre wenn Carlsen nur noch gegen Aronian und Grischuk spielen würde um im gewünschten Elorahmen zu bleiben.

Fakt ist, dass wir im Computerschach eben die Möglichkeit haben auch "regionale" Größen gegeneinander spielen zu lassen. Wenn wir könnten würden das bestimmt auch gerne viele bei den Top Menschen sehen ...

Aber wie ich schon weiter oben sagte, das Ergebniss wird vielen nicht passen und sie werden jetzt rumnörgeln weil es nicht zu ihrem Bauchgefühl passt. Weiter wird sich bestätigen das sich wenige für Errorbars, LOS oder Remisquoten interessieren. Was zählt ist die Platzierung, wie wahrscheinlich auch immer die sein mag. (Ich habe allein heute Nacht über meine Webseite vier "internationale" Emails bekommen deren Tenor immer gleich war "Das kann ja gar nicht sein" ... mir fällt dazu nur ein: Jahrelang war das Setup ok und nun passt es plötzlich nicht mehr

)

Gruß
Ingo

PS: Kleine Randbemerkung. Die TOP16 beim Menschen wären heute 138 Elo auseinander. Im Computerschach wären das nur 4 Engines. Umgekehrt wären meine gut 300 Elo für die Computer TOP 16 weit mehr als 100 Menschen ...

By Benno Hartwig Date 2014-06-02 09:02 Edited 2014-06-02 09:16

> Das ist jetzt aber eine andere Frage als du sie oben gestellt hast.

Ja? Habe ich mich so undeutlich ausgedrückt?
Mir ging es immer (in diesem Thread und auch schon in früheren) um das
"Gegen wen eigentlich muss ich möglichst erfolgreich sein, um als der Beste anerkannt zu werden?"
was verschieden beurteilt wird.
Oder was sonst habe ich deiner Meinung nach missverständlich ausgedrückt?

Hier sind die Ansichten verschieden.
Und erst wenn man für sich(!) hier eine klare Sicht gewonnen hat (ohne dass die wohl richtiger oder falscher ist als andere), kann man einen entsprechenden Ratinglistenmechanismus planen.

Auch wenn der Erfolg gegen die Schwächeren sicher ebenfalls interessiert ("Und wie deutlich werden die nun abgelascht?"), möchte ich zumindest das Hauptgewicht aber gern auf die Auseinandersetzung mit den Besten legen.
Eine Bestenermittlung, die beispielsweise zu 80% oder mehr gegen Schwächere und deutlich Schwächere ausgespielt wird, bei der die Konkurrenzengines um die Topplätze nur eine untergeordnete (oder sogar marginale) Rolle spielen ("Pah, ob ich gegen SF und K recht schlecht spiele, fällt doch kaum ins Gewicht!"

), fänd ich weniger gut. Auch wenn das bei weitem überwiegende Gros der schachfähigen Engines tatsächlich sehr deutlich schwächer ist, sollten diese nicht ein entsprechend ihrer Anzahl (hunderte?) großes Gewicht haben (Vermutlich stimmt mir da auch jeder zu). Welches Gewicht den Schwachen zugebilligt werden sollte, dass ist dann eben die erwähnte Ansichtssache, von "gar nicht" über "etwas" bis zu "ganz viel".

Benno

PS:
Bei der Fußball-WM geht in die Siegerermittlung auch kaum ein, ob die Favoriten gegen Kamerun 1:0 oder 4:0 in der Vorrunde gewonnen haben.
Find' ich auch gut so.
Oh, las ich da gerade was von 2:2?

By Ingo B. Date 2014-06-02 09:19

Benno Hartwig schrieb:

Auch wenn der Erfolg gegen die Schwächeren sicher ebenfalls interessiert ("Und wie deutlich werden die nun abgelascht?"), möchte ich zumindest das Hauptgewicht aber gern auf die Auseinandersetzung mit den Besten legen.

Ich schrieb schon oben, jahrelang war das Setup von CEGT/CCRL/IPON gut genug und jetzt liefert es ein Ergebniss das nicht passt und dann ist es schlecht und sollte angepasst werden ... (und noch weiter oben oder wars ein anderer Thread, habe cih ganu die Reaktion vorhergesagt

)
Das Setup ist OK. Das H4 (oder R früher) so dominant sind liegt auch am Contempt. Der wirkt sich nachteilig aus sobald vergleichbare Gegner da sind (vielleicht konnte SF deswegen so hoch gewinnen). Das Problem an diesem Setup ist, das allerdings H3 niemand mehr testet weil ja H4 da ist. H3 bleibt also ewig mit erhöhtem Rating stehen ... Andererseits interessiert sich auch niemand für die alten Engines UND zumindest in meiner RRRL spielt das auch keine Rolle.

Benno Hartwig schrieb:

Bei der Fußball-WM interessiert auch kaum, ob die Favoriten gegen Kamerun 1:0 oder 4:0 in der Vorrunde gewonnen haben.
Oh, las ich da gerade was von 2:2?

2:2 gegen welchen Favoriten?

Hier Kameruns Bilanz gegen einen Favoriten:

WM
1994 in den USA   Gruppe B   Brasilien   -   Kamerun   3:0 (1:0)
Confederations Cup
2003 in Frankreich   Gruppe B   Brasilien   -   Kamerun   0:1 (0:0)
2001 in Japan/Südkorea   Gruppe B   Brasilien   -   Kamerun   2:0 (0:0)
Freundschaft
1996   November   Brasilien   -   Kamerun   2:0

Dein Bsp ist kein Favorit - nicht bei mir!

Gruß
Ingo

By Benno Hartwig Date 2014-06-02 15:32

> und jetzt liefert es ein Ergebniss das nicht passt und dann ist es schlecht und sollte angepasst werden

Ich behaupte gar nicht, dass irgendwas angepasst werden sollte.
Ich werbe nur für Toleranz gegenüber anderen, die eine abweichende Vorstellung davon haben, was die beste Engine zu besten Engine machen sollte.

Manche Kritiken wirken so, als sollte anderen vorgeworfen werden, ihr Ansatz würde nicht den Besten zu bestimmen versuchen, aber der eigene täte es.
Dem wollte ich entgegen halten, dass es "den Besten" nicht gibt, dass es verschiedene Vorstellungen davon gibt, welche Eigenschaften eine Engine zur "Besten" machen sollte.
Es gibt eben ggf. eine beste Engine für
- das beste Bekämpfen der direkten Konkurrenz
- das allumfassende niederhalten der schwächeren und viel schwächeren Engines
- den größten Erfolg gegen beispielsweise eine Mischung aus den Top 20 oder Top 30

Benno

By Stefan Pohl Date 2014-06-02 09:21

Benno Hartwig schrieb:

Ja? Habe ich mich so undeutlich ausgedrückt?
Mir ging es immer (in diesem Thread und auch schon in früheren) um das
"Gegen wen eigentlich muss ich möglichst erfolgreich sein, um als der Beste anerkannt zu werden?"
was verschieden beurteilt wird.
Oder was sonst habe ich deiner Meinung nach missverständlich ausgedrückt?

Hier sind die Ansichten verschieden.
Und erst wenn man für sich(!) hier eine klare Sicht gewonnen hat (ohne dass die wohl richtiger oder falscher ist als andere), kann man einen entsprechenden Ratinglistenmechanismus planen.

Auch wenn der Erfolg gegen die Schwächeren sicher ebenfalls interessiert ("Und wie deutlich werden die nun abgelascht?"), möchte ich zumindest das Hauptgewicht aber gern auf die Auseinandersetzung mit den Besten legen.
Eine Bestenermittlung, die beispielsweise zu 80% gegen Schwächere und deutlich Schwächere ausgespielt wird, bei der die Konkurrenzengines um die Topplätze nur eine untergeordnete (oder sogar marginale) Rolle spielt ("Pah, ob ich gegen SF und K recht schlecht spiele, fällt doch kaum ins Gewicht!"

), fänd ich weniger gut. Auch wenn das bei weitem überwiegende Gros der schachfähigen Engines tatsächlich sehr deutlich schwächer ist, sollten diese nicht ein entsprechend ihrer Anzahl (hunderte?) großes Gewicht haben (Vermutlich stimmt mir da auch jeder zu). Welches Gewicht den Schwachen zugebilligt werden sollte, dass ist dann eben die erwähnte Ansichtssache, von "gar nicht" über "etwas" bis zu "ganz viel".

Benno

PS:
Bei der Fußball-WM interessiert auch kaum, ob die Favoriten gegen Kamerun 1:0 oder 4:0 in der Vorrunde gewonnen haben.
Oh, las ich da gerade was von 2:2?

Hi Benno,

selbst beim Test gegen nur 5 starke Gegner (meine Stockfish-Testreihe) ist es noch nicht sicher, daß Stockfish Nummer 1 wird. Houdini 4 hatte bei mir eine LS-Elo von 3184 und die jetzigen, aktuellen Stockfish-Dev-Tests liegen (noch) mit dem Höchstwert von 3181 knapp drunter. Ob Stockfish 5 letzlich knapp vorbeiziehen wird, ist noch keineswegs sicher. Der Test dauert noch bis mindestens Donnerstag Nachmittag. Bisher sieht es so aus, als könnte es knapp reichen, aber das kann sich durchaus noch ändern.

Stefan

By Marcel Kowolik Date 2014-06-02 18:22 Upvotes 1

Eine Engine(Stockfish 5),die alle anderen Engines besiegt,ist die NR1!Und wenn es bei manchen Listen für die 1 nicht reicht,dann sollte man sich um die Liste sorgen machen!!
MfG Marcel

By GS Date 2014-06-02 19:28

Mir schwebt da schon lange was vor. Dies ist aber für unsere grossen CEGT-Listen nicht machbar.
Für meine kleine schlampige (in Bezug auf die Bedenkzeit) UFRL tue ich mir dies jetzt mal an.

Folgendes gilt:
für einen Sieg (keine Unterscheidung nach Weiss oder Schwarz) gibt es 2 Punkte,
für ein Remis (ebenfalls keine Farbunterscheidung) gibt es einen Punkt.

Vorab:
die Stockfish dev. vom 300414 hat alle Matches gewonnen und dabei gegen Houdini 56.8%
und gegen Komodo 57.2% erzielt. Trotzdem liegt sie lediglich 6 ELO-Punkte vor Houdini.

Nun der Vergleich der TOP-3 meiner UFRL:

Code:


Liste lt. ELO (ELO-Stat 1.3)                     Liste lt. Punktesystem (s.o.)
 
#  engine             ELO   Score  Draws         #  engine            Punkte
1. Stockfish 300414  3106   70.3%  39.8%         1. Stockfish 300414    2812
2. Houdini 4.0       3100   69.4%  35.5%         2. Houdini 4.0         2776
3. Komodo 7.0a       3047   61.9%  42.5%         3. Komodo 7.0a         2476

Klar, nun ist der Abstand zwischen Stockfish dev. und Houdini auch optisch deutlicher.
Nur, ist nun der Rückstand von Komodo auf die zwei Führenden nicht etwas zu hoch,
rein optisch gesehen ? Ich hätte Schwierigkeiten beim Betrachten solch einer Liste.

By Andreas Aicher Date 2014-06-02 21:02

Du hast vollkommen Recht, Komodo 7.0a 2476 geht wirklich nicht, wäre in etwa der Unterschied zwischen Carlsen und einen IM, vielleicht auch einen Eloschwächeren GM