Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR2: Houdini 4 STD x64 A ... erste Eindrücke!
1 2 Previous Next  
- - By Frank Quisinsky Date 2013-12-31 09:08
Hallo zusammen,

1. Früheste Remis Partie erst nach 39 Zügen !!!
Noch nie gesehen nach 200 Partien !!
Houdini 4 vermeidet Remis was absolut korrekt ist wenn es knallhart und Spielstärke geht.

2. Das Houdini einen Zug vor dem Matt noch lange rumrechnet nervt
Bockmist

3. Konstellation:
Houdini - Naum ... Houdini mit König und zwei Damen, Naum mit Turm einen Zug vor dem eigenen Matt.
Und was macht Houdini, Naum 46 Züge einen Zug vor dem Matt gibt mit dem Turm Schach. Houdini muss nur nehmen, Naum bewegt den König und wird im nächsten Matt gesetzt.
Houdini nimmt 46 Züge lang nicht den Turm mit den König.
Das macht mir die Zügestatistik kaputt und nervt richtig.
Doppelter Bockmist.

Unsere Nummer 1 will nicht Matt setzen oder rechnet noch lange rum.

Wer testet denn das Teil eigentlich.
Solche Dinger dürfen nicht passieren, erst Recht wenn das kommerziell vermarktet wird.
Schrecklich!
Sind noch ein paar andere Dinger aufgefallen aber ich bin kein Beta Tester und will auch keiner sein.

4. Bislang 3 Partien mit Matt unter 50 Zügen. Bis dahin hatte Stockfish im Test schon fast 10. Auch nach der Auswertung der bisherigen Partien. Diese Engine spielt in den ersten Zügen zu verhalten. Vermeidet zwar Remis was richtig gut ist  aber bleibt nach den Eröffnungszügen im Vergleich zu Stockfish Angriffstechnisch ein wenig auf der Strecke.

Ansonsten wird hier nach allen Regeln der Kunst jede Engine im späten Mittelspiel, frühen Endspiel und Endspiel auseinandergenommen. Houdini etwas aggressiver im späten Mittelspiel.
Mal schauen wie es weiter geht ...

Hier der Zwischenstand nach 200 von 1.000

Code:
+61 to Houdini 3 Pro x64
after 200 / 1.000

01 Stockfish 05.12.13 SSE42 x64   : 3060           1000    75.3 %          39.1 %
02 Houdini 3 Pro x64              : 3048           1000    73.9 %          34.6 %
03 Komodo TCECr x64               : 3047           1000    73.8 %          35.8 %
04 Critter 1.6a x64               : 2987           1000    66.2 %          43.2 %

01 Houdini 4 STD x64 A            : 3109   46  45   200    79.8 %   2871   27.5 %
02 Stockfish 05.12.13 SSE42 x64   : 3063   18  18   960    75.9 %   2863   38.1 %
03 Komodo TCECr x64               : 3046   19  18   960    74.0 %   2864   34.9 %
04 Critter 1.6a x64               : 2994   17  17   960    67.5 %   2867   43.3 %
05 Equinox 2.02 x64               : 2980   17  17   960    65.6 %   2868   42.2 %
06 IPP Bouquet 1.8 x64            : 2968   16  16   960    64.0 %   2868   45.1 %
07 GullChess 2.2 x64              : 2966   17  17   960    63.7 %   2868   42.4 %
08 Rybka 4.1 SSE42 x64            : 2950   17  17   960    61.5 %   2869   42.1 %
09 Hannibal 1.4b x64              : 2865   17  17   960    48.7 %   2874   42.4 %
10 Chiron 1.5 x64                 : 2854   17  17   960    47.0 %   2874   41.1 %
11 Protector 1.5.0 JA x64         : 2841   17  17   960    45.1 %   2875   42.9 %
12 Naum 4.2 x64                   : 2830   17  17   960    43.5 %   2876   42.9 %
13 Jonny 6.00 Yokohama x64        : 2830   17  17   960    43.4 %   2876   39.6 %
14 Hiarcs 14 WCSC w32             : 2826   17  17   960    42.9 %   2876   40.7 %
15 Sjeng c't 2010 w32             : 2801   17  17   960    39.3 %   2877   40.8 %
16 Junior 13.8.04 Yokohama x64    : 2794   18  18   960    38.3 %   2877   33.4 %
17 Shredder 12 x64                : 2785   18  18   960    37.0 %   2878   37.7 %
18 Spike 1.4 Leiden w32           : 2775   17  18   960    35.6 %   2878   38.6 %
19 Quazar 0.4 x64                 : 2763   18  18   960    34.0 %   2879   36.9 %
20 Booot 5.2.0 x64                : 2760   18  18   960    33.5 %   2879   36.9 %
21 Spark 1.0 x64                  : 2759   17  17   960    33.3 %   2879   40.0 %

01 Houdini 4 STD x64 A            : 3100   67  65   100    79.0 %   2870   26.0 %


Gruß
Frank
Parent - By Frank Quisinsky Date 2014-01-01 01:35 Edited 2014-01-01 01:42
Hallo zusammen,

für die Houdini Fans ...

Zur Erläuterung der drei Tabellen:
Tabelle 1: Die bisherigen SWCR-2 Ergebnisse (als Anhaltspunkt, nur die relevanten Engines).
Tabelle 2: Ratingliste zur Zeit ... die 1.000 Houdini 3 Pro 64 Partien sind gelöscht und die neue Version spielt nun 1.000 Partien. Bislang also 300 von 1.000 Partien.
*** für die Statistik Freaks, bei mir schwanken die ELOs nicht so sehr. Es sind genug Engines in der Liste daher immer nur kleine Veränderungen von 100 - 1.000 Partien. Führe das auch auf absolute perfekte Testbedingungen zurück. Hatte in der SWCR1 genug Zeit alles zu optimieren und die Liste trägt nun den Erfolg der geernteten Früchte. Da aber hier die Nummer 1 der Liste spielt sind die ELO-Ausgaben dennoch nicht genau. Vermutlich wird es nach 1.000 Partien so aussehen das die getestete SF Version ca. 25-30 ELO zurück liegt. Habe in Excel eine Prognose erarbeitet in dem die Entwicklungen in 100ter Partieschritten ausgewertet sind (die 180.000 SWCR1 Partien). Mithin erhalte ich dann immer eine Prognose zum Ausgang die in der SWCR-2 bislang zu 92,8% stimmte (auf +-5 genau).
Tabelle 3: Die ELO Entwicklung nach bislang 100, 200, 300 Partien, zur Zeit also +48 zu Houdini 3 Pro x64.

Und zu den Partien:
Ich habe die letzten 100 nicht verfolgt.
Sehe aber das immer noch keine Remispartie unter 39 (die erste) in der Datenbank ist.
Das gab es noch nie und genau das ist auch richtig. Stärke Engines müssen jeden Remis in der Anfangsphase aus dem Weg gehen und genau das macht Houdini 4. So einfach kann die ELO nach oben geschraubt werden.

Code:
+48 to Houdini 3 Pro x64
after 300 / 1.000

01 Stockfish 05.12.13 SSE42 x64   : 3060           1000    75.3 %          39.1 %
02 Houdini 3 Pro x64              : 3048           1000    73.9 %          34.6 %
03 Komodo TCECr x64               : 3047           1000    73.8 %          35.8 %
04 Critter 1.6a x64               : 2987           1000    66.2 %          43.2 %

01 Houdini 4 STD x64 A            : 3096   36  35   300    78.5 %   2871   30.3 %
02 Stockfish 05.12.13 SSE42 x64   : 3061   18  18   965    75.6 %   2865   38.1 %
03 Komodo TCECr x64               : 3046   19  18   965    73.9 %   2865   34.8 %
04 Critter 1.6a x64               : 2994   17  17   965    67.4 %   2868   43.6 %
05 Equinox 2.02 x64               : 2979   17  17   965    65.3 %   2869   42.2 %
06 IPP Bouquet 1.8 x64            : 2968   16  16   965    63.9 %   2869   45.1 %
07 GullChess 2.2 x64              : 2966   17  17   965    63.5 %   2870   42.5 %
08 Rybka 4.1 SSE42 x64            : 2950   17  17   965    61.3 %   2870   42.0 %
09 Hannibal 1.4b x64              : 2865   17  17   965    48.5 %   2875   42.4 %
10 Chiron 1.5 x64                 : 2854   17  17   965    46.9 %   2875   41.1 %
11 Protector 1.5.0 JA x64         : 2840   17  17   965    44.9 %   2876   42.7 %
12 Naum 4.2 x64                   : 2831   17  17   965    43.5 %   2877   43.0 %
12 Jonny 6.00 Yokohama x64        : 2831   17  17   965    43.4 %   2877   39.6 %
14 Hiarcs 14 WCSC w32             : 2826   17  17   965    42.7 %   2877   40.6 %
15 Sjeng c't 2010 w32             : 2802   17  17   965    39.2 %   2878   40.6 %
16 Junior 13.8.04 Yokohama x64    : 2795   18  18   965    38.2 %   2878   33.5 %
17 Shredder 12 x64                : 2785   18  18   965    36.8 %   2879   37.6 %
18 Spike 1.4 Leiden w32           : 2776   17  17   965    35.5 %   2879   38.7 %
19 Quazar 0.4 x64                 : 2764   18  18   965    33.9 %   2880   36.9 %
20 Booot 5.2.0 x64                : 2761   18  18   965    33.5 %   2880   36.9 %
21 Spark 1.0 x64                  : 2759   17  17   965    33.2 %   2880   39.9 %

01 Houdini 4 STD x64 A            : 3096   36  35   300    78.5 %   2871   30.3 %
01 Houdini 4 STD x64 A            : 3109   46  45   200    79.8 %   2871   27.5 %
01 Houdini 4 STD x64 A            : 3100   67  65   100    79.0 %   2870   26.0 %
Parent - - By Benno Hartwig Date 2014-01-01 09:01

> Houdini 4 vermeidet Remis was absolut korrekt ist wenn es knallhart und Spielstärke geht.


Warum soll das korrekt sein?

Gegen schwächere ist das ein Stück weit korrekt.
Aber selbst wenn der Gegner 100 ELO schwächer ist wäre es für eine hohe Punkteausbeute ggf. schon vorteilhaft, lieber das Remis zu suchen, wenn das Buch den armen Houdini mit mehr als einem halben Bauern Nachteil in das Spiel entlassen hat. Wo die beste Grenze liegt, hängt dann von der ELO-Differenz ab und ist ggf. nicht einfach zu schätzen.

Und gegen Gleichstarke (andere Houdinis und ggf. auch Stockfish) ist es für eine hohe Ausbeute ggf. schon vorteilhaft, lieber das Remis zu nehmen als mit auch nur leicht nachteiliger Stellung weiter zu spielen.
Andernfalls wäre jeweils eine Verlustwahrscheinlichkeit größer als eine Siegwahrscheinlichkeit.

Und gegen eine stärkere Engine ("SF go!") sollte im Interesse einer möglichst großen Spielstärke bei seehhr ausgeglichenen Stellungen sogar lieber(!) ein Remis nehmen als weiter zu spielen, auch wenn dies dem Betrachter nicht gefällt.

Houdini darf "arrogant" (SCNR) und erfolgsteigernd die Remisen verneiden, wenn es von schwächeren Gegnern ausgehen kann.
Wo das nicht gegeben ist, wird diese "Charaktereigenschaft" nachteilig sein.

So musste man sich auch bei SF entscheiden. Und es kam raus:
Gegen gleich Starke soll SF möglichst gut Punkten. Dafür nimmt man Remisen gegen Schwache in Kauf.
Und in Ratinglisten mit vielen Schwachen mag sich das rächen.
Aber gegen Starke will man so gut aussehen, wie es mit SF möglich ist. (Vorteilhaft z.B. im TCEC-Event, wo eine Remisneigung allenfalls in Stufe 4 gefährlich werden kann)
Wenn SF nun noch stärker wird, wird man diese Entscheidung aber ggf. noch mal überdenken.
(TCEC-Siege würden dann dadurch wieder etwas weniger wahrscheinlich, in den diversen Ranglichten könnte SF aber dadurch noch etwas mehr Boden gut machen.)

Benno
Parent - - By Frank Quisinsky Date 2014-01-01 10:32 Edited 2014-01-01 10:35
Hi Benno,

wenn klar ist das eine Engine ca. ab Zug 50 aufdreht, bzw. schwierig zu bezwingen ist (gegen egal welchen Gegner), macht es keinen Sinn vor Zug 50 ein Remis anzunehmen. Das vermeiden von Remis in der ersten Partiephase sorgt ja nicht dazu das es zu einem schlechteren Ergebnis kommt, eher ist die Wahrscheinlichkeit hoch das das Ergebnis besser wird. Habe schon ein paar Partien gesehen wo es nomal im frühen Mittelspiel zu einem Remis gekommen wäre und Houdini umgeht das sehr geschickt.

Hat einen entscheidenden Vorteil für Ratinglisten.
Die Remisquote geht zurück und die Wahrscheinlichkeit auf ein besseres Resultat bei dieser vorhandenen Stärke ab Zugnummer 50 wird deutlich größer.

Nummer 1 kann so spielen, die Nummer 10 sollte natürlich nicht so spielen und die Nummer 20 sollte auf Remis spielen. Houdart wird sich denken, ich bin oben und ab dem späten Mittelspiel klar bis maximal deutlich vorne also warum sollte ich bei ca. ausgeglichener Stellung ein Remis forcieren wenn meine Stärke erst noch kommt. Das ist absolut konsequent und wahrscheinlich das Geheimnis für mindestens 20-30 ELO.

Habe das noch nie gesehen, es sind fast 350 Partien gespielt und in der Datenbank sind 0 Partien mit Remis unter 39 Zügen.
Das ist unglaublich !!!!

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-01-01 10:41

> macht es keinen Sinn vor Zug 50 ein Remis anzunehmen.


Ich denke, du täuscht dich, aber beweisen kann ich es nicht.
Auch z.B. Houdini kommt in manchen Partien weit vor dem 50ten Zug in eine so schlechte Position, dass H danach verliert.
Gerade gegen Stockfish und Komodo wurde das ja z.B. in TCEC eindrucksvoll bewiesen.
Wenn hier eine Flucht in ein Remis möglich ist, sollte auch H dies nutzen.

Die Frage ist nur: Wie schlecht muss diese Position sein, sodass H das Remis nimmt.
Und gern auch: Wie schlecht sollte dieser Grenzwert z.B. nach deiner Meinung sein.
Dass auch für Houdini solch ein Grenzwert existiert, steht für mich außer Frage.

Benno
Parent - - By Frank Quisinsky Date 2014-01-01 11:02
Hi Benno,

denke er wird sich etwas haben einfallen lassen.
Das er es gemacht hat wird aus den Ergebnissenn klar.

Wenn mal eine Partie durchgeht (Remis nicht genommen und später verloren) wird die Ausnahme sein.
Stockfish und Komodo sind in den späten Partiephasen nicht besser ... zumindest nicht Stockfish.
Stockfish dreht in der ersten Partiephase auf.

Die Gefahr besteht im Grunde nur gegen Gegner wie Komodo, Equinox und Jonny.
Diese Engines sind auch im späten Mittelspiel gefährlich.

Jonny hat schon 4x gewonnen, selbst Komodo und Stockfish konnten Houdini bislang nicht öfters bezwingen.
Auch das ist unglaublich.

Jonny macht etwas was richtig gut ist und gegen die stärkeren Programme aufgeht. Gegen die schwächeren punktet Jonny eher normal bzw. leicht schlechter.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-01 11:40 Edited 2014-01-01 11:44
Code:
[PAIRINGS]
Houdini 4 STD x64 A - Stockfish 05.12.13 SSE42 x64==00=0=1=10111=====
Komodo TCECr x64 - Houdini 4 STD x64 A=1=0=001=001010=10=
Houdini 4 STD x64 A - Critter 1.6a x64===11==101=========
Equinox 2.02 x64 - Houdini 4 STD x64 A=000101==0=0==00=00
Houdini 4 STD x64 A - IPP Bouquet 1.8 x64=111==1====11=0==11
GullChess 2.2 x64 - Houdini 4 STD x64 A=0=00===0=0=0==0==0
Houdini 4 STD x64 A - Rybka 4.1 SSE42 x64=111=1=1=1=0=111=11
Hannibal 1.4b x64 - Houdini 4 STD x64 A=00==0==010=000=0=0
Houdini 4 STD x64 A - Chiron 1.5 x64=11==11111===11111=
Protector 1.5.0 JA x64 - Houdini 4 STD x64 A==000000000000000==
Houdini 4 STD x64 A - Jonny 6.00 Yokohama x64=0011111=11=0=110=1
Naum 4.2 x64 - Houdini 4 STD x64 A=000000000000===000
Houdini 4 STD x64 A - Hiarcs 14 WCSC w32=111111=11=1111=111
Sjeng c't 2010 w32 - Houdini 4 STD x64 A=0000000=000000100X
Houdini 4 STD x64 A - Junior 13.8.04 Yokohama x64==11=111111=11=1=1X
Shredder 12 x64 - Houdini 4 STD x64 A==000=000===000000
Houdini 4 STD x64 A - Spike 1.4 Leiden w32=1=1=111111111==11
Quazar 0.4 x64 - Houdini 4 STD x64 A=0000100000=000=00
Houdini 4 STD x64 A - Spark 1.0 x64=111=11=11==111111
Booot 5.2.0 x64 - Houdini 4 STD x64 A==00=00000000=0===


Hallo zusammen,

so wird es deutlicher.
4 Siege gegen Houdini bei 250 - 275 ELO mehr für Houdini.
Das ist einfach unglaublich.
OK, Komodo hatte 5 Siege aber die anderen eher selten mit einem Gewinn wenn dann eher ein Remis wie es üblich ist im Spiel gegen die TOPs.
Immerhin, Sjeng verbuchte einen Sieg, auch Hannibal und Critter konnten einen verbuchen. Equinox 2 Siege. Quazar hat einen, na klar im Endspiel ...

Wer sich die ganzen Dinge mal in Ruhe anschaut, das den Partiephasen zuteilt wird sehr schnell sehen wo die Engines dann wirklich die Stärken und Schwächen haben.
Das ist einfach so. Auch ist jede solcher kleinen Betrachtungen für sich immer sehr interessant.
Interessanter als das bloße Ergebnis.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-01 20:15
Hallo,

denke eine der Stärken von Houdini deckte sich auf.
Ich muss mich korrigieren, auch Houdini 3 hatte kaum Remispartien unter 40 Züge. Mir ist das bislang nur noch nicht aufgefallen.
Da liegt ein Geheimnis dieser verfluchten Engine

Statistik "Remispartien unter 40 Zügen"
Komodo 6: 9 von 1050 Partien
Komodo TECEr: 15 Partien von 1050 Partien
Stockfish 03.11.: 33 Partien von 1000 Partien
Stockfish 05.11.: 30 Partien von 1100 Partien
Houdini 3: 3 von 1150 Partien
Houdini 4: 1 von 400 Partien

Nehmen wir mal an SF würde dem Remis so wie Houdini aus dem Weg gehen und würde dann anstatt bei 10 Partien ein 5:5 Ergebnis haben, würde SF dann aufgrund der Stärke von 10 Partien ein ca. 9:1 Ergebnis haben. Das heißt eine Verbesserung um ca. 20-25 ELO bei den ca. 30 von 1.000 Partien in der SWCR2 erscheinen möglich.

Außerdem spielt Houdini dann auch nach 40 Züge wesentlich weniger Remis als Stockfish oder Komodo. Erst im Endspiel gleichen sich die Remisquoten in etwa an.
Denke ein Houdini Geheimnis sollte damit aufgedeckt sein, ist offensichtlich.

Nur, diese Stärke hat nichts mit dem Zuwachs an ELO von Houdini 3 auf 4 zu tun.
Denn die war auch schon in Houdini 3, hatte ich nicht gesehen.

Gruß
Frank
Parent - - By Guest Date 2014-01-01 20:32
deinen Ausführungen kann ich überhaupt nicht zustimmen - Houdini 4 ist jetzt schon "nur" die Nummer 3 in "Lang-Partien" auf schach.de.
auch im blitz hat stockfish inzwischen abgelöst und ist die Nr. 1 - höhere Remisquote von Stocky hin oder her - die Remisvemeidungsstrategie von H4 hat in vielen Gameas die Niederlage gegen Stocky oder Komodo herbeigeführt - insofern für Blitz ja gerade noch akzeptabel aber ab 16min Games gefährlich und höchst lnagweilig wenn dann tote Renis stundenlang mit der blöden Contempt-Einstellung von H4 vermieden werden

TOP-Stocky-Engine derzeit:

271213IPa 64 SSE4.2 (von Ipmann)
010114 64 SSE4.2 von Marco entweder die 10er oder die 13er
Parent - - By Frank Quisinsky Date 2014-01-01 20:50
Hallo,

aber ich sprach jetzt nicht davon wer die Nummer 1 oder 3 bei längeren Zeitkontrollen ist.
Ich sprach davon das Houdini durch das ablehnen von Remis in der Eröffnungsphase eine versteckte Stärke hat.

Und absolut ja ...
Houdini ist taktisch wie Rybka und alle anderen IPPs anfällig im Verhältnis zu Stockfish. Wenn Houdini gegen Stockfish Remis vermeidet ist die Gefahr groß das dies in die Hose geht.
Aber schaue Dir mal an was Houdini in der SWCR gegen die schwächeren so treibt. Dort werden wesentlich mehr Punkte gemacht im Vergleich Stockfish zu den schwächeren.
Also Remis vermeiden wird zu weniger Punkten gegen Stockfish führen (das glaube ich auch) aber zu mehr Punkten gegen die anderen und das steht fest.

Computerschach besteht nicht nur aus Houdini - Stockfish ...
Und Menschenschach früher auch nicht nur aus Karpov gegen Kasparow.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-01-01 21:20
Code:
+44 to Houdini 3 Pro x64 or 30 ELO advantage to SF 05.12. at the moment.
after 400 / 1.000

01 Stockfish 05.12.13 SSE42 x64   : 3060           1000    75.3 %          39.1 %
02 Houdini 3 Pro x64              : 3048           1000    73.9 %          34.6 %
03 Komodo TCECr x64               : 3047           1000    73.8 %          35.8 %
04 Critter 1.6a x64               : 2987           1000    66.2 %          43.2 %

01 Houdini 4 STD x64 A            : 3092   31  31   400    78.1 %   2871   29.8 %
02 Stockfish 05.12.13 SSE42 x64   : 3062   18  18   970    75.6 %   2866   38.4 %
03 Komodo TCECr x64               : 3046   19  18   970    73.8 %   2866   34.8 %
04 Critter 1.6a x64               : 2995   17  16   970    67.4 %   2869   43.8 %
05 Equinox 2.02 x64               : 2979   17  17   970    65.2 %   2870   42.1 %
06 IPP Bouquet 1.8 x64            : 2967   16  16   970    63.6 %   2870   44.9 %
07 GullChess 2.2 x64              : 2966   17  17   970    63.4 %   2871   42.5 %
08 Rybka 4.1 SSE42 x64            : 2950   17  17   970    61.1 %   2871   42.0 %
09 Hannibal 1.4b x64              : 2865   17  17   970    48.5 %   2876   42.5 %
10 Chiron 1.5 x64                 : 2854   17  17   970    46.8 %   2876   41.0 %
11 Protector 1.5.0 JA x64         : 2841   17  17   970    44.8 %   2877   42.8 %
12 Jonny 6.00 Yokohama x64        : 2831   17  17   970    43.4 %   2878   39.5 %
12 Naum 4.2 x64                   : 2831   17  17   970    43.3 %   2878   42.9 %
14 Hiarcs 14 WCSC w32             : 2825   17  17   970    42.5 %   2878   40.4 %
15 Sjeng c't 2010 w32             : 2801   17  17   970    39.0 %   2879   40.4 %
16 Junior 13.8.04 Yokohama x64    : 2795   18  18   970    38.0 %   2879   33.4 %
17 Shredder 12 x64                : 2785   18  18   970    36.6 %   2880   37.4 %
18 Spike 1.4 Leiden w32           : 2776   17  17   970    35.4 %   2880   38.5 %
19 Quazar 0.4 x64                 : 2764   18  18   970    33.7 %   2881   36.7 %
20 Booot 5.2.0 x64                : 2761   18  18   970    33.4 %   2881   36.9 %
21 Spark 1.0 x64                  : 2759   17  17   970    33.0 %   2881   39.7 %


01 Houdini 4 STD x64 A            : 3092   31  31   400    78.1 %   2871   29.8 %
01 Houdini 4 STD x64 A            : 3096   36  35   300    78.5 %   2871   30.3 %
01 Houdini 4 STD x64 A            : 3109   46  45   200    79.8 %   2871   27.5 %
01 Houdini 4 STD x64 A            : 3100   67  65   100    79.0 %   2870   26.0 %


Nach 400 von 1.000 ...
Tendenz ist es geht noch ca. 5 ELO bis 1.000 nach unten.
Prognose-Tool.
Parent - - By Karl Date 2014-01-03 15:09
ja klar, wenn man die Games mit den Schwächeren mit einbezieht, dann kann ich dir folgen - hier remisiert Stocky oft zu schnell.

Insofern für einen Enginetester oder Vergleiche mit vielen anderen Engines kann man dann der m. M. nach zu starken Remisvermeidungsstrategie was abgewinnen. Mir geht es aber um die stärksten Engnins, die dann - wie im richtigen Leben (Schach) - auch ein Remis spielen, wenn es denn Remis ist und nicht stundenlang nervig hin- und herziehen um dann in 10% der Fälle auch noch die Partie zu vergeigen. Insofern kann der H4 schon arg nerven . . .

Daher sehe ich Stockfish, trotz der manchmal abenteuerlichen Bewertungen, als den menschlicheren Spieler an (wir verhauen uns ja auch manchmal bei den Einschätzungen, nur der Stocky verliert dann nicht sondern zeigt dann auch irgendwann das remis an (Bewertung). Die von mir o. a. Engine von Ipmann ist bei den Bewertungen realisitischer, daher mein Favorit derzeit, auch die 271213IPb reißt in den Bewertungen nicht aus.
Komodo kann m.M. nur in langen Spielen echt überzeugen, dann aber oft überraschend, wenn man schon an ein Remis glaubt . . . "gräbt" der Komodo stellungstechinsch einen Sieg aus.

Grüße
Parent - - By Frank Quisinsky Date 2014-01-03 16:46
Hallo Karl,

also wenn es um die Spielstärke im Dreier Vergleich Stockfish, Komodo, Houdini geht dann sehe ich genau diese Reihenfolge ... Stockfish, Komodo, Houdini. Stimme Dir auch überall zu und kann das auch nachvollziehen. Nur was macht jemand der eine Engine vermarktet? Er weiß die meisten schauen auf die Ratinglisten und wie werden dort die Ergebnisse produziert! Also was liegt nahe ...

Nur das war auch schon bei Houdini 3 der Fall und der neue Zuwachs kommt ja auch nicht von irgendwo. Allerdings kommt der Zuwachs von Houdini 3 zu Houdini 4 sicherlich nicht von Verbesserungen in den frühen Partiephasen. Eher von Verbesserungen in Partiephasen in dem Houdini schon vorher gut war.

Sehe das auch so, Stockfish und Komodo finde auch ich deutlich interessanter als Houdini. Aber auf Houdini würde ich den späten Partiephasen niemals auf Analysen verzichten. Die Engine spielt da einfach brillant. Frage die sich für mich stellt, wird Komodo da wirklich mit mehr Zeit auch stärker als Houdini oder wird Stockfish mit mehr Zeit auch stärker als Houdini.

In Anbetracht dessen das wenn wir die Ergebnisse der Ratinglisten im Detail betrachten müssten wir fast sagen ja. Houdini scheint mit mehr Zeit an Power zu verlieren und Stockfish legt zu, denke Komodo legt nur leicht zu (entgegen dem was ich meist lese).

Sind so meine Eindrücke!

Viele Grüße
Frank
Parent - - By Karl Date 2014-01-06 14:50
Hallo Frank,

übrigens haben neueste Tests der "Russen" ergeben, das H4 mit Contempt 0 deutlich besser gegen Stocky spielt, somit mit Contempt 0 bei H4 kann man z. Z. von einem Patt oder nur sehr geringem Vorteil der neuesten Stocky reden. Meine negativen Eindrücke von H4 beziehensich daher immer auf die Contempt 1 Einstellung. Gestern hat Houdini z. B. mit Contempt 1 haaarsträubende Verluste in toten Remi-Stellungen,insbesondere mit noch viel Steinen auf dem Brett, wo er einfach nur den König hin und her hätte ziehen müssen. Durch die Contempt 1 Einstellung hat er dann aber versucht die Stellung zu öffnen und dann nach zwei Zügen feststellen müssen, dass dies nichts war und kläglich verloren.
Somit gegen Stocky immer Contempt 0 . . .

Auch interessant: Meinen Test nach, die ich immer bei Erscheinen der "neuen" Stockymache, sind die "Ipmänner, also mit syzygy und LP, immer einen Tick besser als die Originalen, wobei der letzte Ronald de Man 060114,mit syzygy, ohne LP, ebenfalls sehr überzuegen kann.

Persönliche Rangliste meiner Stcky's, aktuell, Stand heute 14:45 Uhr:
1. Ipmann 050114IP und 0601014RdeM
2. Ipmann 040114IP
3. Ipmann 020114IPx

Insgesamt, gilt auch für Blitz, scheint odr bestätigen meine Ergebnisse, dass auch für Blitz die syzygys einen Vorteil bringen. Alle Original-Stocky ohne syzygy sind einen Tick sind schwächer  . . .

Grüße
Parent - - By Frank Quisinsky Date 2014-01-07 23:57
Hallo Karl,

also ich setze nach kurzer Beschäftigung mit den verschiedenen Versionen auch nur die syzygy Versionen ein und gönne wie jeder anderen Engine die Viersteiner als Mittel zum Zweck ohne Aufgabefaktor die Partielänge dennoch ein wenig zu beeinflussen. Eigentlich dürfen bei einer ganz genauen Statistik keine Datenbanken genutzt werden die beeinflussend wirken. Aber ich hatte mal festgestellt, dass die Viersteiner eher einen minimalen Einfluss auf die tatsächliche Spielstärke haben. Auch hatte ich bei einem kurzen Test den Eindruck das die Kompliles besser sind, habe das aber längere Zeit nicht mehr getestet.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-08 00:09 Edited 2014-01-08 00:12
Code:
                                      ELOs  Games  Score  Remis
01. Houdini 4 STD x64 A               3098  1.000  78.5%  29.3%
01. Houdini 4 STD x64 A               3098    900  78.4%  29.1%
01. Houdini 4 STD x64 A               3093    800  78.0%  29.8%
01. Houdini 4 STD x64 A               3088    700  77.6%  29.7%
01. Houdini 4 STD x64 A               3089    600  77.8%   29.8%
01. Houdini 4 STD x64 A               3082    500  77.1%   30.6%
01. Houdini 4 STD x64 A               3092    400  78.1%  29.8%
01. Houdini 4 STD x64 A               3096    300  78.5%  30.3%
01. Houdini 4 STD x64 A               3109    200  79.8%  27.5%
01. Houdini 4 STD x64 A               3100    100  79.0%  26.0%


Was sagt Dir das Benno?

Mir sagt das folgendes:
Houdini ist zu gut gestartet, nicht nur wegen dem Rating von 3100 und dann gar 3109 sondern wegen der Remisquote die dahinter steckt. Die Remisquote nahm zu, das Rating ab. Im Verlauf vom Test hat sich das dann eingependelt und es ist unwahrscheinlich, dass sich das Rating nach diesem Verlauf noch grob verändern wird. Natürlich immer in Anbetracht der Testbedingungen insbesondere der Anzahl der Gegner und der verwendeten Gegner. Wenn sich etwas verändert, dann eher wahrscheinlich wenn sich die Gegner komplett verändern oder die Anzahl der Gegner.

Dumm wäre folgendes ...
Bis Partie 700 ein gleiches Bild, sieben in etwa gleiche Messpunkte. Und dann 3x hintereinander geht es deutlich nach oben. Hatte das in der SWCR1 schon, solche und andere Ausnahmen aber wie gesagt, die Wahrscheinlichkeit das dies passiert bei so vielen Partien ist sehr gering und konnte in allen dieser 3 Fälle schon aus der Entwicklung der Messpunkte abgelesen werden.

Auch glaube ich das ein gutes Prognosetool programmiert werden könnte anhand einer Datensammlung dieser Messpunkte. Das dieses Prognosetool mal der ErrBar gegenüber gestellt werden könnte.

Gruß
Frank
Parent - By Benno Hartwig Date 2014-01-08 14:20

> Auch glaube ich das ein gutes Prognosetool programmiert werden könnte anhand einer Datensammlung dieser Messpunkte.


Was sollte das leisten? Sollte das aus der Entwicklung heraus kalkulieren, mit welchen Wahrscheinlichkeiten in der kommenden Partie Sieg, Remis oder Niederlage auftreten?

Ich denke es gibt hier lediglich aus den Partieergebnissen keine bessere Schätzung als:

  Wahrsch(A gewinnt) = Anz(A hat gewonnen) / Anz(Partien gesamt)
  Wahrsch(remis) = Anz(remis) / Anz(Partien gesamt)
  Wahrsch(B gewinnt) = Anz(B hat gewonnen) / Anz(Partien gesamt)

Wenn sich Spielbedingungen und Engineeigenschaften wirklich nicht änderten während dieser Partien, dann spielt meiner Meinung nach die Reihenfolge der Spielergebnisse überhaupt keine Rolle.
Die Betrachtung "in zeitlicher Reihenfolge" ist ja auch nur eine einzige (willkürlich ausgewählte) aus einer Auswahl von sehr vielen anderen möglichen Reihenfolgen.

Benno
Parent - - By Benno Hartwig Date 2014-01-01 21:55 Upvotes 1

> Da liegt ein Geheimnis dieser verfluchten Engine


Ich habe zu wenig Ahnung von Schach, um das wirklich beurteilen zu können.
Aber in vielen Partien von SF ist mir aufgefallen, wie oft SF gerade gegen H durchaus aus SF-Sicht in Führung (gut einen Bauern) gehen kann, wie H aber stur eine ausgeglichene Stellung erkennt. Und nach sehr vielen Zügen Recht behält.
Auch kann sehr häufig(!) passieren, dass SF sich mehr als 2 Bauern im Vorteil sieht, dass auch H sich ungefähr einen Bauern im Nachteil sieht und diese Situation aber unglaublich zäh hält. Bis der Vorteil dann 20 und mehr Züge später endlich wieder zusammenbricht, oft in einem 'Vorteil' mündet, der nichts zählt (KT-KL oder so)

In dieser besonderen Zähigkeit, auch in schlechteren Positionen, sehe ich eine große Stärke von H. Der Gegner gewinn zu wenig!
Es kommt mir auch so vor, als ob H in solche Partien gezielt Remis-Chancen realisiert, gegen die sich SF dann nicht recht wehren kann.
Bei anderen Engines hatte ich noch nie diesen Eindruck

Benno
Parent - - By Frank Quisinsky Date 2014-01-01 23:26
Hi Benno,

SF spielt auch sehr spekulativ in der Anfangsphase. Aber darin liegt auch das Geheimnis warum doppelt so viele Kurzpartien produziert werden als bei der zweitbesten Engine Critter bei den Kurzpartien. Das macht SF interessant und offenbar wird immer weiter an den taktischen Fähigkeiten gefeilt. Es wäre ein Wahnsinn wenn taktisch stark im Computerschach Endspiel stark im Ratinglistenvergleich bezwingt. Wenn das passiert, und wir stehen kurz davor, ist mit SF ein unglaublich aggressives Monster geboren wurden.

Wie gesagt, wir hätten die Traumkonstellation beim Analysieren:
Hätten mit SF, Houdini und der strategisch starken Engine Komodo drei TOP Enginesm die sich vom Stil wesentlich unterscheiden mit völlig anderen positiven Fähigkeiten, welche alle Partiephasen abdecken.
Das ist wirklich als Paukenschlag hinsichtlich Analysen für alle Fernschachfans zu werten ... Traumkonstellation !!

Und ja, Houdini ist zäh und spielt dieses frühe Endspiel atemberaubend, auch im späten Mittelspiel fällt die Engine durch zähes aber positionsverbesserndes Schach auf. Wobei im späten Mittelspiel ich Komodo noch einen Tick trickreicher empfinde.

SF kann sich auch nicht wehren wenn es ins Endspiel gegen Houdini geht. Selten wird SF da "wenn ausgeglichen" Gewinnen. Aber SF legt die Grundsteine vorher und offenbar mit jeder neuen Version wird SF wirklich zusehend spielstärker. Denke wir werden 2014 die SF Idee in kopierter Form erleben. Da werden sich andere Programmierer zusammenfinden und versuchen durch Teamarbeit vergleichbares zu leisten. In 2016 werden die TOP-3 Programme Teamwork Arbeiten sein. Wäre konsequent und logisch ... mal schauen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-03 13:53
Hatte der gute Houdini eine schlechte Serie erwischt.
Partien 401-500 (bei mir immer eine Serie 100 Partien).
Korrigiert mit Partie Nummer 501-600 ...
Ab Partienummer 800 regt sich bei mir immer sehr wenig.
Insofern mal schauen, jetzt wird's spannend ... immer die spannende Phase Partienummer 601-700!

Ach so, nach wie vor kein Remis unter 39 Zügen ... konsequent!

Viele Grüße
Frank

Code:
+43 to Houdini 3 Pro x64 or 26 ELO advantage to SF 05.12. at the moment.
after 600 / 1.000

01 Stockfish 05.12.13 SSE42 x64   : 3060           1000    75.3 %          39.1 %
02 Houdini 3 Pro x64              : 3048           1000    73.9 %          34.6 %
03 Komodo TCECr x64               : 3047           1000    73.8 %          35.8 %
04 Critter 1.6a x64               : 2987           1000    66.2 %          43.2 %

01 Houdini 4 STD x64 A            : 3089   25  25   600    77.8 %   2872   29.8 %
02 Stockfish 05.12.13 SSE42 x64   : 3063   18  17   980    75.4 %   2869   38.4 %
03 Komodo TCECr x64               : 3048   18  18   980    73.6 %   2870   35.0 %
04 Critter 1.6a x64               : 2997   16  16   980    67.2 %   2872   44.1 %
05 Equinox 2.02 x64               : 2979   17  17   980    64.7 %   2873   41.9 %
06 GullChess 2.2 x64              : 2968   17  17   980    63.3 %   2874   42.9 %
07 IPP Bouquet 1.8 x64            : 2967   16  16   980    63.2 %   2874   44.7 %
08 Rybka 4.1 SSE42 x64            : 2950   17  17   980    60.7 %   2875   42.0 %
09 Hannibal 1.4b x64              : 2865   17  17   980    48.1 %   2879   42.2 %
10 Chiron 1.5 x64                 : 2855   17  17   980    46.5 %   2879   41.0 %
11 Protector 1.5.0 JA x64         : 2843   16  17   980    44.6 %   2880   42.8 %
12 Jonny 6.00 Yokohama x64        : 2832   17  17   980    43.1 %   2881   39.3 %
13 Naum 4.2 x64                   : 2831   17  17   980    43.0 %   2881   42.7 %
14 Hiarcs 14 WCSC w32             : 2825   17  17   980    42.0 %   2881   40.0 %
15 Sjeng c't 2010 w32             : 2802   17  17   980    38.7 %   2882   40.2 %
16 Junior 13.8.04 Yokohama x64    : 2795   18  18   980    37.7 %   2882   33.2 %
17 Shredder 12 x64                : 2786   17  18   980    36.4 %   2883   37.2 %
18 Spike 1.4 Leiden w32           : 2777   17  17   980    35.1 %   2883   38.2 %
19 Quazar 0.4 x64                 : 2766   18  18   980    33.7 %   2884   36.7 %
20 Booot 5.2.0 x64                : 2762   18  18   980    33.1 %   2884   36.6 %
21 Spark 1.0 x64                  : 2760   17  17   980    32.9 %   2884   39.4 %

01 Houdini 4 STD x64 A            : 3089   25  25   600    77.8 %   2872   29.8 %
01 Houdini 4 STD x64 A            : 3082   28  27   500    77.1 %   2871   30.6 %
01 Houdini 4 STD x64 A            : 3092   31  31   400    78.1 %   2871   29.8 %
01 Houdini 4 STD x64 A            : 3096   36  35   300    78.5 %   2871   30.3 %
01 Houdini 4 STD x64 A            : 3109   46  45   200    79.8 %   2871   27.5 %
01 Houdini 4 STD x64 A            : 3100   67  65   100    79.0 %   2870   26.0 %
Parent - By Frank Quisinsky Date 2014-01-05 01:47
Breche dann hier ab.
Die Infos sind auf meiner Webseite ...
Werde in den News dann noch berichten.

Frank's Chess Page
http://www.amateurschach.de

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-01-07 14:24
Hallo Frank,

du bietest auf deiner Seite ja auch die Historie deiner Tests, Werte jeweils nach ganzen Huntertern von Partien. Thanx.
Abgesehen davon, dass wir so einfach nachvollziehen können, wie sich das Endergebnis entwickelte, können wir deiner Meinung daraus noch irgendwas anderes ersehen?
Macht es einen Unterschied
- ob der endgültige ELO-Wert eigentlich die ganze Zeit über schon recht genau so angezeigt wurde
- ob die Werte anfangs viel niedriger waren und sich dann allmählich hochgescheukelt haben
- ob die Werte anfangs viel höher waren und sich dann allmählich runtergearbeitet haben?

Ich denke eigentlch, nein. Nur(!) die Werte am Ende haben die gesamte Aussagekraft in sich.
Siehst du das auch so?

Benno
Parent - - By Frank Quisinsky Date 2014-01-07 23:33 Edited 2014-01-07 23:39
Hallo Benno,

wir sind uns bestimmt einig über folgende Aussage!?
Je mehr Partien vorliegen desto genauer wird ein Rating.

Das heißt, dass die Wahrscheinlichkeit zu größeren Verschiebungen innerhalb des Messzeitraumes abnimmt, je mehr Partien vorliegen. Hat eine Engine nun z. B. 400 Partien gespielt und kommt nun ein kleiner Einbruch, hat dieser Einbruch kleinere Auswirkungen als wenn die Engine erst 200 Partien gespielt hat.

Sind während des Messzeitraumes überhaupt Einbrüche zu sehen?
Also ich behelfe mir immer mit einfachen Mitteln. Ich unterteile den Zeitraum von 1.000 Partien in 100er Schritten. Bedeutet eine Engine hat gegen 20 Gegner je 5 Partien gespielt. Nun schaue ich mir das erste Resultat an, setze das zweite, dritte, vierte bis zehnte drauf und kann sehr schön sehen ob es zu Einbrüchen gekommen ist oder nicht.

Frage an Dich ...
Wenn es 10x nicht zu einem Einbruch gekommen ist, wie groß ist die Wahrscheinlichkeit das es dann beim 11x Durchgang passieren würde wenn es diesen geben würde?

Nun hatten wir den Fall beim Equinox 2.02 x64 Test. Die Engine hatte direkt während der ersten 100 Partien den Einbruch. Schaukelt sich so langsam zur eigentlichen Spielstärke hoch nach 10 Durchgängen. Wir können anhand dieser 10 Stichproben leicht prognostizieren ob eine ELO vielleicht unter Wert ist oder über Wert ist. Wenn eine Engine 2 oder 3 Durchgänge zu gut gespielt hat oder zu schlecht gespielt hat ist die Wahrscheinlichkeit hoch das eine ELO zu niedrig oder hoch ist nach 1.000 Partien.

Ticke hier vielleicht ein bissel anders als andere erfahrene Ratinglistenbetreiber wie Gerhard oder Ingo oder Leser, welche die Ratinglisten intensiv verfolgen. Ich stelle mir immer die Frage, wie kann ich mit den geringsten Mitteln den größtmöglichen Erfolg erzielen um letztendlich auch darzustellen, dass Beobachter auch selbst ohne großem Aufwand eine vergleichbare Arbeit bewirken können. Für mich zählt Animation im Computerschach damit ich selbst aus den Arbeiten anderer profitieren kann. Aussagen wie 10.000 Partien sind notwendig etc. stehen dem im Weg weil es

1. Quatsch ist (es sei denn geringe ELO-Unterschiede von wirklich 1-3 Punkten sollen gemessen werden aber das ist eine Erwartungshaltung die in Wirklichkeit niemand haben kann. Bei einer vierstelligen Aussage in Leistung ist das nur eine Kommazahl. Es wäre so als mit Gewalt zu versuchen den Urknall zu errechnen als eine vierstellige Bewertungszahl exakt treffen zu wollen bei allen Beeinflussungsfaktoren die es im Schach gibt.

2. User werden verführt mit schnellen Zeiten spielen zu lassen um eine konkrete Aussage treffen zu können (User kann selbst Partien nicht mehr verfolgen um die Schönheit des Spiels zu genießen).

Ferner wird den Betrachter suggeriert, dass eine Rating nach 500 Partien nichts taugt und das ist falsch. Die Wahrscheinlichkeit das es um eine ErrBar abweicht bzw. überhaupt stärker abweicht ist sehr gering und stellt immer eine extreme Annahme da.

Also Benno ...
Der Weg ist das Ziel, das Endergebnis ist nur eine Zahl die zwar etwas aussagt aber mehr auch nicht. Der Weg dorthin lässt aber vermuten oder nicht. Wenn ich eine Rating feststelle, die zweifelhaft ist, liegt es Nahe sich die Entwicklung dieser Rating anzusehen und genau diese Entwicklung versuchte so einfach es geht darzustellen.

Ich denke das macht Sinn und ist für den Betrachter eine spannendere Information als ein bloßes Endergebnis. Ich hasse die Darstellung von bloßen Endergebnissen, ich persönlich kann damit gar nichts anfangen.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-01-07 23:47
Konnte nicht mehr editieren .... im letzten Satz zu viele Fehler (schreibe zu schnell).

Also, wenn ich schon veröffentliche (eine solch simple Arbeit, eine Ratingliste zu erstellen ist kein Kunstwerk) dann animierend für andere. Die SWCR2 wird auf einem Quad gespielt, einen Rechner hat jeder. Es macht Spaß zuzusehen, die SWCR2 ist ein Beispiel für ausgeknobelte gute Startvoraussetzungen. Die Beschäftigung mit Computerschach kann richtig Spaß machen und ich ticke da wie in früheren Zeiten. Ob nun ein Interview, ein Review oder eine Programmentwicklung. Eine Arbeit muss animierend sein.

Bei einer simplen Arbeit wie einer Ratingliste ist es schwieriger zu animieren und dann ist es für mich wieder reizvoll. Dann, wenn mit geringen Mitteln etwas festgestellt werden kann oder dann wenn die eigene Fantasie freien Lauf hat um in Bereichen etwas festzustellen die über den Horizont hinaus gehen.

Genug ...

Viele Grüße
Frank
Parent - By Chess Player Date 2014-01-08 10:08
Frank Quisinsky schrieb:

Hallo Benno,

wir sind uns bestimmt einig über folgende Aussage!?
Je mehr Partien vorliegen desto genauer wird ein Rating.

...


Hi, wenn diese Aussage das Fundament deiner umfangreichen Schlussfolgerungen
darstellt, dann wundert mich nichts mehr. Denn sie ist grundliegend total falsch!

Lediglich kann man nur sagen, falls die R-I-C-H-T-I-G-E Zahl zufällig getroffen wurde,
dann K-Ö-N-N-T-E sich die Genauigkeit eventuell erhöhen.

Nicht mehr und auch nicht weniger....

Alles nur Spekulationen ohne jegliche Relevanz...

Merke: Das Fundament jeglicher Thesen muss genügend stabil sein.
Parent - - By Benno Hartwig Date 2014-01-08 10:23 Edited 2014-01-08 10:26

> Je mehr Partien vorliegen desto genauer wird ein Rating.


+1!

> Wenn es 10x nicht zu einem Einbruch gekommen ist, wie groß ist die Wahrscheinlichkeit das es dann beim 11x Durchgang passieren würde wenn es diesen geben würde?


Na, ganz genau(!) so groß, wie wenn es während der ersten 10 Phasen zu diversen Einbrüchen und Höhenflügen gekommen wäre!

Wir haben hier nicht mit Menschen und deren Müdigkeit, Topform, Frust und Motivation zu tun.
Wir haben mit Engines zu tun, und wenn hier A gegen B spielen, dann gibt es 3 Wahrscheinlichkeiten für Sieg von A und von B und für Remis.
Und nur die bestimmen die Wahrscheinlichkeiten für den Ausgang der nun folgenden Partie und für die möglichen Ergebnisse der kommenden Phase.
Ob vorher eine Engines mehr Glück oder mehr Pech hatte, oder in welcher Reiehenfolge die Siege erfolgten, spielt hier absolut keine Rolle.
Eine Erinnerung an frühere Ergebnisse gibt es da nicht! (abgesehen von dem wohl sehr geringen Einfluss durch eventuel eingebautes Engine-Lernen)

Dass die Rahmenbedigungen gleich blieben, und dass die Engines unverändert (Version, Parameter, Buch...) spielten, musst du als Veranstalter natürlich sicherstellen.

Die Wahrscheinlichkeiten für die möglichen Ausgänge der nächsten 1 oder 10 Partien sind also genau gleich, ganz egal ob vorher ein
00000000000000000000====================11111111111111111111
oder
11111111111111111111====================00000000000000000000
oder eben
0=10=10=10=10=10=10=10=10=10=10=10=10=10=10=10=10=10=10=10=1
erfolgte.
Die aus diesen Ergebnissen ableitbaren Schätzungen für Spielstärkedifferenzen und Standabweichung sind meiner Meinung nach gleich.
Auch wenn das Gefühl ggf. manchmal etwas anderes suggerieren könnte.
Die bloße Reihenfolge, in der hier Ergebnisse auftauchen, spielt für Spielstärkeeinschätzungen keine Rolle.

Benno
Parent - - By Chess Player Date 2014-01-08 11:24
Benno Hartwig schrieb:

+1!

....
Die aus diesen Ergebnissen ableitbaren Schätzungen für Spielstärkedifferenzen und Standabweichung sind meiner Meinung nach gleich.
Auch wenn das Gefühl ggf. manchmal etwas anderes suggerieren könnte.
Die bloße Reihenfolge, in der hier Ergebnisse auftauchen, spielt für Spielstärkeeinschätzungen keine Rolle.

Benno


Einspruch Euer Ehren!

Vorab, damit es verständlicher wird:

Wenn jemand z.B. die Länge eines Gegenstandes bestimmen soll, dann muss derjenige in der Lage sein,
seine Werkzeuge richtig zu bedienen. Noch klar? Wenn man es präzise bestimmen will, dann sind weitere
Kenntnisse der Statistik erforderlich und wie man mit den Werkzeugen der Statistik umzugehen hat. Auch noch klar?

Soweit ist alles Klar.

Wenn man dann mit z.B. Elostat Datenbanken auswerten will, sollte man deiner Meinung nach erwarten, dass
die Elo Werte mit steigender Anzahl der Spiele immer näher dem sogenannten Wirklichen Wert annähern.
Und das ist Grundfalsch, wie jedermann sehr einfach mit Elostat feststellen kann. Schau dir mal die Errorbar an, nach 100 Spielen, 200 Spielen, u.s.w.... Und dann werte mal die Errorbar aus, so wie Du die Elowerte auswertest.... Da stellen sich erst die richtigen Fragen...
Parent - - By Benno Hartwig Date 2014-01-08 11:37

>> Die aus diesen Ergebnissen ableitbaren Schätzungen für Spielstärkedifferenzen und Standabweichung sind meiner Meinung nach gleich.
>> Auch wenn das Gefühl ggf. manchmal etwas anderes suggerieren könnte.
>> Die bloße Reihenfolge, in der hier Ergebnisse auftauchen, spielt für Spielstärkeeinschätzungen keine Rolle.


> Einspruch Euer Ehren!


Und welcher Aussage von mir widersprichts du konkret?
Ich diskutierte übrigens nicht Elostat und was das Tool tut, ich sprach über Wahrscheinlichkeiten und Standardabweichungen bei unveränderten Engines und Rahmenbedingungen.

Was war deiner Meinung nach falsch, und wie wäre es richtig?

Benno
Parent - - By Chess Player Date 2014-01-08 11:48 Edited 2014-01-08 11:54
Du anwortest auf die These von F.Q. "Je mehr Partien vorliegen desto genauer wird ein Rating." mit +1!

Und ich sagte dazu sinngemäss: Wenn man schon solche Behauptungen in die Welt postet, dann sollte man
auch seine Werkzeuge richtig bedienen? Ist das sooo unverständlich? 
Parent - - By Benno Hartwig Date 2014-01-08 13:08 Edited 2014-01-08 13:14

> Ist das sooo unverständlich?


Sagen wir mal: genügend unklar!
Angesichts der Tatsache, dass sich mein Posting auf Wahrscheinlichkeiten und Standardabweichungen in einer längeren Serie von Partien bezog (Und immerhin zitiertest du ja auch genau diese Sätze von mir!), dass ich nicht irgendein Werkzeug im Auge hatte, war es mir nicht klar, dass du jetzt auf die Besonderheiten eines Tools abheben wolltest.

Nein, du hast recht, von der genauen Arbeitsweise und der konkreten Bedeutung(!!) der Ergebnisse von z.B. ELOSTAT wüsste ich wohl zu wenig.
In einem anderen Thread schrieb ich ja auch schon, wie sehr mich diese Ergebnisse auch überraschen konnten.

Benno
Parent - - By Chess Player Date 2014-01-08 13:22
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=71941#pid71941

Ansatzweise kann man hier erkennen was so alles mit der Statistik angestellt werden kann...
Parent - By Benno Hartwig Date 2014-01-08 14:02

> Ansatzweise kann man hier erkennen was so alles mit der Statistik angestellt werden kann...


Sorry, habe ich noch nicht können.
Worauf muss man denn blicken, um darin etwas 'mit der Statistik Angestelltes'  erkennen zu können?

Inwieweit Elostat tatsächlich Statistik macht, vermag ich auch nicht zu sagen.
Der Programmierer und wohl auch Arpad Elo haben vermutlich auch ihren besonderen Logik-Teil beigetragen.

Benno
Parent - - By Gerhard Sonnabend Date 2014-01-08 12:48
Chess Player schrieb:

[...snip...]
Wenn man dann mit z.B. Elostat Datenbanken auswerten will, sollte man deiner Meinung nach erwarten, dass
die Elo Werte mit steigender Anzahl der Spiele immer näher dem sogenannten Wirklichen Wert annähern.
Und das ist Grundfalsch, wie jedermann sehr einfach mit Elostat feststellen kann. Schau dir mal die Errorbar an, nach 100 Spielen, 200 Spielen, u.s.w.... Und dann werte mal die Errorbar aus, so wie Du die Elowerte auswertest.... Da stellen sich erst die richtigen Fragen...


Weshalb sollte ELO-Stat falsch auswerten ?
Und selbstverständlich werden die Errorbars kleiner je mehr Spiele absolviert wurden !
Nur in Extremfällen, welche ohnehin niemals in der Praxis vorkommen, ist die Ausgabe
etwas "eigenartig". Dies betrifft jedoch nur Serien, in welchen sehr (zu ?) wenig Remis
gespielt wurden, zum Beispiel:
Code:

Wins   = 20
Draws  = 160
Losses = 20
Av.Op. Elo = 2700

Result     : 100.0/200 (+20,=160,-20)
Perf.      : 50.0 %
Margins    :
68 %      : (+  1.6,-  1.6 %) -> [ 48.4, 51.6 %]
95 %      : (+  3.1,-  3.1 %) -> [ 46.9, 53.1 %]
99.7 %    : (+  4.7,-  4.7 %) -> [ 45.3, 54.7 %]

Elo        : 2700
Margins    :
68 %      : (+ 11,- 11) -> [2689,2711]
95 %      : (+ 22,- 22) -> [2678,2722]
99.7 %    : (+ 33,- 33) -> [2667,2733]

und zum Vergleich
Code:

Wins   = 80
Draws  = 40
Losses = 80
Av.Op. Elo = 2700

Result     : 100.0/200 (+80,=40,-80)
Perf.      : 50.0 %
Margins    :
68 %      : (+  3.1,-  3.1 %) -> [ 46.9, 53.1 %]
95 %      : (+  6.2,-  6.2 %) -> [ 43.8, 56.2 %]
99.7 %    : (+  9.4,-  9.4 %) -> [ 40.6, 59.4 %]

Elo        : 2700
Margins    :
68 %      : (+ 22,- 22) -> [2678,2722]
95 %      : (+ 43,- 43) -> [2657,2743]
99.7 %    : (+ 66,- 66) -> [2634,2766]
Parent - By Chess Player Date 2014-01-08 13:18
Gerhard Sonnabend schrieb:

Weshalb sollte ELO-Stat falsch auswerten ?


Das habe ich nicht behauptet. Nur die Schlussfolgerungen aus den Berechnungen von Elostat muss man richtig ziehen...

Du hast ein gutes Beispiel hier veröffentlicht. Schau genau hin! Noch genauer... Und überlege was man dazu zu sagen hat.
Parent - - By Benno Hartwig Date 2014-01-08 13:31 Edited 2014-01-08 13:34
Ich brauche nochmal Nachhilfe: Worin besteht das Eigenartige?

Dass die Remiswahrscheinlichcket bei 80/40/80 als kleiner eingeschätzt wird als bei 20/160/20 überrascht ja nicht.
Dass dann auch die Streuung als größer angesehen wird und dass die 3 Intervalle dann breiter werden, ist ja auch zu erwarten.

Oder meintest du was anderes mit "Eigenartig"?

Benno
Parent - - By Gerhard Sonnabend Date 2014-01-08 14:51
Ich meinte die Margins:
95 %      : (+ 22,- 22) -> [2678,2722]
und
95 %      : (+ 43,- 43) -> [2657,2743]

Es geht noch extremer:
Code:

Wins   = 0
Draws  = 1
Losses = 0
Av.Op. Elo = 2700

Result     : 0.5/1 (+0,=1,-0)
Perf.      : 50.0 %
Margins    :
68 %      : (+  0.0,-  0.0 %) -> [ 50.0, 50.0 %]
95 %      : (+  0.0,-  0.0 %) -> [ 50.0, 50.0 %]
99.7 %    : (+  0.0,-  0.0 %) -> [ 50.0, 50.0 %]

Elo        : 2700
Margins    :
68 %      : (+  0,-  0) -> [2700,2700]
95 %      : (+  0,-  0) -> [2700,2700]
99.7 %    : (+  0,-  0) -> [2700,2700]

und
Code:

Wins   = 1
Draws  = 0
Losses = 0
Av.Op. Elo = 2700

Result     : 1.0/1 (+1,=0,-0)
Perf.      : 100.0 %
Margins    :
68 %      : (+  0.0,-  0.0 %) -> [100.0,100.0 %]
95 %      : (+  0.0,-  0.0 %) -> [100.0,100.0 %]
99.7 %    : (+  0.0,-  0.0 %) -> [100.0,100.0 %]

Elo        : 3300
Margins    :
68 %      : (+  0,-  0) -> [3300,3300]
95 %      : (+  0,-  0) -> [3300,3300]
99.7 %    : (+  0,-  0) -> [3300,3300]

Aber wie gesagt (geschrieben), für die Praxis hat das keine Bedeutung.
Parent - - By Benno Hartwig Date 2014-01-08 16:27

> Ich meinte die Margins:
> 95 %      : (+ 22,- 22) -> [2678,2722]
> und
> 95 %      : (+ 43,- 43) -> [2657,2743]


Und warum sind die "Eigenartig"?

Wenn vermutet wird, dass eine hohe Remiswahrscheinlichkeit besteht, dann müssen die Intervalle doch enger sein?
Wenn das nicht  so herauskommen würde, dann würde die Rechnung doch nichts taugen, oder?

Dass solche Schätzungen Quark sind, wenn nur wenige Partien gespielt wurden, ist sicher richtig.
Aber wenn etliche Hundert Partien gespielt wurden, dann ist auch eine Schätzung der Remiswahrscheinlichkeit möglich und sinnvoll.
Und die Ergebnisverteilung ist bei gleichstarken Spielenr eben sehr unterschiedlich, wenn ihre Wahrscheinlichkeiten für Sieg_A, Remis, Sieg_B beispielsweise sind:
0; 1; 0 ("immer nur remis")
oder
1/3; 1/3; 1/3 ("alle 3 Ausgänge gleichwahrscheinlich")
oder
1/2; 0; 1/2 ("nie remis")

Das muss sich dann doch in sehr unterschiedlich breiten Intervallen und deutlich unterschiedlichen Margins niederschlagen.

Benno
Parent - By Gerhard Sonnabend Date 2014-01-08 17:14
Stimmt natürlich.
Ich nehme das "eigenartig" zurück.
Parent - - By Frank Quisinsky Date 2014-01-08 17:23
Hi,

dem ist nicht so Benno.
Deine Aussage kann nicht stimmen ...

Je mehr Partien vorliegen desto geringer werden die Auswirkungen von "Einbrüchen".
Wenn bei 10 Stichproben mit je 100 Partien nichts zu sehen ist, ist es nach jeder Wahrscheinlichkeitsrechnung, und das kannst Du drehen und wenden wie Du willst "äußerst Unwahrscheinlich" das es zu einem Einbruch in Serie ... also mehrere 100er Serien kommen wird. Das ist leider das Gesetz der Statistik.

Also, hat nicht mit Glück oder Pech, sondern knallharter und logsicher Statistik zu tun.
Und ich rede nicht von einer 10er Serie, sondern von 10 100er Serien.

Wie gesagt, ich kann die vielen Äußerungen hierzu nicht teilen, wie auch ... ich hatte solche statistischen Aussetzer noch nie um denen sich das Handeln von so vielen Ratinglistenbetreibern geht. Meiner Meinung wird das Thema künstlich aufgepuscht. Kann auch im wahren Leben nicht davon ausgehen das mich bei einer Wahrscheinlichkeit von x der Blitz trifft und jeden Tag darüber diskutieren wann das passieren wird.

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-01-09 11:35

> Je mehr Partien vorliegen desto geringer werden die Auswirkungen von "Einbrüchen".


Stimmt, über alle Partien betrachtet.
Ich hatte es auf solch einen Hunderter-Block bezogen gemeint.
Und der einzelne Hundert-Block kann natürlich auch nach 10000 Partien abweichen, genau so wie jeder andere 100er-Block.
Aber so meintest du es wohl gar nicht.

Mir geht es darum zu sagen, dass der Werdegang eines Ergebnisses,
- ob das eigentlich schon lange so gezeigt wurde,
- oder ob man sich erst von unten oder oben herangearbeitet hat,
keinerlei Änderung der Wahrscheinlichkeitenschätzung rechtfertigt, die sich einfach aus dem letzten Stand ergibt.

Auf solch eine Idee könnte man halt ggf. kommen.
Und womöglich meinstes du das auch nicht.

Dann sollte ich jetzt endlich meinen Schnabel halten.
Benno
Parent - - By Gerhard Sonnabend Date 2014-01-09 11:50
Ich dokumentiere etwas ähnliches (jedoch 50er-Blöcke) seit Oktober
letzten Jahres für unsere neue CEGT 5'+3" pb=on Liste, siehe hier:
http://www.husvankempen.de/nunn/5Plus3Rating/5Plus3AllVersion/stats/stats.htm
Parent - - By Frank Quisinsky Date 2014-01-09 12:59
Hallo Gerhard,

sehr gut !!!
Machst Dir Gedanken etwas vernünftig darzustellen und auch hinsichtlich der Berechnungen wie ich hier sehen kann.
Auch wenn sich Meinungen nicht decken ...

Nur wenn Dinge wirklich diskutiert werden werden die Fehler erkannt.
Und das auf den Weg dahin auch viele Denkfehler drin sind, ist nicht wichtig ... die können korrigiert werden.

Aber sich auszuruhen auf irgend etwas was mal irgend jemand gemacht hat ... wir würden heute immer noch mit der Keule rumlaufen.
Viele tun das ja ... auch in Ihren Formulierungen anderen gegenüber.

Das führt nicht dazu etwas zu verbessern
Die Darstellung einer Ratingliste mit deutlich mehr und sinnvollen Informationen muss verbessert werden.
Die Ausgaben der Berechnungsprogramme müssen verbessert werden.
Teilweise müssen die Berechnungen korrigiert werden (fehlerhafte ErrBar).

Wie gesagt, es kann nicht angehen das bei egal wie vielen Gegnern und gleicher Anzahl von Partien die Errbar immer die gleiche ist. Das ist unlogisch und falsch.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-01-09 13:17
Frank Quisinsky schrieb:

[...snip...]
Wie gesagt, es kann nicht angehen das bei egal wie vielen Gegnern und gleicher
Anzahl von Partien die Errbar immer die gleiche ist. Das ist unlogisch und falsch.

Das konnte ich so bisher nicht feststellen. Bei mir (uns) ändern sich die
Errorbars, sie werden immer kleiner je mehr Spiele absolviert wurden.
Hast Du ein Beispiel dafür oder verstehe ich etwas falsch ?

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-01-09 22:18
Hi Gerhard,

bei der gleichen Anzahl Spiele sind die ErrBar Ausgaben immer gleich.
Also z. B. 4000 Spiele und ErrBar ist bei +-10

Ob die 4.000 Spiele nun mit 1, 10, 100 etc. Gegner(n) ermittelt wurden geht in die Berechnung nicht ein.

Insofern kann die ErrBar nicht korrekt sein.

Denn ich habe +-10 bei 4.000 Spiele zweier Engines
oder ich habe +-10 bei 4.000 Spiele mit 20 Engines.

Je mehr Gegner bei 4.000 Partien eingesetzt wurden, desto niedriger müsste die ErrBar sein. Je weniger Gegner bei 4.000 Partien eingeflossen sind desto höher müsste die ErrBar sein.

Gruß
Frank
Parent - By Hauke Lutz Date 2014-01-09 22:23
Stimmt. Dies hat ja auch RH feststellen dürfen, als er meinte H4 sei 50 Elo stärker als H3.
Parent - - By Frank Quisinsky Date 2014-01-09 12:42 Edited 2014-01-09 12:47
Hi Benno,

könnten aus einen hunderter Block natürlich bei der Betrachtungsweise auch einen 1000er Block machen oder einen 10.000er Block.
Oder wir machen bei 20 Gegnern einfacher einen 20er Block.

Den 20er Block habe ich auch schon gemacht.
Mittels dieser Blöcke könnten statistische Ausgaben deutlich besser berechnet werden.

Meine, ich gehe nicht hin und stülpe Wahrscheinlichkeitstheorien oder Statistik einfach auf eine Schachdatenbank. Das wäre so als wenn ich Äpfel mit Birnen ...
Gehe eher hin und versuche eine für Schach spezifische Wahrscheinlichkeitsformel zu kreieren bzw. diese dann anzuwenden.
Schach ist zu komplex für einfache statistische Grundaussagen.

Und diese lässt sich sehr einfach anhand von den vielen riesigen Datenbanken, die wir im Computerschachbereich ja haben, erstellen oder simulieren.

Grundsätzlich gehe ich immer von x90 aus.
Das heißt so lange dauert eine durchschnittliche Partie in etwa bei 2.800- 2.900 ELO.
x88 bei in etwa 2.700 - 2.800 ELO.

69% Partieentscheidungen zwischen Zug Nummer 55 - 65.
Hierauf müssen Gewichtungen liegen, denn nicht alle Programme spielen gleiches Schach und haben andere Stärken und Schwächen (wird gerne runtergeredet damit Statistiken plausibler erscheinen).

Normale Statistik könnte meines Erachtens dann auf Schachdatenbanken angewendet werdenm wenn wir in jeder Partiephase die gleiche Anzahl von Partieentscheidungen hätten.

Nehmen wir:
Mittelspiel = 33%
Übergang Endspiel = 33%
Endspiel = 33%

Wenn das der Fall, so meine Logik, könnte ich die bekannten und herkömmlichen Wahrscheinlichkeitstheorien bezogen auf 1:0, 0:1 oder 0.5 : 0.5 anwenden.

Für mich sind viele Dinge unlogisch bei der Berechnung von Spielstärke bei Schachprogrammen.

Zurück zu den 20er Blocks ...
52% der 20er Blocks treffen das Endergebnis bei einer Abweichung von +-10
84% der 100er Blocks treffen das Endergebnis bei einer Abweichung von +-10
... 1000er Blocks habe ich noch nicht hochgerechnet aber ich vermute ich lande bei 95-98%.

Anhand dieser Blockspielchen zuzüglich einer angemessenen Berechnung zur Remisquote nach Partiephase und Gewinn- Verlustquoten nach Partiephasen (je nach durchschnittlicher ELO der Datenbank bzw. auch Partielänge) müsste sich meines Erachtens eine ErrBar berechnen. Wie genau weiß ich jetzt auch nicht

Wäre einfach schöner in einer Ratingliste wenn solche Dinge dargestellt werden, dass diese dann nicht auf Computerschach bezogen willkürlich berechnet werden sondern "themenentsprechend".

Ferner, setze ich 10 100er Blocks aufeinander ... verringere ich durch diese Spielerei keine möglichen statistischen Aussetzer aber ich sehe mit sehr großer Wahrscheinlichkeit anhand dieser Stichproben ob ein Ergebnis sich vielleicht weiter nach unten oder oben - mit mehr Partien - korrigieren könnte (hinreichende Wahrscheinlichkeit und die ist anwendbar). Einfach, weil ich ablesen kann ob schlechte oder gute Serien dabei waren.

Gruß
Frank
Parent - - By Benno Hartwig Date 2014-01-09 14:05 Edited 2014-01-09 14:13
Thanx für deine Ausführungen, Frank.

>Ferner, setze ich 10 100er Blocks aufeinander ... verringere ich durch diese Spielerei keine möglichen statistischen Aussetzer aber ich sehe mit sehr großer Wahrscheinlichkeit anhand dieser Stichproben ob ein Ergebnis sich vielleicht weiter nach unten oder oben - mit mehr Partien - korrigieren könnte (hinreichende Wahrscheinlichkeit und die ist anwendbar). Einfach, weil ich ablesen kann ob schlechte oder gute Serien dabei waren.


Dass dir diese Blocks das verraten, dass das Auftreten irgendwelcher guten oder schlechten Serien dir hier irgendeine Prognose oder das Annehmen einer auswertbaren Tendenz verraten, bezweifele ich.
Ich habe den Eindruck, du hast das Gefühl, dass es so sein müsste. Mehr nicht.
Und ich denke, dies anzunehmen ist falsch (ohne, dass ich dir jetzt einen mathematischen Beweis präsentieren könnte).

Die Reihenfolge des Auftretens von Ereignissen bei unveränderten Engines und Rahmenbedingungen gestattet hier keine Rückschlüsse.
So gern wir dies auch möchten.
"Zeitliche Reihenfolge" ist in der Betrachtung auch nur eine einzige in einer Menge von sehr vielen möglichen Reihenfolgen, die dich zu anderen Ergebnissen führen würden.

Aber da ich das jetzt nicht wirklich beweisen kann, musst du mich natürlich auch nicht überzeugend finden.

Benno
Parent - By Frank Quisinsky Date 2014-01-09 22:37
Hi Benno,

bin eher der Praktiker und werte auch aus was ich ermittle. Für mich ist es unsinnig nur eine vierstellige Zahl in den Raum zu stellen.
Und zu solchen Schlussfolgerungen kann ich logischer Weise auch nur kommen wenn ich Daten und Ergebnisse auswerte.

Ob diese dann wirklich immer treffen ist eine andere Geschichte. Menschen unterscheiden sich nicht zuletzt durch ihre Logik.
Aber so lange ich nichts gegenteiliges in den Auswertungen sehe gehe ich davon aus das ...
Finde ich auch irgendwie logisch bzw. stelle in Frage wenn nach Erkenntnissen festgestelltes eigentlich widersprüchlich ist.

Die nächsten Computerschachjahre werden ins Land ziehen und komplexere Ding werden mehr und mehr aufgeklärt werden.
Da spielt die Zeit einfach für uns.

Viele Grüße
Frank
Parent - By Karl Knall Date 2014-01-06 14:53
H spielt wie Kramnik! Das ist das Geheimnis welches bis jetzt noch unbekannt war.
- - By guest Date 2014-01-07 13:47
basiert Houdini 4 zum Teil auch auf den Stochfish sources ? diese sources kann jeder einsehen und doch in eigene Engine einbauen, und keiner kann es prüfen, weil es davon nur compiles gibt.
Up Topic Hauptforen / CSS-Forum / SWCR2: Houdini 4 STD x64 A ... erste Eindrücke!
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill