LS-Rangliste: Stockfish 130910

By Benno Hartwig Date 2013-09-16 05:26

[quote="Stefan Pohl"]The result of Stockfish 130910 is now online. [/quote]Und Stockfish hat 'Houdini 2.0c x64' jetzt direkt ins Nah-Visier genommen.
Benno

By Stefan Pohl Date 2013-09-16 05:32

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]The result of Stockfish 130910 is now online. [/quote]Und Stockfish hat 'Houdini 2.0c x64' jetzt direkt ins Nah-Visier genommen.
Benno
[/quote]

Stimmt. Und Komodo CCT ist nun auch eingeholt (im LS top 10 tournament fehlen da allerdings ein paar Pünktchen). Aber bis Houdini 3 ist es noch ein gutes Stück (60 Elo). Und Houdini 4 ist für November angekündigt. Nummer 1 wird Stockfish also sobald wohl noch nicht. Aber Nummer 2 wird Stocki sehr bald sein. Auch interessant: Stockfish hat nun im LS top10 tournament gegen alle Gegner außer Houdini eine positive Bilanz (also alle Matches mehr als 50%, bis auf Houdini), auch gegen Komodo CCT (siehe dazu die Kreuztabelle).

Stefan

By Benno Hartwig Date 2013-09-16 06:17

[quote="Stefan Pohl"]Stockfish hat nun im LS top10 tournament gegen alle Gegner außer Houdini eine positive Bilanz (also alle Matches mehr als 50%, bis auf Houdini), auch gegen Komodo CCT (siehe dazu die Kreuztabelle). [/quote]Und gegen die Schwächeren wohl erst recht.
Kann es sein, dass Stockfisch gegen diese Schwächeren aber nicht so deutlich punktet, wie man es vielleicht erwartet?
Benno

By Stefan Pohl Date 2013-09-16 10:35

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Stockfish hat nun im LS top10 tournament gegen alle Gegner außer Houdini eine positive Bilanz (also alle Matches mehr als 50%, bis auf Houdini), auch gegen Komodo CCT (siehe dazu die Kreuztabelle). [/quote]Und gegen die Schwächeren wohl erst recht.
Kann es sein, dass Stockfisch gegen diese Schwächeren aber nicht so deutlich punktet, wie man es vielleicht erwartet?
Benno
[/quote]

Aufgrund der nach wie vor vorhandenen unschönen Eigenart von Stockfish gerne recht früh in Remisen durch Zugwiederholung einzuschwenken, kann es durchaus sein, daß gegen schwächere Gegner weniger Punkte eingefahren werden, als eigentlich möglich wäre. Das ist einer der Gründe, warum es den Remisfaktor gibt (glücklicherweise auch in Stockfish). Da man diesen aber in Ranglistentests natürlich nicht verändern darf, ist dieses Problem einer der wesentlichen Gründe, warum ich es hochproblematisch finde, sehr starke Engines gegen sehr schwache spielen zu lassen (in Ranglistentests). Dies war einer der Schwachpunkte in der IPON, nämlich die viel zu große Gegnerbandbreite. Sicher denkbar, daß das einer der Gründe ist, warum Stockfish von Version 3 auf 4 dort nicht so stark zulegte, wie in der LS-Rangliste.
Dies ist der sogenannte Autismus-Effekt, nämlich daß die Engine eben nicht weiß, wie stark der Gegner ist und daher immer annimmt, er wäre stark. Es sei denn, man teilt der Engine per Remisfaktor mit, daß der Gegner eben nicht stark ist (das ist ja der Sinn des Remisfaktors). Nur das geht eben in einem Ranglistentest nicht, da muß mit default-Einstellungen getestet werden. Daher eben mein prinzipieller Entschluß, nur die 10 besten Engines (und den Fixpunkt Robbolito0.085 (=Ur-Ippolit von 2009)) als Gegner zuzulassen.

Stefan

By Dieter Eberle Date 2013-09-16 10:45

Hi Stefan,
die Version vom 12.09. hat in einem Schnelltest tolle Resultate erzielt:

Critter16a-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +56 +26/=64/-10 58.00%   58.0/100
2   Critter 1.6a 64-bit gtb    -56 +10/=64/-26 42.00%   42.0/100

Houdini3pro-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +24 +32/=43/-25 53.50%   53.5/100
2   Houdini 3 Pro x64    -24 +25/=43/-32 46.50%   46.5/100

Gespielt wurde auf einem i5 Rechner mit Vorgabestellungen (Silversuite), Zeitkontrolle 1m + 1s, 4 threads pro engine und Pondern.
Mir ist klar, dass 200 Partien noch viel zu wenig sind, um aussagekräftig zu sein.
Aber die Resultate sind sehr appetitanregend.
Gruß, Dieter

By Stefan Pohl Date 2013-09-16 10:52

[quote="Dieter Eberle"]
Hi Stefan,
die Version vom 12.09. hat in einem Schnelltest tolle Resultate erzielt:

Critter16a-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +56 +26/=64/-10 58.00%   58.0/100
2   Critter 1.6a 64-bit gtb    -56 +10/=64/-26 42.00%   42.0/100

Houdini3pro-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +24 +32/=43/-25 53.50%   53.5/100
2   Houdini 3 Pro x64    -24 +25/=43/-32 46.50%   46.5/100

Gespielt wurde auf einem i5 Rechner mit Vorgabestellungen (Silversuite), Zeitkontrolle 1m + 1s, 4 threads pro engine und Pondern.
Mir ist klar, dass 200 Partien noch viel zu wenig sind, um aussagekräftig zu sein.
Aber die Resultate sind sehr appetitanregend.
Gruß, Dieter


[/quote]

Die Version vom 15.09. läuft gerade bei mir im LS-testrun (letzter Test vor meiner kurzen 2-3 wöchigen Pause aus privaten Gründen), und es sind auch schon etwa 2500 Partien absolviert. Bisher nur +2 Elo zur letzten getesteten Version vom 10.09.

Stefan

By Stefan Pohl Date 2013-09-16 11:03

[quote="Stefan Pohl"]
[quote="Dieter Eberle"]
Hi Stefan,
die Version vom 12.09. hat in einem Schnelltest tolle Resultate erzielt:

Critter16a-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +56 +26/=64/-10 58.00%   58.0/100
2   Critter 1.6a 64-bit gtb    -56 +10/=64/-26 42.00%   42.0/100

Houdini3pro-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +24 +32/=43/-25 53.50%   53.5/100
2   Houdini 3 Pro x64    -24 +25/=43/-32 46.50%   46.5/100

Gespielt wurde auf einem i5 Rechner mit Vorgabestellungen (Silversuite), Zeitkontrolle 1m + 1s, 4 threads pro engine und Pondern.
Mir ist klar, dass 200 Partien noch viel zu wenig sind, um aussagekräftig zu sein.
Aber die Resultate sind sehr appetitanregend.
Gruß, Dieter


[/quote]

Die Version vom 15.09. läuft gerade bei mir im LS-testrun (letzter Test vor meiner kurzen 2-3 wöchigen Pause aus privaten Gründen), und es sind auch schon etwa 2500 Partien absolviert. Bisher nur +2 Elo zur letzten getesteten Version vom 10.09.

Stefan
[/quote]

Da Marco einen neuen Zeit-Patch veröffentlicht hat, starte ich nun doch noch ein letztes Mal neu mit der neuen Version von heute, da die Version vom 15.9. (s.o.) kein nennenswerter Fortschritt ist...

Stefan

By Dieter Eberle Date 2013-09-16 12:30

Hi Stefan,
die Developer Versionen nach der vom 12.09. sahen bei mir schlechter aus. Ich habe aber nicht viele Partien damit ausgetragen.
Vielleicht mache ich mit der vom 12.09. noch einmal einen etwas längeren Test.
Gruß, Dieter

By Stefan Pohl Date 2013-09-16 13:08

[quote="Stefan Pohl"]

Da Marco einen neuen Zeit-Patch veröffentlicht hat, starte ich nun doch noch ein letztes Mal neu mit der neuen Version von heute, da die Version vom 15.9. (s.o.) kein nennenswerter Fortschritt ist...

Stefan
[/quote]

Der neue Zeitpatch ist offensichtlich daneben gegangen. Ich mußte den Testlauf von Stockfish 130916 abbrechen, nachdem ich in weniger als 50 Partien 2 timelosses von Stockfish hatte. Das hat es bisher noch nie gegeben. Habe das im FishCooking-Chat Marco auch schon gemeldet.
Also werde ich wohl jetzt mal meine Testpause machen, bis zur zweiten Oktoberwoche sollte das Problem behoben werden können...

Stefan

By Patrick Götz (Mod.) Date 2013-09-16 14:12

Ich hatte das auch, als ich auf 4 Kernen gleichzeitig getestet habe. Da können Fremdeinwirkungen (vom OS) schon mal etwas dazwischenfunken. Auf 3 Kernen (so wie im Stockfish-Framework) gab es bei mir aber keine Probleme.

By Stefan Pohl Date 2013-09-16 14:23

[quote="Patrick Götz"]
Ich hatte das auch, als ich auf 4 Kernen gleichzeitig getestet habe. Da können Fremdeinwirkungen (vom OS) schon mal etwas dazwischenfunken. Auf 3 Kernen (so wie im Stockfish-Framework) gab es bei mir aber keine Probleme.
[/quote]

Ich teste z.Zt. zwecks Schonung meiner Hardware seit ich 2 baugleiche Notwbooks habe, immer nur mit 3 von 4 Cores auf beiden Notebooks, so auch bei diesem Testlauf. Außerdem habe ich mit den vielen Stockfischen schon insgesamt über 100000 Partien gemacht, und hatte noch nie auch nur einen einzigen timeloss. Auch nicht, wenn alle 4 Cores liefen. Unter LS-Bedingungen gibt es ja 500ms Fischerbonus pro Zug. Da kann das OS ruhig mal dazwischenfunken. 500ms sind auf einem modernen Rechner eine lange, lange Zeit.
Marco hat mich gebeten den Testlauf fortzusetzen, also habe ich ihn neu gestartet und lasse ihn zumindest mal bis morgen laufen. Wenn dann 2000+ Partien gespielt sind, schau ich mal, wie es aussieht und wieviel timelosses es insgesamt gegeben hat. Bis zum Ende werde ich den Test wohl nicht laufen lassen, da ich ja auch jetzt mal für 2-3 Wochen das Testen aus privaten Gründen ruhen lasse. Daher kann ich mich jetzt nicht so beim Stockfish-debugging einklinken, wie ich es sonst sicher gerne mal tun würde.

Stefan

By Stefan Schiffermüller Date 2013-09-16 15:50

By Benno Hartwig Date 2013-09-16 16:02

[quote="Stefan Schiffermüller"]Man könnte auch mit 4 Kernen testen bei eingeschalteten Hyperthreading.[/quote]Mir ist immer noch unklar:
Solch ein realer Kern im 1-core-Enginebetrieb mit Hyperthreading, wenn der ansonsten nix zu tun hat: schafft der genauso viel weg wie ein Kern ohne Hyperthreading?
Ich befürchte aus dem Bauch heraus: nein. Aber ich bin unsicher.
Benno

By Stefan Schiffermüller Date 2013-09-16 16:13

[quote="Benno Hartwig"]
[quote="Stefan Schiffermüller"]Man könnte auch mit 4 Kernen testen bei eingeschalteten Hyperthreading.[/quote]Mir ist immer noch unklar:
Solch ein realer Kern im 1-core-Enginebetrieb mit Hyperthreading, wenn der ansonsten nix zu tun hat: schafft der genauso viel weg wie ein Kern ohne Hyperthreading?
Ich befürchte aus dem Bauch heraus: nein. Aber ich bin unsicher.
[/quote]Ich würde aus dem Bauch heraus eher sagen: ja. Ich bin aber auch unsicher und habe leider keinen Rechner mit Hyperthreading, um das auszutesten.

By Benno Hartwig Date 2013-09-16 16:17

[quote="Stefan Schiffermüller"]Man könnte auch mit 4 Kernen testen bei eingeschalteten Hyperthreading.[/quote]Hat mal jemand angesehen, welche 4 Threads von den 8 logisch verfügbaren Kernen aufgebaut werden?
Kann z.B. auch passieren, dass 4 Threads genutzt werden, die auf 2 Kernen (Hyperthreading eben) laufen, während die anderen beiden realen Kerne sich langweilen?
Ich traue Windows oder auch dem Prozessor(?) zu, dass es das schon besser regelt. Aber eine Überprüfung wäre das schon wert. Wäre ja sonst zu blöd.

Benno

By Michael Scheidl Date 2013-09-16 17:21

Es lebt sich leichter wenn man solche Sorgen nicht hat.

By Peter Martan Date 2013-09-16 17:48

Der war gut.

By Benno Hartwig Date 2013-09-16 10:55

[quote="Dieter Eberle"]... 4 threads pro engine und Pondern.[/quote]Thanx für die interessanten ersten Infos.
Wie hast du denn 4threads und pondern realisiert?
Hast du eine 8-Kern-Maschine? Oder hast irgendwie zwei 4-Kern-Rechner verbunden?
Benno

By Dieter Eberle Date 2013-09-16 12:23

Hi Benno,
4 threads und ponder off muss es natürlich heißen.
Danke für den Hinweis.
Gruß, Dieter

By Clemens Keck Date 2013-09-17 12:14

AHA !!

By Klaus Meier Date 2013-09-16 14:58

[quote="Dieter Eberle"]
Hi Stefan,
die Version vom 12.09. hat in einem Schnelltest tolle Resultate erzielt:

Critter16a-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +56 +26/=64/-10 58.00%   58.0/100
2   Critter 1.6a 64-bit gtb    -56 +10/=64/-26 42.00%   42.0/100

Houdini3pro-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +24 +32/=43/-25 53.50%   53.5/100
2   Houdini 3 Pro x64    -24 +25/=43/-32 46.50%   46.5/100

Gespielt wurde auf einem i5 Rechner mit Vorgabestellungen (Silversuite), Zeitkontrolle 1m + 1s, 4 threads pro engine und Pondern.
Mir ist klar, dass 200 Partien noch viel zu wenig sind, um aussagekräftig zu sein.
Aber die Resultate sind sehr appetitanregend.
Gruß, Dieter


[/quote]

In den 100 Spielen gegen Critter ist die Stockfishleistung
um 56 Punkte höher als die aktuelle ELO von Critter
Also : Stockfish : 3072 + 56 =3128

In den 100 Spielen gegen Houdini3 ist die Stockfishleistung
24 Punkte höher als die aktuelle ELO von Houdini3.
Also : Stockfish : 3148 +24 = 3172

Demnach könnte die Leistung von Stockfish so etwa zwischen 3128 bis 3172 sein.
stockfish4 hat 3094
sieht nacheiner vielversprechenden Verbesserung gegenüber stockfish4 aus.
Weiter so !

By Dieter Eberle Date 2013-09-16 15:20

Die 200 Partien sind statistisch gesehen viel zu wenig, um Rückschlüsse auf eine mögliche ELO-Verbesserung zu erlauben.
Dennoch scheint es nur eine Frage der Zeit, wann Stockfish an Houdini vorbeizieht. Es ist großartig, was das Stockfish Team leistet.
Gruß, Dieter

By Klaus Meier Date 2013-09-16 15:34 Edited 2013-09-16 15:37

Hi Dieter

in dem aktuellen nTCEC Turnier Stage1 ist Stockfish4 aktuell vor Houdini3.
sieht ganz gut aus.

0001 Bouquet 1.8    5.0 22.00 0.0 3070 0022:b+ 0011:w= 0012:b+ 0010:w+ 0002:b= 0004:w+ 0003:b*
0002 Gull 2.2 4.5 23.50 0.0 3062 0021:w+ 0019:b+ 0003:w+ 0004:b= 0001:w= 0005:b= 0006:w*
0003 Equinox 2b 4.5 19.50 0.0 3051 0032:b+ 0023:w+ 0002:b- 0009:w= 0018:b+ 0012:w+ 0001:w*
--> 0004 Stockfish 4    4.0 22.50 0.0 3094 0013:b+ 0026:w+ 0010:b= 0002:w= 0011:w+ 0001:b- 0007:w*
0005 Komodo 1063    4.0 22.00 0.0 3085 0016:b+ 0012:w= 0009:b= 0026:w+ 0006:b= 0002:w= 0010:b*
--->   0006 Houdini 3    4.0 21.50 0.0 3148 0020:w+ 0017:b= 0007:w+ 0011:b= 0005:w= 0008:b= 0002:b*
0007 Shredder 12    4.0 21.00 0.0 2947 0024:b+ 0008:w= 0006:b- 0028:w+ 0010:b+ 0009:w= 0004:b*
0008 Rybka 4.1    4.0 19.50 0.0 3093 0027:w+ 0007:b= 0017:w= 0013:b= 0025:w+ 0006:

Kann das durchaus nachvollziehen, das es spannend sein kann so ein eigenes Programm in einem virtuellen Spielsaal zu beobachten, ob es sich in einer breit gefächerten Gegnerschaft anderer Programme durchsetzen kann. Was da für eine gemeinschaftliche Leistung zusammen kommen muss, um so etwas zu realisieren.
Wirklich enorm.

Finde es nett, hier mal bei euch reinschnuppern zu dürfen.

Gruß
Klaus

By Klaus Meier Date 2013-09-16 15:13

[quote="Dieter Eberle"]
Hi Stefan,
die Version vom 12.09. hat in einem Schnelltest tolle Resultate erzielt:

Critter16a-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +56 +26/=64/-10 58.00%   58.0/100
2   Critter 1.6a 64-bit gtb    -56 +10/=64/-26 42.00%   42.0/100

Houdini3pro-Stockfish1309120844-1+1 2013


1   Stockfish 120913 64 SSE4.2 t4   +24 +32/=43/-25 53.50%   53.5/100
2   Houdini 3 Pro x64    -24 +25/=43/-32 46.50%   46.5/100

Gespielt wurde auf einem i5 Rechner mit Vorgabestellungen (Silversuite), Zeitkontrolle 1m + 1s, 4 threads pro engine und Pondern.
Mir ist klar, dass 200 Partien noch viel zu wenig sind, um aussagekräftig zu sein.
Aber die Resultate sind sehr appetitanregend.
Gruß, Dieter


[/quote]

Hi Dieter
ein dritter deutlich ELO-schwächerer Gegner z.B. 100 Spiele gegen Hamsters 0.71 (2628) könnte doch auch interessant sein vom Ergebnis her oder ?

By Dieter Eberle Date 2013-09-16 15:27

Hi Klaus,
ich starte erst einmal einen weiteren Test gegen Houdini mit anderen Vorgabestellungen über 300 Blitzpartien.
Da kann was völlig anderes herauskommen.
Gruß, Dieter

By Klaus Meier Date 2013-09-16 15:43

Hmmm
Ja klar,wenn das wichtig ist.
Gruß
Klaus

By Hauke Lutz Date 2013-09-17 20:53

gibt es da nicht pro verdopplung der anzahl von logischen einheiten die pro auftrag genutzt werden immer 30% verlust?

By Klaus Meier Date 2013-09-18 05:15

[quote="Hauke Lutz"]
gibt es da nicht pro verdopplung der anzahl von logischen einheiten die pro auftrag genutzt werden immer 30% verlust?
[/quote]

By Klaus Meier Date 2013-09-18 07:52

[quote="Hauke Lutz"]
gibt es da nicht pro verdopplung der anzahl von logischen einheiten die pro auftrag genutzt werden immer 30% verlust?
[/quote]

Mag sein. Wüsste jedoch nicht, für wen oder was das relevant sein könnte.

By Dieter Eberle Date 2013-09-18 06:38

In einem zweiten Match über 300 Partien hatte Houdini die Nase vorn:

Houdini3pro-Stockfish1309120844 1+1 2013


1   Houdini 3 Pro x64 t2 +15 +82/=146/-69 52.19% 155.0/297
2   Stockfish 120913 64 SSE4.2 t2   -15 +69/=146/-82 47.81% 142.0/297

Gespielt wurde unter der Fritz 12 GUI auf einem i5 Rechner, Bedenkzeit 1m + 1s, Vorgabestellungen KLO 150, mit 2 threads pro Engine ohne Pondern.
Houdini produzierte mit 2 threads einige exceptions, was bei der Verwendung aller 4 threads noch nie vorgekommen ist.

Gruß, Dieter

By Klaus Meier Date 2013-09-18 07:43

[quote="Dieter Eberle"]
In einem zweiten Match über 300 Partien hatte Houdini die Nase vorn:

Houdini3pro-Stockfish1309120844 1+1 2013


1   Houdini 3 Pro x64 t2 +15 +82/=146/-69 52.19% 155.0/297
2   Stockfish 120913 64 SSE4.2 t2   -15 +69/=146/-82 47.81% 142.0/297

Gespielt wurde unter der Fritz 12 GUI auf einem i5 Rechner, Bedenkzeit 1m + 1s, Vorgabestellungen KLO 150, mit 2 threads pro Engine ohne Pondern.
Houdini produzierte mit 2 threads einige exceptions, was bei der Verwendung aller 4 threads noch nie vorgekommen ist.

Gruß, Dieter
[/quote]

Hodini 3 hat nach nTCEC aktuell : 3146
Stockfisch ligt nach diesem Test ca. 15 Punkte darunter:
3146-15= 3131

nun haben wir schon 3 Abschätzungen für eine Leistung deiner neuen Stockfish 120913 64 SSE4.2 t2
nämlich

1.) 3128
2.) 3172
3.) 3131

Der zusätzliche 300er Lauf hat mir leider keine neuen Erkenntnisse gebracht
die ELO für deine Stockfish 120913 64 SSE4.2 t2 dürfte nach wie vor
etwa zwischen 3128 und 3172 liegen.

geschätzte ELO= Mittelwert : 3144
Streuung : 30.11
Standardabweichung des Mittelwertes = Streuung/sqrt(n-1) = 21
Abschätzung ELO Stockfish 120913 64 SSE4.2 t2 :
ELO = 3144 +- 42(95%)

By Klaus Meier Date 2013-09-18 08:16

[quote="Klaus Meier"]

Abschätzung ELO Stockfish 120913 64 SSE4.2 t2 :
ELO = 3144 +- 42(95%)
[/quote]

Sollte heissen :
EELO = 3144 +- 42(95%)
(EELO für Engine-ELO)

für eine Umrechnung in ELO, also Umrechnung auf eine vergleichbare menschliche Spielstärke müssen wohl von einer EELO schätzungsweise mind. 20% abgezogen werden.
Schliesslich haben wir in einem anderen Versuch gesehen, das Houdini das angenommene Königsgambit spielt, obwohl sie es schon in den Grundzügen nicht beherrscht. Was schliesslich unter Menschen nur Anfängern noch passieren wird.

By Klaus Meier Date 2013-09-18 09:10

[quote="Klaus Meier"]

EELO = 3144 +- 42(95%)

[/quote]

Es ist die Turnierleistung gemeint. eine ELO wird dann gleitend berechnet aus der alten ELO
und dieser Leistung: 3144.

Das Ergebniss (3144) aus den 500 Spielen stimmen ganz gut mit der Turnierleistung (3157) im nTCEC Season 1 Turnier überein.
Ich hab das malmit einem Kalkulator nachvollzogen.
:
0004 Stockfish 2.31 5.0 27.00 0.0 3092 0025:w+ 0021:b+ 0009:b= 0001:w- 0010:b= 0014:w+ 0008:w+

Aus dem nTCEC Season 1 Turnier (7 Spiele) erechnet sich :

Alte EELO von Stockfish : 3092
Turnierleistung ist etwa : 3157
Die neue EELO ist dann : 3104
=====================

Man braucht also keine 500 Engine MAtches selber rechnen zu lassen. Einfach die 7 Spielergebnisse aus dem neusten
nTCEC Season 1 Turnier in eine ELO-KAlkulator oder einen DWZ-Kalkulator eingeben und
schon erhält man auch schon eine brauchbare Abschätzung.

Allerdings frage ich mich, für wen diese EELO-Unterschiede überhaupt vonso großem Interesse sind.
Für Partieanalysen reicht ein Junior 13 (EELO=2900) oder ein Shredder (EELO=2948) eben so gut aus wie ein Houdini3 (EELO = 3193)
In diesen Engine-ELO wird ein Unterschied ausgedrückt, der für den Schachfreund praktisch für die heimische Analysen seiner Partieen überhaupt keine Relevanz hat.
K.

By Patrick Götz (Mod.) Date 2013-09-18 09:15

[quote="Klaus Meier"]
für eine Umrechnung in ELO, also Umrechnung auf eine vergleichbare menschliche Spielstärke müssen wohl von einer EELO schätzungsweise mind. 20% abgezogen werden.
Schliesslich haben wir in einem anderen Versuch gesehen, das Houdini das angenommene Königsgambit spielt, obwohl sie es schon in den Grundzügen nicht beherrscht. Was schliesslich unter Menschen nur Anfängern noch passieren wird.
[/quote]

Das ist ein selten unsinniger Vergleichsversuch.
Houdini hätte das Königsgambit (2.f4) niemals aus eigener Berechnung gewählt, sondern es wurde vorgesetzt.
Das ist so als würde man Vorgabestellungen wie diese wählen http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=65606,
die Menschen überhaupt nicht lösen können und dann daraus schliessen, dass man von der Menschen ELO mind. 90% abziehen muss.

By Frank Quisinsky Date 2013-09-18 11:47

Hallo Stefan,

überprüfe mal Deine Bouquet Partien.
in 5 von bislang 400 Partien bei mir hat die Engine 1-2 Züge vor dem Matt für sich auf Zeit verloren.
Spielst ja auch bis zum Matt ...

Wenn dem so ist, solltest Du die Ergebnisse vielleicht ändern.
Macht bestimmt 5-10 ELO aus.

Viele Grüße
Frank

By Stefan Pohl Date 2013-09-19 05:13

[quote="Frank Quisinsky"]
Hallo Stefan,

überprüfe mal Deine Bouquet Partien.
in 5 von bislang 400 Partien bei mir hat die Engine 1-2 Züge vor dem Matt für sich auf Zeit verloren.
Spielst ja auch bis zum Matt ...

Wenn dem so ist, solltest Du die Ergebnisse vielleicht ändern.
Macht bestimmt 5-10 ELO aus.

Viele Grüße
Frank
[/quote]

Du solltest dir wirklich mal die LittleBlitzerGUI näher angucken. Sie zeigt für alle absolvierten Partien immer alle (möglichen) Partieenden immer tabellarisch an, nämlich Matt, timeloss (was natürlich auch ein Crash der jeweiligen Engine sein kann), loss durch illegal move, Remis durch Zugwiederholung, Remis durch unzureichendes Material, Remis durch 50-Zug-Regel und Remis durch Patt. Das ist eine der schönsten Eigenschaften dieser (sonst ja sehr spartanischen) GUI.
Bouquet hat keinerlei timelosses produziert.

Stefan

P.S: So sieht die "Oberfläche" der GUI während sie läuft aus:

Games Completed = 7 of 1000 (Avg game length = 109.100 sec)
Settings = Gauntlet/64MB/45000ms+500ms/M 9000cp for 50 moves, D 500 moves/PGN:C:\Users\Pohl\Documents\LittleBlitzer\fq500n.pgn(500)
Time = 260 sec elapsed, 36858 sec remaining
1. Stockfish 130903 x64 3.0/7 0-1-6 (L: m=1 t=0 i=0 a=0) (D: r=6 i=0 f=0 s=0 a=0) (tpm=951.0 d=23.56 nps=1381948)
2. Stockfish 130830 x64 4.0/7 1-0-6 (L: m=0 t=0 i=0 a=0) (D: r=6 i=0 f=0 s=0 a=0) (tpm=925.5 d=24.03 nps=1376591)

a= steht für "adjusted", also durch die GUI abgebrochen, was bei meinen Einstellungen niemals vorkommt.

By Frank Quisinsky Date 2013-09-19 05:28

Hi Stefan,

es liegt am Pondern!
Habe den Fehler auch schon gefunden (Illegal ponder Move, hatte das gleiche bei einer anderen Engines, ist dort aber schon gefixt).
Bislang passiert in 9 nach fast 500 gespielten Partien.

Passiert nur im Mittelspiel bei vielen Figuren auf dem Feld und auch nur bei Matt für sich.

Gute Ausgaben von LittleBlitzer !!!
Muss dem Programmierer das mal mailen, mache ich am Wochenende.

Viele Grüße
Frank

By Stefan Pohl Date 2013-09-19 05:43

[quote="Frank Quisinsky"]
Hi Stefan,

es liegt am Pondern!
Habe den Fehler auch schon gefunden (Illegal ponder Move, hatte das gleiche bei einer anderen Engines, ist dort aber schon gefixt).
Bislang passiert in 9 nach fast 500 gespielten Partien.

Passiert nur im Mittelspiel bei vielen Figuren auf dem Feld und auch nur bei Matt für sich.

Gute Ausgaben von LittleBlitzer !!!
Muss dem Programmierer das mal mailen, mache ich am Wochenende.

Viele Grüße
Frank
[/quote]

Ja, zum Testen ist die LBG super. Hat nur 3 Probleme:

1. Man muß immer im Gauntlet-Modus spielen, weil nur dort Eröffnungsvorgabestellungen sequentiell (und mit vertauschten Farben wiederholt) korrekt abgespielt werden. Im RoundRobin-Modus ist die Auswahl rein zufällig. Daher muß man RR-Turniere in mehrere Gauntlets aufsplitten. Später macht man in Ranglistentests ja sowieso nur noch Gauntlets (neue Engine gegen 10 oder 11 Gegner)...
2. PGN-Vorgabestellungen (bzw. wie bei deinen 8-Züge lange mini-Partien) dürfen keine en-passant-Züge enthalten, denn der geschlagene Bauer verschwindet nicht. Oder man nimmt gleich EPD-Stellungen.
3. Unterbrochene Gauntlets lassen sich nicht ohne weiteres fortsetzen. Wie es doch geht, steht in meiner Kurzanleitung auf meiner Website. Ist allerdings mit 15 Minuten Arbeit verbunden.

Stefan