Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / ZAPPA MEXICO bei 3+1, 5+3 und 10+6
- - By Ingo Bauer Date 2010-08-21 15:47
Hallo

Ein schönes Ergebniss, das allen gerecht wird:


Durchschnittliches Spiel ca. 8 Minuten / Remisquote = 36.9%
Zappa Mexico II 3+1           : 1200 (+263,=443,-494), 40.4 %

Houdini 1.03a                 : 100 (+  8,= 29,- 63), 22.5 %
spark-0.4                     : 100 (+ 28,= 39,- 33), 47.5 %
Stockfish 1.8 JA              : 100 (+ 12,= 35,- 53), 29.5 %
Naum 4.2                      : 100 (+ 11,= 40,- 49), 31.0 %
HIARCS 13.1 MP 32b            : 100 (+ 24,= 44,- 32), 46.0 %
Deep Sjeng WC2008             : 100 (+ 33,= 48,- 19), 57.0 %
Deep Shredder 12 UCI 32b      : 100 (+ 14,= 37,- 49), 32.5 %
Deep Rybka 4                  : 100 (+  3,= 24,- 73), 15.0 %
Deep Onno 1-2-70              : 100 (+ 28,= 40,- 32), 48.0 %
Deep Junior 11.2              : 100 (+ 49,= 30,- 21), 64.0 %
Critter 0.80                  : 100 (+ 16,= 39,- 45), 35.5 %
Hannibal 1.0a                 : 100 (+ 37,= 38,- 25), 56.0 %

Durchschnittliches Spiel ca. 16 Minuten / Remisquote = 35.8%
Zappa Mexico II   5+3         : 1200 (+259,=429,-512), 39.5 %

Houdini 1.03a                 : 100 (+  6,= 26,- 68), 19.0 %
spark-0.4                     : 100 (+ 29,= 44,- 27), 51.0 %
Stockfish 1.8 JA              : 100 (+  8,= 34,- 58), 25.0 %
Naum 4.2                      : 100 (+ 10,= 43,- 47), 31.5 %
HIARCS 13.1 MP 32b            : 100 (+ 21,= 44,- 35), 43.0 %
Deep Sjeng WC2008             : 100 (+ 38,= 37,- 25), 56.5 %
Deep Shredder 12 UCI 32b      : 100 (+ 14,= 41,- 45), 34.5 %
Deep Rybka 4                  : 100 (+  5,= 26,- 69), 18.0 %
Deep Onno 1-2-70              : 100 (+ 33,= 36,- 31), 51.0 %
Deep Junior 11.2              : 100 (+ 40,= 31,- 29), 55.5 %
Critter 0.80                  : 100 (+ 10,= 38,- 52), 29.0 %
Hannibal 1.0a                 : 100 (+ 45,= 29,- 26), 59.5 %

Durchschnittliches Spiel ca. 32 Minuten / Remisquote = 40.1%
Zappa Mexico II  10+6         : 1200 (+260,=481,-459), 41.7 %

Houdini 1.03a                 : 100 (+  3,= 31,- 66), 19.0 %
spark-0.4                     : 100 (+ 30,= 44,- 26), 52.0 %
Stockfish 1.8 JA              : 100 (+  8,= 43,- 49), 29.5 %
Naum 4.2                      : 100 (+ 12,= 42,- 46), 34.0 %
HIARCS 13.1 MP 32b            : 100 (+ 33,= 42,- 25), 55.0 %
Deep Sjeng WC2008             : 100 (+ 32,= 39,- 29), 51.5 %
Deep Shredder 12 UCI 32b      : 100 (+ 20,= 38,- 42), 39.0 %
Deep Rybka 4                  : 100 (+  5,= 40,- 55), 25.0 %
Deep Onno 1-2-70              : 100 (+ 31,= 50,- 19), 56.0 %
Deep Junior 11.2              : 100 (+ 35,= 39,- 26), 54.5 %
Critter 0.80                  : 100 (+ 16,= 34,- 50), 33.0 %
Hannibal 1.0a                 : 100 (+ 35,= 39,- 26), 54.5 %


Bei 1200 Spielen sind alle Ergebnisse innerhalb der 95% Fehlertoleranz. Für 'Rauschen' spricht auch das es mal rauf und mal runter geht. So gesehen tut sich nichts. Der maximale Elounterschied beträgt 2.2% oder 13.2 Elo - interessanterweise bei 4-facher Zeit nur 1.3% oder 7.8 Elo.
Genau die längste Zeitkontrolle schneidet aber am besten ab ... wer will darf also weiterglauben das Engines mit noch mehr Zeit überproportional besser werde (Es sei denn ich spiele 1200 Spiele 20+12 ). Davon das Engines bei mehr Zeit "DEUTLICH BESSER" werden, sich vielleicht sogar in eine andere Liga erheben, kann man aber auf keinen Fall sprechen.

Vielleicht findet sich ja jemand der mathematisch mehr drauf hat als ich (kein Problem) und der mal ein bischen extrapolieren will (vielleicht EB? )

Gruß
Ingo

PS: Der größte Schwachpunkt dieser Studie ist ohne Zweifel das ich die Spiele nicht veröffentliche, das weiß ich. Sie ist auch nur als Denkanstoss gedacht.
Parent - - By Kurt Utzinger Date 2010-08-21 16:36
Hallo Ingo

Danke für diesen Test.

Der Schwachpunkt dieses Tests lieg wahrscheinlich darin, dass er
noch immer mit viel zu tiefen Bedenkzeiten durchgeführt wurde, so
dass er für den eigentlichen Zweck des Tests noch immer nicht
aussagekräftig ist.


Wiederhole den Test mit 120'/40 und wir werden in einigen Monaten die
dem Testzweck zugrunde liegende Frage endgültig beantwortet wissen.


Gruss
Kurt
Parent - - By Ingo Bauer Date 2010-08-21 16:50
Hallo Kurt,

So geht das nicht.

Ich kann jetzt IMMER behaupten das es keine Hinweise gibt die deine Theorie stützen. Ich habe Zahlen die zeigen das sich im großen ganzen nichts tut. Du hast eine Überzeugung (Warum auch immer!). Wenn jetzt jemand behauptet das bei 40/120 eine bestimmte Engine überproportional besser wird muß ER diesen Nachweis führen, nicht ich!

Gruß
Ingo
Parent - - By Kurt Utzinger Date 2010-08-21 19:15
[quote="Ingo Bauer"]
Hallo Kurt,

So geht das nicht.

Ich kann jetzt IMMER behaupten das es keine Hinweise gibt die deine Theorie stützen. Ich habe Zahlen die zeigen das sich im großen ganzen nichts tut. Du hast eine Überzeugung (Warum auch immer!). Wenn jetzt jemand behauptet das bei 40/120 eine bestimmte Engine überproportional besser wird muß ER diesen Nachweis führen, nicht ich!

Gruß
Ingo
[/quote]

Hallo Ingo
Mein Test-Wiederholungs-Aufruf mit 120'/40 habe ich absichtlich
zwischen Smilies gesetzt, weil mir natürlich klar ist, dass ein
solcher Test nie stattfinden wird. Du hast Zahlen, die zeigen,
dass sich zwischen 3m+1s, 5m+3s und 10m+6s im grossen und
ganzen nichts tut. Das ist immerhin etwas. Ich habe - ausser
einer Vermutung - gar nichts in der Hand und bin daher gegen-
über Dir in der Defensive. Und da der gewünschte Test mit
grosser Wahrscheinlichkeit nie stattfinden wird, dürfte die
ganze Problematik für immer und ewig ungelöst bleiben.
Mfg
Kurt
Parent - By Ingo Bauer Date 2010-08-21 20:19
Hallo Kurt,

auch ich habe einen Smiley an das Ende meines Textes gesetzt und dir gegenüber einen Vorteil: ICH habe keine Problematik mehr

Gruß
Ingo
Parent - By Benno Hartwig Date 2010-08-21 21:25
[quote="Kurt Utzinger"]Ich habe - ausser einer Vermutung - gar nichts in der Hand[/quote]Sicher hast du doch diverse Partien bei langen Zeiten beobachtet, und du hast daraus deinen Eindruck gewonnen. Magst du versuchen zu schätzen, um wieviele derartige Zappa-Partien es sich handeln mag?
Vielleicht hast du ja wirklich ein besonders erfolgreiches Langzeit-Zappa gesehen, und die doch recht geringe Partienzahl macht dies einfach mit einer gar nicht so kleinen Wahrscheinlichkeit für 'erfolgreicher als es der Stärke entsprach'  erklärlich.
Benno
Parent - - By Peter Martan Date 2010-08-21 16:52
Hallo Kurt!
Es klang bei mir etwas langatmiger, ich hatte das aber auch schon vermutet.
Persönlich glaube ich aber, auch was man aus diesbezüglichen Listen weiß, dass 40/120 auch noch zu kurz wäre.
Parent - By Peter Martan Date 2010-08-21 17:35
Korrigiere mich nach einer nachdenklichen Pause aus folgendem Grund:
Zwar ist von Ingos Ausgangs- 3+1 zu 40/120 schon ein Unterschied von ca. 1 zu 45, das sollte schon was bringen, zu seinem 10+6 hingegen nicht einmal ein 1 zu 12, das scheint mir noch zu wenig.
(Ganz so aus der Luft gegriffen sind diese meine Schätzungen nicht einmal, wie sie klingen, ich hab da schon auch so meine Erfahrungen aus 20 Jahren Eigen- engine- engine, gar so viel kann man da gar nicht falsch machen daran, scheint meinen bescheidenen Anforderungen,  das ist ja gerade das Nette, schachliche Erkenntnisse sind natürlich wieder etwas anderes...)

Jetzt dann allerdings die vollends schwierige Frage: wenn sich zwischen seinem 3+1 und seinem 10+6 noch nix tut, warum sollte sich dann einerseits was zwischen seinem 3+1 und deinem 40/120, zwischen seinem 10+6 und deinem 40/120 aber doch wieder nix tun?

Antwort: es tut sich ja auch zwischen seinem 3+1 und seinem 10+6, es ist nur noch zu wenig, zum 40/120 sollte es sich ausreichend summieren.
Das ist nun vollends eine Frage der Statistik, bei der aber wieder der übrigen Versuchsanordnung, zu genau Ingos solcher wird es nicht kommen, weil er sich das nicht antun will und ich schon gar nicht, außerdem hab ich nicht seine hardware.
Auf die kommt es bei den Berechnungen, wie auch schon Clemens Keck dazu gesagt hat, sicher auch sehr an.
MP auch noch in die Tests einzubeziehen, machte es erst recht unüberschaubar und der Knackpunkt ist der:
Du bringst einfach ohne entsprechnende hardware- Armada mit 40/120 und einem vernünftigen Teilnehmerfeld nicht mehr die ausreichende Partienzahl zusammen, um die kleinen Unterschiede, die es da vielleicht gäbe, statistisch so abzusichern, wie man das machen müsste, um wirkliche Beweiskraft im Sinn einer solchen Sonderfrage zu haben.
Die 40/120- Listen, die es gibt, können halt wieder nicht so einfach herangezogen werden wegen anderer Unterschiedlichkeiten.

Ich hoffe, das war jetzt nicht wieder allzu naseweis...
Parent - - By Peter Martan Date 2010-08-21 16:50
Hi Ingo!

Als ich gerade noch schrieb (den Rest davon kannst du dir damit eh wieder ersparen, zu lesen ) ich sei auf das Ergebnis gespannt, hatte ich diesen neuen thread noch nicht gelesen und hauptsächlich wollte ich mein voting in der Abstimmung natürlich auch bestätigt sehen, schließe mich aber natürlich auch gern nochmal deinen und Kurts Einwänden an.
Parent - By Ingo Bauer Date 2010-08-21 16:53
[quote="Peter Martan"]
... schließe mich aber natürlich auch gern nochmal deinen und Kurts Einwänden an.
[/quote]

Dann darf ich dich auch an meine Antwort an Kurt verweisen. Kurz: Nicht ich muß etwas beweisen, ihr müßt es!

Gruß
Ingo
Parent - - By Clemens Keck Date 2010-08-21 17:09
HAllo Ingo

danke erstmal für Deinen Versuch!
Da Dein Test auf 1 cpu beruht, bin ich der Meinung dass er voll und ganz Aussagekräftig ist.
Im Falle von Zappa (und auch anderer engines die gut skalieren) muss man allerdings bedenken, dass diese engine mit steigender CPU Anzahl überdurchschnittlich zulegt.
Jedoch zu testen ob es jetzt an der Skalierung oder der BZ liegt führt ins uferlose.
Letztendlich wird es keinen Beweis geben auf welcher Zeitstufe eine Ratingliste "gehaltvoller" ist. Das ist wohl mehr Geschmacksache.

Gruß, Clemens
Parent - By Ingo Bauer Date 2010-08-21 17:25
Hi Clemens,

[quote="Clemens Keck"]

danke erstmal für Deinen Versuch!
[/quote]

War mir ein Bedürfniss da ich einfach mal wissen wollte was Sache ist. Natürlich wird dieser Test diejenigen nicht Überzeugen die glauben wollen, aber wenigstens ich habe jetzt etwas mehr Gewissheit!

[quote="Clemens Keck"]
Da Dein Test auf 1 cpu beruht, bin ich der Meinung dass er voll und ganz Aussagekräftig ist.
Im Falle von Zappa (und auch anderer engines die gut skalieren) muss man allerdings bedenken, dass diese engine mit steigender CPU Anzahl überdurchschnittlich zulegt.
[/quote]

Das sieht man auch in meiner Liste. Zappa mit 2 Kernen macht deutlich mehr Elos gut als andere Engines. Zappa skaliert ohne Zweifel sehr gut mit mehr Prozessoren. Aber immer gleiche Bedinungen und nur geänderte Bedenkzeiten ändern eben nichts an der Rangfolge. Demnach ist eine extra CPU eben doch etwas anderes als nur eine Bedenkzeitverlängerung.

[quote="Clemens Keck"]
Jedoch zu testen ob es jetzt an der Skalierung oder der BZ liegt führt ins uferlose.
[/quote]

Hmm da sehe ich kein Problem im logischen Schluß -> mehr CPUs gut für Zappa, mehr Bedenkzeit hat hingegen keinen Effekt.

[quote="Clemens Keck"]
Letztendlich wird es keinen Beweis geben auf welcher Zeitstufe eine Ratingliste "gehaltvoller" ist. Das ist wohl mehr Geschmacksache.
[/quote]

Der Gehalt einer Rangliste ist wohl die korrekte Einordnung der Engines. Diese Einordnung sollte nach den vorhandenen Zahlen gleich sein, wenn nur die Bedenkzeit als Variable einer Liste angeführt wird.
Dummerweise haben praktisch alle Ranglisten mit MEHR Zeit weniger Spiele und somit einen zweiten Faktor der anders ist. Insofern würde ich eine Rangliste mit kürzeren Zeiten aber mehr Spielen bevorzugen (Wobei ich wie gesagt eine Untergrenze sehe - die bei meiner Hardware aber UNTER 3 + 1 liegt!)

Gruß
Ingo
Parent - - By Ernest Bonnem Date 2010-08-21 20:28
[quote="Ingo Bauer"](vielleicht EB? )[/quote]
Naja, Ingo, doch für mich ein überraschendes Ergebnis. Ich hatte +50 bis +70 Elo erwartet...
Vielleicht hat das speziell mit Zappa Mexico zu tun (aber siehe CCRL/CEGT 1=>2=>4cpu: mehr cpus sollte das selbe als mehr Zeit sein).

Vor 2 Jahren hatte ich mit Rybka 3 experimentiert (natürlich ist das nur Rybka gegen Rybka: die Abweichungen werden erhöht):
Rybka 3 64bit 2cpu 4'+2" gegen Rybka 3 64bit 2cpu 2'+1": 67,1% (+126 Elo)
Rybka 3 64bit 2cpu 2'+1" gegen Rybka 3 64bit 1cpu 2'+1": 60,8% (+78 Elo)
Rybka 3 64bit 2cpu 2'+1" gegen Rybka 3 32bit 2cpu 2'+1": 62,9% (+94 Elo)
Parent - - By Ingo Bauer Date 2010-08-21 22:12
Moin Ernest,

[quote="Ernest Bonnem"]
[quote="Ingo Bauer"](vielleicht EB? )[/quote]
Naja, Ingo, doch für mich ein überraschendes Ergebnis. Ich hatte +50 bis +70 Elo erwartet...
Vielleicht hat das speziell mit Zappa Mexico zu tun (aber siehe CCRL/CEGT 1=>2=>4cpu: mehr cpus sollte das selbe als mehr Zeit sein).
[/quote]

Da will ich dir wiedersprechen. Zappa skaliert extrem gut. Sieh dir mal meine Liste mit Zappa 1 CPU und Zappa 2 CPUs an. Die Enigne macht einen 65 Elo Sprung. Das schafft sonst nur Naum. Alle anderen liegen weit ausserhalb des 95% Intervalls dahinter!

[quote="Ernest Bonnem"]
Vor 2 Jahren hatte ich mit Rybka 3 experimentiert (natürlich ist das nur Rybka gegen Rybka: die Abweichungen werden erhöht):
[/quote]

Genau diese Inzucht wollte ich ja vermeiden. Das testen gegen einen Gegner, und dann auch noch die selbe Engine lehne ich ab.

[quote="Ernest Bonnem"]
Rybka 3 64bit 2cpu 4'+2" gegen Rybka 3 64bit 2cpu 2'+1": 67,1% (+126 Elo)
[/quote]

126 Elo bei doppelter Zeit? Da hätte ich schon vermutet das entweder etwas am Setup nicht stimmt, oder Rybka Rybka eben nicht optimal ist.

[quote="Ernest Bonnem"]
Rybka 3 64bit 2cpu 2'+1" gegen Rybka 3 64bit 1cpu 2'+1": 60,8% (+78 Elo)
[/quote]

78 Elo bei einer CPU mehr? Bei mir, und den anderen Listen ist es ein Gewinn von ~45. Auch hier würde ich davon ausgehen das Rybka vs Rybka keine adäquate Testmethodik ist.

[quote="Ernest Bonnem"]
Rybka 3 64bit 2cpu 2'+1" gegen Rybka 3 32bit 2cpu 2'+1": 62,9% (+94 Elo)
[/quote]

Auch da bist du viel höher als alle anderen Listen, die zw. 32 und 64 bit Version so ca 50 Elo haben.

Rybka gegen Rybka scheint keine Testmethodik mit der man Spielstärke ermitteln kann.

Nochmal zu deinen erwarteten 50 bis 70 Elo. Wie kommst du darauf? Ich habe mir vorher alle Listen angesehen und lange und kurze Zeitkontrollen verglichen. Wenn ich sehr positiv gerechnet habe komme ich mit Glück vielleicht auf 20 Elo bei 5facher (CEGT) oder gar 10facher (CCRL) Zeit. Und diese Unterschiede habe ich mir mit zu wenig Spielen bzw. Büchern, unterschiedlicher Hardware oder ähnlichem erklärt. Der Mythos das eine Enigne mit mehr Zeit deutlich besser wird ist eben eine solcher (Mythos).
Enignefans beobachten "ihre" Engine sehr genau. Gelingt ein toller Sieg bleibt der im Gedächtniss, weil er nicht der Erwartung entspricht. Kommt es zu einem Verlust wird der schnell vergessen weil ja im Rahmen des "normalen". Dazu kommt noch, das der Fan bei langer Bedenkzeit natürlich nicht neutral testet, sondern versucht seiner Engine das beste mitzugeben, also Buch, Tbs, HW und dann womöglich auf einem Server gegen komplett andere Setus testet .... Auf lange Sicht tritt der Effekt ein das man meint die wenigen langen tollen Partien wären das Ergebniss der ungewöhnlichen Zeitkontrolle ...

Egal, wenn ich die 13 ELo linear hochrechne, holt Zappa bei Spielen deren Gesammtdauer so ca 1000h+ ist irgendwann in der Spielstärke Rybka ein. Das ist natürlich lächerlich. Ich glaube es gibt von ganz kurzen Zeitkontrollen länger werdend eine abfallende Kurve des Spielstärkeanstiegs. Diese Kurve mag bei der ein oder anderen Engine etwas steiler sein, aber auf halbwegs aktueller HW ist sie selbst bei 3 + 1 schon in der Waagerechten angelangt.

Gruß nach Paris
Ingo
Parent - By Ernest Bonnem Date 2010-08-22 00:43
[quote="Ingo Bauer"]Nochmal zu deinen erwarteten 50 bis 70 Elo. Wie kommst du darauf?[/quote]
OK, Ingo, sorry... 
Ich glaube, ich habe das ganze mißverstanden!
Ich glaubte, daß das Thema war: was passiert, wenn Zappa 2mal mehr Zeit hat, als die anderen.
Also erst Zappa 5'+3" gegen die anderen 5'+3"
Und dann Zappa 10'+6" gegen die anderen 5'+3"

OK, next... 
Up Topic Hauptforen / CSS-Forum / ZAPPA MEXICO bei 3+1, 5+3 und 10+6

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill