Zappa bei doppelter Bedenkzeit

By Frank Quisinsky Date 2010-08-20 20:34

Hallo Ingo,

aber dafür kannst Du doch in die SWCR schauen?
Verstehe ich jetzt nicht?

Gruß
Frank

By Ingo Bauer Date 2010-08-20 20:40

Aber Frank,

wenn es so einfach wäre das man nur in deine Liste schauen muß, dann müßtest du dich fragen wozu der Aufwand der langen Bedenkzeit nur um meine Liste zu doppeln ...

Aber ... In meinem eignen Test kann sich niemand, auch ich nicht, rausreden, dass die Bedinungen ja nicht gleich wären!

Gruß
Ingo

By Frank Quisinsky Date 2010-08-21 10:23

Hallo Ingo,

ich habe mit +2 abgestimmt.
Das war wirklich ein Akt, ich wollte erst mit +4 abstimmen.

Am liebsten hätte ich mit +3 abgestimmt.

Kann Dir jetzt nicht sagen wie ich nach dem Mittagessen abgestimmt hätte, vielleicht mit +4.

Wenn ich so hin- und hergerissen bin liegt die Wahrheit bei +3.
Das sagt mir mein Gefühl.

OK, muss jetzt mit +2 leben.

Gruß
Frank

By Ingo Bauer Date 2010-08-21 10:29

Hallo

Ja, wenn ich nochmal diese Abstimmung starten würde, müßte ich die +2% weglassen, weil das bei nur 1200 Spielen sowieso im Rauschen verschwindet.

Aber abwarten. Es wird auf jeden Fall interessant

Gruß
Ingo

By Frank Quisinsky Date 2010-08-21 10:37

Hi Ingo,

bei mir spielt BugChessII und Umko, dass ist auch nicht ohne, auch der neue Crafty.
Wahrscheinlich könnten alle 3 in der SWCR-32 Spike auf Platz 21 ersetzen.

Geht also derzeit darum ob sich bei den TOP-21 etwas regt.
Wenn Chronos pondern könnte wäre Chronos auch noch ein Kandidat ...

Meine ja nur ...

Gruß
Frank

By Ingo Bauer Date 2010-08-20 20:53

Bei +8% muß es natürlich 48 Elo heißen - kleiner Rechenfehler.

Gruß
Ingo

By Peter Martan Date 2010-08-20 21:08 Edited 2010-08-20 21:15

Sieg, Sieg, ich bin Erster!
(Der abgestimmt hat.)
Ich würde mal schätzen, Zappa würde vielleicht bei einer 20fachen Bedenkzeit meßbar zulegen, wenn ich deine übrigen Bedingungen richtig einschätze, das ist aber auch ziemlich schiere Vermutung, weil ich deine Vorgabestellungen nach wie vor nicht wirklich kenne, ich gehe einfach von der Fähigkeit von Zappa aus, mit ausgewogenen Stellungen umzugehen, die nicht allzu weit von der Grundstellung entfernt sind.

By Ingo Bauer Date 2010-08-20 21:15

Hi

[quote="Peter Martan"]
Sieg, Sieg, ich bin Erster!
(Der abgestimmt hat.)
Ich würde mal schätzen, Zappa würde vielleicht bei einer 20fachen Bedenkzeit meßbar zulegen, wenn ich deine übrigen Bedingungen richtig einschätze, das ist aber auch ziemlich schiere Vermutung, weil ich deine Vorgabestellungen nicht habe.
[/quote]

Bei 5 + 3 dauern die Spiele bei mir 16 Minuten. Das 20fache würde bedeuten das Zappa bei Spielen die im ganzen 5 Stunden dauern plötzlich im messbaren Bereich zulegen soll ...? Also wie man das Programmtechnisch machen soll würde mich interessieren.
Und wenn es bei 5 Stunden erst messbar wäre, dann wäre der Effekt so klein, das ihn eigentlich noch keiner bemerkt haben kann und er auch keine Rolle spielt.

Aber egal was dabei raus kommt, meines Wissens sind meine Zahlen dann die ersten echten Daten und nicht nur 'Bauchgefühl'!

Gruß
Ingo

By Peter Martan Date 2010-08-20 21:36 Edited 2010-08-20 21:44

[quote="Ingo Bauer"]
Bei 5 + 3 dauern die Spiele bei mir 16 Minuten. Das 20fache würde bedeuten das Zappa bei Spielen die im ganzen 5 Stunden dauern plötzlich im messbaren Bereich zulegen soll ...? Also wie man das Programmtechnisch machen soll würde mich interessieren.
Und wenn es bei 5 Stunden erst messbar wäre, dann wäre der Effekt so klein, das ihn eigentlich noch keiner bemerkt haben kann und er auch keine Rolle spielt.

Aber egal was dabei raus kommt, meines Wissens sind meine Zahlen dann die ersten echten Daten und nicht nur 'Bauchgefühl'!
[/quote]

Du vergißt die Möglichkeit, aus einzelnen Stellungen Erkenntnisse zu gewinnen, das dauert weniger lang, ist aber für dich natürlich auch prinzipiell zu subjektiv, weil jemand die Stellungen aussuchen müsste, richtig? Auch behaupte ich einfach mal, dass man nicht einmal unbedingt alles statistisch bearbeiten muss, was trotzdem als schachliche Erkenntnis durchgehen kann.

Lassen wir's lieber wieder gut sein, Ingo, an sich find ich dein Experiment durchaus interessant, ich bin nur einfach offenbar mit dir gemeinsam der Meinung, dass so "geringe" Änderungen der Zeitvorgaben keine statistisch signifikanten Unterschiede in großer Anzahl ganzer Partien ergeben werden, die alle meistens alle 3 Phasen durchlaufen müssen.
(Bei so "kurzen" Zeiten, es könnte ja auch noch durchaus so sein, dass bei der momentanen hardware und ihrer derzeit optimalen Nutzung die guten Programme erst ab 40/120 so richtig zulegen und dann sogar mehr als linear, warum nicht?
Gegenbeispiel, das sich tatsächlich ausprobieren ließe: ab einer gewissen Grenze wird sich eine Halbierung der Bedenkzeit vielleicht eher anfangen merkbar auszuwirken, meinst du nicht auch? Fängst du, sagen wir, mit 1+0 an und halbierst zweimal, welche Programme würdest du aus dem Bauch heraus relativ zu good old Zappa vielleicht wirklich davon ziehen sehen?)

By Ingo Bauer Date 2010-08-20 22:08

Hallo

[quote="Peter Martan"]
Lassen wir's lieber wieder gut sein, Ingo, an sich find ich dein Experiment durchaus interessant, ich bin nur einfach offenbar mit dir gemeinsam der Meinung, dass so "geringe" Änderungen der Zeitvorgaben keine statistisch signifikanten Unterschiede in großer Anzahl ganzer Partien ergeben werden, die alle meistens alle 3 Phasen durchlaufen müssen.
[/quote]

Geringe Änderung, okok habe ich drauf gewartet. Fakt ist, bald gibt es ein Experiment mit Ergebnissen und nicht nur "Glauben". Dieses Experiment kann man extrapolieren und dieses Ergebniss ist auf jeden Fall sicherer als "Bauchgefühl"! Oder hast du neben deinem Glauben auch etwas handfestes?

[quote="Peter Martan"]
(Bei so "kurzen" Zeiten, es könnte ja auch noch durchaus so sein, dass bei der momentanen hardware und ihrer derzeit optimalen Nutzung die guten Programme erst ab 40/120 so richtig zulegen und dann sogar mehr als linear, warum nicht?
[/quote]

Völlig falscher Ansatz.

1. Wenn Zahlen exisiteren sind die erst mal valide, deine 'Annahmen' sind es nicht (es sei denn du lieferst Zahlen)
2. Ich habe noch nicht mal von einem theoretischen informationstechnischem Ansatz gehört warum beim Schach bei 40/120 plötzlich eine Engine jenseits aller vorherigen Erfahrung zulegen soll. Da ist wohl eher der Wunsch Vater des Gedanken - aber wenn du eine Erkenntniss hast warum das so sein sollte ... wenn du sie in kurze Worte fassen kannst höre ich gerne zu.

[quote="Peter Martan"]
Gegenbeispiel, das sich tatsächlich ausprobieren ließe: ab einer gewissen Grenze wird sich eine Halbierung der Bedenkzeit vielleicht eher anfangen merkbar auszuwirken, meinst du nicht auch? Fängst du, sagen wir, mit 1+0 an und halbierst zweimal, welche Programme würdest du aus dem Bauch heraus relativ zu good old Zappa vielleicht wirklich davon ziehen sehen?)
[/quote]

Da darf ich dich an den Thread vor ein paar Tagen verweisen. Es gibt meiner Meinung nach eine Untergrenze (einfach schon weil die Zugerzeugung immer eine gewisse Zeit braucht), die aber von allen mir bekannten Listen weit überschritten wird.

Gruß
Ingo

By Peter Martan Date 2010-08-20 22:34 Edited 2010-08-20 22:40

[quote="Ingo Bauer"]
Geringe Änderung, okok habe ich drauf gewartet. Fakt ist, bald gibt es ein Experiment mit Ergebnissen und nicht nur "Glauben". Dieses Experiment kann man extrapolieren und dieses Ergebniss ist auf jeden Fall sicherer als "Bauchgefühl"! Oder hast du neben deinem Glauben auch etwas handfestes?
[/quote]
Naja, wenn wir jetzt einzelne Stellungen doch auch gelten lassen, kann ich dir natürlich noch und noch Stellungen bringen, die Zappa nicht nach 4 und nicht nach 8 Sekunden, wohl aber nach 3 Minuten löst.

In den Fällen, in denen die Konkurrenz da immer noch schliefe, hätte Zappa einfach einen Punkt, nein?

Man nennt das Umschlag von Quantität in Qualität und dass es das gerade beim Schach auch gibt, hast du schon erlebt, stimmt's?

Damit erspare ich dir fast alle weitere Zitiererei auch deiner geliebten Kürze wegen.

[quote="Ingo Bauer"]
Da darf ich dich an den Thread vor ein paar Tagen verweisen. Es gibt meiner Meinung nach eine Untergrenze (einfach schon weil die Zugerzeugung immer eine gewisse Zeit braucht), die aber von allen mir bekannten Listen weit überschritten wird.
[/quote]
Genau, die engine darf einfach nicht in Zeitnot kommen, die gibt's aber nicht nur, wenn sie nicht mehr Zeit genug zur Zuggenerierung hat, sondern auch, wenn sie von der Stellung überfordert wird für die Bedenkzeit, die ihr bleibt.
Sodass sie dann bei korrektem Zeitmanagement zwar immer noch nicht durch Zeitüberschreitung verlieren darf, aber doch verliert, weil sie nicht mehr die besten Züge findet, diese andere Grenze könnte sich doch durchaus schon früher merkbar engine- spezifisch auswirken, nein?
Und wenn wir jetzt eine solche Untergrenze für eine bestimmte engine relativ zu einer anderen und bestimmten übrigen Bedingungen postulieren und vielleicht sogar herausfiltern können, warum sollte es dann für je zwei Vergleichsengines (sonst pfui, ich weiß) nicht auch obere Grenzen geben, ab denen sich das Zugverhalten in der Partie sprunghaft zugunsten einer der beiden auswirkte?
Nun wiederhole ich meine Vermutung, dass die oberen Sprünge bei dem was aus selektiven Einzelstellungen bekannt ist, in Partiebedenkzeiten, wie du sie gerade probierst, nicht erreicht werden dürften, schon gar nicht in einem kompletten Kollektiv von engines, die letzlich doch einfach alle dem momentanen Stand der Programme entsprechen, die ja auch nicht zufällig ihre Topleistung in Partien bringen, die noch von Menschen zeitlich kontrolliert werden können und noch einen gewissen Unterhaltungswert für das menschlich Urteil haben. (Einfach: auf menschliches Zeitmaß geeicht und entwickelt, getestet wurden

)

By Ingo Bauer Date 2010-08-20 22:46 Edited 2010-08-20 22:51

Hi

Nur um es noch kürzer zu machen: Deine Stellungen, die Zappa so toll versteht, haben mit den vielen vielen Stellungen die aufs Brett kommen können nichts zu tun. Es geht darum einen repräsentativen Querschnitt zu finden - und bei dem soll es Engines geben die plötzlich toll zulegen.
Dein Versuch es immer wieder auf irgendwelche obskuren Einzelstellungen zu ziehen hat leider mit schachlicher Wahrheit nichts zu tun, sondern ist höchstens die Ausnahme die die Regel bestäigt!

[quote="Peter Martan"]
...
Und wenn wir jetzt eine solche Untergrenze für eine bestimmte engine relativ zu einer anderen und bestimmten übrigen Bedingungen postulieren und vielleicht sogar herausfiltern können, warum sollte es dann für je zwei Vergleichsengines ... nicht auch obere Grenzen geben, ab denen sich das Zugverhalten in der Partie sprunghaft zugunsten einer der beiden auswirkte?
[/quote]

Ja, der Mond ist grau, warum soll also die Rückseite des Pluto nicht Rot sein ... du merkst worauf ich hinaus will.

Ich halte fest - du Behauptest ohne Zahlen liefern zu können und sogar ohne einen theoretischen Ansatz warum eine Engine besser werden soll.

Gruß
Ingo

By Peter Martan Date 2010-08-21 12:05

[quote="Ingo Bauer"]
Ich halte fest - du Behauptest ohne Zahlen liefern zu können und sogar ohne einen theoretischen Ansatz warum eine Engine besser werden soll.
[/quote]

Rehi, Ingo!

Folgendes Zahlenmaterial möchte ich beisteuern. Ich habe auf jeweils single core eines 4x2.5 GHz Quad mit jeweils 256 Mb hash eine gute Stunde vier engines an der Grundstellung rechnen lassen:

Analysis by Houdini 1.03 w32 4_CPU:

1.d4 d5 2.Sf3 Sc6 3.Dd3 Sf6 4.Sc3 e6 5.a3 Ld6 6.e4 dxe4 7.Sxe4 0-0 8.Sfg5 g6 9.Sxd6 Dxd6
= (0.10)   Tiefe: 6/33   00:00:00 44kN
1.Sc3 d5 2.Sf3 d4 3.Se4 Sf6 4.d3 Sc6 5.g3 e6
= (0.10)   Tiefe: 6/33   00:00:00 45kN
1.Sc3 d5 2.Sf3 d4 3.Se4 Sf6 4.d3 Sc6 5.g3 e6
= (0.17 !)   Tiefe: 7/33   00:00:00 46kN
= (0.10)   Tiefe: 7/33   00:00:00 46kN
= (0.17 !)   Tiefe: 8/33   00:00:00 49kN
= (0.10)   Tiefe: 8/33   00:00:00 50kN
= (0.12)   Tiefe: 9/33   00:00:00 53kN
= (0.10)   Tiefe: 10/33   00:00:00 60kN
= (0.10)   Tiefe: 11/33   00:00:00 68kN
= (0.09)   Tiefe: 12/33   00:00:00 92kN
= (0.09)   Tiefe: 13/33   00:00:00 178kN
= (0.06)   Tiefe: 14/33   00:00:00 427kN
1.d4 d5 2.Sf3 Sc6 3.Sc3 Sf6 4.Lf4 Sh5 5.Ld2 g6 6.e3 Sf6 7.Ld3 a6
= (0.11)   Tiefe: 14/33   00:00:00 448kN
= (0.09)   Tiefe: 15/33   00:00:00 682kN
= (0.11)   Tiefe: 16/34   00:00:01 1205kN
= (0.09)   Tiefe: 17/38   00:00:03 3258kN
= (0.13)   Tiefe: 18/39   00:00:08 7682kN
= (0.17)   Tiefe: 19/39   00:00:21 18049kN
= (0.14)   Tiefe: 20/43   00:00:47 40931kN
= (0.16)   Tiefe: 21/45   00:01:26 74327kN
= (0.11)   Tiefe: 22/47   00:02:42 142mN
= (0.11)   Tiefe: 23/59   00:06:05 324mN
= (0.12)   Tiefe: 24/62   00:22:36 1234mN
= (0.11)   Tiefe: 25/62   00:47:50 2596mN

Analysis by Zappa Mexico II:

1.d4 Sf6 2.e3 d5 3.Sf3 Se4 4.Lb5+ c6
= (0.08)   Tiefe: 10   00:00:00 0kN
= (0.21)   Tiefe: 11/26   00:00:00 195kN
= (0.21)   Tiefe: 11/27   00:00:03 662kN
= (0.18)   Tiefe: 12/33   00:00:11 2580kN
= (0.18)   Tiefe: 12/38   00:00:19 4321kN
= (0.22)   Tiefe: 13/38   00:00:46 10251kN
= (0.22)   Tiefe: 13/38   00:00:52 11712kN
= (0.19)   Tiefe: 14/38   00:01:18 17724kN
= (0.19)   Tiefe: 14/38   00:01:54 25760kN
= (0.22)   Tiefe: 15/49   00:03:39 49599kN
= (0.22)   Tiefe: 15/49   00:04:11 56758kN
= (0.20)   Tiefe: 16/50   00:06:35 89683kN
= (0.20)   Tiefe: 16/50   00:11:18 153mN
= (0.20)   Tiefe: 17/52   00:18:07 244mN
= (0.20)   Tiefe: 17/52   00:21:39 290mN
= (0.11)   Tiefe: 18/55   00:56:28 755mN

Zu diesen ersten beiden:
Ich hab der Übersichtlichkeit und der Relevanz halber in Hinblick auf's Ausspielverhalten nur die Zeilen übriggelassen, bei denen sich der erste Zug ändert und die evals. Nun könnte man sagen, na tut sich doch nach kürzester Zeit ohnehin just gar nix mehr, man könnte aber auch folgendes sagen: Bei Houdini ändert sich die Bewertung in den ersten 20 Minuten von 0.10 auf 0.17 und dann in einer Stunde schrittweise zurück auf 0.11. Bei Zappa geht's innerhalb von 4 Minuten von 0.08 auf 0.22, bleibt dann lang oben und geht in der Stunde wieder auf 0.11 zurück. Das das nix ist, kann man eigentlich nicht sagen, es ist im einen Fall Schwankung um 70%, im anderen Fall fast 300% und jeweils zurück in durchaus sehr unterschiedlichen Zeitverläufen.

Dann zum Vergleich noch Stocki, ich war dem schon immer sehr dankbar für seinen Wankelmut.

Analysis by Stockfish 1.8 JA:

1.Sf3 Sf6 2.Sc3 Sc6 3.d4 d5
= (0.12)   Tiefe: 6   00:00:00 1kN
+/= (0.32)   Tiefe: 7   00:00:00 2kN
= (0.12)   Tiefe: 8   00:00:00 4kN
= (0.16)   Tiefe: 9   00:00:00 8kN
1.Sc3 Sf6 2.e4 Sc6 3.Sf3 d5 4.exd5 Sxd5 5.d4
= (0.20)   Tiefe: 9   00:00:00 15kN
= (0.24)   Tiefe: 10   00:00:00 23kN
= (0.24)   Tiefe: 11   00:00:00 37kN
= (0.16 --)   Tiefe: 12   00:00:00 75kN
1.e4 Sf6
+/= (0.32 !)   Tiefe: 12   00:00:00 109kN
+/= (0.40 !)   Tiefe: 12   00:00:00 129kN
+/= (0.52)   Tiefe: 12   00:00:00 169kN
+/= (0.48)   Tiefe: 13   00:00:00 287kN
+/= (0.44)   Tiefe: 14   00:00:00 464kN
+/= (0.36 --)   Tiefe: 15   00:00:01 955kN
+/= (0.52 !)   Tiefe: 15   00:00:01 1107kN
+/= (0.32)   Tiefe: 15   00:00:01 1399kN
+/= (0.48 !)   Tiefe: 16   00:00:02 1738kN
+/= (0.52)   Tiefe: 16   00:00:02 1914kN
+/= (0.48)   Tiefe: 17   00:00:03 2567kN
+/= (0.32 --)   Tiefe: 18   00:00:04 3239kN
+/= (0.28)   Tiefe: 18   00:00:05 4104kN
+/= (0.52 !)   Tiefe: 19   00:00:09 7027kN
+/= (0.40)   Tiefe: 19   00:00:11 8157kN
= (0.20)   Tiefe: 20   00:00:15 11056kN
+/= (0.36)   Tiefe: 21   00:00:27 19592kN
+/= (0.32)   Tiefe: 22   00:00:34 24368kN
+/= (0.32)   Tiefe: 23   00:00:41 29171kN
= (0.24 --)   Tiefe: 24   00:00:57 39936kN
+/= (0.40 !)   Tiefe: 24   00:01:15 52501kN
= (0.24)   Tiefe: 24   00:01:17 53829kN
+/= (0.32 !)   Tiefe: 25   00:01:37 68312kN
+/= (0.32)   Tiefe: 25   00:01:45 74086kN
= (0.24)   Tiefe: 26   00:02:25 101mN
= (0.24)   Tiefe: 27   00:03:26 143mN
+/= (0.32 !)   Tiefe: 28   00:05:40 237mN
+/= (0.32)   Tiefe: 28   00:06:16 262mN
= (0.24 --)   Tiefe: 29   00:08:54 371mN
+/= (0.28)   Tiefe: 29   00:11:21 472mN
= (0.20 --)   Tiefe: 30   00:21:48 906mN
= (0.24)   Tiefe: 30   00:26:48 1114mN
+/= (0.32 !)   Tiefe: 31   00:32:55 1363mN
= (0.16 --)   Tiefe: 31   00:41:06 1690mN
= (0.08 --)   Tiefe: 31   01:21:14 3331mN

Von 0.12 auf 0.52 in Sekunden, dann dort oben gute 10 Minuten lang, 500% fast, in ganz sachten Schritten zurück auf 0.08 in eineinhalb Stunden, na suppi.

Über all das darfst du ruhig noch lachen, Ingo, jetzt kommt's aber:

Analysis by Deep Rybka 4 w32:

1.Sc3 Sc6 2.Sf3 Sf6 3.e3 d6 4.Ld3
= (0.17 !)   Tiefe: 6   00:00:00 1kN
= (0.18)   Tiefe: 6   00:00:00 1kN
= (0.06)   Tiefe: 7   00:00:00 2kN
= (0.16)   Tiefe: 8   00:00:00 3kN
= (0.16)   Tiefe: 9   00:00:00 6kN
= (0.12)   Tiefe: 10   00:00:00 15kN
1.e4 Sc6 2.Sc3 Sf6 3.Sf3 d5 4.e5 Se4 5.Lb5 Lf5 6.0-0
= (0.13)   Tiefe: 10   00:00:00 32kN
= (0.15)   Tiefe: 11   00:00:01 55kN
= (0.16)   Tiefe: 12   00:00:03 121kN
= (0.21)   Tiefe: 13   00:00:05 194kN
= (0.17)   Tiefe: 14   00:00:07 303kN
= (0.19)   Tiefe: 15   00:00:27 1038kN
= (0.19)   Tiefe: 16   00:00:39 1560kN
= (0.16)   Tiefe: 17   00:00:55 2290kN
= (0.20)   Tiefe: 18   00:03:00 7541kN
= (0.19)   Tiefe: 19   00:04:35 11634kN
= (0.19)   Tiefe: 20   00:09:46 25163kN
= (0.16)   Tiefe: 21   00:20:51 53623kN
= (0.14)   Tiefe: 22   00:43:16 113mN
1.d4 Sf6 2.c4 e6 3.Sc3 d5 4.Sf3 Le7 5.e3 0-0 6.Ld3 dxc4 7.Lxc4 c5 8.0-0 Sc6 9.dxc5 Lxc5 10.a3
= (0.15)   Tiefe: 22   01:13:29 190mN

Dass mir das einzige Programm "für den seriösen Schachspieler", diese Freude macht, vergeß ich ihm nie, nach sage und schreibe 5 Viertelstunden ändert er noch seinen ersten Zug der HV, danke Rübi!
Alles andere kannst du bis dahin als irrelevant für einen Partieverlauf mit Turnierbedenkzeiten betrachten, das auch, aber nicht, wenn du entsprechend lange Bedenkzeiten hast.

Die Grundstellung wird von dir hoffentlich nicht als allzu best move- lastig bewertet, dass sie keinen solchen (best move) hätte, will ich damit absolut nicht sagen.
Aber wenn die Programme an ihr über so lange Zeitverläufe ihre Bewertungen so ändern und so natürlich absolut nicht linear, warum soll dann gerade dein Zeitabschnittsfenster von zwar doppelten aber dennoch nur Sekunden pro Zug verschieden langen Bedenkzeiten das einzig relevante sein, das Spielverhalten und die Zugqualität zu beurteilen und warum musst du von so vielen so ähnlichen Stellungen aus so viele Partien spielen, um das herauszufinden?
Weil das, was die engines ausspielen, nur sehr bedingt mit ihren evals zu tun haben mag, dennoch bewirkt das eine das andere, wenn es darum geht, zwischen Zügen zu wählen, die in der eval nah beinander liegen.
Die evals einzelner Stellungen auch im Partieverlauf zu bewerten sollte spätestens dann interessieren, wenn man mit den Partieergebnissen allein nicht zufrieden ist, zum Beurteilen einer engine.
Mag sein, über viele Züge in vielen Partien gleichen sich die Unterschiede der Bewertungsverläufe und ihre Ausspielrelevanz in der Partie wieder aus, mag sein auch nicht.

Meine Zahlen lassen mich annehmen, es wäre sehr viel Zufall notwendig, um sehr viel Kausalität auszugleichen, die mir dagegen spricht.
Deine Zahlen zeigen mir nur, dass in deinem Beobachtungszeitraum mit deinen Ausgangsstellungen die Partieresultate sehr ähnlich werden, dein Maß im rating system ist mir aber einfach ohnehin (mittlerweile) viel zu ungenau, um mir noch wirklich Aussagekraft über das zu haben, was ich unter Spielstärke verstehe und dass sich auch für dieses dein Maßsystem nichts wesentlich mehr mit sehr viel längeren Bedenkzeiten änderte, hast du sowenig bewiesen wie ich widerlegt.

Hingegen kennen wir den Gegenbeweis, dass ab einer gewissen Untergrenze die Bedenkzeit ausgangsrelevante Zeitnot erzeugt, auch bei heutiger soft- hardware- Kombination immer noch, die Bedenkzeiten können nur einfach schon sehr sehr kurz dafür werden.
Ebensolche Zeitnot kannst du außer durch sehr kurze Partiezeiten auch durch sehr komplexe Ausgangssstellungen erzeugen, warum nicht, dann vergrößerst du einfach wieder das Zeit- Leistungsfenster für das rating, magst du nicht machen, musst du auch nicht. Es wäre aber ein weiterer Weg, kleinere und kleinere Unterschiede im Zeit- Leistungs- Vergleich zwischen den engines genauer darzustellen, auch durch Ausspielen lassen, wenn du das als sichersten Weg gehen musst, um nicht nur Momentaufnahmen an einzelnen Stellungen, sondern auch deren Summationseffekte in Zugserien und Partiefragmenten zu haben. (Solche bleiben es allerdings auch immer, wenn du nicht nur von der Grundstellung aus spielst, Fragmente von ganzen Partien nämlich.)

Drum sag ich schon lang: Stellungstests mit was für Stellungen auch immer (am besten möglichst viele möglichst gut für die jeweilige konkrete Fragestellung ausgesucht) sind unerlässlich als genaueres Meßinstrument um engine- Leistungen zu beurteilen, sie sind nur viel schwerer in ein so ungenaues Maßsystem wie das des 100-engine-ratings einzuordnen und daher wirf mir nicht wieder ungerechtfertigt vor, ich würde Stellungstests gegen engine- engine- aufwiegen, das eine hat mit dem anderen nur bedingt zu tun, es verfolgt verschiedene Zwecke und hat jeweils für sich allein Berechtigung.

Dass du um die humane Bewertung deiner Teststelllungen für das eine und das andere nicht herum kommst, wiederhole ich jetzt zum letzten Mal, wir wissen es ohnehin beide gleichermaßen lang und gut genug. Du machst nur andere Folgerungen daraus als ich und suchst dir deine Teststellungen dahingehend aus, dass sie dir möglichst wenig deine Ergebnisse der Ranglistenmatches beeinflussen, du tust gut daran, ein weiteres unnötiges Mal Respekt dafür und danke für deine exakte Arbeit mit den Ranglisten.

Ich habe andere Fragestellungen an Zeit- Leistungsverhältnisse zwischen engines und erlaube mir daher die Zusammenhänge zwischen den verschiedenen Stellungen und Stellungstypen und den verschiedenen Zeitanforderungen in der Beurteilung der Stellungen durch engines und in der Beurteilung von engines anhand der Stellungen.

Ich hoffe dir damit auch ein für allemal klar gemacht zu haben, dass ich dich nicht in deiner Arbeit belehren will, aber auch meinerseits keinen Wert auf solches durch dich lege, wenn es darüber hinaus geht, mir von dir sagen zu lassen, welche engine, die du testest, wieviel Elo über der anderen liegt, das lass ich mir jederzeit gern durch deine Listen sagen, danke dir neuerlich auch für dieses dein jüngstes Experiment, wenn du mir dafür gönnst, weitere Schlußfolgerungen daraus für mich zu ziehen, als es dich auch nur im Mindesten interessierten könnte.

By Ingo Bauer Date 2010-08-21 14:16

Hallo Peter,
[quote="Peter Martan"]
... Ich hoffe dir damit auch ein für allemal klar gemacht zu haben, dass ich dich nicht in deiner Arbeit belehren will, ...
[/quote]

Das glaube ich dir und ich glaube du glaubst wirklich das du mit der Grundstellung und 4 Engines irgendetwas beweisen kannst!

Gruß
Ingo

By Ingo Bauer Date 2010-08-21 14:43

Hi

Sorry, beim nochmaligen lesen klingt das härter als es gemeint war.

Gruß
Ingo

By Peter Martan Date 2010-08-21 16:46

Schon gut, Ingo!
Nach einem Mittagsschläfchen überleg ich selber grad, wieviel meine Zahlen wohl zählen mögen...

Aber siehst du, das ist ja gerade die interessante Frage.
Eigentlich hätte ich folgendes machen müssen: die jeweils ersten beiden Varianten im MV Modus über den Zeitverlauf in ihrem Abstand zueinander in der eval verfolgen, wahrscheinlich würden die da dann auch öfter die Plätze tauschen und es wäre jedenfalls wieder ein anderes Experiment, das weniger mit dem Rechnen der engine in der Partie zu tun hätte.
Was aber die Stellungen als solche angeht: der einzige Unterschied zwischen bm- Aufgaben und anderen Stellungen ist der eval- Unterschied eines einzelnen Lösungszuges zu den anderen Kandidatenzügen.

Für engines ist jede Stellung eine best move- Aufgabe, weil sie immer einen als besten bewerten müssen, nur der Mensch macht subjektiv den Unterschied, diesen Lösungzug als einen besonderen mit einem klaren Plan dahinter zu verstehen, der engine ist das wurscht.

Was für Stellungen du nun als Teststellungen für matches verwendest, könntest du ganz genau genommen am besten dadurch filtern, dass du den Unterschied in ihren evals zu den Kandidatenzügen und den Absolutwert betrachtest, beides sollte ein gewisses Maß nicht überschreiten, dieses wäre aber erst wieder engine- abhängig oder von deiner menschlichen schachlichen Bewertung.
In Wirklichkeit herrschte selbst dann noch nicht wirkliche Chancengleichheit zwischen den Stellungen, wenn sie selbst derart völlig ausgewogen wären und alle mit demselben Zugzähler, weil ihre Dynamik, die Zahl der gleichguten Varianten, noch eine entscheidende Rolle spielte.

Sehen wir jetzt von all dem ab, bleibt immer noch das eine: mit fortschreitender Zugzahl, mit der du beginnst, profitiert eine eröffnungsstarke engine weniger und weniger von ihrer Eröffnungsstärke, die dafür zählt einfach mehr als jede andere Stärke, weil in einer Phase, in der die Veränderung der Stellung am meisten zählt und andere Stärken einfach nicht mehr zum Tragen kommen gegen den erspielten Eröffnungsvorteil.

Übrigens würde ich trotz Allem nach wie vor zu dem Schluss kommen, für ein sonst gut randomisiertes match ist das alles für das rating selbst ziemlich egal und man kann (nur das Gesamtergebnis betrachtend, ohne Zusatzstatistik der Variantenzahl) genau so gut immer von der Grundstellung aus spielen, dauert nur etwas länger.

Das Problem mit der Bewertung von Stellungen hast du aber, was das Zählen von evals angeht und ihre Bedeutung für die Partie ebenso wie für das Finden eines einzelnen besten Zuges.
Wirklich lustig fand ich ja bei meinem Experiment, dass sich Houdini und Zappa über d4 bald einig sind, Stockfish bei e4 bleibt und R4, nachdem sie lang auch bei e4 bleibt, dann noch zu d4 wechselt.

Könnten wir wirklich irgend wann einmal aus solchen Vorschlägen und den zugehörigen HVs und den evals echte schachliche Aussagen machen, das wär was, hmh?

Danke wieder mal für deine Geduld, meine eigene bewundere ich aber auch manchmal.

Bin übrigens mittlerweile wirklich gespannt, was bei deinem Versuch genau rauskommt.

By Clemens Keck Date 2010-08-20 21:26

Sag mal Ingo

wie spilest Du das denn?
Gegner haben gleiche BZ
oder nur Zappa hat doppelte BZ ?
Ich hoffe die Frage ist nicht zu dumm

Clemens

By Ingo Bauer Date 2010-08-20 21:34

Moin

Natürlich ALLE die gleiche lange Bedenkzeit. Es heißt ja immer das Enigne X mehr Zeit braucht, dann würde sie deutlich besser spielen. Die beiden Enignes die immer gerne als Bsp genannt werden sind Zappa und Junior. In meiner Umfrage von neulich hat aber Zappa mehr Zuspruch erhalten.

Das eine Engine besser wird wenn sie alleine doppelte Zeit bekämme ist wohl unbestitten.

Wenn ich die 3 + 1 durch habe, habe ich immerhin mehr als das vierfache zu 10 + 6. (und ich kann auch schon etwas sehen!)

Bye
Ingo

By Clemens Keck Date 2010-08-20 21:59

hi Ingo

ich stelle mir konkrete Ergebnisse trotzdem schwierig vor. Die Gegner legen ja ebenfalls evtl. unterschiedlich zu mit der Bedenkzeit. Man könnte höchstens sagen : gegen engine X legt Zappa ...% zu, gegen engine y ..% usw.
Na mal sehn was rauskommt.

Gruß, Clemens

By Ingo Bauer Date 2010-08-20 22:13

Moin

[quote="Clemens Keck"]
hi Ingo

ich stelle mir konkrete Ergebnisse trotzdem schwierig vor. Die Gegner legen ja ebenfalls evtl. unterschiedlich zu mit der Bedenkzeit. Man könnte höchstens sagen : gegen engine X legt Zappa ...% zu, gegen engine y ..% usw.

[/quote]

Nein nein, auf solche kurzen Einzelergebnisse darf man nicht sehen. Aus 100 Spielen kann man gar nichts lesen. Es gilt wirklich nur zu "Beweisen" ob eine Engine in einer Rangliste bei längeren Bedenkzeiten (für alle) irgendwie messbar zulegen oder sogar in neue "Spielklassen" aufsteigen kann.

Getestet habe ich natürlich mit der Engine, die vermeintlich am besten von Mehrbedenkzeit profitiert in der Hoffnung das man da am ehesten etwas sieht.
Aber natürlich hast du Recht, wir werden sehen

Gruß
Ingo

PS: Um es nochmal klar zu sagen: Natürlich sind die Einzelspiele in der Analyse höherwertiger, gehaltvoller - das ist unstrittig!

By Werner Schüle Date 2010-08-21 10:01

Hallo,
ich bin der Meinung, Zappa verliert mit steigender Bedenkzeit !
Zumindest hat das mal ein Vergleich unserer Listen 40/120 und 40/20 ergeben.
Bin mal gespannt, was bei dir rauskommt

Gruß
Werner

By peter struwel Date 2010-08-21 10:34

hi ingo,

dein versuch ist einfach unsinnig! denn, du bewegst dich immer noch ind der gleichen zeitdimension, sprich blitzschach.
anders könnte es aussehen, wenn du z.b. pro zug 6 minuten oder mehr spendieren würdest!

wie nicht anders zu erwarten, bekommst du so bei deinem versuch identische resultate!

m.f.g.
peter

Negativ (Zappa wird schlechter)	1	8%
Gleich (Zappa spielt gleich stark)	3	25%
+2% (~12Elo)	2	17%
+4% (~24 Elo)	4	33%
+6% (~36 Elo)	1	8%
+8% (~46 Elo)	1	8%
Mehr als +10% (60 Elo)	0	0%