Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / DJ Welcome Test "Reloaded"
1 2 Previous Next  
- - By Timo Haupt Date 2012-02-18 10:36
Hallo zusammen,

nach dem Abbruch des ersten Tests und meiner Ankündigung vom letzten Wochenende wurde der Test nun unter leicht geänderten Bedingungen fortgesetzt. Junior spielt gegen 8 Top Engines, so dass wir am Ende 8 x 60 Partien mit sehr langen Bedenkzeiten zur Verfügung haben werden. Zwar ist das statistisch keinesfalls aussagekräftig, doch es ist zumindest eine Datenbasis, auf der sich ein Trend erkennen lassen müsste. Aber im Vordergrund steht nachwievor der Spaß an der Sache! Deshalb hoffe ich, dass schöne Partien dabei herauskommen.

Alle Informationen, sowie die Links zu den Live-Partien und den Downloads (ganz unten) findet ihr auf meiner Homepage: http://www.team-oh.de/Computerschach/dj13.htm

Ich wünsche den Interessierten viel Spaß beim Zuschauen! Vielleicht hat jemand Zeit und Lust (Kurt?), mal die eine oder andere Glanzpartie zu kommentieren. Dies würde mich sehr freuen und bestimmt auch die Forengemeinde.

Viele Grüße
Timo

P.S.: Die Matches laufen eigentlich schon seit letzter Nacht, doch die Begegnungen gegen die 4 Top-Engines (Houdini, Critter, Stockfish, Rybka) musste ich nach der ersten Partie neustarten, da etwas mit dem Hash nicht stimmte. Somit geht es da jetzt erst wirklich los. In der ersten Runde der abgebrochenen Serie hatte Junior gegen Houdini remisiert, gegen Stockfish verloren und gegen Rybka gewonnen. Die Begegnung mit Critter lief noch, sah aber remislich aus.
Parent - By Timo Haupt Date 2012-02-18 10:47
P.S. 2: Ich bin bis Sonntagabend nicht zu Hause, kann also nicht eingreifen, falls etwas passiert (Hänger, Absturz o.ä.). Also nicht wundern, wenn etwas nicht klappt und es nicht sofort behoben wird bis dahin.
Parent - By Martin Müller Date 2012-02-18 10:51
Hallo Timo,

Ist echt interessant. Besten Dank.

Gruss
Martin
Parent - By Michael Scheidl Date 2012-02-18 10:58
Liveübertragung von acht langen Ponder on-Matches gleichzeitig! Das ist phantastisch.

480 Partien halte ich schon für statistisch aussagekräftig, umso mehr wenn sie unter so guten quasi "Testlabor-Bedingungen" stattfinden. Also wenn das wie geplant durchläuft, bin ich der Meinung daß wir dann genug über die Spielstärke der Junior 13-Engine bei (sehr) langer Bedenkzeit wissen werden.

Ich hoffe auf einige schachliche Leckerbissen, ganz egal welche Engine sie zubereitet.
Parent - By Klaus Ritter Date 2012-02-18 10:58
Hi Timo,
WOW!!! danke für das Turnier! Könnte ich einen vorderen Sitzplatz auf deiner Website bekommen ? 

Gruß,
Klaus
Parent - By Simon Gros Date 2012-02-18 12:10
Herzlichen Dank! Ich drücke alle Daumen, daß dies problemlos durchläuft.
Simon_G
Parent - By Peter Martan Date 2012-02-18 14:06
Huiii!
Parent - By Kurt Utzinger Date 2012-02-18 15:10
Hallo Timo
Fantastisch, da wird es so viele spannende Partien geben, dass es schwierig
werden dürfte zu entscheiden, wo sich eine vertiefte Kommentierug lohnt.
Gruss
Kurt
Parent - By Clemens Keck Date 2012-02-18 18:55
Ein MonsterMatch für Junior! Ich bin begeistert Timo. Hoffentlich läuft alles problemlos durch.
Viel Spaß bei den Partien wünsche ich....nun ja... uns allen

Beste Grüße aus Würzburg

Clemens
Parent - - By Timo Haupt Date 2012-02-19 18:42
Hallo zusammen,

danke für euer Interesse und die vielen netten Worte! Man muss schon (wie ich) ziemlich bekloppt sein, um einen solchen Aufwand zu betreiben für diesen Junior-Test...  
Aber es macht einfach soooo viel Spaß, bei diesen langen Partien zuzuschauen und (mit Junior) mitzufiebern! 

Leider hatte ich einen der Rechner wohl zu stark undervoltet, so dass es letzte Nacht einen Absturz gab (Match gegen Stockfish). Die zu diesem Zeitpunkt laufende Partie war schon so gut wie entschieden - Stockfish zeigte quasi schon Matt-Bewertungen für sich an (Bewertung von über 80) und Junior war auch schon bei unter -3. Habe die Stellung mit 6-Steiner TBs kurz überprüft, sie dann als gewonnen für Schwarz befunden und sie auch so gewertet (Sieg für Stockfish). Das Match wird jetzt an dieser Stelle (also nächste Partie) fortgesetzt.

Mein Eindruck bislang: Junior fühlt sich unten den neuen, leicht angepassten Bedingungen (125min/50Z+100min/40Z+[15min+5sek], 4GB Hash, bzw. weniger für die Matches mit weniger Threads) bedeutend wohler, wenn man es mit dem ersten Match (120min/40Z+60min, 1GB Hash) vergleicht. Vor allem gegen Critter läuft es nun bedeutend besser. Man hat momentan (natürlich noch viel zu wenige Partien!) nicht das Gefühl, als wenn Junior selbst gegen die Top 5 komplett untergeht, sondern er kann recht gut mithalten. Z.B. liefert er sich mit Houdini eine offene Schlacht (bislang nur entschiedene Partien) und hält insbesondere gegen Critter nun viel besser dagegen (Junior wurde im letzten Match übelst abgefertig). Gegen Stockfish kann man wg. des Hängers noch nicht viel sagen, während es gegen Rybka momentan schlechter läuft als im ersten Match. Auch gegen Komodo hat Junior momentan noch nicht viel zu bestellen (hier wurde ja wg. Gerechtigkeit nur 1 Thread verwendet, da Komodo bislang nur single-threaded erhältlich ist), dafür liefert er sich gegen Fritz einen Kampf auf Augenhöhe (trotz nur 1 Thread) und scheint bislang die anderen zwei Gegner (Naum und Chiron, jeweils 2 Threads) "im Griff" zu haben.

Zwischenstände:
vs. Houdini 2 aus 5 (2 Siege, 3 Niederlagen)
vs. Critter 2 aus 4 (4 Remisen, 5. Partie sieht wieder remislich aus)
vs. Stockfish 1 aus 3 (2 Remisen, 1 Niederlage)
vs. Rybka 2.5 aus 7 (5 Remisen, 2 Niederlage, 8. Partie verliert Junior)
vs. Naum 4 aus 6 (2 Siege, 4 Remisen, 7. Partie sieht remislich aus)
vs. Chiron 4 aus 6 (2 Siege, 4 Remisen)
vs. Komodo 2 aus 6 (4 Remisen, 2 Niederlagen, 7. Partie verliert Junior)
vs. Fritz 4 aus 8 (2 Siege, 4 Remisen, 2 Niederlagen, 9. Partie sieht remislich aus)

Natürlich sind das nur erste Eindrücke und man muss den weiteren Verlauf abwarten. Aber man hat schon das Gefühl, dass Junior sich hierbei nicht blamiert, sondern recht beachtlich spielt. Insofern bleibt bei mir die Hoffnung, dass Junior 13 doch ein Schritt nach vorne war (aber vielleicht würde Junior 12.5 unter diesen Bedingungen ebenfalls gut abschneiden?!), seine volle Kraft aber erst unter den hier verwendeten Konditionen zeigen kann.

@Clemens & Ingo: Ihr habt für Junior ja ebenfalls Ergebnisse gegen die o.g. Gegnerschaft, oder?. Es wäre natürlich am Ende dieses Matches interessant zu sehen, wie Junior im Vergleich zu diesem Test bei euch (also unter euren Testbedingungen) abgeschnitten hat. Vielleicht wärt ihr so nett und würdet Juniors Ergebnisse gegen diese Gegner hier posten (plus Bedingungen, also z.B. 5min+3s, 256MB Hash, 4-men Tablebases, 75 Vorgabestellungen bei Ingo).

Viele Grüße und weiterhin viel Spaß beim Partien verfolgen,
Timo
Parent - - By Ingo Bauer Date 2012-02-19 19:38
Moin Timo,

[quote="Timo Haupt"]
Mein Eindruck bislang: Junior fühlt sich unten den neuen, leicht angepassten Bedingungen (125min/50Z+100min/40Z+[15min+5sek], 4GB Hash, bzw. weniger für die Matches mit weniger Threads) bedeutend wohler, wenn man es mit dem ersten Match (120min/40Z+60min, 1GB Hash) vergleicht. ...
[/quote]

Sieht so aus als wenn dir das erste Ergebniss nicht gepasst hätte und du dann an den Bedinungen drehst????

Ansonten, wenn Junior tatsächlich 4 GB braucht wo alle andere mit 1GB klarkommen würde ich eher davon ausgehen das Junior extrem ineffizient mit seinem Hash umgeht, sprich es irgendwo in der Implementation happert! (Die DLL ist auch ein echter Anachronismus!)

[quote="Timo Haupt"]
Zwischenstände:
vs. Houdini 2 aus 5 (2 Siege, 3 Niederlagen)
vs. Critter 2 aus 4 (4 Remisen, 5. Partie sieht wieder remislich aus)
vs. Stockfish 1 aus 3 (2 Remisen, 1 Niederlage)
vs. Rybka 2.5 aus 7 (5 Remisen, 2 Niederlage, 8. Partie verliert Junior)
vs. Naum 4 aus 6 (2 Siege, 4 Remisen, 7. Partie sieht remislich aus)
vs. Chiron 4 aus 6 (2 Siege, 4 Remisen)
vs. Komodo 2 aus 6 (4 Remisen, 2 Niederlagen, 7. Partie verliert Junior)
vs. Fritz 4 aus 8 (2 Siege, 4 Remisen, 2 Niederlagen, 9. Partie sieht remislich aus)

@Clemens & Ingo: ...  Vielleicht wärt ihr so nett und würdet Juniors Ergebnisse gegen diese Gegner hier posten (plus Bedingungen, also z.B. 5min+3s, 256MB Hash, 4-men Tablebases, 75 Vorgabestellungen bei Ingo).
[/quote]

Na das liefere ich doch gerne:


Houdini 2.0 STD               : 150 (+ 14,= 34,-102), 20.7 %
Critter 1.4a                  : 150 (+ 12,= 45,- 93), 23.0 %
Stockfish 2.2.2 JA            : 150 (+ 15,= 43,- 92), 24.3 %
Deep Rybka 4.1                : 150 (+ 10,= 47,- 93), 22.3 %
Naum 4.2                      : 150 (+ 22,= 59,- 69), 34.3 %
Chiron 1.1a                   : 150 (+ 32,= 54,- 64), 39.3 %
Komodo 4                      : 150 (+  8,= 37,-105), 17.7 %
Fritz 13 32b                  : 150 (+ 35,= 50,- 65), 40.0 %


Wobei ich bei deiner Zeitkontrolle doch eine höhere Remisquote erwarten würde. Sprich die Engines rücken dichter zusammen, an der Reihung sollte sich nichts ändern.

Gruß
Ingo
Parent - - By Timo Haupt Date 2012-02-19 20:48
Hallo Ingo,

zunächst einmal vielen Dank für das schnelle Posten der Vergleichsergebnisse! Wenn man sich diese so anschaut, kann man nicht anders als zuzugeben, dass das ein Debakel für Junior war. Gegen die "Oberklasse" (ab 2800 Elo) gab es durchschnittlich 37,9% Punktausbeute - das klingt nicht nach dem auf der Junior-Seite versprochenen "one generation ahead in strength over DJ12" (wie hatte dieser abgeschnitten?). Denn da hätte man schon eine Steigerung erwartet, die das Kratzen an der 2800 Elo-Marke und damit auch das "Mithalten-Können" gegen diese Engines möglich macht. Doch gegen die Top5 ("Spitzenklasse" ab 2900 Elo) war es sogar eine Vernichtung mit lediglich 21,6% der Punkte! Vor allem gegen Komodo sah Junior offenbar überhaupt kein Land (bislang in meinem Test übrigens auch der härteste Gegner - was natürlich purer Zufall ist, aber vielleicht ein zutreffender ).

[quote="Ingo Bauer"]Sieht so aus als wenn dir das erste Ergebniss nicht gepasst hätte und du dann an den Bedinungen drehst????

Ich gebe zu, dass das so aussehen muss und dass auch Wahrheit in dieser Aussage steckt. Doch bedenke bitte, was u.a. Ziel dieses Tests ist: Die Ausgangsbasis war unter anderem die Frage, ob es Bedingungen gibt, unter denen Junior stärker spielt als das unter normalen Umständen zu erwarten wäre (also beispielsweise die schon vorliegende Datenbasis von dir, Clemens, CEGT u.a.). Kann er sich überproportional steigern, wenn er ein bestimmtes Setup vorfindet (das natürlich dann für die anderen auch gilt)? Selbstverständlich kann und muss man dann auch entgegen gesetzt argumentieren: Könnte es nicht sein, dass wenn Junior unter den von mir gewählten Bedingungen besser abschneiden sollte als es zu erwarten wäre, es nicht an einer Steigerung von Junior liegt, sondern daran, dass die Bedingungen für die Gegner dann eben nicht optimal waren? Dieser Einwand wäre vollkommen berechtigt und ich bin mir des Risikos auch bewusst. Allerdings ist mir weder von den Programmautoren, noch von sonst jemandem ein Argument bekannt, welches den Schluss zuließe, dass die hier gewählten Bedingungen für die Gegner nachteilig wären.

[quote="Ingo Bauer"]Ansonten, wenn Junior tatsächlich 4 GB braucht wo alle andere mit 1GB klarkommen würde ich eher davon ausgehen das Junior extrem ineffizient mit seinem Hash umgeht, sprich es irgendwo in der Implementation happert! (Die DLL ist auch ein echter Anachronismus!)

Alles richtig und das kann man auch nicht wegdiskutieren. Doch mein Fokus liegt ja wie ich bereits im ersten Test klargemacht habe auf Turnierbedingungen. Sprich: Gibt es einen Grund, warum Junior bei Turnieren (ICGA-WCCC, Thüringen) regelmäßig besser abschneidet als man es aufgrund seiner in Ranglisten gemessenen Spielstärke erwarten würde? Wenn es diesen Grund gibt, muss er m.A.n. in den Spielbedingungen liegen (Hardware, Zeitkontrolle, Engine-Parameter [Hash, Settings], Eröffnungsbuch). Die Junior-Experten hier im Forum und woanders behaupten, dass mit dem optimalen Setup Junior besser spielt als es seine Ranglistenstärke erwarten ließe. Das erste getestete Setup schien nicht optimal zu sein (mir wurde zugetragen, dass es zuwenig Hash war und keine gute Zeiteinteilung) - auch wenn man das nach ca. 50 Partien natürlich statistisch gar nicht belegen konnte. Aber das gute Abschneiden Juniors bei Clemens' "Myth Buster" (nicht nur vom Ergebnis, sondern einfach auch vom Spielverhalten, wenn man sich die Partien angesehen hat) hatte mich misstrauisch gemacht, ob da nicht doch mehr rauszuholen wäre. Deshalb brach ich den Test vorzeitig ab (hätte ihn durchlaufen lassen, aber bei diesen Mega-Bedenkzeiten überlegt man es sich doch zweimal, ob man die Zeit / den Strom opfern will) und wählte ein anderes Setup. Dies scheint bislang ein wenig besser zu funktionieren. Trotzdem lässt dieser Test den Faktor Eröffnungsbuch natürlich völlig außen vor - d.h. wenn Junior hier doch nicht wie erhofft besser abschneiden sollte, könnte sich ein "Junior-Gläubiger" immer noch darauf zurückziehen, dass er mit den passenden Eröffnungsvarianten trotzdem erfolgreicher spielen kann. Da dieses Argument jedoch für jede Engine gelten sollte (Vorlieben für bestimmte Eröffnungssysteme möchte ich ja mit dem noch anstehenden großen Eröffnungstest herausfinden), befindet man sich damit auf rel. dünnem Eis. Soviel "Junior-Glaube" würde mir dann fehlen, als dass ich ihn noch immer für eine "Killer-Engine" auf Turnieren hielte.

Zitat:
Wobei ich bei deiner Zeitkontrolle doch eine höhere Remisquote erwarten würde. Sprich die Engines rücken dichter zusammen, an der Reihung sollte sich nichts ändern.

Das ist gut möglich, wir werden es sehen. Die error bar wird natürlich in meinem Test erschreckend groß sein, aber ich schrieb ja, dass es nur um einen Trend geht (ggf. könnte man weitere Partien nachspielen lassen in Form von weiteren Vorgabestellungen, um den Trend zu verifizieren / falsifizieren). Wenn die Remisquote im Allgemeinen höher ist und sich nur dadurch Juniors Ergebnis ein wenig verbessert, würde ich davon ausgehen, dass dieser Effekt nicht Juniors Stärke zuzurechnen ist, sondern der allgemeinen Remistendenz bei langen Bedenkzeiten. Aber vielleicht zeigt sich auch etwas anderes - mal abwarten und in gespannter Erwartung weiterverfolgen...

Viele Grüße
Timo
Parent - - By Ingo Bauer Date 2012-02-19 21:28
[quote="Timo Haupt"]
zunächst einmal vielen Dank für das schnelle Posten der Vergleichsergebnisse!
[/quote]

Die Daten stehen alle auf meiner Seite im IPON downlaod!

[quote="Timo Haupt"]
Wenn man sich diese so anschaut, kann man nicht anders als zuzugeben, dass das ein Debakel für Junior war. Gegen die "Oberklasse" (ab 2800 Elo) gab es durchschnittlich 37,9% Punktausbeute - das klingt nicht nach dem auf der Junior-Seite versprochenen "one generation ahead in strength over DJ12" (wie hatte dieser abgeschnitten?).
[/quote]

DJ12.5:

Naum 4.2                      : 150 (+ 29,= 54,- 67), 37.3 %
Deep Rybka 4.1                : 150 (+ 12,= 44,- 94), 22.7 %
Houdini 2.0 STD               : 150 (+ 11,= 33,-106), 18.3 %
Fritz 13 32b                  : 100 (+ 16,= 36,- 48), 34.0 %
Chiron 1.1a                   : 150 (+ 30,= 48,- 72), 36.0 %
Komodo 4                      : 150 (+  7,= 32,-111), 15.3 %
Critter 1.4a                  : 150 (+  8,= 40,-102), 18.7 %
Stockfish 2.2.2 JA            : 150 (+ 15,= 42,- 93), 24.0 %


[quote="Timo Haupt"]
Denn da hätte man schon eine Steigerung erwartet, die das Kratzen an der 2800 Elo-Marke und damit auch das "Mithalten-Können" gegen diese Engines möglich macht. Doch gegen die Top5 ("Spitzenklasse" ab 2900 Elo) war es sogar eine Vernichtung mit lediglich 21,6% der Punkte! Vor allem gegen Komodo sah Junior offenbar überhaupt kein Land (bislang in meinem Test übrigens auch der härteste Gegner - was natürlich purer Zufall ist, aber vielleicht ein zutreffender ).
[/quote]

Ja, es beißt sich etwas. Wenn obige Aussage zutrifft haben es Shay, Bushinsky geschafft NUR die langen Zeitkontrollen zu verbessern die keiner testen kann ... es drängt sich die frage nach Wahrscheinlichkeiten auf!

[quote="Timo Haupt"]
[quote="Ingo Bauer"]Sieht so aus als wenn dir das erste Ergebniss nicht gepasst hätte und du dann an den Bedinungen drehst????[/quote]
Ich gebe zu, dass das so aussehen muss und dass auch Wahrheit in dieser Aussage steckt. Doch bedenke bitte, was u.a. Ziel dieses Tests ist: Die Ausgangsbasis war unter anderem die Frage, ob es Bedingungen gibt, unter denen Junior stärker spielt als das unter normalen Umständen zu erwarten wäre ...
[/quote]

Was natürlich die Frage aufwirft warum man sich für unnormale Bedinungen interessieren soll? (Okok, ein bisschen spitzfindig, zugegeben)

[quote="Timo Haupt"]
.. Allerdings ist mir weder von den Programmautoren, noch von sonst jemandem ein Argument bekannt, welches den Schluss zuließe, dass die hier gewählten Bedingungen für die Gegner nachteilig wären.
[/quote]

Das stimmt, mir auch nicht.

[quote="Timo Haupt"]
...Sprich: Gibt es einen Grund, warum Junior bei Turnieren (ICGA-WCCC, Thüringen) regelmäßig besser abschneidet als man es aufgrund seiner in Ranglisten gemessenen Spielstärke erwarten würde?
[/quote]

Timo, jetzt machst du dich aber kleiner als du bist. Du bist Gott sei Dank einer der echte Turniere miterlebt hat. Du weiß welche "Turnierhärte" die "Juniors" and den Tag legen, du weißt wie wichtig gerad ebei so einem Turnier das Buch ist und du weißt wie in Thüringen Ergebnisse zustande kommen (Regelkonform, aber in nichts mit ener Liste zu vergleichen!) Ich glaube, wenn es ein Gerichtssaal wäre mußtest du ehrlicherweise die Frage zurückziehen! Lass dich nicht von einem Hype mitreissen!

[quote="Timo Haupt"]
Die Junior-Experten hier im Forum ...
[/quote]

... sind begeisterte Fans, das ist ok, aber selten neutral!

[quote="Timo Haupt"]
...mir wurde zugetragen, dass es zuwenig Hash war und keine gute Zeiteinteilung)
[/quote]

Und ich bin sicher wäre mit dem richtigen Turniersetup zieht S12 an F13 und vielleicht Naum 4.2 vorbei ... würdest du dann auch umstellen, oder die CCRL, oder die CEGT oder ...?

[quote="Timo Haupt"]
Wenn die Remisquote im Allgemeinen höher ist und sich nur dadurch Juniors Ergebnis ein wenig verbessert, würde ich davon ausgehen, dass dieser Effekt nicht Juniors Stärke zuzurechnen ist, sondern der allgemeinen Remistendenz bei langen Bedenkzeiten.
[/quote]

Absolut, allgemein und nicht speziell!

[quote="Timo Haupt"]
Aber vielleicht zeigt sich auch etwas anderes - mal abwarten und in gespannter Erwartung weiterverfolgen...
[/quote]

Wenig Spiele, wie von dir schon erwähnt, aber mal abwarten!

Gruß
Ingo
Parent - - By Timo Haupt Date 2012-02-20 02:04
Hallo Ingo,

[quote="Ingo Bauer"]
[quote="Timo Haupt"]
zunächst einmal vielen Dank für das schnelle Posten der Vergleichsergebnisse!
[/quote]

Die Daten stehen alle auf meiner Seite im IPON downlaod!
[/quote]

Du hast natürlich Recht, irgendwie habe ich bislang völlig übersehen, dass bei dir unter "Archive" sowohl die individuelle Statistik, als auch alle Ergebnisse downloadbar sind. Danke nochmal für diesen hervorragenden Service, dies macht die IPON noch einmal besser!

[quote="Ingo Bauer"]Was natürlich die Frage aufwirft warum man sich für unnormale Bedinungen interessieren soll? (Okok, ein bisschen spitzfindig, zugegeben)[/quote]
Nicht nur spitzfindig, sondern pure Ansichtssache! Man könnte genauso anders herum argumentieren, wer sich denn für Blitzbedingungen interessiert. Na klar, da wird es schon etliche Leute geben, die auf Schachservern ihre Engines gegeneinander blitzen lassen. Aber außer bei der Blitz-WM werden nunmal auf Turnieren immer längere Bedenkzeiten verwendet (zugegebenermaßen wohl nicht so lange wie in meinem Test). Und auch Fernschachspieler dürften sich eher für die Qualität von Juniors Zügen bei längeren Zeiten interessieren. Du siehst, Argumente gibt es immer für beide Seiten. Es ist mal wieder eine Frage des persönlichen Geschmacks - ich mag halt lieber längere Zeiten und interessiere mich für Prognosen, wie ein Programm unter Turnierbedingungen abschneiden würde. Bisher wurde immer angenommen, man könne die Resultate aus Tests mit kurzen BZ einfach auf lange BZ hochrechnen. Dies gilt zwar als allgemeiner Konsenz und es gibt durchaus Belege dafür (z.B. die Überstimmungen zwischen IPON, SWCR, CEGT, CCRL, obwohl diese unterschiedliche BZ benutzen), aber ob das für alle höheren BZ und alle Programme gilt, hat noch niemand bewiesen bzw. wg. des zu hohen Aufwands beweisen können. Junior muss immer für die These herhalten, dass mit mehr BZ und schnellerer Hardware eben doch mehr möglich ist. Diesem Mythos möchte ich auf die Spur kommen und möglichst am Ende für mich abschätzen können, ab da etwas Wahres dran ist oder aber alles nur Wunschdenken ist.

[quote="Ingo Bauer"]
[quote="Timo Haupt"]
...Sprich: Gibt es einen Grund, warum Junior bei Turnieren (ICGA-WCCC, Thüringen) regelmäßig besser abschneidet als man es aufgrund seiner in Ranglisten gemessenen Spielstärke erwarten würde?
[/quote]
Timo, jetzt machst du dich aber kleiner als du bist. Du bist Gott sei Dank einer der echte Turniere miterlebt hat. Du weiß welche "Turnierhärte" die "Juniors" and den Tag legen, du weißt wie wichtig gerad ebei so einem Turnier das Buch ist und du weißt wie in Thüringen Ergebnisse zustande kommen (Regelkonform, aber in nichts mit ener Liste zu vergleichen!) Ich glaube, wenn es ein Gerichtssaal wäre mußtest du ehrlicherweise die Frage zurückziehen! Lass dich nicht von einem Hype mitreissen!
[/quote]
Natürlich weiß ich um die Turnierhärte des Junior-Teams und wenn Markus Kästner Recht hatte, dann kann ein kluger Bediener in einem Turnier 50-100 Elo ausmachen. Aber die Turniererfolge von Junior nur auf die Bedienerschläue und das Buch zu schieben, erscheint mir zumindest fragwürdig. Mein Test wird möglicherweise eine (vorsichtige) Aussage darüber treffen können, ob da nicht noch andere Einflüsse im Spiel sind. Ich traue es Junior zu, bin aber skeptisch. Ich denke auch, dass nach diesem Test noch weitere Partien nötig sind - die werde ich aber wohl nur spielen lassen, wenn die Resultate tatsächlich besser ausfallen, als man es anhand der bisher in anderen Tests gesammelten Daten vermuten würde. Denn wenn nach meinen 480 Partien in etwa das gleiche Ergebnis rauskommt, würde ich den Mythos für mich begraben. Im anderen Fall müssten dann mehr Daten produziert werden, um die Ergebnisse statistisch besser abzusichern.

[quote="Ingo Bauer"]
[quote="Timo Haupt"]
...mir wurde zugetragen, dass es zuwenig Hash war und keine gute Zeiteinteilung)
[/quote]
Und ich bin sicher wäre mit dem richtigen Turniersetup zieht S12 an F13 und vielleicht Naum 4.2 vorbei ... würdest du dann auch umstellen, oder die CCRL, oder die CEGT oder ...?
[/quote]
Zu einem Turniersetup gehört aber mehr als die verwendeten Bedingungen in meinem Test. In Turnieren treffen Programme auf völlig verschiedenen Rechnern aufeinander, mit unterschiedlichen Eröffnungsbüchern, 4-,5-, 6-Steiner Table-/ Bitbases und ggf. noch mit auf jeden Gegner abgestimmten Settings. Genau das mache ich in diesem Test ja nicht. Es gelten für alle die gleichen Bedingungen (faire Eröffnungsstellungen mit Farbwechsel, exakt gleiche Hardware, gleiche Hashzuteilung, gleiche Tablebases, keine Spezialparameter). Außerdem vergisst du, dass ich hier keine Liste produziere - der Vergleich mit Umstelllung der CCRL / CEGT hinkt also.

Viele Grüße
Timo
Parent - By Ingo Bauer Date 2012-02-20 07:59
Moin Timo,

[quote="Timo Haupt"]

[quote="Ingo Bauer"]Was natürlich die Frage aufwirft warum man sich für unnormale Bedinungen interessieren soll? (Okok, ein bisschen spitzfindig, zugegeben)[/quote]
Nicht nur spitzfindig, sondern pure Ansichtssache! Man könnte genauso anders herum argumentieren, wer sich denn für Blitzbedingungen interessiert.
[/quote]

Da habe ich mich missverständlich ausgedrückt. Mit "unnormal" meinte ich deine jetzigen Bedinungen und wollte den Vergleich zu deinen vorherigen, die man wohl kaum als "Blitz" bezeichnen kann, ziehen.
Mit der "Ansichtssache hast du natürlich recht!

[quote="Ingo Bauer"]
Aber die Turniererfolge von Junior nur auf die Bedienerschläue und das Buch zu schieben, erscheint mir zumindest fragwürdig.
[/quote]

Nun ja, für Thüringen habe ich nur ein "Sample", aber gerade deswegen würde ich das tun. Mit am besten vorbereitet und Schwächen der anderen genutzt, bzw die easy points mitgenommen. Genau so macht man das! Ich habe eher den EIndruck das man mit guter Vorbereitung 1/3 der Punkte bekommt ohne das die Engine wirklich viel rechnen mußte! Ich jedenfalls habe mit dieser Erklärung wenig Probleme.

[quote="Timo Haupt"]
[quote="Timo Haupt"]
[quote="Timo Haupt"]
...mir wurde zugetragen, dass es zuwenig Hash war und keine gute Zeiteinteilung)
[/quote]
Und ich bin sicher wäre mit dem richtigen Turniersetup zieht S12 an F13 und vielleicht Naum 4.2 vorbei ... würdest du dann auch umstellen, oder die CCRL, oder die CEGT oder ...?
[/quote]
Zu einem Turniersetup gehört aber mehr als die verwendeten Bedingungen in meinem Test. In Turnieren treffen Programme auf völlig verschiedenen Rechnern aufeinander, mit unterschiedlichen Eröffnungsbüchern, 4-,5-, 6-Steiner Table-/ Bitbases und ggf. noch mit auf jeden Gegner abgestimmten Settings. Genau das mache ich in diesem Test ja nicht. Es gelten für alle die gleichen Bedingungen (faire Eröffnungsstellungen mit Farbwechsel, exakt gleiche Hardware, gleiche Hashzuteilung, gleiche Tablebases, keine Spezialparameter). Außerdem vergisst du, dass ich hier keine Liste produziere - der Vergleich mit Umstelllung der CCRL / CEGT hinkt also.
[/quote]

Mit "Turniersetup" meinte ich so lapidar dein Setup, auch wenn es sich genaugenommen um kein Turnier handelt, stimmt. Und mein Vergleich bezog sich natürlich auf Bedinungen die alle anderen ebenfalls erhalten.
Ich will das nicht weitertreiben, hätte aber doch gerne das Ergebniss des ersten Laufs gesehen ....

Gruß
Ingo
Parent - - By Christian Schmidt Date 2012-02-19 22:54
[quote="Timo Haupt"]
[quote="Ingo Bauer"]Sieht so aus als wenn dir das erste Ergebniss nicht gepasst hätte und du dann an den Bedinungen drehst????[/quote]
Ich gebe zu, dass das so aussehen muss und dass auch Wahrheit in dieser Aussage steckt. Doch bedenke bitte, was u.a. Ziel dieses Tests ist: Die Ausgangsbasis war unter anderem die Frage, ob es Bedingungen gibt, unter denen Junior stärker spielt als das unter normalen Umständen zu erwarten wäre (also beispielsweise die schon vorliegende Datenbasis von dir, Clemens, CEGT u.a.). Kann er sich überproportional steigern, wenn er ein bestimmtes Setup vorfindet (das natürlich dann für die anderen auch gilt)?
[/quote]

Wird am Ende nicht einfach die Aussage getroffen: "Bei langen Bedenkzeiten wird Junior stärker"? Der Verweis auf das extra geänderte Setup wird meiner Meinung nach untergehen und Houdini wieder der "dumme Schnellrechner" sein. Na ja, egal. Ich verfolge diesen Test dennoch mit Interesse, wenngleich mit einer gewissen Vorsicht.
Parent - - By Timo Haupt Date 2012-02-20 01:33
[quote="Christian Schmidt"]
Wird am Ende nicht einfach die Aussage getroffen: "Bei langen Bedenkzeiten wird Junior stärker"? Der Verweis auf das extra geänderte Setup wird meiner Meinung nach untergehen und Houdini wieder der "dumme Schnellrechner" sein. Na ja, egal. Ich verfolge diesen Test dennoch mit Interesse, wenngleich mit einer gewissen Vorsicht.
[/quote]
Also von mir wirst du diese Aussage nicht lesen können, wenn die Partien / Ergebnisse das nicht belegen können. Außerdem ist ja der Test momentan noch in einer sehr frühen Phase. Houdini spielt sich möglicherweise gerade erst warm. Führt übrigens momentan mit 4 zu 2... 

Auch wenn ich es toll fände, glaube ich nicht daran, dass Junior am Ende ein so gutes Ergebnis gegen Houdini erzielen kann wie in Clemens Test. Da hatte Junior vermutlich einfach Glück. Aber ich wäre schon froh, wenn Junior die desolaten Resultate aus den Tests mit kurzen Zeiten (z.B. bei Ingo) verbessern könnte. Und wenn er nur jeweils 5-10% draufpacken kann, wäre das doch auch schon etwas.
Parent - - By Ingo Bauer Date 2012-02-20 07:49
[quote="Timo Haupt"]
Aber ich wäre schon froh, wenn Junior die desolaten Resultate aus den Tests mit kurzen Zeiten (z.B. bei Ingo) verbessern könnte. Und wenn er nur jeweils 5-10% draufpacken kann, wäre das doch auch schon etwas.
[/quote]

Durch Zufall auf die Frage von Thomas M. geantwortet:

Remisquote:
"CEGT 40/4 31% Remisquote,  IPON 35,6%, CEGT 40/20 hat 36% und die 40/120 hat 44%. (Gesamtrechenzeit pro Spiel aufsteigend)"

Wenn sich dieser Trend bewahrheitet und Junior nur im Durchschnitt des "Remisquotenanstiegs" liegt, legt er schon deine erhofften 5 bis 10% zu! Da muß deutlich mehr herrauskommen um davon zu sprechen das er wirklich überproportional "besser" wird.

Gruß
Ingo
Parent - - By Ingo Bauer Date 2012-02-20 08:03
Hallo nochmal

Bednekzeit abgelaufen, schade.

Wenn ich darüber nachdenke ist das sogar gefährlich. Man zieht nach einem Turnier einen Schluß, vergleicht mit etwas ganz anderem ohne eine gleichwertige Probe zu haben.

Eigentlich mußtest man, ehe man einen Schluß zieht, Vergleichsengines laufen lassen (Hiarcs 13.2 oder SPark z.B.). Erst dann kann man eine Aussage treffen. Der direkte Vergleich mit einem anderen Ergebniss ... eigentlich falsch!

Gruß
Ingo
Parent - - By Ingo Bauer Date 2012-02-20 08:23
Oder kurz: Die Erwartung "Junior wird mit mehr Zeit besser" wird erfüllt wenn Junior jetzt mehr % holt als in der IPON. Der Schluß "Junior wird mit mehr Zeit besser" liegt auf der Hand - ist aber nur die halbe Wahrheit weil der Duchschnitt eben auch besser wird.

Die korrekte Frage müßte lauten: "Wird Junior mit mehr Zeit besser als der Durchschnitt der Engines?"

Gruß
Ingo
Parent - - By Michael Scheidl Date 2012-02-20 09:48
Man könnte auch die Perspektive umkehren: Warum scort Junior bei kurzen Bedenkzeiten bzw. vergleichsweise geringeren Tiefen schlechter?

Es gibt ja auch Gegenbeispiele, wenn ich nicht irre scort z.B. Fritz typischerweise im Blitz (etwas) besser.
Parent - - By Ingo Bauer Date 2012-02-20 17:58
Moin

[quote="Michael Scheidl"]
Man könnte auch die Perspektive umkehren: Warum scort Junior bei kurzen Bedenkzeiten bzw. vergleichsweise geringeren Tiefen schlechter?

Es gibt ja auch Gegenbeispiele, wenn ich nicht irre scort z.B. Fritz typischerweise im Blitz (etwas) besser.
[/quote]

Es geht nicht um "umkehren".

Zunächst sind die Zahlen mit dem Ansteigen der Remisquote (CCRL hat das übrigens auch. 40/4 = 28%, 40/40 =37%) natürlich nichts gesichertes, aber alles was wir haben. Ich würde das keinen empirischen Beweis nennen, sondern höchstens einen "Fingerzeig".

Diese sagen aus, dass der Duchschnitt aller Engines bei längeren Bedenkzeiten eine höhere Remisquote erzeugt. J13 hat nun rund 28% gegen obige Gegnerschaft geholt. Nun behauptet jemand das Junior bei längeren Bedenkzeiten deutlich besser abschneidet - und das ist auch genau das was der Durchschnitt aller Engines erwarten läst.
Natürlich gewinnt so der "Fan" den Eindruck das seine Engine in den Listen falsch dargestellt wird, was aber so nicht stimmt, weil eben der Durchschnitt aller Engines gewinnt. Eine Engine, die man isoliert, sehr genau beobachtet, schneidet bei langen Bedenkzeiten viel besser ist.
Timos Testsetup hat nun den Nachteil das es unbewußt genau diesem Eindruck Vorschub leistet, weil es nur eine Engine testet und man dann natürlich mit der Performance in den gängigen Listen vergleicht - Voila: Junior X braucht mehr Zeit, da performt er ja viel besser.

In Wahrheit rücken womöglich alle Engines nur etwas enger zusammen (was auch heißt das Bücher eine viel größere Rolle in einem Turnier mit langen Bedenkzeiten spielen!), es würde sich, bei genug Spielen, am Ranking nichts ändern.

Dazu kommt noch, das gewiise Eindrücke, wenn man genau darauf achtet, sich auch bestätigen. Es ist wie mit einer selbsterfüllenden Prophezeiung. Das selbe gilt für Fritz. Er hat den Ruf ein überdurchschnittlicher Blitzer zu sein. In den kurzen Listen sehe ich das nicht.

Das Problem ist, das wir keine Zahlen für gleiche Bedinungen für eine komletten Rangliste zw. kurzer und langer Zeitkontrolle haben. Man kann bei langen Zeitkontrollen mit vernünftigem Zeitaufwand nur eine Engine testen, und die produziert dann auf mirakulöse Weise, plötzlich bei langen Zeitkontrollen weit bessere Werte als bei kurzen ...

Konklusion: Wenn Junior bei Timo eine bessere Performance zeigt als z.B. in der IPON, sagt das nichts, weil wir nicht wissen wie der Durchschnitttsanstieg aller Engines wäre.
Timo müßte mal meine Statistiken auswerten welche Enignes gegen die obige Gegnerschaft eine ähnliche Performance von rund 28% produziert hat. Das wären die nächsten Gegner für diesen Test (und nicht Spark und Hiarcs die ich nannte, die haben ein ähnliches Rating gegen alle Gegner. Wie die gegen die obigen 6 performt haben, habe ich nciht geprüft).

Gruß
Ingo
Parent - - By Peter Martan Date 2012-02-20 18:26
[quote="Ingo Bauer"]
In Wahrheit rücken womöglich alle Engines nur etwas enger zusammen (was auch heißt das Bücher eine viel größere Rolle in einem Turnier mit langen Bedenkzeiten spielen!), es würde sich, bei genug Spielen, am Ranking nichts ändern.
[/quote]

Am Ranking nicht, aber an den Elozahlen, die Abstände würden kleiner werden.
Auch würde ich annehmen, dass Bücher nicht mit längeren Bedenkzeiten größeren Einfluss gewinnen, sondern im Gegenteil umso mehr zählen, je schneller gespielt wird. Gute engines werden gegen gute Gegner aus kleinen Buchvorteilen im Blitzen leichter Profit ziehen können als bei langen Bedenkzeiten.
Das kann ich auch nicht beweisen, richtig.

[quote="Ingo Bauer"]
Das Problem ist, das wir keine Zahlen für gleiche Bedinungen für eine komletten Rangliste zw. kurzer und langer Zeitkontrolle haben. Man kann bei langen Zeitkontrollen mit vernünftigem Zeitaufwand nur eine Engine testen, [/quote]

Das stimmt so auch nur, wenn man immer ganze Partien bis zum bitteren (und oft zufallsabhängigeren Ende) ausspielen lassen muss.
Muss man das?
Nein, man könnte endlich auch Varianten einer bestimmten Länge zum Testen verwenden und einfach die eval- Steigerungen oder -Verluste betrachten, am besten die Quotienten vor und nach der Variante, damit würden die Absolutwerte am wenigsten zählen und die relativen eval- Veränderungen am meisten.
Man könnte endlich beliebige Teststellungen nehmen und Ergebnisse von der Partiephase abhängig betrachten, man hätte endlich nicht mehr zwangsläufig den 3fachen Vorteil derjenigen engines in den Messergebnissen, die gut eröffnen, besser gesagt erfolgreicher im Vergleich mit den anderen engines, von grundstellungsnahen Stellungen aus, weil der Vorteil, der in der Eröffnung erspielt wird, nicht im Mittelspiel und im Endspiel jeweils zwangsläufig noch einmal mitgezählt würde.
Parent - By Ingo Bauer Date 2012-02-20 18:56
[quote="Peter Martan"]

Das stimmt so auch nur, wenn man immer ganze Partien bis zum bitteren (und oft zufallsabhängigeren Ende) ausspielen lassen muss.
Muss man das?
Nein, man könnte endlich auch Varianten einer bestimmten Länge zum Testen verwenden und einfach die eval- Steigerungen oder -Verluste betrachten, am besten die Quotienten vor und nach der Variante, damit würden die Absolutwerte am wenigsten zählen und die relativen eval- Veränderungen am meisten.
Man könnte endlich beliebige Teststellungen nehmen und Ergebnisse von der Partiephase abhängig betrachten, man hätte endlich nicht mehr zwangsläufig den 3fachen Vorteil derjenigen engines in den Messergebnissen, die gut eröffnen, besser gesagt erfolgreicher im Vergleich mit den anderen engines, von grundstellungsnahen Stellungen aus, weil der Vorteil, der in der Eröffnung erspielt wird, nicht im Mittelspiel und im Endspiel jeweils zwangsläufig noch einmal mitgezählt würde.

[/quote]

Schöne Worte, leg los, bin auf deine Ergebnisse gespannt!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2012-02-21 13:50
Ja richtig, die mit mehr Zeit und Tiefe steigende Remisquote ist ein wesentlicher Gesichtspunkt.

Aber: Wenn meine Logik stimmt dient selbige nur Engines die bei Vergleichsratings von geringeren Zeit bzw. Tiefen insgesamt unter 50% erzielten, aber schadet Engines die dort über 50% erzielten. Für die eine Engine bedeutet eben die Bewegung zur 50%-Marke hin eine Verbesserng, für eine andere wiederum eine Verschlechterung.

Daraus ergibt sich die Hypothese daß Junior, wenn man den Vergleich einschränkt auf schwächere Gegner gegen die er in Blitz- oder Schnellpartien über 50% scorte, bei langer Bedenkzeit selber schlechter scoren würde...

(Ohne daß ich behaupte, daß das zu beweisen oder zu widerlegen den Aufwand wert wäre.)
Parent - - By Ingo Bauer Date 2012-02-21 16:18
In anderen Worten:

Jede Enigne nähert sich bei länger werdenden Bedenkzeiten dem 50% Score ...Egal aus welcher Richtung!

Die Frage ist nur, ob Junior sich schneller oder langsamer annähert? Theoretisch kann es sogar sein das er sich annähert, was auf Grund der genauen Beobachtung als "Wird besser mit mer Bedenkzeit" angesehen wird, in Wirklichkeit nähert er sich vielleicht langsamer als andere Engines, die aber nicht beobachtet werden...

Un das alles ist tatsächlich ein "Wolkenkuckukcksheim" weil es kein belastbares Material gibt das meine kleine ad hoc Hypothese "beweist"! Alles was ich sagen wollte ist, das diese erhöhte Remisquote eine mögliche Erklärung ist und das es eben keine Wunderdinge bei Junior braucht die den Eindruck erwecken könnten den manche haben.
Ich schaue schlicht in die Blitz- oder Langlisten und sehe das Junior praktisch immer die seben Nachbarn hat. Für mich bedeutet das, das Junior keinerlei Gewinne aus extra Bedenkzeit zieht, den andere nicht auch ziehen!

Gruß
Ingol
Parent - - By Timo Haupt Date 2012-02-21 16:56
Hallo Ingo!

[quote="Ingo Bauer"]
Ich schaue schlicht in die Blitz- oder Langlisten und sehe das Junior praktisch immer die seben Nachbarn hat. Für mich bedeutet das, das Junior keinerlei Gewinne aus extra Bedenkzeit zieht, den andere nicht auch ziehen!
[/quote]

Ich weiß nicht, was du genau als "Langliste" bezeichnest (für mich wäre das Turnierbedenkzeit, für dich wahrscheinlich schon CEGT 40/20). Aber bei CCRL 40/40, vor allem aber bei CEGT 40/120 steht Junior schon ein bisschen anders da (nicht unbedingt vom Rating selbst, aber von der Reihenfolge). Leider sind das zu wenige Partien und auch ist die Liste teilweise nicht ganz aktuell. Vor allem wenn mehr als nur ein Kern benutzt wird, steigt Juniors Rating doch deutlich. CCRL 40/40 hat Junior 12.5 dort auf einem Niveau mit Shredder und Spike, die bei Single-Core doch ein Stückchen von diesem entfernt platziert sind.

Viele Grüße
Timo
Parent - - By Ingo Bauer Date 2012-02-21 23:12 Edited 2012-02-21 23:18
Hallo Timo,

Vielleicht sollten wir mal definieren was eine "relevante" und "aussergewöhnliche" Spielstärkesteigerung ist!?

CCRL:
Ich habe jetzt nochmal in die CCRL geschaut (ungern wegen der vielen Lücken!). In der 40/4 liegen beide Engine 36 Elo auseinander. Shredder mit einem +/-9, Junior 12.5 mit +/- 16. In der 40/40 liegen sie 4 Elo auseinander, bei +/-25 für Junior (480 SPiel) und +/- 14 für S12. Dazu liegen drum herum praktisch immer die selben Engine. Um 10 Elo will ich hier nicht streiten, aber davon das Junior plötzlich in anderen Regionen ist kann meiner Meinung kaum die Rede sein zumal auch die anderen Nachbarn, immer noch Nachbarn sind, sofern sie in beiden Listen vorhaden sind. (Von der Tatsache, das sie nicht die selben Gegner mit den selben Eröffungen gespielt haben und welchen Unterschied das bei 480 Spielen ZUSÄTZLICH zum statistischen Rauschen, das ausmachen kann ...)

CEGT:
Best 40/4: Junior 12 kurz vor Zappa (8Elo), 50 ELo hinter S12 (J12.5 gibt es nicht). Best 40/20: 10 Elo hinter Zappa, 55 Elo hinter S12. 40/120 Junior 12 gibt es nicht, aber 12.5 liegt 50 Elo hinter S12 (Zappa gibt es nicht).

Im Ganzen ist das vergleichen schwer, aber bei dem "Gewese" bzgl Junior braucht mehr Zeit würde man doch ein bisschen mehr erwarten als das was man tatsächlich findet ... es sei denn Junior braucht immer genau die Zeiten (oder Hashtabellen) die man genau NICHT testen kann ...

Kurz: Dichter zusammen, OK, es gibt Indizien, besser besser werden als andere - nein.

Gruß
Ingo

PS: Ansonten finde ich es interessant das ich mich mit jedem Release von Junior erwische die alten Vorurteile zu hinterfragen (bei den selben Leuten wie immer) und jedesmal nichts dabei herrauskommt weil Argumente gegen Glaubensfragen sinnlos sind. Vielleicht sollte ich es aufgeben!
Parent - - By Peter Martan Date 2012-02-22 06:55 Edited 2012-02-22 07:02
[quote="Ingo Bauer"]
Im Ganzen ist das vergleichen schwer, aber bei dem "Gewese" bzgl Junior braucht mehr Zeit würde man doch ein bisschen mehr erwarten als das was man tatsächlich findet ...
[/quote]

Das "Gewese" ist vielleicht wieder einmal zuviel gewesen, richtig. Dann aber nur diejenige Interpretation des simplen Kernsatzes "Junior braucht mehr Zeit".
Das heißt halt zunächst mal nicht anderes, als dass Junior mehr Zeit braucht und absolut nicht, wieviel Zeit als welche andere engine er braucht, um genau was zu erreichen.
100 Elo gegen Houdini im Fernschach? Hat ja nun wirklich niemand behauptet, oder? (Ließe sich übrigens auch ausgesprochen schwer widerlegen )
5 Elo mehr bei 40/120? Du willst nicht über 10 Elo streiten, warum tust du es dann?
Ich habe bei deinen statistisch fundierten aber an der Frage, was kann Junior mehr mit wieviel mehr Zeit mit welchen Eröffnungs- und anderen Stellungen, völlig vorbeigehenden Urteilen, immer wieder das Gefühl, du willst dir selbst einmal mehr beweisen, dass das einfach alles ist was zählt: Elo mit entsprechend vielen Teilnehmern, entsprechend großen Partiezahlen von grundstellungsnahen ausgeglichenen Eröffnungsstellungen bis zum bitteren Ende (naja, das GUI darf auch aus sagen mit ein paar Fünfsteinern gemeinsam) ausgespielt.


[quote="Ingo Bauer"]
PS: Ansonten finde ich es interessant das ich mich mit jedem Release von Junior erwische die alten Vorurteile zu hinterfragen (bei den selben Leuten wie immer) und jedesmal nichts dabei herrauskommt weil Argumente gegen Glaubensfragen sinnlos sind. Vielleicht sollte ich es aufgeben!
[/quote]

Vielleicht solltest du einfach deinen unumstößlichen Glauben an die Elo, insbesonders die Variante der Ipon- Ingozahl davon, als das Maß aller Dinge aufgeben.
Du wartest immer noch auf Daten von mir? Dann musst du Daten außer denen, die du erhebst, auch gelten lassen.
Die könntest du auch leichter selbst erheben mittlerweile, als den xten "neuen" bitboarder ausspielen zu lassen, von dem du dir durch gesunden Menschenverstand allein nicht gleich beantworten kannst, zu welcher Familie genau er gehört, und ob nicht trotz Zugehörigkeit zu irgend einer schon bekannten und in deiner Liste vertretenen, justamend trotzdem oder gerade deshalb doch noch um 5 Elo vor dem schon gereihten bis dato besten derselben oder sehr nahe verwandten Familie, liegen könnte.

(Diesen Satz habe ich genüsslich genau so stehen lassen, damit du jetzt wieder sagen kannst, das kann kein Mensch verstehen.)

Nimm z.B. einfach Antons letzte harte Nuss und setz auf je einem Kern eines einzelnen Rechners deines Fuhrparks, 6 engines drauf an, von denen eine Junior ist, schau, welche eine für die Stellung zählende eval- Veränderung in einer Zeit, die du für angemessen hältst, erreicht, und lass ruhig währenddessen alle anderen Rechner (auf den einen wird's ja wohl nicht ankommen ) deine üblichen Matches laufen.
Jetzt hast du dann nach der Zeit, die dich interessiert hat (die Stellung wird halt für mehr als eine engine eine Weile dauern, nimm für den Anfang vielleicht doch eine leichtere Stellung, merke: leichter ist sie nicht unbedingt schon deshalb, weil du keinen eindeutigen best move kennst, sondern nur ein paar Abspiele, von denen du auch nicht weißt, welches wie gut ist), eine Aussage zu den 6 engines zueinander, relativ zu der Stellung deines Interesses und der Zeit, und mehr wirst du durch noch soviele komplette Partien von noch so vielen Stellungen aus, die einander zu sehr ähneln, um bei den engines einer Familie noch Merkmalsdifferenz zu haben, auch nicht bekommen, mit noch so schön korrekt durchgeführter Statistik.

Aussagen zur relativen Spielstärke von engines, relativ zu den Stellungen, relativ zu den Gegnern und relativ zur hardware- Zeitkombination.

Das "Gewese" ist zumindest meinerseits nie ein anderes gewesen als das: es kann Junior manche Stellungen mit mehr Zeit besser behandeln als andere, die mit dieser Mehrzeit in dieser Stellung auch immer noch nix anfangen.
Parent - - By Ingo Bauer Date 2012-02-22 14:23
Aua Peter,

du bist mal wieder ziemlich weit ab von der Küste!

Unterstellst mir ich würde nur mein Zahlen gelten lassen und das als Antwort zu einem Posting in dem ich ausschließlich andere Listen zitiere. Ich glaube mit Wirklichkeit haben deine Postings nicht viel zu tun. Liest du eigentlich noch was ich schreibe oder geht bei dir da schon ein pawlowscher Reflex los?

Also, nur für dich: Ich lasse gerne andere Zahlen gelten, wenn es sie gäbe! Das sollte jetzt klar sein.

(FYI: ungefähr bei diesem schlicht falschen Darstellung ich würde nur miene Zahlen gelten lassen habe ich aufgehört zu lesen)

Von dir kommt immer nur irgendsoein "Eröffnungsblabla, richtige Stellung, lang, kurz, aussuchen ..." irgendetwas was ich nur als Rauschen wahrnehme und mich ehrlichgesagt auch nicht interessiert in Verbindung mit Forderungen. (Oder nicht interessiert weil immer viel Blabla aber nicht eigenes kommt)
Wenn dir das was es gibt nicht passt: Mache es selber und mach es besser!
(NAchdem mir das mal gesagt wurde (zu Recht) habe ich angefangen meine IPON zu veröffentlichen)

Gruß
Ingo
Parent - - By Peter Martan Date 2012-02-22 20:03
[quote="Ingo Bauer"]
Also, nur für dich: Ich lasse gerne andere Zahlen gelten, wenn es sie gäbe! Das sollte jetzt klar sein.
[/quote]

Es gibt sie, Ingo, sie zählen nur eben nicht wirklich für dich, ich halte dir zu gute, sonst auch für kaum jemanden außer mir, nämlich als Qualitätskriterium einer HV oder einer engine, ich rede natürlich wieder von den evals.
Lustig aber andererseits, dass man in dem, was man mit den Maschinen so tut, wenn man sie nicht nur blindwütig aufeinander hetzt, eigentlich nach nichts anderem schaut, als danach, was da in cp angegeben steht, vielleicht noch, wie lange sie schon rechnen und wie tief sie vorgeben, dabei gekommen zu sein, jetzt einmal abgesehen natürlich von den Zügen, um nur von Zahlen zu reden, die halt an und für sich etwas überbewertet werden.

Das Einzige, was aber an Zahlen wirklich interessiert, wenn man die engine als Werkzeug verwendet, ist diese cp- Angabe, vielleicht optimaler Weise noch durch eine Matt in... ersetzt, dann weiß man endlich, dass die Zahlenangaben überprüfbar werden.
Wenn wir das nicht endlich auch als Vergleichswert zwischen engines und dem, was sie spielen, ernst nehmen, wird das Schach, das die, wenn überhaupt noch unterscheidbaren, Maschinen als Weiterentwicklung einander gegenseitig andichten, indem sie mehr und mehr halbe Punkte auf eine dem Menschenschach immer unähnlichere Art erspielen, einfach bald nur noch als Maschinenschach Interessenten finden, bei Leute, denen es egal ist, dass das, was die Blechis da so spielen, ohnehin kein Mensch mehr versteht.
Hast du dich eigentlich schon einmal gefragt, warum du mir, wenn du mich nicht verstehst, das immer ganz allein vorwirfst, ohne einen Gedanken daran zu verschwenden, es könnte schon auch irgendwie am mangelnden guten Willen deinerseits liegen, wenn die engines hingegen einen völlig unverständlichen Scheiß spielen, bist du hin und weg und völlig sicher, dass die Menschen einfach nur zu blöd sind, das zu verstehen.
Parent - - By Kurt Utzinger Date 2012-02-22 20:27
Moin Peter
Jetzt hast Du m.E. aber wieder einmal eine Palette von unverständlichen "Stilblüten" geliefert.
Ich habe fett einige Anmerkungen eingefügt.
Kurt


[quote="Peter Martan"]
[quote="Ingo Bauer"]
Also, nur für dich: Ich lasse gerne andere Zahlen gelten, wenn es sie gäbe! Das sollte jetzt klar sein.
[/quote]

Es gibt sie, Ingo, sie zählen nur eben nicht wirklich für dich, ich halte dir zu gute, sonst auch für kaum jemanden außer mir, nämlich als Qualitätskriterium einer HV oder einer engine, ich rede natürlich wieder von den evals.

Bitte erklären, was mit diesem Satz gemeint ist. Ich habe ihn dreimal gelesen und bin nicht schlau geworden.

Lustig aber andererseits, dass man in dem, was man mit den Maschinen so tut, wenn man sie nicht nur blindwütig aufeinander hetzt, eigentlich nach nichts anderem schaut, als danach, was da in cp angegeben steht, vielleicht noch, wie lange sie schon rechnen und wie tief sie vorgeben, dabei gekommen zu sein,

Trotz Schwerfälligkeit in den Formulierungen, ist mir bis hierher klar, was gemeint sein soll.

jetzt einmal abgesehen natürlich von den Zügen, um nur von Zahlen zu reden, die halt an und für sich etwas überbewertet werden.

Der Sinn des letzten Teils dieses Satz bleibt mir verschlossen.

Das Einzige, was aber an Zahlen wirklich interessiert, wenn man die engine als Werkzeug verwendet, ist diese cp- Angabe, vielleicht optimaler Weise noch durch eine Matt in... ersetzt, dann weiß man endlich, dass die Zahlenangaben überprüfbar werden. Wenn wir das nicht endlich auch als Vergleichswert zwischen engines und dem, was sie spielen, ernst nehmen, wird das Schach, das die, wenn überhaupt noch unterscheidbaren, Maschinen als Weiterentwicklung einander gegenseitig andichten, indem sie mehr und mehr halbe Punkte auf eine dem Menschenschach immer unähnlichere Art erspielen, einfach bald nur noch als Maschinenschach Interessenten finden, bei Leute, denen es egal ist, dass das, was die Blechis da so spielen, ohnehin kein Mensch mehr versteht. Hast du dich eigentlich schon einmal gefragt, warum du mir, wenn du mich nicht verstehst, das immer ganz allein vorwirfst, ohne einen Gedanken daran zu verschwenden, es könnte schon auch irgendwie am mangelnden guten Willen deinerseits liegen, wenn die engines hingegen einen völlig unverständlichen Scheiß spielen, bist du hin und weg und völlig sicher, dass die Menschen einfach nur zu blöd sind, das zu verstehen.

Dieser ganze Absatz ist (für mich) völlig unverständlich, ich weiss beim besten Willen nicht, was hier ausgedrückt werden soll.

[/quote]
Parent - - By Peter Martan Date 2012-02-22 21:28 Edited 2012-02-22 21:31
Gewohnt den kleinen Wünschen des lieben Kurt sofort nachzukommen, hier wieder einmal Kurt's Fassung:
Die evals der engines weiterhin nicht für das zu nehmen, was sie sein sollten und vorgeben zu sein, nämlich messbare und vergleichbare Angaben über die Bewertung von Stellungen und Zügen, und nur die Punkte, die die engines erspielen, zu zählen, wird den engine- Fortschritt immer unwägbarer machen und die Entwicklung immer weiter weg von den Bedürfnissen der menschlichen Schachspieler bringen.

Und weil ich dir jetzt wieder deinen Gefallen getan habe, verlange ich auch einen von dir, lies das Folgende sofort auch brav, und sag mir dann wieder, was du daran nicht verstanden hast, mal sehen, wem das so auf die Art zuerst zu dumm wird.

Vielleicht gehört das ja auch nicht nur in den thread über Junior, eigentlich liegt mir an der engine nicht mehr, als an einer anderen.
Aber wenn ich noch und noch himmelhohe Jauchzer abwechselnd mit Seufzern zu Tode Betrübter über einzelne Partieverläufe mit etwas längeren Bedenkzeiten lese, komme ich halt wieder mal ins Grübeln, ob man nicht doch auch mehr als die einzelnen Punkte, die jetzt auf einmal viel mehr zählen dürfen oder auch nicht, nur weil natürlich niemand bei solchen Bedenkzeiten wirklich sichere Statistiken zusammenbringen kann, ob man sich nicht doch auch einfach mal die Mühe antun könnte, einzelne engines gegen einzelne engines anhand einzelner Stellungen zu beurteilen.
Ich weiß schon, Kurt, man findet für jede engine die richtige Stellung und für jede Stellung die richtige engine, aber ob man das als Schach- oder als Computerschachfan gerne hört oder nicht:
Spielstärke ist nun einmal von Stellungen abhängig, auch unter Menschen gibt es keinen, der von sich behaupten kann, er würde nicht bei einer bestimmten, die er noch nicht kennt, von jemandem, der sie schon verstanden hat, belehrt werden können.
Wenn wir von den engines weiter was haben wollen außer dasselbe wie von Spielzeugautos, die gegeneinander im Kreis fahren, müssen wir die Dinger beim Wort nehmen und von ihnen verlangen, das, was sie spielen, zu begründen, und sei es nur in evals, schwach genug als Aussage, sie erst gelten zu lassen, wenn die Partie aus ist, kann's aber doch wohl auf die Dauer auch nicht sein, was meinst du, Kurt?
Ich rede, falls das vielleicht wirklich noch nicht klar war, von den Zahlenwerten, die die engines bei jedem Zug ausgeben, warum haben die so absolut keinen Vergleichswert?
Sollten sie doch haben, nein? Haben sie ihn denn wirklich überhaupt nicht?
Oder machen wir uns einfach nur nicht die Mühe, sie zu vergleichen, mit dem, was wir selber an Wertungen abgeben würden, mit dem, was dieselben engines oder andere nach Varianten bestimmter Länge abgeben, mit dem, was sie nach dem Ausspielen bestimmter Varianten gegen andere abgeben, mit dem, was sie abgeben, wenn sie diese oder jene Variante im hash mit zurück genommen haben im backward solving?
Findest du nicht auch, dass das immer wieder mehr sagt, wenn auch immer nur für eine bestimmte Stellung und für eine bestimmte Variante und für eine bestimmte Zeit- hardware-Gegnerkonstellation, als das komplette Ausspielen lassen allein, von dem man, ohne es zu analysieren, auch nie sagen kann, ob es Zufall war, dass die eine oder andere Seite gewonnen hat oder wo genau das eigentliche schachliche Verdienst lag?
Parent - By Kurt Utzinger Date 2012-02-23 09:19
Hi Peter
Komme abends darauf zurück.
Mfg
Kurt
Parent - - By Kurt Utzinger Date 2012-02-24 08:56
Hi Peter

Unten sind meine Antworten fett eingefügt.

Gruss
Kurt

[quote="Peter Martan"]
Gewohnt den kleinen Wünschen des lieben Kurt sofort nachzukommen, hier wieder einmal Kurt's Fassung:
Die evals der engines weiterhin nicht für das zu nehmen, was sie sein sollten und vorgeben zu sein, nämlich messbare und vergleichbare Angaben über die Bewertung von Stellungen und Zügen, und nur die Punkte, die die engines erspielen, zu zählen, wird den engine- Fortschritt immer unwägbarer machen und die Entwicklung immer weiter weg von den Bedürfnissen der menschlichen Schachspieler bringen.

Jetzt habe ich verstanden, um was es Dir geht (weshalb nicht gleich so? Zur Sache selbst: Auch wenn Du ansatzweise richtig liegst, wird es wohl nicht möglich sein, Dein Anliegen auch nur im Entferntesten ausreichend zu berücksichtigen. Wenn du Vergleiche zur Spielstärke (oder Schachwissen) von Programmen anstellen willst auf der Grundlage von Stellungen und den Outputs der Engines, müsstest Du 10'000 Jahre alt werden, um endlich zu einem vernünftigen Ergebnis zu kommen. Schlussendlich gilt eben noch immer die Regel, dass der letzte Fehler verliert.

Und weil ich dir jetzt wieder deinen Gefallen getan habe, verlange ich auch einen von dir, lies das Folgende sofort auch brav, und sag mir dann wieder, was du daran nicht verstanden hast, mal sehen, wem das so auf die Art zuerst zu dumm wird.

Jetzt lese ich also brav das Folgende.

Vielleicht gehört das ja auch nicht nur in den thread über Junior, eigentlich liegt mir an der engine nicht mehr, als an einer anderen.
Aber wenn ich noch und noch himmelhohe Jauchzer abwechselnd mit Seufzern zu Tode Betrübter über einzelne Partieverläufe mit etwas längeren Bedenkzeiten lese, komme ich halt wieder mal ins Grübeln, ob man nicht doch auch mehr als die einzelnen Punkte, die jetzt auf einmal viel mehr zählen dürfen oder auch nicht, nur weil natürlich niemand bei solchen Bedenkzeiten wirklich sichere Statistiken zusammenbringen kann, ob man sich nicht doch auch einfach mal die Mühe antun könnte, einzelne engines gegen einzelne engines anhand einzelner Stellungen zu beurteilen.

Sicher kann man das tun: wäre schön, wenn jemand damit beginnen würde ... weshalb nicht Du selbst?

Ich weiß schon, Kurt, man findet für jede engine die richtige Stellung und für jede Stellung die richtige engine, aber ob man das als Schach- oder als Computerschachfan gerne hört oder nicht:
Spielstärke ist nun einmal von Stellungen abhängig, auch unter Menschen gibt es keinen, der von sich behaupten kann, er würde nicht bei einer bestimmten, die er noch nicht kennt, von jemandem, der sie schon verstanden hat, belehrt werden können.

Keine Einwände zu dieser Aussage.

Wenn wir von den engines weiter was haben wollen außer dasselbe wie von Spielzeugautos, die gegeneinander im Kreis fahren, müssen wir die Dinger beim Wort nehmen und von ihnen verlangen, das, was sie spielen, zu begründen, und sei es nur in evals, schwach genug als Aussage, sie erst gelten zu lassen, wenn die Partie aus ist, kann's aber doch wohl auf die Dauer auch nicht sein, was meinst du, Kurt?

"Begründen" ist gut, aber das geht wahrscheinlich nur über die Bewertungsanzeige. Ich glaube, Du vermischt da zwei Sachen. Zum Vergleich nehme ich mal einen GM-X, der ein wunderbares Schachgefühl hat und der in der Lage ist, jedem anderen Schachspieler auf Welt mehr als das Wasser zu reichen und schneller noch bessere Züge zu finden. Dieser GM-X hat jedoch ein zu wenig stabiles Nervenkostüm und vermag im gleichwertigen Kampf am Brett mit seinen Gegner nicht mitzuhalten. Dieser GM-X wird es also in den Ranglisten nie und nimmer an die Spitze schaffen. Und so ist es bei den Engines: es mag schön sein, wennn Engine X in vielen Fällen aus unserer Sicht die besten Züge findet, indessen im Verlauf der Partie an anderen Stellen wieder strauchelt.

Ich rede, falls das vielleicht wirklich noch nicht klar war, von den Zahlenwerten, die die engines bei jedem Zug ausgeben, warum haben die so absolut keinen Vergleichswert? Sollten sie doch haben, nein? Haben sie ihn denn wirklich überhaupt nicht? Oder machen wir uns einfach nur nicht die Mühe, sie zu vergleichen, mit dem, was wir selber an Wertungen abgeben würden, mit dem, was dieselben engines oder andere nach Varianten bestimmter Länge abgeben, mit dem, was sie nach dem Ausspielen bestimmter Varianten gegen andere abgeben, mit dem, was sie abgeben, wenn sie diese oder jene Variante im hash mit zurück genommen haben im backward solving?

Das mit dem Vergleichswert ist schwierig. Was willst Du denn ableiten und für Schlüsse ziehen, wenn eine Engine eine leicht bessere Stellung mit +0.35 bewertet, eine andere Engine jedoch bereits +0.60 anzeigt. Wenn in der späteren Partie der Vorteil sich laufend vergrössert und die Bewertungen der besagten Engines sich jeweils linear erhöhen, sind wir wieder gleichtweit. Mit anderen Worten: Die Outputs von Engines lassen sich kaum vergleichen und am Ende zählt halt im das Ergebnis 1-0, 0-1 oder Remis.

Findest du nicht auch, dass das immer wieder mehr sagt, wenn auch immer nur für eine bestimmte Stellung und für eine bestimmte Variante und für eine bestimmte Zeit- hardware-Gegnerkonstellation, als das komplette Ausspielen lassen allein, von dem man, ohne es zu analysieren, auch nie sagen kann, ob es Zufall war, dass die eine oder andere Seite gewonnen hat oder wo genau das eigentliche schachliche Verdienst lag?

Das kann mehr sagen, aber wie oben schon beschrieben, wird uns auch nicht gross helfen, die Wahrheit zu finden.

[/quote]
Parent - - By Peter Martan Date 2012-02-24 20:37 Edited 2012-02-24 20:44
[quote="Kurt Utzinger"]
Das mit dem Vergleichswert ist schwierig. Was willst Du denn ableiten und für Schlüsse ziehen, wenn eine Engine eine leicht bessere Stellung mit +0.35 bewertet, eine andere Engine jedoch bereits +0.60 anzeigt. Wenn in der späteren Partie der Vorteil sich laufend vergrössert und die Bewertungen der besagten Engines sich jeweils linear erhöhen, sind wir wieder gleichtweit. Mit anderen Worten: Die Outputs von Engines lassen sich kaum vergleichen und am Ende zählt halt im das Ergebnis 1-0, 0-1 oder Remis.
[/quote]

Danke für deine Mitarbeit, Kurt, und ich weiß, dass es teilweise wirklich Arbeit gewesen sein wird.

Ich glaube, dass man im Wesentlichen nur zwei Dinge braucht, um den individuellen Bewertungsunterschieden der engines beizukommen, ohne alle Stellungen, die einen interesieren, ausspielen lassen zu müssen, um schlüssig(er!) sagen zu können, ob die Bewertungen der Stellung  entsprechen.

Die zwei Dinge sind: eine Art, die Unterschiede zueinander umzurechnen, und Referenzwerte für die jeweilige Stellung.
Mein Vorschlag wäre, für bestimmte Stellungen bestimmte Varianten in bestimmter Länge heranzuziehen, in deren Verlauf sich die Bewertungen von engines um einen bestimmten Faktor verändern sollten, ich finde einen Multiplikationsfaktor besser als einen Differenzwert, weil die numerischen Absolutwerte dadurch mehr relativiert werden, inclusive des Vorzeichenwechsels.
Wenn also eine Stellung eine Bewertungszunahme um einen Faktor 2 innerhalb von z.B. 10 Zügen erwarten lässt und die eine engine verdoppelt ihre Bewertung tatsächlich von 1 auf 2, und die andere fängt bei -1 an endet bei +2, dann hat die andere einen Faktor -2, das finde ich aussagekräftiger als arithmetisches Mitteln oder Subtrahieren, eigentlich ist das aber reine Übereinkunft, beim Dividieren müsste man sich dafür wieder auf eine Korrektur der 0.00- Ausgangswerte einigen, um nicht durch 0 dividieren zu müssen.

Hast du dir eigentlich schon die Stellung von Thomas Hall näher angeschaut?
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=47676#pid47676
Ich habe mit Thomas per Mail ein paar Varianten mit engines angeschaut, deine ersten Vorschläge aus dem thread waren ja durchaus naheliegend, eigentlich fragt man sich ohnehin mal wieder, wieso einem die engines da so relativ wenig helfen oder nur mit viel Rechenzeitaufwand und oder eigener Mitarbeit.
Wenn dich die Stellung auch interessiert, können wir sie ja, nachdem oder auch bevor Thomas die "Auflösung" gebracht hat, als Beispiel nehmen.

Ausdrücklich möchte ich dir aber da noch einmal recht geben:
Aus einzelnen Stellungen eine universelle, allgemein gültige Bewertung von engines abzuleiten, ist nicht leicht oder praktisch überhaupt nicht machbar, ist aber auch absolut nicht meine Absicht.
Das ist keine Alternative zu Ranglisten aufgrund von Matches, soll es nicht sein, nicht für mich.
Ich habe mich vor langer Zeit damit abgefunden, dass Spielstärke von Menschen und von engines nicht absolut (ich persönlich finde ja absolut nicht ) messbar ist, dass das Ergebnis immer davon abhängt, von welcher Stellung man ausgeht (auch die Grundstellung ist nur eine und wenn man nur 5 Züge weit von ihr weg ist, ist das Naheverhältnis zur Grundstellung einfach rein mathematisch gegeben, schachlich noch mehr, wenn es 5 Züge sind, in denen sich noch keine Seite in offensichtlichen Nachteil gebracht hat) und gegen welche Gegner man vergleicht.

Wem das nicht recht ist, der muss sich damit abfinden, dass sich das auch nicht dadurch ändert, dass man die Stellungen komplett ausspielen lässt und wenn man Stellungstests vorwirft, dass es immer wieder zu wenige und zu wenig aussagekräftige Stellungen sind, die getestet werden, dann muss man sich immer wieder von mir sagen lassen, dass das für Ranglistenbedingungen erst recht gilt.
Parent - By Kurt Utzinger Date 2012-02-25 13:51
[quote="Peter Martan"]
[...]
Hast du dir eigentlich schon die Stellung von Thomas Hall näher angeschaut? http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=47676#pid47676
Ich habe mit Thomas per Mail ein paar Varianten mit engines angeschaut, deine ersten Vorschläge aus dem thread waren ja durchaus naheliegend, eigentlich fragt man sich ohnehin mal wieder, wieso einem die engines da so relativ wenig helfen oder nur mit viel Rechenzeitaufwand und oder eigener Mitarbeit. Wenn dich die Stellung auch interessiert, können wir sie ja, nachdem oder auch bevor Thomas die "Auflösung" gebracht hat, als Beispiel nehmen.
[...]
[/quote]

Hi Peter
Habe mir die Stellung auch angeschaut, aber ich fühle mich ähnlich hilfos wie
die Engines, denn ausser der Einschätzung, dass Weiss besser steht, versanden
alle Versuche, das mit vernünftigen Varianten zu untermauern.
Gruss
Kurt
Parent - By Michael Scheidl Date 2012-02-24 11:35
Zitat:
Ich rede, falls das vielleicht wirklich noch nicht klar war, von den Zahlenwerten, die die engines bei jedem Zug ausgeben, warum haben die so absolut keinen Vergleichswert? Sollten sie doch haben, nein? Haben sie ihn denn wirklich überhaupt nicht?

Sehr richtig, bzw. doch! Ich bestehe darauf daß die Evals vergleichbare Werte darstellen, also - zumindest im Grundansatz - auf derselben Skala beruhen. Mag sein daß es ein "unausgesprochenes" bzw. nicht allgemein anerkanntes Dogma ist, aber für mich stellen die sog. Bauerneinheiten genau das dar was der Name beschreibt. 1,00 entspricht dem Materialwert eines Bauern. Positionelle Elemente werden durch einen (f. einzelne meist kleinen) materiellen Tauschwert ausgedrückt.

D.h. nach meiner Idealvorstellung sollte eine (statische!) Bewertung z.B. einer frühen Mittelspielstellung(*), wo eine Seite "glatt" einen Mehrbauern hat und der Gegner keine Kompensation, +1.00 betragen.

*) In einer Endspielstellung und falls selbiger Bauern schon weit vorgerückt und potentiell oder tatsächlich ein Freibauer ist, läge der Fall natürlich anders und dann nehme ich an, daß einer oder mehrere Boni dazukommen (sollten)

Das ist nur ein primitives Beispiel für unzählige denkbare, höchst komplizierte Szenarien.

Die Probleme liegen somit natürlich in den Details, und so hat sicherlich (fast) jeder Programmierer seine eigene Auffassung, wie insgesamt die Relation zwischen materiellen und positionellen Bewertungen aussehen sollte, welchen Wert konkret man bestimmten pos. Elementen zuordnet, welche und wie viele Bewertungskriterien man wann anwendet, usw.usf.

Das kann dazu führen daß Engines zwar recht unterschiedliche Evals anzeigen, aber in Wirklichkeit dasselbe meinen. Bei Strelka 5 im Vergleich zu Houdini ist das exemplarisch erkennbar.

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=43291

Den Trend (falls es einer ist) die Evals als Gewinnwahrscheinlichkeit aufzufassen, finde ich zwar interessant, aber deswegen sollte man nicht von den Bauerneinheiten Abschied nehmen. Ich fände gut wenn eine statistisch solid begründete Gewinnwahrscheinlichkeit zusätzlich als Prozentwert angezeigt würde, aber die "klassische" Stellungsbewertung an sich erhalten bliebe wie sie seit jeher war. Da bin ich maximal konservativ.

P.S. Im Chessmaster gab es einen Schieberegler bzw. ein The King-Setting, womit man "global" die Gewichtung zwischen materiellen und positionellen Bewertungen verschieben konnte.
Parent - - By Simon Gros Date 2012-02-22 07:30
[quote="Ingo Bauer"]
CEGT:
Best 40/4: Junior 12 kurz vor Zappa (8Elo), 50 ELo hinter S12 (J12.5 gibt es nicht).
[/quote]
Klar gibt es in der Best-Liste keine Version 12.5, da die Version 13 besser ist. Die 12.5 steht natürlich in der "All-Liste".
Simon_G
Parent - By Ingo Bauer Date 2012-02-22 14:11
[quote="Simon Gros"]
[quote="Ingo Bauer"]
CEGT:
Best 40/4: Junior 12 kurz vor Zappa (8Elo), 50 ELo hinter S12 (J12.5 gibt es nicht).
[/quote]
Klar gibt es in der Best-Liste keine Version 12.5, da die Version 13 besser ist. Die 12.5 steht natürlich in der "All-Liste".
Simon_G
[/quote]

In der All- Liste ist der beste Junior der da drin steht J12.0 auf 4 Kernen. Alles andere steht dahinter. War ein bisschen "hiungehudelt" von mir. Ich bezog mich auf den besten Junior den ich in der Liste finden konnte und das ist sowohl in der ALL als auch in der Best ein Junior 12 auf 4 Kernen.

Den Vergleich meinte ich. Natürlich gint es J12.5 (13) in der Liste, aber eben nicht als "erster" Junior.

Gruß´
Ingo
Parent - By Eduard Nemeth Date 2012-02-21 17:43
Zwei matches, gegen chiron und fritz. wuerde mir genuegen. Aber was solls... das match gegen Rybka entwickelt sich sehr interessant!
Parent - - By Timo Haupt Date 2012-02-20 10:31
Hi Ingo,

gute Idee mit dem Vergleichstest! Werde ich machen (wenn der erste Test nicht doch ergibt, dass die Verhältnisse ähnlich wie beim Blitz sind), wenn Hiarcs 14 erschienen ist. Denn testest du ja dann sicherlich auch und somit hätten wir eine (wenn auch nur einzelne) Vergleichsbasis.

Viele Grüße
Timo
Parent - - By Ingo Bauer Date 2012-02-20 18:07
Hallo Timo,

Natürlich teste ich H14!

Du müßtest mal meine Statistiken nehmen und genauer schauen welche Engines gegen deine Topengines ähnlich performen wie Junior (~28%). Die Bsp die ich genannt hatte waren so aus dem Bauch weil das Gesammtrating ähnlich ist, aber vielleicht hat der Taktiker Spark oder der wissende Hiarcs gegen die Tops komplett anders performt ...

Gruß
Ingo
Parent - By Timo Haupt Date 2012-02-20 18:45
Hallo Ingo!

[quote="Ingo Bauer"]
Du müßtest mal meine Statistiken nehmen und genauer schauen welche Engines gegen deine Topengines ähnlich performen wie Junior (~28%). Die Bsp die ich genannt hatte waren so aus dem Bauch weil das Gesammtrating ähnlich ist, aber vielleicht hat der Taktiker Spark oder der wissende Hiarcs gegen die Tops komplett anders performt ...
[/quote]

Guter Vorschlag, ich bin schon auf deiner Seite und lade mir gerade die Statistiken / Ergebnisse runter. Mal schauen, ob es da einen geeigneten Kandidaten gibt.

Viele Grüße
Timo
Parent - By Timo Haupt Date 2012-02-20 19:35
Hallo Ingo,

habe es gerade nachgerechnet. Spark und Protector würden sich anbieten, denn diese haben einen ähnlichen Durchschnittsscore gegen die 8 Gegner wie Junior (knapp 28%). Eigentlich müsste man beide nehmen, aber... Wenn ich diesen Test machen sollte, fange ich erst einmal mit Spark an. Den Autor Allard Siemelink kenne ich persönlich aus Leiden und er ist mir sehr sympathisch. Außerdem hat Spark einen sehr interessanten Stil, finde ich.

Danke für die Anregungen und viele Grüße
Timo
Parent - - By Thomas Mayer (Quark) Date 2012-02-20 01:06
Hallo Ingo,

Zitat:
Wobei ich bei deiner Zeitkontrolle doch eine höhere Remisquote erwarten würde. Sprich die Engines rücken dichter zusammen, an der Reihung sollte sich nichts ändern.


das beist sich aber schon ein bißchen mit der Ansicht, dass die Zeitkontrolle nichts ausmacht. Gibts dafür hinreichend statistisches Material um zu beweisen, dass bei höherer Zeitkontrolle die Engines enger zusammenliegen ? Mir ist da nichts bekannt.

Gruß, Thomas
Parent - By Ingo Bauer Date 2012-02-20 07:42 Edited 2012-02-20 07:46
Moin Thomas,

[quote="Thomas Mayer (Quark)"]
Hallo Ingo,

Zitat:
Wobei ich bei deiner Zeitkontrolle doch eine höhere Remisquote erwarten würde. Sprich die Engines rücken dichter zusammen, an der Reihung sollte sich nichts ändern.


das beist sich aber schon ein bißchen mit der Ansicht, dass die Zeitkontrolle nichts ausmacht. Gibts dafür hinreichend statistisches Material um zu beweisen, dass bei höherer Zeitkontrolle die Engines enger zusammenliegen ? Mir ist da nichts bekannt.

Gruß, Thomas


Du hast natürlich recht, Material dazu habe ich auch nicht wirklich.

Das einzige was mir auf die Schnelle eingefallen ist, war mal in die CEGT mit ihren drei Listen zu sehen:

CEGT 40/4 31% Remisquote,  IPON 35,6%, CEGT 40/20 hat 36% und die 40/120 hat 44%. (Gesamtrechenzeit pro Spiel aufsteigend)

Kleines Sample und ich habe keine Lust die CCRL zu checken und die Systematik ist auch zweifelhaft, aber halbwegs plausibel erscheint es mir.

Gruß
Ingo
Parent - - By Timo Haupt Date 2012-02-21 13:38
Zwischenstand hier (21.02., 13.30 Uhr)

vs. Houdini 4 aus 13 (30,8%)
vs. Critter 6,5 aus 14 (46,4%)
vs. Stockfish 4,5 aus 13 (34,6%)
vs. Rybka 4 aus 16 (25%)
vs. Naum 7,5 aus 14 (53,6%)
vs. Chiron 8 aus 16 (50%)
vs. Komodo 4 aus 15 (26,7%)
vs. Fritz 8,5 aus 16 (53,1%)

Auffällig bislang nur das gute Abschneiden gegen Critter, Naum, Chiron und Fritz. Die anderen Werte liegen im Rahmen der Erwartungen und könnten durchaus dem Effekt "höhere Remisquote bei langen BZ" zuzuschreiben sein.

Und dass Junior von bestimmten Eröffnungspositionen besonders abhängig sein könnte, scheint auch nicht so abwegig zu sein. Mit der Zugfolge
1.e4 d6 2.d4 Nf6 3.Nc3 g6 4.f4 Bg7 5.Nf3 0-0 6.Bd3 Na6 7.0-0 c5 8.d5 Bg4
hat er mit den weißen Steinen gut gepunktet (Siege gegen Houdini, Critter, Chiron und Fritz).

Mal schauen, wie es weitergeht. Auf jeden Fall finde ich, dass sich Junior bislang in diesem Match nicht blamiert, sondern leicht über meinen Erwartungen spielt. Aber noch ist nicht einmal ein Drittel des Matches vorbei - es kann noch viel passieren...

Viele Grüße
Timo
Parent - - By Michael Scheidl Date 2012-02-21 14:04
Auf Singlecore tut sich DJ13 gegen Komdo 4 schwer... bisher 8 Remis und 7 Niederlagen. Wie ist das interpretierbar?

Ich kenne von Komodo Ergebnisse aus einem großen Taktik-Test der manchmal im Rybkaforum publiziert wird, woraus hervorgeht daß diese Engine kombinatorisch große Fähigkeiten hat und dabei selbst auf Singlecore im Spitzenfeld von Quadcore-Engines punktet. Aber im Gegensatz dazu scheint mir der Spielstil - nach zugegeben oberflächlichem, eher intuitivem Eindruck - "unspektakulär zum Quadrat" zu sein. Mir ist nichts brilliantes von Komodo in Erinnerung. Vielleicht eher ein Sicherheitsstil an dem sich Junior die Zähne ausbeißt?

Es wird kein Zufall sein wenn mir dabei Socrates - schnarch - in den Sinn kommt...
Parent - - By Timo Haupt Date 2012-02-21 14:55
Komodo scheint Juniors Angstgegner zu sein - auch bei Ingos Durchlauf scorte Junior da am schlechtesten (unter 20%). Da Junior gerechterweise in diesem Match auch nur auf Singlecore läuft, beißt er sich offensichtlich die Zähne an dem sicheren Spiel dieses Gegners aus. Wenn einst das lang erwartete, aber immer wieder verschobene KomodoMP erscheinen wird, werde ich möglicherweise noch ein Match 6 vs. 6 Threads dieser beiden Gegner nachholen.
Up Topic Hauptforen / CSS-Forum / DJ Welcome Test "Reloaded"
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill