Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / 2 Treads Ponder off gegen 1 thread Ponder on
Poll Das bessere Schach mit 2 Threads Ponder OFF oder mit 1 Thread Ponder ON? (Closed)
1 Thread Ponder ON 7 50%
2 Thread Ponder OFF 7 50%
- - By Ingo Bauer Date 2009-05-09 18:00 Edited 2009-05-09 18:08
Hallo

Da ich eine größere Rangliste (siehe unten) besitze die mit Ponder ON erstellt wurde, frage ich mich wie eine 2 Thread Engine mit Ponder OFF darin abschneiden würde.

Wissend, das das Auswirkungen auf bestehende Ranglisten hat frage ich: Wo bekomme ich das bessere Schach mit 2 Threads Ponder OFF oder mit 1 Thread Ponder ON?

Der einfache Test ist in meine Rangliste identische Engines mit 2 Threads Ponder off einzuspielen. Danach werde ich sehen ob die VOR oder hinter Ihrem 1 Threadingen Pronder on Gegenstück liegen!

Ich starte mal eine Umfrage um zu sehen wie das allgemeine Gefühl ist.

Engines die ich mit je 1000 Spielen testen werde sind Shredder Bonn, Zappa Mexico II, Naum 4, Rybka 2.2n2!

Hier die Liste:

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Rybka 3 x64                    : 2831   11  11  3200    76.9 %   2622   31.0 %
  2 Rybka 3 32-bit                 : 2771   19  19  1000    73.6 %   2593   31.4 %
  3 Rybka 2.3.2a mp x64            : 2720    6   6  7300    64.6 %   2615   38.5 %
  4 Naum 4 x64                     : 2699    8   8  4000    56.1 %   2656   39.8 %
  5 Rybka 2.2n2 mp x64             : 2682   10  10  2600    59.2 %   2617   41.4 %
  6 Rybka 1.2f x64                 : 2670    7   7  7400    64.6 %   2566   33.5 %
  7 Deep Fritz 11                  : 2638   14  14  1500    55.9 %   2596   38.6 %
  8 Shredder Bonn                  : 2621   10  10  2500    50.6 %   2617   40.8 %
  9 Zappa Mexico II x64            : 2620    6   6  6600    46.9 %   2642   40.5 %
10 Deep Shredder 11 x64           : 2600    9   9  3400    52.1 %   2585   39.6 %
11 Strelka 2.0 B x64              : 2598   16  16  1000    52.8 %   2579   43.5 %
12 Rybka 1.0 Beta x64             : 2596   11  11  2500    53.2 %   2573   36.3 %
13 Zappa Mexico 1 X64             : 2591    9   9  3600    53.2 %   2569   40.4 %
14 Naum 3.1 x64                   : 2590    7   7  5600    47.8 %   2606   38.9 %
15 DSjeng WC2008 x64              : 2580    9   9  3800    40.0 %   2650   36.2 %
16 Toga II 1.4 beta5c BB          : 2573    7   7  6200    40.3 %   2641   38.1 %
17 H12.1 MP                       : 2569    6   6  7400    39.4 %   2643   37.2 %
18 DSjeng 3.0 x64                 : 2564   10  10  3200    41.0 %   2627   33.8 %
19 Glaurung 2.2 JA x64            : 2550   10  10  3500    35.1 %   2657   33.5 %
20 Naum 2.2 x64                   : 2543   10  10  2700    43.5 %   2589   42.9 %
21 Rybka 1.0 Beta 32-bit          : 2541    8   8  4400    50.1 %   2541   33.2 %
22 HIARCS 11.2                    : 2535    7   7  6600    45.5 %   2567   36.3 %
23 Fruit 05/11/03                 : 2533    6   6  8300    37.4 %   2623   37.1 %
24 DS 10 Balmung x64              : 2530   10  10  2600    49.9 %   2530   42.5 %
25 LoopMP 12.32                   : 2524    7   7  5600    44.7 %   2561   34.7 %
26 Loop 13.5                      : 2523    8   8  4700    43.4 %   2569   37.0 %
27 Toga II 1.2.1a                 : 2519    7   7  6600    46.6 %   2542   35.2 %
28 ListMP 11.64b x64              : 2516   12  12  2200    44.0 %   2558   35.9 %
29 Glaurung 2.1                   : 2509   19  19   900    42.7 %   2560   33.9 %
30 Deep Shredder 10 x64           : 2506    6   6 10000    36.9 %   2599   34.7 %
31 HIARCS 11 MP                   : 2505   19  19   800    44.9 %   2540   36.4 %
32 Naum 2.1                       : 2504    9   9  3700    44.6 %   2542   36.4 %
33 Toga II 1.3x4                  : 2497   19  19   800    44.6 %   2535   38.9 %
34 Spike 1.2 Turin                : 2479    5   5 11700    33.3 %   2600   33.6 %
35 DS 9.02                        : 2465   16  16  1400    37.9 %   2551   29.1 %
36 Deep Sjeng 2.7                 : 2454   13  13  2000    31.2 %   2591   33.1 %
37 Glaurung 2-epsilon/5           : 2445   16  16  1300    34.8 %   2554   30.9 %
38 Deep Sjeng 2.5                 : 2386   20  20   900    29.9 %   2533   30.6 %


Bye
Ingo

PS: Von 1 auf 2 ist der Unterschied größer als von 2 auf 4, aber das ist ein anderes Thema (Sollen Ranglisten 4 Thread ponder off erstellen oder bekommen sie das bessere Schach mit 2 Threads Ponder ON?)
Parent - - By Ingo Bauer Date 2009-05-10 18:12 Edited 2009-05-10 18:21
Hallo alle,

Ich habe mir mal Gedanken über die Konsequenzen meines Tests gemacht.

1. 2 Thread Ponder OFF ist besser als 1 Thread ponder ON
Dies müßte das Wunschergebniss für alle Ponder off Ranglisten sein. Sollte es so kommen, sind ihre Ergebnisse verwendbar als das bestmögliche Schach.

2. 1 Thread Ponder ON ist besser als 2 Thread ponder OFF
Dies würde bedeuten das eigentlich nur die SSDF Ranglisten mit dem bestmöglichen Schach erzeugt.

3. Ponder ON und OFF sind gleichwertig
In dem Fall sind die Ranglisten alle gleich gut.
(Für mich würde dann eigentlich nichts gegen ein Umstellen der Testmethodik sprechen, da Ponder on mehr dem echten Turnierschach entspricht)

4. Ein paar Engines sind besser mit 2 Thread Ponder OFF ein paar mit 1 thread Ponder ON
Das wäre der Supergau für alle Ranglisten, da es heißen würde das egal welche Testmethodik verwendet, irgendeine Engine benachteiligt wird. Auch wären beiden Argumente

a. Der Programmierer hat mehr Wert auf Parallelisierung gelegt
b. Der Programmierer hat mehr Wert auf guten Pondermodus gelegt.

gleichwertig.

Grund des ganzen ist, das ich mein Rangliste (im Moment ~130000 Spiele) NACH erscheinen des nächsten Shredder auf ein Optimum umstellen werde. Dieses Optimum zu ermitteln ist Ziel meiner Tests. Meine alte Rangliste zu verwerfen, wird mir schwerfallen. Ich erkenne allerdings gewisse konzeptionelle Schwächen und sehe das ich mit meiner bisherigen Testmethodik an Grenzen stoße!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2009-05-10 19:06
Ein Problem beim skizzierten Vergleich ist, daß Ponder-Engines eventuell etwas stärker sind als sonst, wenn sie immer während des Gegenzuges Wartezeit bzw. Ponderzeit bekommen. Das wäre ja bei nicht-pondernden Gegnern der Fall. Pondern beide Seiten, gibt es bestimmt häufig Sofortantworten (sofort = < 2 Sekunden) aufgrund von Pondertreffern. Nicht jeder Pondertreffer muß zu einer Sofortantwort führen - schon klar - aber sicherlich mehrere davon. Dieser Effekt ist wird schwer zu quantifizieren sein.

Das "bestmögliche" Computerschach erhält man aber mit den größten Rechentiefen - bei gegebenen Engines - unabhängig davon ob mit oder ohne Ponder usw. Ich glaube, Du meinst die fairstmöglichen Testmatches oder so? - Ein sehr großes Ponder on/off-Vergleichsexperiment von Volker Pittlik hat gezeigt, daß diese Einstellung (natürlich jeweils identisch für alle Engines) keinen Einfluß auf die Spielstärkeverhältnisse hat. Außerdem gibts ja noch die statistischen Errormargins, welche die Verläßlichkeit etwaiger ausgeworfener +/- 5 Elo-Minidifferenzen als fragwürdig erscheinen lassen...

Ich persönlich würde mir da keine Sorgen darüber machen. Ich finde, fair ist es immer wenn für alle Engine dieselben, sachgerecht konfigurierten Voraussetzungen herrschen, und das kann meines Erachtens sowohl Ponder on als auch off beinhalten.

Betreffs Pondermodus: Kann es da irgendwelche besonderen Geheimnisse geben? Mir ist bis jetzt nichts aufgefallen. Die Engine führt einfach intern den 2. Halbzug der Hauptvariante aus, und beginnt zu rechnen. - Unlängst stand irgendwo was von einem "multiplen" P.B., möglicherweise betreffs Stockfish? Ich habe die Einzelheiten vergessen, aber das wäre jedenfalls exotisch. Aber zweifellos interessant; ein ähnlich klingendes Konzept hatte seinerzeit der SciSys Turbo 16K und -24K Schachcomputer.

Fritz trägt einen erwarteten Zug in die Notation ein, wenn er von der Gegenengine nicht gespielt wurde, egal ob tatsächlich gepondert wird oder nicht. Daher kann CCRL Ponderhit-Statistiken erstellen, obwohl sie mit Ponder off spielen. Leider gibt es keinen Gesamtdurchschnitt je Engine, nur je Gegnerpaar (beide zusammengefaßt!), aber das bewegt sich bei den Top-Engine meist im Bereich 54%...63% bei nicht verwandten Engines:

http://tinyurl.com/ocfq5e

Mit freiem Auge läßt sich schwer erkennen, ob (mit) einer bestimmten Engine mehr Pondertreffer gelingen als anderen. Auf den ersten Blick sieht es relativ ausgeglichen und etwas chaotisch aus... auf den zweiten Blick sehen einige Engines von Rang 9 abwärts gut aus, besonders Glaurung. Scort Glaurung bei Ponder on auffallend besser? Diese Statistik könnte darauf hindeuten.
Parent - - By Daniel Mehrmann (Homer) Date 2009-05-11 10:59 Edited 2009-05-11 11:02
Hallo Michael,

[quote="Michael Scheidl"]Betreffs Pondermodus: Kann es da irgendwelche besonderen Geheimnisse geben? Mir ist bis jetzt nichts aufgefallen. Die Engine führt einfach intern den 2. Halbzug der Hauptvariante aus, und beginnt zu rechnen. [/quote]

Also zumindest Homer rechnet im "Pondermodus" anders als herkömmliche Engines. Ich habe mit einer Idee experimentiert die Homer mit Ponder On ca 30 ELO Punkte, nach Testgames, stärker macht als mit Ponder Off. Weiter möchte drauf aber nicht eingehen. Wie sagt man so schön: Betriebsgeheimnis Homer rechnet aber wie alle anderen Engines auch an nur einem Ponderzug (bester PV-Zug).

Gruß
Daniel
Parent - - By Benno Hartwig Date 2009-05-14 09:56
[quote="Daniel Mehrmann (Homer)"] Homer rechnet aber wie alle anderen Engines auch an nur einem Ponderzug[/quote]Ich hätte vermutet, dass eine Engine bei z.B. durchschnittlich 1 Minute/Zug, und wenn der Gegner nun vielleicht schon viele Minuten rechnet, doch Vorteile gewinnen könnte, wenn sie auch einen anderen Gegnerzug zu pondern beginnt. Die beiden wahrscheinlichsten Züge dann 2 Minuten analysiert zu haben bringt vielleicht mehr, als nur den besten 4 Minuten lang. (Die Wahrscheinlichkeit, dass der zweitbeste Zug ausgeführt wird ist ggf. höher als die, dass bei Verdopplung der Zeit etwas Wichtiges gefunden wird.)

Sicher ist es programmtechnisch nicht trivial, sowas in die vorhandene Engine einzubauen.
Aber wurde/wird sowas wirklich nie gemacht?

Benno
Parent - - By Kurt Utzinger Date 2009-05-14 10:16
[quote="Benno Hartwig"]
[quote="Daniel Mehrmann (Homer)"] Homer rechnet aber wie alle anderen Engines auch an nur einem Ponderzug[/quote]Ich hätte vermutet, dass eine Engine bei z.B. durchschnittlich 1 Minute/Zug, und wenn der Gegner nun vielleicht schon viele Minuten rechnet, doch Vorteile gewinnen könnte, wenn sie auch einen anderen Gegnerzug zu pondern beginnt. Die beiden wahrscheinlichsten Züge dann 2 Minuten analysiert zu haben bringt vielleicht mehr, als nur den besten 4 Minuten lang. (Die Wahrscheinlichkeit, dass der zweitbeste Zug ausgeführt wird ist ggf. höher als die, dass bei Verdopplung der Zeit etwas Wichtiges gefunden wird.)

Sicher ist es programmtechnisch nicht trivial, sowas in die vorhandene Engine einzubauen.
Aber wurde/wird sowas wirklich nie gemacht?

Benno
[/quote]

Dieses Feature war im Jahre 1985 schon im folgenden Saitek-
Gerät implementiert, so dass dies keine grosse Sache sein sollte:

SciSys Turbo 16 K
CPU:  6301 Y / 12 MHZ
ROM: 16 KB
RAM:  0,25 KB

Mfg
Kurt
Parent - By Michael Scheidl Date 2009-05-14 15:05
Wie ich in meinem obigen Posting ebenfalls bereits erwähnte.

Das Feature war gut, wurde aber von anderen Herstellern nicht nachgemacht und geriet in zeitweilige Vergessenheit. Es ist eben nicht alles neu was heute den Nachwuchsleuten einfällt. Das Problem ist daß Ideen, die bei Geräten "von niederem Rang" umgesetzt wurden, wenig Spuren hinterlassen haben und z.B. im Internet kaum aufscheinen. Daher wird manchmal geglaubt, das Rad neu erfunden zu haben (das "Rad" wiederum hatte der Kasparov Blitz...).


SciSys Turbo 16K
Parent - By Ingo Bauer Date 2009-05-13 20:54
Hallo Michael,

[quote="Michael Scheidl"]
Ein Problem beim skizzierten Vergleich ist, daß Ponder-Engines eventuell etwas stärker sind als sonst, wenn sie immer während des Gegenzuges Wartezeit bzw. Ponderzeit bekommen. Das wäre ja bei nicht-pondernden Gegnern der Fall.
[/quote]

Nach einigem Nachdenken muß ich dir da Recht geben. Sollten zwei pondernde Engines gegeneinander spielen gibt es natürlich Pondertreffer und die Gesamtzeit die zur verfügung steht sinkt. Das ist eine Unsicherheit in meinem Testaufbau. Damit müßte, wenn es um das bestmögliche Schach geht, bei genug Spielen die 1 Thread Ponder On Engine einen kleinen Tick besser abschneiden als die 2Thread Ponder off Engine. Ich muß noch darüber "Pondern" in wie stark sich das auswirkt bzw. ob und wie sich das Quantifizieren läßt. Danke für den Hinweis!

[quote="Michael Scheidl"]
Ein sehr großes Ponder on/off-Vergleichsexperiment von Volker Pittlik hat gezeigt, daß diese Einstellung (natürlich jeweils identisch für alle Engines) keinen Einfluß auf die Spielstärkeverhältnisse hat. Außerdem gibts ja noch die statistischen Errormargins, welche die Verläßlichkeit etwaiger ausgeworfener +/- 5 Elo-Minidifferenzen als fragwürdig erscheinen lassen...
[/quote]

Ja, da kann ich mich dran erinnern, weiss allerdings das Engineauthoren neben der Parallelisierung auch am Pondern gearbeitet haben. Bin trotzdem neugierig und teste mal neu, auch weil ich den genauen Testaufbau von Volker damals nicht kenne.

[quote="Michael Scheidl"]
... Ich finde, fair ist es immer wenn für alle Engine dieselben, sachgerecht konfigurierten Voraussetzungen herrschen, und das kann meines Erachtens sowohl Ponder on als auch off beinhalten.
[/quote]

Um "fair" geht es mir nicht, sonder um bestmögliches Schach. Wenn ich an bestehenden Ranglisten Fairniss bemängeln würde würde ich bei Büchern oder ungleichen Gegnern anfangen (Das mit den Gegnern gillt auch für meine Rangliste. Hauptsächlich deswegen will ich sie mit den mir bestmöglichen Bedinungen neu kreieren)

[quote="Michael Scheidl"]
Betreffs Pondermodus: Kann es da irgendwelche besonderen Geheimnisse geben? ...
[/quote]

Wie Daniel dir schon bestätigt hat gibt es die. Ein Hauptkritikpunkt von Bob Hyatt am UCI Protokoll ist, soweit ich das verstanden habe, die vermeintlich starre Ponderregel. Natürlich sagt das Protokoll "bitte am nächsten Zug pondern", allerdings kontroliert es nicht was die Engine intern tut. Die Art und Weise wie effektiv geponderte Ergebnisse, auch bei nicht Pondertreffern evtl doch genutzt werden steht noch auf einem ganz anderen Blatt.

Vielen Dank für den obigen Hinweis, ich werde versuchen das irgendwie zu Berücksichtigen.

Geuß
Ingo
Parent - - By Wilfried Eberl Date 2009-05-15 22:56
[quote="Michael Scheidl"]Betreffs Pondermodus: Kann es da irgendwelche besonderen Geheimnisse geben? Mir ist bis jetzt nichts aufgefallen. Die Engine führt einfach intern den 2. Halbzug der Hauptvariante aus, und beginnt zu rechnen. - Unlängst stand irgendwo was von einem "multiplen" P.B., möglicherweise betreffs Stockfish? Ich habe die Einzelheiten vergessen, aber das wäre jedenfalls exotisch. Aber zweifellos interessant; ein ähnlich klingendes Konzept hatte seinerzeit der SciSys Turbo 16K und -24K Schachcomputer.[/quote]Hallo Michael!

Ist manchmal schon komisch, was der Zufall so mit sich bringt: Da habe ich ein paar Tage dieses Forum nicht besucht und vorhin, als ich auf dem Heimweg war, genau über dieses Thema nachgedacht!
Mir war (bzw. ist) bisher kein Programm bekannt, dass wie der Turbo 16k mehrere Züge gleichzeitig pondern kann. Ich dachte darüber nach, weil ich aktuell mit diesem Gerät an einem Turnier teilnehme und ich vermute, dass bei heutiger Hardwarepower ein solches Pondersystem einen größeren Spielstärkegewinn mit sich führen könnte als etwa das normale Pondern auf nur einen Gegenzug.

Tja, dann betrete ich dieses Forum und lese deinen Beitrag, der selbiges Thema berührt.
Wie ist es denn nun? Wird dieses System mittlerweile von Engines verfolgt? Kann Stockfish sowas? Das wäre für mich ein Grund, mich wieder intensiver mit PC-Schach zu befassen...

MfG, Wilfried
Parent - By Michael Scheidl Date 2009-05-16 00:44
Mir ist keine solche Engine bekannt, wobei ich aber zugeben muß, daß ich nur wenige der sehr zahlreichen Engines kenne. - Ein anderer Vorschlag der vor längerer Zeit von Frank Quisinsky gemacht wurde ist: Die Engine sollte einfach für die Gegenseite rechnen, um die Hashtables mit nützlichen Einträgen zu allen möglichen Gegenzügen zu füllen. Für mich klingt das plausibel, aber auch dazu ist mir keine Umsetzung bekannt.

Dem Turbo 16K wünsche ich viel Glück! Bei einem vor zwei Jahren durchgeführten Experiment - PC-Engines auf 10 Halbzügen gegen Compis bei ~1 Minute/Zug - bekam er es mit Crafty zu tun:

[Event "Nostalgie"]
[Site "Schrotty"]
[Date "2007.02.11"]
[Round "?"]
[White "Crafty 20.14 T10"]
[Black "Turbo 16K L.A"]
[Result "1-0"]
[ECO "A26"]
[BlackElo "1500"]
[PlyCount "67"]

1. c4 e5 2. Nc3 Nc6 3. g3 g6 4. Bg2 Bg7 5. d3 Nf6 6. Nf3 O-O 7. O-O d6 8. Rb1
Bf5 9. Bg5 h6 10. e4 hxg5 11. exf5 g4 12. Nh4 g5 13. Bxc6 bxc6 14. Ng2 d5 15.
Re1 Re8 16. Qc1 d4 17. Ne4 Nxe4 18. Rxe4 Qf6 19. Rxg4 Bh6 20. Qd1 Qxf5 21. Nh4
Qf6 22. Qe2 c5 23. Qe4 Bg7 24. Nf5 Kf8 25. h4 Qa6 26. Nxg7 Qxa2 27. Re1 Kxg7
28. Rxg5+ Kf8 29. Qc6 Qxb2 30. Qh6+ Ke7 31. Rgxe5+ Kd7 32. Rd5+ Kc8 33. Qa6+
Qb7 34. Rxe8# 1-0

http://computerschach.twoday.net/stories/3424646/
Parent - - By Ingo Bauer Date 2009-05-13 21:02
Hallo alle,

Hier meine erste Engine die ich komplett mit 2 Threads und Ponder off durchgetestet habe:

Shredder Bonn 2T Poff     : 1000 (+387,=365,-248)

Zappa Mexico II x64 1T        : 100 (+ 25,= 44,- 31), 47.0 %
Rybka 1.2f                    : 100 (+ 29,= 36,- 35), 47.0 %
Deep Shredder 10 x64 1T       : 100 (+ 56,= 30,- 14), 71.0 %
Spike 1.2 Turin               : 100 (+ 50,= 33,- 17), 66.5 %
Fruit 05/11/03                : 100 (+ 44,= 37,- 19), 62.5 %
H12.1 MP 1T                   : 100 (+ 35,= 40,- 25), 55.0 %
Toga II 1.4 beta5c BB         : 100 (+ 45,= 39,- 16), 64.5 %
DSjeng WC2008 x64 1T          : 100 (+ 37,= 32,- 31), 53.0 %
Naum 4                        : 100 (+ 16,= 38,- 46), 35.0 %
Glaurung 2.2 JA 1T            : 100 (+ 50,= 36,- 14), 68.0 %

Shredder Bonn 1T          : 1000 (+397,=351,-252)

Zappa Mexico II x64 1T        : 100 (+ 20,= 45,- 35), 42.5 %
Rybka 1.2f                    : 100 (+ 28,= 32,- 40), 44.0 %
Deep Shredder 10 x64 1T       : 100 (+ 53,= 36,- 11), 71.0 %
Spike 1.2 Turin               : 100 (+ 60,= 30,- 10), 75.0 %
Fruit 05/11/03                : 100 (+ 52,= 36,- 12), 70.0 %
H12.1 MP 1T                   : 100 (+ 34,= 39,- 27), 56.2 %
Toga II 1.4 beta5c BB         : 100 (+ 38,= 36,- 26), 56.0 %
DSjeng 3.0 x64 1T             : 100 (+ 39,= 34,- 27), 56.0 %
Naum 4                        : 100 (+ 20,= 37,- 43), 38.5 %
Glaurung 2.2 JA 1T            : 100 (+ 53,= 26,- 21), 66.0 %


Wenn man nachrechnet merkt man das 1T 572.5 Punkte hat und 2TPoff 569.5. 3 Punkte Differenz kann ich nur als zufälliges Rauschen bezeichnen. Für Shredder Bonn besteht somit kein Unterschied.

Leider kann ich das nicht in meine List einspielen, da die Shredder Bonn Engine mehr 2600 Spiele gemacht hat und im ganzen schlechter da steht, als die Engine die nur 1000 Spiele machte. Ich gehe aber davon aus das der Absolutvergleich ausreichend ist.

Nach wie vor gillt, wenn ich eine Enigne finde die raus fällt, sei es nach oben oder nach unten haben wir den Fall das alle Ranglisten irgendwelche Enignes benachteiligen.

Zappa Mexico II läuft schon, eine Engine der nachgesagt wird besonders gut zu Parallelisieren, mal sehen ob sich das auswirkt!

Gruß
Ingo
Parent - By Ingo Bauer Date 2009-05-17 06:52
Hallo

[quote="Ingo Bauer"]
Wenn man nachrechnet merkt man das 1T 572.5 Punkte hat und 2TPoff 569.5. 3 Punkte Differenz kann ich nur als zufälliges Rauschen bezeichnen. Für Shredder Bonn besteht somit kein Unterschied.
[/quote]

Ich wollte nur der Vollständigkeithalber noch Nachreichen, dass im obigen Fall die Ratingdifferenz 2 Elo groß ist und für den 95% Bereich ein mögliche Abweichung von +/- 17 Elo besteht. Ich glaube man kann mit gutem Grund von "gleichwertig" reden.

Gruß
Ingo
Parent - - By Ingo Bauer Date 2009-05-17 07:06
Hallo alle,

Hier meine zweite Engine die ich komplett mit 2 Threads und Ponder OFF durchgetestet habe:

Zappa Mexico II x64 2T Poff: 2638  1000 (+385,=402,-213), 586

Rybka 1.2f                    : 100 (+ 27,= 42,- 31), 48.0 %
Deep Shredder 10 x64 1T       : 100 (+ 57,= 32,- 11), 73.0 %
Spike 1.2 Turin               : 100 (+ 45,= 49,-  6), 69.5 %
Fruit 05/11/03                : 100 (+ 43,= 42,- 15), 64.0 %
H12.1 MP 1T                   : 100 (+ 41,= 36,- 23), 59.0 %
Toga II 1.4 beta5c BB         : 100 (+ 36,= 37,- 27), 54.5 %
Shredder Bonn 1T              : 100 (+ 30,= 43,- 27), 51.5 %
DSjeng WC2008 x64 1T          : 100 (+ 43,= 34,- 23), 60.0 %
Naum 4                        : 100 (+ 20,= 48,- 32), 44.0 %
Glaurung 2.2 JA 1T            : 100 (+ 43,= 39,- 18), 62.5 %

Zappa Mexico II x64 1T    : 2621  1000 (+373,=391,-236), 571,5

Rybka 1.2f                    : 100 (+ 28,= 38,- 34), 47.0 %
Deep Shredder 10 x64 1T       : 100 (+ 51,= 27,- 22), 64.5 %
Spike 1.2 Turin               : 100 (+ 47,= 37,- 16), 65.5 %
Fruit 05/11/03                : 100 (+ 46,= 43,- 11), 67.5 %
H12.1 MP 1T                   : 100 (+ 37,= 37,- 26), 55.2 %
Toga II 1.4 beta5c BB         : 100 (+ 34,= 44,- 22), 56.0 %
Shredder Bonn 1T              : 100 (+ 35,= 45,- 20), 57.5 %
DSjeng WC2008 x64 1T          : 100 (+ 38,= 37,- 25), 56.5 %
Naum 4                        : 100 (+ 17,= 50,- 33), 42.0 %
Glaurung 2.2 JA 1T            : 100 (+ 40,= 33,- 27), 56.5 %


586 Punkte for Zappa Mexico II 2 thread Ponder OFF und 571.5 für die 1Thread Ponder on Version. Das sind  14.5 Punkte oder 13 Elo Differenz (mit 95% maximaler +/- 17 Elo Abweichung).

Hier wage ich schon zu behaupten, dass die Ponder OFF Ranglisten Zappa Mexico II leicht bevorteilen oder, wer es lieber so sieht, den oben getesteten Shredder Bonn (+ möglicherweise viele andere Enignes) leicht benachteiligt. Allerdings heißt das auch, dass Ponder ON Ranglisten, Shredder Bonn bevorzugen bzw. Zappa Mexico II "ausbremsen"!
Je nach "Glaubensschule" kann man, ohne das abschließend beurteilen zu können sagen, dass Zappa entweder "gut parallelisiert" oder "schlecht pondert". Beide Argumente müssen, da es keinen festen Bezugspunkt gibt, als gleichwertig angesehen werden.

Entgegen meinem ursprünglichen Plan werde ich als nächstes Hiarcs 12.1 testen!

Gruß
Ingo
Parent - - By Ingo Bauer Date 2009-05-18 12:35
Hallo alle,

auch wenn ich den Eindruck habe das der Einzige den das interessiert ich bin, was wiederrum nicht dafür spricht das sich VIELE Menschen für Ranglisten interessieren (ausser "Wer ist bester"!), muß ich leider sagen das meine untenstehende Aussage im Moment "noch" falsch ist!

[quote="Ingo Bauer"]
Hier wage ich schon zu behaupten, dass die Ponder OFF Ranglisten Zappa Mexico II leicht bevorteilen oder, wer es lieber so sieht, den oben getesteten Shredder Bonn (+ möglicherweise viele andere Enignes) leicht benachteiligt. Allerdings heißt das auch, dass Ponder ON Ranglisten, Shredder Bonn bevorzugen bzw. Zappa Mexico II "ausbremsen"!
[/quote]

Dieser Satz gilt in dem Moment in den ich zwei Enignes habe die sich gegenläufig verhalten. Also eine besser im Pondern, die andere besser mit 2 Threads Ponder off. Aktuell habe ich nur eine Engine (Zappa) die besser mit 2 thread Ponder OFF ist. Als "Advocatus Diaboli" suche ich jetzt also EINE Engine die besser Pondert als Parallelisiert, um danach ALLE Ranglisten zu verdammen!

Gruß
Ingo
Parent - - By Günther Höhne Date 2009-05-18 14:51
[quote="Ingo Bauer"]
auch wenn ich den Eindruck habe das der Einzige den das interessiert ich bin, was wiederrum nicht dafür spricht das sich VIELE Menschen für Ranglisten interessieren...
[/quote]

Hallo Ingo,

ich denke schon das dieses Thema für viele schon ganz interessant ist, aber ich glaube das die meisten Computerschachfreunde sich mit diesem Thema wenig beschäftigen,
weil sie keine Tests in diesem Sinne verrichten und deshalb mangels Erfahrung dann auch wenig dazu sagen können.
Wirklich vielversprechende Aussagen könnte man sich bestenfalls von einem Mitglied einer Testergruppe erwarten, sei es von CCRL oder CEGT.

Ich persönlich teste alles Ponder=off, dann aber mit einer aussgekräftigen Bedenkzeit, dabei beschäftige ich mich allerdings mit Motoren die einer anderen ELO-Kategorie angehören,
einige hiervon wie z.B Petir unterstützen auch gar kein Pondern ,laufen auch alle nur als Single-Motor, selbst wenn sie MP tauglich sind.
Wichtig hierbei ist mir in erster Linie das alles Progarmme die selben Grundvoraussetzungen haben (Hardware, Bedenkzeit etc...), wenn es denn wirklich so ist das sich einige Enignes gegenläufig verhalten,
also eine besser mit Pondern ist, die andere besser mit Ponder=off, müssten die Tester in Zukunft auf ihren Schlaf verzichten, weil nun mehr Listen benötigt werden. (Ponder=off und Ponder=on).

Auch gibt s ja noch andere Einflüsse die evtl. die Ergebnisse beeinflussen können, hardwareseitig z.B. funzt eine Engine vielleicht besser mit Intel CPU als als mit AMD,
dann haben wir noch den Einfluss der unterschiedlichen GUI's , wieviele Ranglisten brauchen wir dann?? Ich glaube eine gewisse Fehlerquote wird es immer geben.

Gruß
Günther
Parent - - By Benno Hartwig Date 2009-05-18 16:04
[quote="Günther Höhne"]Ich persönlich teste alles Ponder=off, dann aber mit einer aussgekräftigen Bedenkzeit, dabei beschäftige ich mich allerdings mit Motoren die einer anderen ELO-Kategorie angehören,
einige hiervon wie z.B Petir unterstützen auch gar kein Pondern ,laufen auch alle nur als Single-Motor, selbst wenn sie MP tauglich sind.[/quote]Wenn man gern mittels einer sehr großen Partienzahl die relative Spielstärke von Engines untersuchen möchte, dann sollte man meiner Meinung nach versuchen Rahmenbedingungen zu setzen, bei denen sich die in irgendeiner Hinsicht bessere Programmierung auch angemessene Vorteile verschafft.
Das bedeutet für mich, man sollte versuchen:
Pondern zu ermöglichen (damit die geschickter pondernde Maschine ihre Vorteile ausspielen kann (sofern hier denn überhaupt Unterschiede bestehen))
mehr als einen Kern pro Maschine (damit eine gelungenere Mehr-Kern-Nutzung sich auszahlen kann).
Auf einem Quad könnte dies bedeuten: Jede Engine erhält 2 Kerne und darf Pondern nach Herzenslust.
Noch toller wären natürlich 8 Kerne mit deren 4 für jede Engine.

Andere Ergebnisse sind natürlich auch interessant, gehen an den in realen Partien vorhandenen Gegebenheiten zumindest etwas vorbei.

Benno

PS zu Intel und AMD:
Hat man sowas denn schon mal beobachtet: eine Engine ist besonders gut auf Intel, eine andere auf AMD?
Parent - - By Günther Höhne Date 2009-05-18 16:57 Edited 2009-05-18 17:01
[quote="Benno Hartwig"]
Wenn man gern mittels einer sehr großen Partienzahl die relative Spielstärke von Engines untersuchen möchte, dann sollte man meiner Meinung nach versuchen Rahmenbedingungen zu setzen, bei denen sich die in irgendeiner Hinsicht bessere Programmierung auch angemessene Vorteile verschafft.
Das bedeutet für mich, man sollte versuchen:
Pondern zu ermöglichen .
[/quote]

Hallo Benno,

wenn ich ein Teilnehmerfeld habe, wo einzelne Motoren kein Pondern unterstützen, kann ich es auch nicht mit Pondern testen. Hier teste ich dann lieber komplett ohne Pondern.
Sofern alle Teilnehmer das Pondern unterstützen würden, wäre bei mir auch mit Pondern die 1.Wahl.

[quote="Benno Hartwig"]

PS zu Intel und AMD:
Hat man sowas denn schon mal beobachtet: eine Engine ist besonders gut auf Intel, eine andere auf AMD?

[/quote]

Ich selbst wurde von einem Programmierer darauf hingewiesen, als ich in einem anderen Forum, gleiche Hardware für alle bei Weltmeisterschaften vorschlug.
So soll es Motoren geben, die speziell für Intel oder AMD optimiert sind, je nach dem auf welchen System sie programmiert wurden.

Gruß
Günther
Parent - By Benno Hartwig Date 2009-05-18 21:05
[quote="Günther Höhne"]wenn ich ein Teilnehmerfeld habe, wo einzelne Motoren kein Pondern unterstützen, kann ich es auch nicht mit Pondern testen. Hier teste ich dann lieber komplett ohne Pondern.[/quote]Das ist dann Einstellungssache, oder besser: eine Frage dessen, was ich herausfinden möchte.
Interessiert mich die Qualität der Berechnung, den eine Engine angesetzt auf eine Stellung liefert, so mag ein Test ohne Pondern interessieren.
Interessiert mich die praktische Spielstärke, so sollte ich unbedingt mit Pondern spielen. Schließlich ist ein mehr oder weniger gelungenes Pondern ein Qualitätsmerkmal der Engine, die Einfluss auf die Spielstärke hat.
Und: wer nicht Pondern kann, muss eben ohne Pondern auskommen und hinnehmen, dass ihm dies etwas Spielstärke kostet.
Eben genauso wie: wer nicht mir mehreren Kernen umgehen kann, muss eben mit einem vorlieb nehmen.
Solchen Engines fehlt eben eine Qualität, und ich finde es angemessen, die Wirkung solcher 'Minderbegabung' auch wirksam werden zu lassen.

Übrigens: weil auch die Cluster-Nutzung eine programmtechnische Qualität darstellt, finde ich es sehr OK, wenn die WM auch dies gestattet.

Muss man natürlich nicht so sehen.
Benno
Parent - - By Peter Martan Date 2009-05-18 16:06
[quote="Ingo Bauer"]
, um danach ALLE Ranglisten zu verdammen!
[/quote]

Hallo Ingo!
Wenn du es mir nicht übel nimmst, stimm' ich dir in diesem Punkt durchaus nicht ganz unernst zu.

Es ehrt dich, dass du dich so bemühst aber wie du auch schon so richtig gesagt hast, müsstest du das bei den Büchern, der hardware und den Bedenkzeiten erst recht machen.
So gesehen sollte man für jedes Buch eine eigene Rangliste machen, weil so ausgewogen einem das jeweilige auch scheinen mag, die jeweilige engine sieht das wieder anders und nur weil das Buch für alle das gleiche ist, wird es noch lange nicht von allen engines gleich gemocht. Das gleicht sich auch nicht dadurch aus, dass die Farben gewechselt werden sondern im Gegenteil, wenn eine Stellung der einen engine mehr liegt, als der anderen, dann profitiert die von diesem Vorteil einfach noch ein zweites Mal mit vertauschten Farben.
Ich habe mir infolgedessen schon lange meine eigene Rangliste für mein eigenes Buch gemacht, es nützt mir ja auch nix für mein Repertoire, wenn Rybka in allen ausgewogenen Büchern einsame Spitze ist aber zum Sammeln von z.B Königsgambit- Partien als alleinige engine mit längerer Bedenkzeit unbrauchbar, weil sie einfach nur Remisen schiebt gegen sich selbst.
Parent - - By Ingo Bauer Date 2009-05-18 18:24
Moin Peter,

[quote="Peter Martan"]
Wenn du es mir nicht übel nimmst, stimm' ich dir in diesem Punkt durchaus nicht ganz unernst zu.

[/quote]

Bis ich etwas übel nehme muß SEHR viel passieren. In der Regel ignoriere ich dann die Beteiligten!

[quote="Peter Martan"]
Es ehrt dich, dass du dich so bemühst aber wie du auch schon so richtig gesagt hast, müsstest du das bei den Büchern, der hardware und den Bedenkzeiten erst recht machen.
So gesehen sollte man für jedes Buch eine eigene Rangliste machen, weil so ausgewogen einem das jeweilige auch scheinen mag, die jeweilige engine sieht das wieder anders und nur weil das Buch für alle das gleiche ist, wird es noch lange nicht von allen engines gleich gemocht. Das gleicht sich auch nicht dadurch aus, dass die Farben gewechselt werden sondern im Gegenteil, wenn eine Stellung der einen engine mehr liegt, als der anderen, dann profitiert die von diesem Vorteil einfach noch ein zweites Mal mit vertauschten Farben.
[/quote]

Das ist alles richtig, allerdings kann und sollte man Versuchen diese Faktoren zu minimieren.

Die erste Frage die sich stellt ist - "Was will ich testen"? Die meisten werden antworten - Ich will wissen wie stark Engine X im Vergleich zu anderen Engines ist.

Die Hauptfrage ist also die nach der Engine, nicht nach anderen Gegebenheiten. Für eine aussagekräftige Rangliste sollte man also versuchen ALLES zu eliminieren was ein Zufallselement oder offensichtliche Benachteiligungen enthält.

Bsp: Die SSDF - testet MIT Büchern, Ponder on, lange Bedenkzeiten, lernen eingeschaltet - hat, nachdem es Kritik hagelte, vor Jahren offiziell erklärt: "Wir testen veröffentlichte Packete in ihrer eigenen GUI". Insofern kann ich dem Konzept folgen, auch wenn ich "Engine- und Buchlernen" in diesem Zusammenhang als Teufelswerk betrachte. Wenn man so etwas testet müßte man VOR jedem Match die Lernwerte zurücksetzen, was sie nicht tun. Leider sind sie sich dann irgendwann untreu geworden und fingen an Engines mit Fremdbüchern in FremdGUIs zu testen, aber das ist ein anderes Thema.

Bsp: CCRL oder CEGT. Meines Wissens, und man korrigiere mich wenn es nicht stimmt, spielen die mit Büchern und Eröffnungsstellungen, unterschiedlichen Bedenkzeiten (wg. unterschiedlicher Hardware), Ponder off... .
Ich habe mir mal überlegt ob ich mich für mein Enginetesten an eine bestehnde Liste anhänge, habe aber festgestellt das mir, mal abgesehen davon, das die Annahme das Engines bei schnelleren Rechnern und kürzerer Zeit gleich spielen falsch ist (Ich kenne eine Enigne deren Zeitmanagemant sich je nach absoluter Restbedenkzeit richtet und eben nicht linear ist) und Ponder OFF mit Turnierbedinungen nichts zu tun hat, die Eingangsbedinungen nicht neutral genug waren.

Kritik hin oder her, wer meckern kann sollte sich zumindest etwas Eigenes überlegen. Dementsprechend habe ich meine eigene Liste mit "besten" Bedinungen erstellt. Leider muß ich jetzt aber feststellen das ich ein konzeptionelles Problem habe (dazu in ein paar Wochen/Monaten mehr) das ich abzustellen möchte. In diesem Zuge hat mich interessiert, was ich noch verbessern könnte. Da mir die Behauptung das Ponder ON/OFF keine Rolle spielen würde schon immer als "unbewiesen" im Magen lag, dachte ich ich versuche mal mit den mir zur Verfügung stehenden Mitteln nachzuweisen ob da was dran ist. Im Moment bin ich noch unentschlossen und will mir mit mindestens 4-5 möglicht verschiedenen Engines (also max ein Fruit oder Fruit-Clone) ein Bild machen.

Das von dir erwähnte Buchtesten ist, meiner bescheidenen Meinung nach, völlig unmöglich. Z. B. ist das, ehemals als gut gelobte R3 Buch, inzwischen auf Playchess obsolet. Jedesmal wenn einer etwas am Buch ändert müßte das NEU in die Liste eingespielt werden. Ich habe also zwei unbekannte. Erstens die Enigne und zweitens das Buch. Dazu reagieren Engines auch noch unterschiedlich auf Eröffnungen, also Bücher. Ein völlig chaotisches System das sich jeder ernsthaften Ergebnisssuche wiedersetzt.

Mir ist klar das praktisch jede Ranglist ein Kompromiss ist, allerdings finde ich das man als seriöser Tester stets die Unwägbarkeiten so klein wie möglich halten sollte!
In diesem Zusammenhang glaube ich, das das größte Problem aller Ranglisten ihr bestehender Datenpool, sprich Spiele, ist. Endlich, nach Wochen und Monaten, ist man mit den Abweichungen in vernünftige Regionen vorgestoßen, sprich es sind ein paar 100000 Spiele zusammen, und dann kommt einer und "krittelt" am Konzept rum. Selbst wenn er Recht hat nehme ich doch nicht wegen ein paar Elo Differenz meine Liste auseinander oder werfe gar alles was ich habe weg!

Mein Vorteil ist, das ich alles (+130000 Spiele ) wegwerfen muß - und wenn ich schon muß, dann will ich es danach möglichst gut machen. Wenn dabei auch noch ein kontroverses Thema herrausspringt, mit dem ich mal den Ranglisten etwas Unzulänglichkeit vorhalten kann, um so besser!

Genug geschwafelt, Hiarcstest läuft, mal sehen was der so macht!

Gruß
Ingo
Parent - - By Peter Martan Date 2009-05-18 19:19
Hallo Ingo!
(Wo bist du gerade, dass es für dich Moin ist?)
Von Schwafeln kann keine Rede sein, wenn sich endlich mal auch jemand anders als ich die Mühe macht, mehr als 5 Worte zusammenzusetzen, damit ihn vielleicht doch irgendwer versteht.

Es tut mir leid, dass du so viel Material meinst kübeln zu müssen, stelle ich mir schlimm vor.
Kann mir deshalb nicht passieren, weil mein Material von engine und Bedingungen unabhängig sein soll. Natürlich habe ich ganz andere Absichten als du, von Buchtesten, wie du es meinst, bin ich weit entfernt, ich will im Gegenteil einfach mein Buch so weit bringen, dass jede beliebige engine damit gegen jede beliebige andere entscheidende Vorteile hat.

So kann es immer wieder nicht schaden, eine Variante aufgenommen zu haben, wenn man sie halt überhaupt erst mal entprechend auf puren Unsinn abgeklopft hat.
Stellt sie sich im Lauf der Zeit doch als weniger gewinnträchtig für die ursprüngliche Seite heraus, als es anfangs aussah, bleibt sie drin, wird aber ab einer bestimmten Verzweigung nur mehr für die Seite genutzt, die nach dem momentanen Stand in Vorteil kommt, so gesehen gibt es keine schlechten Varianten, nur schlechte Farben davon.

Remisvarianten werden nicht gespeichert, wozu auch?

Viel erstelle ich so, wenn ich nicht Zeit und Lust habe, selber eine Seite zu übernehmen, dass ich engines, die gründlicher aber langsamer sind als Rybka, mit großem Zeitvorteil spielen lasse. Dabei hat Rybka erstaunlich oft immer noch das bessere Ende, dann hatte sie aber erst recht vermutlich die bessere Seite.

Mein Zugang ist also eigentlich schon genau der gegenteilige von deinem, mich interessiert dabei (sonst schon auch ) nicht die relative Stärke einer engine unabhängig vom Buch sondern was kann sie mit einer bestimmten Eröffnung, zugegeben ist Rybka auch hier für mich die vielseitigste, vor allem, wenn man sie nachdem man Partien gegen sie verloren hat, zurückanalysieren lässt und daraus dann die Fehler der Gegenseite heraussuchen, sie ist enorm lernfähig, ich verdächtige sie immer noch, eine geheime Lernfunktion zu haben.

Wirklich allgemein gültige Wertungslisten aufzustellen, ist eine hochkomplizierte statistische Arbeit und wenn sie jemand ordentlich macht, müssen wir alle dafür dankbar sein, dass Zweifler wie ich immer was daran auszusetzen finden werden, macht Leuten wie dir sicher weniger, die sich ihre Zweifel ohnehin auch selber machen.
Parent - - By Wolfgang Battig Date 2009-05-18 19:34
[quote="Peter Martan"]
...
(Wo bist du gerade, dass es für dich Moin ist?)
.....
[/quote]

"Moin" hat nix mit "morgen" zu tun. Ist ein Gruß wie "Hallo" unabhängig von der Tageszeit... Vor allem im Norden sehr verbreitet, dort gilt übrigens jemand der "moin, moin" sagt schon als Schwätzer.... (hab ich mal von einem "Eingeborenen" dort gelernt)
Parent - By Peter Martan Date 2009-05-18 20:06
Ach so ist das, na dann, Moin, Moin, Moin!
(outete er sich neuerlich als unverbesserlicher Schwätzer)
Parent - - By Horst Wandersleben Date 2009-05-19 01:50
Parent - By Peter Martan Date 2009-05-19 05:53
Danke für den Link, Horst, da hab' ich wieder mal was dazugelernt.

"Um das Wort 'Moin' im deutschen Sprachgebrauch zu erhalten hat der private Bremer Radiosender Energy Bremen eine Wortpatenschaft beim "Verein deutsche Sprache" für das Wort 'Moin' übernommen. Die Morgenshow des Senders wurde im August 2006 in 'Moin!' umbenannt."

hat mir den Ernst der Lage erst so recht klar gemacht.

Man könnte es als running gag, nachdem Björn Engholm es ja angeblich auch als "genialste Wortschöpfung aller Zeiten" bezeichnet haben soll (auch aus Wikipedia, soll man ja zwar nicht als alleinige Quelle angeben, wenn man Anspruch auf wissenschaftliche Veröffentlichung stellt, für das meiste genügt es meiner Meinung nach insbesonders in Dingen, von denen man ansonsten keine Ahnung hat ) mit dem amerikanischen "what's up" vergleichen, das mittlerweile schon öfters als whazzup gelesen wird und so richtig zum Kult durch einen Werbespot wurde, kennst du vielleicht auch, die Geschichte?
Im Ernst, so was sollte man als doch auch irgendwie deutsch nativ speaker wissen.

Ich kannte es echt nur aus Fernsehserien wie "der Landarzt".

Wenn ich den Wikipedia Artikel so lese, erinnert der Diphtong, der ja im Schriftdeutschen sonst eher weniger gepflegt wird, mehr in den Mundarten (natürlich sind mir die österreichischen besonders nahe, da wird schon viel gediphtongt mae ou mae, dem bayrischen jo mai nur entfernt verwandt, hört man z.B. im Burgen- und Steirerland immer wieder gern)
De moins en moins aus dem Französischen oder der russische Murmellaut, der in etwa dem y entspricht wie in russisch myi (wir) und einen eigenen kyrillischen Buchstaben hat, sind vielleicht phonetisch zu vergleichen, das englische hat ziemlich genau diesen Schmelzlaut ja viel mehr, wie in join und coin.
Vielleicht auch deshalb hat sich im dict.leo.org- forum auch schon hin und wieder jemand mit Moin Moin beschäftigt:

http://dict.leo.org/forum/viewUnsolvedquery.php?idThread=654138&idForum=1&lp=ende&lang=de

Lustig auch, dass auch dort dann auf deinen Wiki- Artikel verwiesen wird, diese Enzyklopädie hat mittlerweile wirklich etwas Völker verbindendes.
Parent - By Michael Scheidl Date 2009-05-18 21:03
Engines die lernfähig sind lernen zu lassen, ist meines Erachtens realistisch und im Sinne der Fairness notwendig, sonst nimmt man ihnen einen Qualitätsfaktor den sie haben, weg. Das Problem ist lediglich daß sie beim individuellen Anwender nicht dasselbe lernen wie bei Ranglistentests.

Ähnliches gilt für Buchlernen, wobei ich denke daß Buchlernen beim individuellen Schachspieler kaum Bedeutung hat, denn der wird sich für seine bevorzugten Eröffnungen interessieren und diese oft analysieren, nicht die welche die Engine gut behandelt (Ausnahme: Enginefreaks welche sich nicht für eigene Schachleistungen interessieren, sondern nur für die Performance ihres Engineaccounts auf Schach.de).
Parent - By Kurt Utzinger Date 2009-05-22 09:46
[quote="Ingo Bauer"]
Hallo alle,

auch wenn ich den Eindruck habe das der Einzige den das interessiert ich bin, (...)
[/quote]

Hallo Ingo
Das ist sicher nicht so, aber ohne selbst solche Tests durchzuführen, kann man
schwerlich mitreden. Und für mich persönlich, der keine Engine-/Engine-Matches
(mehr) durchführt, ist die Thematik einigermassen bedeutungslos.
Mfg
Kurt
Parent - - By Ingo Bauer Date 2009-05-20 08:23
Hallo alle,

Hier meine dritte Engine die ich komplett mit 2 Threads und Ponder off durchgetestet habe:

H12.1 MP 2T Poff          : 1000 (+306,=417,-277), =514.5

Zappa Mexico II x64 1T        : 100 (+ 26,= 47,- 27), 49.5 %
Rybka 1.2f                    : 100 (+ 20,= 44,- 36), 42.0 %
Deep Shredder 10 x64 1T       : 100 (+ 37,= 38,- 25), 56.0 %
Spike 1.2 Turin               : 100 (+ 47,= 37,- 16), 65.5 %
Fruit 05/11/03                : 100 (+ 39,= 38,- 23), 58.0 %
Toga II 1.4 beta5c BB         : 100 (+ 29,= 39,- 32), 48.5 %
Shredder Bonn 1T              : 100 (+ 24,= 41,- 35), 44.5 %
DSjeng WC2008 x64 1T          : 100 (+ 37,= 44,- 19), 59.0 %
Naum 4                        : 100 (+ 12,= 40,- 48), 32.0 %
Glaurung 2.2 JA 1T            : 100 (+ 35,= 49,- 16), 59.5 %

H12.1 MP 1T               : 1000 (+299,=384,-317), =491

Zappa Mexico II x64 1T        : 100 (+ 26,= 37,- 37), 44.8 %
Rybka 1.2f                    : 100 (+ 28,= 30,- 42), 42.5 %
Deep Shredder 10 x64 1T       : 200 (+ 40,= 38,- 22), 59.5 %
Spike 1.2 Turin               : 200 (+ 41,= 42,- 17), 61.8 %
Fruit 05/11/03                : 200 (+ 33,= 41,- 26), 53.8 %
Toga II 1.4 beta5c BB         : 200 (+ 31,= 41,- 28), 51.5 %
Shredder Bonn 1T              : 200 (+ 27,= 33,- 40), 43.8 %
DSjeng WC2008 x64 1T          : 200 (+ 28,= 41,- 31), 48.5 %
Naum 4                        : 200 (+ 11,= 35,- 54), 28.2 %
Glaurung 2.2 JA 1T            : 100 (+ 34,= 46,- 20), 57.0 %


Also 491 zu 514.5 Punkte oder 16 Elo Differenz zu Gunsten der 2 Thread Ponder OFF Enigne.

Im Moment habe ich also:

Zwei Engines die mit 2T Ponder off gewinnen, eine Engine die sich gleich verhält.

Ich vermag nicht zu sagen, ob Shredder Bonn schlecht Parallelisiert und gut Pondert - oder ob Zappa und Hiarcs gut Parallelisieren und schlecht pondern. Über das Problem muß ich selber noch Pondern!

Nächste Engine Deep Sjeng WC2008

Gruß
Ingo
Parent - - By Günther Höhne Date 2009-05-20 15:06 Edited 2009-05-20 15:09
[quote="Ingo Bauer"]
Also 491 zu 514.5 Punkte oder 16 Elo Differenz zu Gunsten der 2 Thread Ponder OFF Enigne.
[/quote]

Ohne dieses interessante Experiment kritisieren zu wollen, wundern mich diese Abweichungen nicht wirklich.
Ich bin sicher das es z.B bei 2 Threads Ponder ON,  , es ebenfalls zu z.T nicht unerheblichen Abweichungen kommen würde, im Vergleich zu dem was bisher hier ermittelt wurde.
Es gilt ebend ein alter Grundsatz, ändert man die Testbedingungen, so ändern sich auch die Testergebnisse. (Engine abhängig)

Gruß
Günther
Parent - - By Ingo Bauer Date 2009-05-20 15:37
Hallo Günther

[quote="Günther Höhne"]

Ohne dieses interessante Experiment kritisieren zu wollen, wundern mich diese Abweichungen nicht wirklich.
Ich bin sicher das es z.B bei 2 Threads Ponder ON,  , es ebenfalls zu z.T nicht unerheblichen Abweichungen kommen würde, im Vergleich zu dem was bisher hier ermittelt wurde.
Es gilt ebend ein alter Grundsatz, ändert man die Testbedingungen, so ändern sich auch die Testergebnisse. (Engine abhängig)

[/quote]

Irgendiwe kann ich mit deinem Posting nicht so recht was anfangen. Es geht mir nicht darum ob einen die Abweichungen wundern, sondern was bei Änderung X tatsächlich herrauskommt. Im allgemeinen wird ohne Beweis behauptet, dass Ponder ON und OFF keinen Unterschied macht. Sollten die Ergebnisse meines Tests, also eines kleinen Beweises, für Enignes untereinander abweichen, wissen wir, dass dem eben nicht so ist und das Engines sich mit Ponder ON und OFF anders verhalten!

Gruß
Ingo
Parent - - By Günther Höhne Date 2009-05-20 16:46 Edited 2009-05-20 16:51
[quote="Ingo Bauer"]
Im allgemeinen wird ohne Beweis behauptet, dass Ponder ON und OFF keinen Unterschied macht.
[/quote]

Hallo Ingo,

das halte ich für ein Gerücht.
CCRL hat solche Tests mit Ponder ON und OFF vor Jahren mal gemacht, das Ergebniss war, das dort ebenfalls z.T nicht unerhebliche Abweichungen zustande gekommen sind.
Dies erfuhr ich in einem Dialog mit Graham Banks (CCRL), aufgrund dessen er alle seine Turniere/Tests ohne Pondern spielen lässt.
http://kirill-kryukov.com/chess/discussion-board/viewforum.php?f=7 und http://computerchess.org.uk/ccrl/404/
Ich wüsste also nicht warum jetzt etwas anderes dabei herauskommen sollte, deshalb ich schrieb auch "wundern mich diese Abweichungen nicht".

Gruß
Günther
Parent - - By Ingo Bauer Date 2009-05-20 17:30
Hallo

[quote="Günther Höhne"]
CCRL hat solche Tests mit Ponder ON und OFF vor Jahren mal gemacht, das Ergebniss war, das dort ebenfalls z.T nicht unerhebliche Abweichungen zustande gekommen sind.
[/quote]

Ahhh, das erste mal das ich so etwas höre, mir war bisher nur der "uralt" (sorry) Test von Volker Pittlik bekannt (der auch hier schon zitiert wurde) der eben keine Unterschiede feststellen konnte.

Sollte es stimmen das die CCRL Unterschiede finden konnte, würde mich die Argumente interessieren die die CCRL bewogen haben sich für Ponder OFF zu entscheiden. Das Hauptargument dafür dürfte sein das man mehr Partien in der selben Zeit spielen kann, mein Hauptargument dagegen ist, dass es eben NICHT Turnierbedinungen, also echten Schach (sozusagen face to face oder screen to screen), entspricht.

Wie auch immer, ich teste meine Bedinungen möglichst selber durch und veröffentliche das hier, um für mehr Transparenz zu sorgen. Sollte mien Trend weitergehen das die Engines von Ponder OFF profitieren habe ich keine Probleme damit für reine Testzwecke meine Liste mit Ponder OFF neu zu starten, allerdings kann man eine solche Ponder OFF Liste dann eigentlich nicht mehr als Spielstärkeliste anbieten, da echtes Spiel (Server, Tunriere, Kneipe) eben immer mit Ponder ON gespielt wird.

Gruß und Danke für die Info (auch wenn die Links nicht wirklich auf Ergebnisse führen)
Ingo
Parent - - By Roland Rösler Date 2009-05-21 06:07
Ingo, vielleicht solltest Du den Test noch mal mit doppelter Bedenkzeit durchführen. Möglicherweise siehst Du hier gravierende Unterschiede.
Ich weis bis heute nicht, mit welcher Bedenkzeit Du testest! Im ersten Posting steht nix. Und Bedenkzeit scheint mir entscheidend. Je länger die Bedenkzeit, je klarer der Vorteil für 2 Core!
Bedenkzeit ist nicht zu vernachlässigen sondern entscheidend bei dem Experiment!
Parent - - By Ingo Bauer Date 2009-05-21 08:36
Moin moin,

[quote="Roland Rösler"]
Ingo, vielleicht solltest Du den Test noch mal mit doppelter Bedenkzeit durchführen. Möglicherweise siehst Du hier gravierende Unterschiede.
[/quote]

Wenn, wohlgemerkt "Wenn", die Enignes auch gravierende Unterschiede bei der Bedenkzeit haben sollten, dann gilt ab sofort JEDE Rangliste nur genau für ihre Bedenkzeit und in keinster Weise für ein bischen mehr oder weniger. In der Absolutheit der Aussage stimme ich dir nicht zu, ich glaube allerdings, das es, je kürzer es wird, Enginetesten immer Unsinniger wird.

[quote="Roland Rösler"]
Ich weis bis heute nicht, mit welcher Bedenkzeit Du testest! Im ersten Posting steht nix. Und Bedenkzeit scheint mir entscheidend.
[/quote]

Na ja, ich habe meine Bedinungen mehrmal veröffentlicht, kann allerdings nicht erwarten das das jeder kennt. Sorry dafür. Hier mal in Kürze wie die Gesamtrangliste erstellt wird:

6 min + 3 sec / Engine (Im Schnitt dauert ein Ponder on Spiel damit etwas mehr als 15 Minuten)
256 MB Hash
NUR 4 Steiner Tbs/Sbases (64 MB Cache - Damit gibt es nur sehr wenige Festplatten TBs zugriffe, da die 4 Steiner nach wenigen Zufriffen praktisch komplett im RAM stehen)
Eröffnungsstellungen, vertausche Farben (KEINE Bücher!)
Lernen aus
100 Spiele pro"Engine gg Engine"
Weniger wichtig:
2400MHz Quad. 6 + 3 wurde gewählt um "Zeitnotschlachten" zu vermeiden. Wenn eine Engine bei 6 + 3 auf Zeit verliert hat sie jetzt aber verloren! Das kommt bei den in meiner Liste aufgeführten TOP Engines praktisch allerdings nicht mehr vor!

[quote="Roland Rösler"]
Je länger die Bedenkzeit, je klarer der Vorteil für 2 Core!
[/quote]

Kannst du das irgendwie Begründen? Wenn der Vorteil "klarer" wird sollte es dafür doch eine einleuchtende Erklärung geben?
Ich kann ad hoc nichts logisches erkennen. Wenn ich die Zeit verdopple kommt eine Engine im Schnitt weniger als 1 Ply tiefer (meinetwegen auch einen kompletten Ply). Das gillt allerdings für 1 Thread Ponder on genauso wie für 2 Threads Ponder off! Der relative Abstand bleibt gleich. Und dann ist da noch die Frage ob 1 Ply von Tiefe 10 auf 11 das selbe bewirkt wie ein Ply von Tiefe 22 auf 23. Im günstigsten Fall bleibt der Vorteil gleich, viele meinen eher er wird kleiner. Ich habe noch nie jemanden gesehen der ernsthaft behauptet hat er wird größer. Das zumindest ist meine Erklärung warum längere Bedenkzeiten höhere Remisquoten zu haben scheinen.
Wie schon gesagt stimme ich noch zu, dads wenn die Bedenkzeit zu kurz wird alles im "Rauschen" verschwindet. Ich glaube aber, dass ich mit 6 + 3 (oder 15 min+ pro game) weit davon entfernt bin,

[quote="Roland Rösler"]
Bedenkzeit ist nicht zu vernachlässigen sondern entscheidend bei dem Experiment!
[/quote]

Das glaube ich überhaupt nicht (ausgenommen schon erwähnte Einschränkung nach unten), im Gegenteil, wie weiter oben von Michael Scheidel zu Recht erwähnt wird, hat die Ponder ON Engine, da sie immer Pondern kann (keine Ponderhits vom Gegner) sogar einen leichten Vorteil.

Das geht jetzt nicht gegen dich Roland, will ich nur mal loswerden:
Im allgemeinen gilt: Jemand macht ein Experiment, das mit gleichem Ergebniss wiederholbar sein muß und stellt dann eine Hypothese dazu auf. Sollte jemand am Ergebniss Zweifeln wiederholt er das Experiment, sollte jemand an der These zweifeln muß mindestens entweder eine logische Erklärung folgen warum oder sollte das nicht möglich sein (das geht nicht immer, manchmal hat man so ein Bauchgefühl, wie ich mit dem Ponder ON und OFF ist gleich) muß er die Testbedinungen ändern (Bedenkzeit) und den Test wiederholen. Sollange er beides nicht macht gilt die ursprüngliche Hypothese.

Da ich weiß das nicht jeder mein Experiment wiederholen kann, immerhin sind dazu mindesten 3 CPU Cores, viel Zeit und jede Menge Strom nötig, wüßte ich gerne im konkreten Fall warum
1. eine längere Bedenkzeit 2 threads zu Gute kommen soll und
2. warum dieser Vorteil bei steigender Bedenkzeit auch noch größer wird?

Gruß und schönen "Herrentag"
Ingo
Parent - - By Peter Martan Date 2009-05-21 09:19
Moin Ingo!

Wär's nicht einfach irgendwie logisch, dass jeder Vorteil, den eine engine von mehr Bedenkzeit, pondern und besserer hardware zieht, umso größer würde, je mehr Bedenkzeit und damit auch mehr ponder- Zeit und je besser die harware wär'?
Parent - - By Ingo Bauer Date 2009-05-21 11:59
Moin Peter,

[quote="Peter Martan"]
Wär's nicht einfach irgendwie logisch, dass jeder Vorteil, den eine engine von mehr Bedenkzeit, pondern und besserer hardware zieht, umso größer würde, je mehr Bedenkzeit und damit auch mehr ponder- Zeit und je besser die harware wär'?
[/quote]

Nein. Wieso?

Zum einen ist nicht mal klar OB ein Vorteil aus Bedenkzeit, Pondern oder Hardware besteht, zum andern soll der Vorteil dann auch noch wachsen und nicht linear sein? Es gibt ein paar Vermutungen das der Grenznutzen sinkt, aber nicht wächst. Siehe mein obiges Bsp. von 10 auf 11 und von 21 auf 22 Ply. Bei Hardware gibt man im Schnitt so als Hausnummer von 1 auf 2 Threads 50-60 Elo (manche Engine etwas mehr, eine andere weniger). In der Regel wird davon ausgegangen das von 2 auf 4 weniger Steigerung erfolgt.

Nenne mir EIN Bsp eines gesicherten, nichtlinearen, positiven Wachstums im Schach. Eher sehe ich Indikatoren das der Nutzen sinkt, nicht wächst!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2009-05-21 12:35
Die Testbedingungen finde ich sehr gut. - Ein schwer zu überwindendes Problem bei dem Experiment scheint mir jedoch zu sein, daß die Unterschiede so gering sind. Sehe ich richtig, daß sich bisher selbst nach je 1.000 Partien die 95%-Errormargins überlappen (könnten)?

Vielleicht ist das in Wirklichkeit die Grundaussage: 2T p.off sind nahezu gleich stark wie 1T p.on.

Ich fürchte, absolute Präzision wird bei derartigem nie zu erzielen sein, und beim individuellen Anwender herrschen sowieso wiederum andere Bedingungen (anderer Gegnermix, Bedenkzeit, Hardware...).

Es ist richtig daß ponder = on weitaus häufiger der "Normalpraxis" entspricht, aber nicht ausschließlich: Mit dieser Tarrasch-GUI hat man beispielsweise für Üben und Trainieren die sehr angenehme asymmetrische Bedenkzeiteinstellung zur Verfügung. D.h. ich stelle mir z.B. 25+5 für mich ein, und Engines sind mit 3+2 immer noch (über-)mächtige Trainingsgegner für mich.(*) Da soll die Engine logischerweise gar nicht pondern, weil das sonst die unterschiedliche Bedenkzeitvorgabe wegen Pondertreffern ad absurdum führen würde. Soll nur ein Beispiel sein, daß auch Ponder off-Ratings einen Sinn haben können.

Außerdem ist das Ponderfeature nur für Partien von Bedeutung, nicht für Analysen. Dabei gibts (auch) keine gegnerische Bedenkzeit zum Ausnützen, sodaß ich meine, daß Ponder off-Ratings darauf eigentlich sogar bessere Rückschlüsse erlauben.

*) Daß der Computer beim eigenen Üben überhaupt Zeit verbraucht, ist vor allem psychologisch notwendig.
Parent - - By Ingo Bauer Date 2009-05-22 10:20
Hallo Michael,

[quote="Michael Scheidl"]
Die Testbedingungen finde ich sehr gut. - Ein schwer zu überwindendes Problem bei dem Experiment scheint mir jedoch zu sein, daß die Unterschiede so gering sind. Sehe ich richtig, daß sich bisher selbst nach je 1.000 Partien die 95%-Errormargins überlappen (könnten)?

Vielleicht ist das in Wirklichkeit die Grundaussage: 2T p.off sind nahezu gleich stark wie 1T p.on.

Ich fürchte, absolute Präzision wird bei derartigem nie zu erzielen sein, und beim individuellen Anwender herrschen sowieso wiederum andere Bedingungen (anderer Gegnermix, Bedenkzeit, Hardware...).
[/quote]

Bis jetzt überlappen sich die Errormargins natürlich - allerdings muß man halt eine 95% Wahrscheinlichkeit und Trends aktzeptieren. Wenn man mehr will kommt man nie zu einem Ergebniss!

[quote="Michael Scheidl"]
Außerdem ist das Ponderfeature nur für Partien von Bedeutung, nicht für Analysen. Dabei gibts (auch) keine gegnerische Bedenkzeit zum Ausnützen, sodaß ich meine, daß Ponder off-Ratings darauf eigentlich sogar bessere Rückschlüsse erlauben.
[/quote]

Wenn man es als Analyseranglisten betrachtet, kann man in letzter Konsequenz auch wieder zu Stellungstests zurückkehren. Leider konnten die ihre Gültigkeit aber bis heute nicht beweisen, weder theoretisch noch auf Dauer in praktischen Ranglisten.

Gruß
Ingo
Parent - - By Michael Scheidl Date 2009-05-22 18:39
Gültigkeit wofür?

Tests mit Analysen in kritischen Stellungen, Qualität und ausreichende Anzahl vorausgesetzt, sind gültig für Analysen in kritischen Stellungen. Tests mit Partien Engine gegen Engine, Qualität und ausreichende Anzahl vorausgesetzt, sind gültig für Partien Engine gegen Engine.

Ersteres ist in der gesamten Schachwelt definitiv interessanter! Gewöhnliche Schachspieler betrachten doch den Enginesport als eine Freakshow... Ich finde, um das Computerschachhobby besser in der allgemeinen Schachszene zu integrieren, müßte man sich viel mehr als bisher den Anforderungen in der Analyse, und viel weniger "Engine vs. Engine" zuwenden. Das betrifft zum Beispiel den Multivariantenmodus der bei Eng-Eng unter den Tisch fällt, aber auch diverse fortgeschrittene Analysefeatures der GUIs. Wahrscheinlich wäre es viel produktiver die Analysefeatures ("Fernschachanalyse...") der GUIs methodisch und gründlich zu testen, als herauszufinden welche Engine um 20 Elo vorne oder hinten liegt, wenn sie einfach gegen andere Engines spielt.
Parent - By Kurt Utzinger Date 2009-05-23 17:54
[quote="Michael Scheidl"]
[...] Gewöhnliche Schachspieler betrachten doch den Enginesport als eine Freakshow... Ich finde, um das Computerschachhobby besser in der allgemeinen Schachszene zu integrieren, müßte man sich viel mehr als bisher den Anforderungen in der Analyse, und viel weniger "Engine vs. Engine" zuwenden.
[...] 
[/quote]

Gewöhnlichen Schachspielern kommt es überhaupt nicht in den Sinn, Engin-/Engines-Partien
zu veranstalten. In unserem Schachverein mit 45 Mitgliedern kenne ich keine Person, die
das macht. Ein Schachprogramm wird zur Analyse genutzt oder in einigen Fällen, um
spasseshalber Partien auf dem Server auszutragen. Hier im Forum scheint die Tendenz
eher im umgekehrten Sinn zu laufen. Das automatische Spielen von Engine-/Engine-
Matches verursacht relativ wenig Aufwand, bei der Analyse muss man live dabei sein, um
davon profitieren zu können ... hier ist also das persönliche Engagement naturgemäss
viel grösser.
Mfg
Kurt
Parent - - By Peter Martan Date 2009-05-21 16:54
[quote="Ingo Bauer"]

Zum einen ist nicht mal klar OB ein Vorteil aus Bedenkzeit, Pondern oder Hardware besteht, zum andern soll der Vorteil dann auch noch wachsen und nicht linear sein?
[/quote]

Nein,  Ingo, das soll er natürlich nicht!
Was ich einfach gemeint habe, ist, man sagt (mit mehr oder weniger Recht?) von engines wie Zappa, dass sie, weil besonders gut parallelisiert, durch lange Bedenkzeiten oder bessere hardware mehr gewinnen als andere.
Anthony Cozzie soll ja auch gesagt haben, er müsse seine engine gar nicht verbessern, sie werde allein durch das Besserwerden der hardware pro Jahr relativ zu den anderen Elos hinzugewinnen.
Wenn du jetzt mit längeren Bedenkzeiten, pondern und oder mehr cores testest, wird das Zappa alles begünstigen.
Ob gleichermaßen, wodurch und wenn nicht, um wieviel, ist natürlich die eigentliche Frage, auf die ich ja noch gar nicht eingegangen bin.
Ich meinte nicht den Zuwachs an Spielstärke der einzelnen engine, der natürlich mit immer mehr Zeit nach oben immer weniger zunimmt, sondern den Abstand zu den anderen, der wird ja eigentlich nur gemessen und der könnte innert relevanter Bedenkzeitgrenzen durchaus zunehmen, nein?
Parent - - By Ingo Bauer Date 2009-05-22 09:52
Hallo Peter,

[quote="Peter Martan"]
Nein,  Ingo, das soll er natürlich nicht!
Was ich einfach gemeint habe, ist, man sagt (mit mehr oder weniger Recht?) von engines wie Zappa, dass sie, weil besonders gut parallelisiert, durch lange Bedenkzeiten oder bessere hardware mehr gewinnen als andere.
Anthony Cozzie soll ja auch gesagt haben, er müsse seine engine gar nicht verbessern, sie werde allein durch das Besserwerden der hardware pro Jahr relativ zu den anderen Elos hinzugewinnen.
Wenn du jetzt mit längeren Bedenkzeiten, pondern und oder mehr cores testest, wird das Zappa alles begünstigen.
Ob gleichermaßen, wodurch und wenn nicht, um wieviel, ist natürlich die eigentliche Frage, auf die ich ja noch gar nicht eingegangen bin.
Ich meinte nicht den Zuwachs an Spielstärke der einzelnen engine, der natürlich mit immer mehr Zeit nach oben immer weniger zunimmt, sondern den Abstand zu den anderen, der wird ja eigentlich nur gemessen und der könnte innert relevanter Bedenkzeitgrenzen durchaus zunehmen, nein?
[/quote]

Ich will jetzt nicht im Detail darauf eingehen, nur ganz kurz ein paar Anmerkungen:

Was "man" sagt heiß noch nicht das das so ist.
Sollte Zappa gut parallelisieren (was ich nicht abstreiten will) sehe ich nicht warum er bei guter Parallelisierung noch durch längere Bedenkzeiten überproportional profitieren sollte. Parallelisierung und Bedenkzeit sind zwei paar Schuhe für mich.
Wenn Cozzie das sagt heist das nicht das das stimmt, es heiß auch nicht, dass das falsch ist. Hat er halt gesagt, es fehlt aber jeder Beweis.

Und zu deiner letzten Frage: Natürlich kann eine Engine bei längeren Bedenkzeiten "mehr" besser werden als andere (das unterstelle ich im Rahmen auch Shredder), warum das an der Paralellisierung liegen sollte weiß und sehe ich aber nicht.

Gruß
Ingo
Parent - By Peter Martan Date 2009-05-22 10:30
Hallo Ingo!

Ich glaube, dass die Unterschiede in dem, was wir meinen, rein quantitativ sind. Die Parallelisierung war von mir auch wieder nur ein Beispiel zu Zappa, der ja halt auch überhaupt eine engine sein soll, die bei längeren Bedenkzeiten relativ besser wird, wie sehr das so ist und ob es bei MP vorwiegend an seiner guten Parallelisierung liegt, kann ich nicht sagen und überhaupt will ich ja auch gar nicht (zum Unterschied von dir) quantitative Aussagen machen, dazu fehlt mir das (zumindest, das Einzige, was zählt, ist das ja auch bei Weitem nicht) statistische Material.
Dass sich außer testpositionellen (Buch-) Vorteilen, die mir immer noch die am schwersten wägbaren zu sein scheinen, Bedenkzeiten (und wie sie genutzt werden, das ist ja auch nicht nur im pondern total unterschiedlich, glaub' ich) und hardware (-Nutzung) unterschiedlich auswirken werden, sind wir uns ja längst einig und was wie sehr, ist jetzt deine Aufgabe, herauszufinden.

P.S. Ich kann mir übrigens durchaus vorstellen, dass einen bei so einer Arbeit obergscheite Zwischenrufe nerven, das Problem ist immer für mich, hab' ich einen Diskurs angefangen, ist die Versuchung, das letzte Wort haben zu wollen, immer da, ich kann dir aber versichern, wenn du jetzt noch irgendwas dazu schreibst, was ich nicht ganz unbedingt auch noch hinterfragen muss, lass ich es dir eh.
Parent - By Benno Hartwig Date 2009-05-20 17:34
[quote="Ingo Bauer"]Im allgemeinen wird ohne Beweis behauptet, dass Ponder ON und OFF keinen Unterschied macht.[/quote]Dass die relativen Spielstärken ähnlich bleiben (weil vielleicht alle starken heutigen Engines doch ähnlich gut pondern), mag stimmen. Ein Feature, dessen Effizienz in Untersuchungen eingehen sollte, bleibt es trotzdem. Wer schlecht pondert, sollte die Wirkung erfahren, wem beim Pondern was besonders Tolles eingefallen ist, dessen Engine soll dann auch die Früchte ernten.

Benno
Parent - - By Ingo Bauer Date 2009-05-24 11:33
Hallo alle,

Hier meine vierte Engine die ich komplett mit 2 Threads und Ponder off durchgetestet habe:

DSjeng WC2008 x64 1T      : 1000 (+297,=384,-319), 489

Zappa Mexico II x64 1T        : 100 (+ 25,= 37,- 38), 43.5 %
Rybka 1.2f                    : 100 (+ 19,= 32,- 49), 35.0 %
Deep Shredder 10 x64 1T       : 100 (+ 38,= 32,- 30), 54.0 %
Spike 1.2 Turin               : 100 (+ 46,= 38,- 16), 65.0 %
Fruit 05/11/03                : 100 (+ 35,= 44,- 21), 57.0 %
H12.1 MP 1T                   : 100 (+ 31,= 41,- 28), 51.5 %
Toga II 1.4 beta5c BB         : 100 (+ 28,= 46,- 26), 51.0 %
Shredder Bonn 1T              : 100 (+ 31,= 32,- 37), 47.0 %
Naum 4                        : 100 (+ 13,= 39,- 48), 32.5 %
Glaurung 2.2 JA 1T            : 100 (+ 31,= 43,- 26), 52.5 %

DSjeng WC2008 x64 2T Poff : 1000 (+306,=374,-320), 493

Zappa Mexico II x64 1T        : 100 (+ 26,= 42,- 32), 47.0 %
Rybka 1.2f                    : 100 (+ 17,= 36,- 47), 35.0 %
Deep Shredder 10 x64 1T       : 100 (+ 44,= 35,- 21), 61.5 %
Spike 1.2 Turin               : 100 (+ 40,= 37,- 23), 58.5 %
Fruit 05/11/03                : 100 (+ 39,= 38,- 23), 58.0 %
H12.1 MP 1T                   : 100 (+ 30,= 39,- 31), 49.5 %
Toga II 1.4 beta5c BB         : 100 (+ 26,= 46,- 28), 49.0 %
Shredder Bonn 1T              : 100 (+ 31,= 29,- 40), 45.5 %
Naum 4                        : 100 (+ 17,= 37,- 46), 35.5 %
Glaurung 2.2 JA 1T            : 100 (+ 36,= 35,- 29), 53.5 %


Also 489 zu 493 Punkte oder 3 Elo Differenz zu gunsten der 2 Thread Ponder OFF Enigne.

Im Moment habe ich also:

+16, +13, +3, +2 für 2 Thread Ponder OFF.

Bisherige Schlußfolgerungen (sofern man 8000 Spiele als irgendwie statistisch relevant betrachten will):

1. Im Sinne meiner Eingangsfrage erhält man im Ponder OFF im Schnitt das bessere Schach!
2. Ranglisten mit Ponder OFF und Ponder ON sind verschieden!

Bei Gelegenheit lasse ich noch eine Engine laufen, im Moment habe ich etwas anderes zu tun.

Gruß
Ingo

Parent - By Günther Höhne Date 2009-05-24 12:42
[quote="Ingo Bauer"]
Bisherige Schlußfolgerungen (sofern man 8000 Spiele als irgendwie statistisch relevant betrachten will):

1. Im Sinne meiner Eingangsfrage erhält man im Ponder OFF im Schnitt das bessere Schach!
2. Ranglisten mit Ponder OFF und Ponder ON sind verschieden!
[/quote]

Hallo Ingo,

es wäre doch sinnvoll beide Ranglisten in Zukunft weiter laufen zu lassen, so kannst Du nicht nur das Experiment beliebig fortsetzen,
sondern auch gleichzeitig für die jeweiligen Interessen Ergebnisse liefern, also wie Du schon richtig geschrieben hast, dann (Ponder OFF als reine Spielstärkeliste und Ponder ON -echtes Spiel. (Turniere, Server)

Gruß
Günther
Parent - - By Ernest Bonnem Date 2009-05-19 15:30
[quote="Ingo Bauer"]Wo bekomme ich das bessere Schach mit 2 Threads Ponder OFF oder mit 1 Thread Ponder ON?
[/quote]
Vor ein Paar Jahren habe ich gelesen, daß die Leute von CCRL (und CEGT?) fürchten, es könnte manchmal Speicher Probleme geben, wenn man auf dem selben Quad eine Schach Partie macht, mit 2 Threads und Ponder ON (natürlich gibt es kein Problem, wenn man das auf 2 Komputer macht, à la SSDF).
Realität oder Phantasie?
Parent - By Ingo Bauer Date 2009-05-19 15:50 Edited 2009-05-19 15:57
Hallo Ernest,

[quote="Ernest Bonnem"]
[quote="Ingo Bauer"]Wo bekomme ich das bessere Schach mit 2 Threads Ponder OFF oder mit 1 Thread Ponder ON?
[/quote]
Vor ein Paar Jahren habe ich gelesen, daß die Leute von CCRL (und CEGT?) fürchten, es könnte manchmal Speicher Probleme geben, wenn man auf dem selben Quad eine Schach Partie macht, mit 2 Threads und Ponder ON (natürlich gibt es kein Problem, wenn man das auf 2 Komputer macht, à la SSDF).
Realität oder Phantasie?
[/quote]

also 2Thread gegen 2Thread habe ich keine Erfahrung, aber mittlerweile mindestens 100000 Spiele mit 4 Engines 1 Thread ponder on (2 mal GUI gestartet) gleichzeitig. 4 GB Gesamtspeicher, 256 MB pro engine + 64 MB Cache für die 4 Steiner Tbs pro Engine. Auch einige 1000 Spiele auf einem 8fach mit 8 Engines und 4 GUIs habe ich mal laufen lassen. Problem mit dem Speicher unter Windows XP64 hatte ich noch nie und habe so etwas auch noch nie gehört.

Natürlich schmiert mir mal eine Engine ab, aber das halte ich inzwischen für normal und bewegt sich im niedrigen Promille Bereich und wird genauso mit Ponder OFF passieren.

Gruß
Ingo
Up Topic Hauptforen / CSS-Forum / 2 Treads Ponder off gegen 1 thread Ponder on

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill