Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / BanksiaGui Stellungen testen im Vergleich zu Arena
1 2 Previous Next  
- - By Chess Player Date 2022-02-10 10:46
Hallo,

ich las hier darüber das die Banksia GUI mehr Lösungen anzeigt als Arena.

Diese Erfahrung habe ich auch am ERET Test machen können.

Wie ist das möglich? Es geht jetzt nicht um +/-1 Stellungen. Es waren schon deutlich mehr.

Ich würde behaupten, ohne Statistik zu betreiben, signifikant mehr.

Wer hat solche Erfahrungen auch machen können?
Parent - - By Peter Martan Date 2022-02-10 12:56 Edited 2022-02-10 13:31
Chess Player schrieb:

Ich würde behaupten, ohne Statistik zu betreiben, signifikant mehr.

Ein Widerspruch in sich.

Mehr als Statistiken würde hier aber auch wieder ein etwas exakterer Erfahrungsbericht helfen.
Welche Stellungen, bei welcher TC, welcher Engine, wieviel Hash, wie wir deinen jüngsten Erfahrungsberichten entnehmen durften, kommt's bei dir auch sehr aufs Betriebssystem an.
Also welche Stellung löst Banksia bei dir mit XP mehr oder weniger als mit Windows 10, bei Arena war's ja immerhin eine ((von der wir Näheres erfahren durften).

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=152054#pid152054

Chess Player schrieb:

Schade, mir gefiel Arena eigentlich sehr gut. Aber so ist sie unbrauchbar unter Windows10. Untzer XP habe ich solche Fehler noch nie sehen können.


Im Ernst, wenn deine Arena- Installation schadhaft ist, (oder haben wir noch etwas anderes aus dem Geht das wirklich- Thread an Erkenntnis gewonnen?) vielleicht wirkt sich da irgendein Fehler, den du bei Hash- Zuweisung und Ähnlichem auch in anderen Threads immer wieder für dein System herausgefunden hast, ja auch auf Banksia auf deinem Rechner aus, aber anders?
Und selbst wenn nicht, sollen wir dann wirklich die Lösungszahlen, die du mit deinem schadhaften Arena bekommst, mit denen vergleichen, die sich auf dein weniger schadhaftes Banksia weniger auswirken und mit denen, die wir auf unseren funktionierenden GUIs ohne "System"fehler  bekommen?

Ich frag nur jetzt sicherheitshalber immer gleich etwas genauer nach, bevor ich mich wieder unnötig begriffsstutzig an Threads von dir beteilige, meint ja nur
Parent - - By Chess Player Date 2022-02-10 13:46
Von und über XP sprach ich jetzt aber nicht, oder? Grübel... 
Parent - By Peter Martan Date 2022-02-10 13:51
Schau noch einmal genau nach, ich hab's dir eh, damit du's nicht suchen musst, im Posting, auf das du gerade geantwortet hast, mit Link und Zitat in Erinnerung gerufen.
Parent - - By Chess Player Date 2022-02-10 14:39
Windows 10 Prof / Arena 3.5.1

Analysemotor: Swordfish 14.7 NNUE
10.02.2022 13:48:07 Spielstufe: 15 Sekunden
   Quelle                      : Liste von EPD/PGN Dateien
   ERET Eigenmann Rapid Engine Chess.epd
   Farben                      : Weiße Züge=True, Schwarze Züge=True
   Richtung                    : vorwärts
   Partien (PGN)               : Von 1 bis 999999
   Züge                        : Von 1 bis 250
   Stellungen (EPD)            : Alle Stellungen
   Verwende Motor(en)          : Liste
      Swordfish 14.7
   Sekunden pro Zug verwenden  : 15 Sekunden pro Zug
   Analyse&zeilen              : Speichern ab Such&tiefe=2
   Analysen abbrechen aktivieren: False
  1) Tf1xf4             Tf1-f2  
  2) Sf8-g6             Sf8xe6  
  3) f4-f5              f4-f5   * 0 Sekunden
  4) Sf3xg5             Le3xg5  
  5) Lb3xf7             Lb3xf7  * 0 Sekunden
  6) .. Sd7-c5          Sd7-c5  * 0 Sekunden
  7) .. Sd7-e5          Sd7-e5  * 8 Sekunden
  8) Db3xd5             Db3xd5  * 0 Sekunden
  9) Se5-g6             Se5-g6  * 9 Sekunden
10) .. d5-d4           d5-d4   * 0 Sekunden
11) d4xe5, Sg1-f3      Sg1-f3  * 0 Sekunden
12) Sc3xd5             Sc3xd5  * 1 Sekunde
13) De2-d2, Ld3-c2     Ld3-c2  * 0 Sekunden
14) Sd2-f3             Sd2-f3  * 0 Sekunden
15) Dh3-d3             Dh3-f1  
16) Sa5-c6             Sa5-c6  * 0 Sekunden
17) .. Tb8xb2          Tb8xb2  * 0 Sekunden
18) .. Da5-g5          h4-h3   
19) Se3-f5             Se3-d1  
20) Ld3xh7             Ld3xh7  * 0 Sekunden
21) .. Td8-c8          Td8-c8  * 11 Sekunden
22) h2-h4              h2-h4   * 0 Sekunden
23) Sh4-g6             Sh4-g6  * 0 Sekunden
24) b2-b3(?)           Lf1-e2  * 0 Sekunden
25) Lg5xd8             Lg5-f4  
26) Sh4xg6             Sh4xg6  * 0 Sekunden
27) g2-g4              g2-g4   * 0 Sekunden
28) Ta7xb7(?)          Ta7-a4  * 0 Sekunden
29) Tc1xc5             Tc1xc5  * 0 Sekunden
30) Sf3-h4             Sf3-h4  * 0 Sekunden
31) b3-b4              b3-b4   * 0 Sekunden
32) Sf1-g3             f6-f7   
33) Sf3xe5             Sf3xe5  * 1 Sekunde
34) Tc1-c8             Tc1-c8  * 3 Sekunden
35) Sa3xb5             Sa3xb5  * 0 Sekunden
36) b6-b7              Tf5-f8  
37) Sc7-a8             Tc2-f2  
38) e4xd5              e4xd5   * 10 Sekunden
39) a2-a3              a2-a3   * 0 Sekunden
40) .. Lf8-c5          Lf8-c5  * 0 Sekunden
41) Sf3xg5             Sf3xg5  * 0 Sekunden
42) .. Kc7-b7          Kc7-b7  * 0 Sekunden
43) Sd4xf5             Sd4xf5  * 0 Sekunden
44) h2-h4              h2-h4   * 0 Sekunden
45) Tb3-b4             Tb3-b4  * 12 Sekunden
46) Sf4-d3             h4xg5   
47) Sc5xb7             Sc5xb7  * 0 Sekunden
48) c4xd5              c4xd5   * 0 Sekunden
49) f2-f4              f2-f4   * 8 Sekunden
50) .. Se5-f3          g6-g5   
51) .. Lg7-h6          Lg7-h6  * 0 Sekunden
52) b2-b4              b2-b4   * 0 Sekunden
53) .. c5-c4           c5-c4   * 0 Sekunden
54) .. c4-c3           c4-c3   * 7 Sekunden
55) Lf4xh6             Lf4xh6  * 0 Sekunden
56) Lf1-e2             Lf1-e2  * 13 Sekunden
57) d5-d6              Se2-c3  
58) h2-h4              Ta6-a3  
59) De3-d3             h4xg5   
60) .. Da8xd8          Da8xd8  * 0 Sekunden
61) .. Tf8-f6          Tf8-f6  * 3 Sekunden
62) g5-g6              g5-g6   * 0 Sekunden
63) .. Ke8-f8          Ke8-f8  * 0 Sekunden
64) .. Tf1xf2(?)       Tf1-h1  * 0 Sekunden
65) .. Dc7-b6          Dc7-b6  * 2 Sekunden
66) Kf2-e1             Kf2-e1  * 3 Sekunden
67) .. f4-f3           f4-f3   * 0 Sekunden
68) a2-a3              a2-a3   * 1 Sekunde
69) h4-h5              h4-h5   * 0 Sekunden
70) a2-a3              a2-a3   * 4 Sekunden
71) f4-f5              f4-f5   * 0 Sekunden
72) .. Da8-d5          Da8-d5  * 1 Sekunde
73) Dd1xe2             Dd1xe2  * 11 Sekunden
74) Kd3-c4             Kd3-c4  * 0 Sekunden
75) .. Dh5-f5          Dh5-f5  * 5 Sekunden
76) Lg5xf6             Lg5xf6  * 0 Sekunden
77) g5xf6              g5xf6   * 0 Sekunden
78) Tf1xf6             Tf1xf6  * 0 Sekunden
79) De2xe8             De2xe8  * 4 Sekunden
80) .. Lg5-c1          Lg5-c1  * 2 Sekunden
81) Lh6-g7             Lh6-g7  * 0 Sekunden
82) g3-g4              g3-g4   * 0 Sekunden
83) Sc3-b5             Sc3-b5  * 0 Sekunden
84) Lh6-g7             Lh6-g5  
85) Se5-g4             Se5-g4  * 0 Sekunden
86) c4-c5              c4-c5   * 0 Sekunden
87) e4-e5              e4-e5   * 0 Sekunden
88) g3-g4              g3-g4   * 0 Sekunden
89) e7-e8S             Td5-d1  
90) f3-f4              a2-a4   
91) .. g7-g6, Kd6-c6   g7-g6   * 0 Sekunden
92) .. Dg5xg2(?)       Tf8-f7  * 0 Sekunden
93) Sf7-d6             Tg3-f3  
94) .. Td6-f6          Lg5-e3  
95) Sf3xg5             Sf3xg5  * 0 Sekunden
96) Ke5-f6             Df3-f8  
97) c4-c5              c4-c5   * 0 Sekunden
98) Kf1-e2(?)          Te4-e8  * 0 Sekunden
99) Te7-e8             Te7-e8  * 5 Sekunden
100) Sd4-f5             Sd4-f5  * 0 Sekunden
101) .. Sd7-e5          Sd7-e5  * 0 Sekunden
102) .. Sa6xb4          Sa6xb4  * 0 Sekunden
103) Kb7-c8             a5-a6   
104) .. Sc6-e7          Sc6-e7  * 0 Sekunden
105) e4-e5              d4-d5   
106) .. Le7xf6          Le7xf6  * 0 Sekunden
107) .. Tb8-b5          Tb8-b5  * 7 Sekunden
108) Lb3-a4             Lb3-a4  * 0 Sekunden
109) .. Dc4xd4          Dc4xd4  * 0 Sekunden
110) c4-c5              Db1-a2  
111) a2-a3              a2-a3   * 0 Sekunden
87 von 111 Zügen gefunden
10.02.2022 14:17:43, Gesamt Dauer: 00:29:36 Wertungszeit: 08:11 = 491 Sekunden
Parent - - By Chess Player Date 2022-02-10 15:38
Wieder Windows 10 Prof / BanksiaGui 0.53 beta

File name          : ERET Eigenmann Rapid Engine Chess.epd
Total test items   : 111
Test for           : best moves
Total engines      : 1
Timer              : movetime: 15
Expand ply         : 1
Elapsed            : 04:20
Total tests        : 111
Total corrects     : 89 (80%)
Ave correct elapse : 1889 ms
Status             : completed

Correct/Total:
Swordfish 14.7: 89/111

Failed tests (hit *):
1. Swordfish 14.7:
ERET 002 - Zugzwang, ERET 004 - Endspiel, ERET 015 - Endspiel, ERET 021 - Prophylaxe, ERET 025 - Endspiel*, ERET 032 - Zugzwang, ERET 037 - Zugzwang, ERET 038 - Endspiel, ERET 045 - Initiative, ERET 046 - Endspiel, ERET 059 - Endspiel, ERET 066 - Endspiel, ERET 073 - Mobilitaet*, ERET 084 - Koenigsangriff, ERET 089 - Unterverwandlung, ERET 090 - Endspiel, ERET 093 - Endspiel, ERET 094 - Damenopfer, ERET 096 - Endspiel, ERET 103 - Zugzwang, ERET 105 - Starke Felder, ERET 110 - Freibauer

Successful tests:
1. Swordfish 14.7:
ERET 001 - Entlastung, ERET 003 - Linienoeffnen, ERET 005 - Laeuferopfer f7, ERET 006 - Springeropfer, ERET 007 - Laeuferpaar, ERET 008 - Zentrum, ERET 009 - Springeropfer, ERET 010 - Freibauer, ERET 011 - Rochadeangriff, ERET 012 - Entlastung, ERET 013 - Zentrum, ERET 014 - Endspiel, ERET 016 - Pos. Opfer, ERET 017 - Koenigsangriff, ERET 018 - Entwicklung, ERET 019 - Endspiel, ERET 020 - Laeuferopfer h7, ERET 022 - Freibauer, ERET 023 - Rochadeangriff, ERET 024 - Entwicklung, ERET 026 - Springeropfer, ERET 027 - Zugzwang, ERET 028 - Vergifteter Bauer, ERET 029 - Qualitaetsopfer, ERET 030 - Initiative, ERET 031 - Endspiel, ERET 033 - Initiative, ERET 034 - Laeuferpaar, ERET 035 - Qualitaetsopfer, ERET 036 - Endspiel, ERET 039 - Entwicklung, ERET 040 - Koenigssicherheit, 40, ERET 042 - Endspiel, ERET 043 - Springeropfer, ERET 044 - Linienoeffnen, ERET 047 - Entlastung, ERET 048 - Starke Felder, ERET 049 - Entwicklung, ERET 050 - Koenigsangriff, ERET 051 - Verteidigung, ERET 052 - Starke Felder, ERET 053 - Pos. Opfer, ERET 054 - Endspiel, ERET 055 - Laeuferopfer h6, ERET 056 - Zwischenzug, ERET 057 - Abtausch, ERET 058 - Endspiel, ERET 060 - Koenigsangriff, ERET 061 - Koenigsangriff, ERET 062 - Starke Felder, ERET 063 - Verteidigung, ERET 064 - Endspiel, ERET 065 - Zwischenzug, ERET 067 - Raeumung, ERET 068 - Offene Linie, ERET 069 - Koenigsangriff, ERET 070 - Starke Felder, ERET 071 - Ablenkung, ERET 072 - Zentralisierung, ERET 074 - Endspiel, ERET 075 - Festung, ERET 076 - Entwicklung, ERET 077 - Rochadeangriff, ERET 078 - Freibauer, ERET 079 - Damenopfer, ERET 080 - Raeumung, ERET 081 - Koenigsangriff, ERET 082 - Endspiel, ERET 083 - Abtausch, ERET 085 - Abtausch, ERET 086 - Qualitaetsopfer, ERET 087 - Raeumung, ERET 088 - Endspiel, ERET 091 - Endspiel, ERET 092 - Vergifteter Bauer, ERET 095 - Damenopfer, ERET 097 - Endspiel, ERET 098 - Endspiel, ERET 099 - Endspiel, ERET 100 - Initiative, ERET 101 - Entwicklung, ERET 102 - Koenigsangriff, ERET 104 - Entwicklung, ERET 106 - Koenigssicherheit, ERET 107 - Verteidigung, ERET 108 - Endspiel, ERET 109 - Entlastung, ERET 111 - Festung

Irgendwie läuft der Test zu schnell ab. Und 2 zusätzliche Lösungen im vergleich zur Arena GUI. 
Parent - By Chess Player Date 2022-02-10 15:41
File name          : ERET Eigenmann Rapid Engine Chess.epd
Total test items   : 111
Test for           : best moves
Total engines      : 1
Timer              : 15+1
Expand ply         : 1
Elapsed            : 01:24
Total tests        : 111
Total corrects     : 78 (70%)
Ave correct elapse : 436 ms
Status             : completed

Correct/Total:
Swordfish 14.7: 78/111

Failed tests (hit *):
1. Swordfish 14.7:
ERET 002 - Zugzwang, ERET 004 - Endspiel, ERET 007 - Laeuferpaar, ERET 015 - Endspiel, ERET 017 - Koenigsangriff, ERET 025 - Endspiel*, ERET 032 - Zugzwang, ERET 033 - Initiative*, ERET 037 - Zugzwang, ERET 038 - Endspiel*, ERET 043 - Springeropfer, ERET 045 - Initiative, ERET 046 - Endspiel, ERET 047 - Entlastung, ERET 054 - Endspiel, ERET 058 - Endspiel, ERET 059 - Endspiel, ERET 066 - Endspiel, ERET 068 - Offene Linie*, ERET 072 - Zentralisierung, ERET 073 - Mobilitaet*, ERET 075 - Festung, ERET 082 - Endspiel, ERET 084 - Koenigsangriff*, ERET 089 - Unterverwandlung, ERET 090 - Endspiel*, ERET 093 - Endspiel, ERET 094 - Damenopfer, ERET 096 - Endspiel, ERET 103 - Zugzwang, ERET 105 - Starke Felder*, ERET 108 - Endspiel, ERET 110 - Freibauer

Successful tests:
1. Swordfish 14.7:
ERET 001 - Entlastung, ERET 003 - Linienoeffnen, ERET 005 - Laeuferopfer f7, ERET 006 - Springeropfer, ERET 008 - Zentrum, ERET 009 - Springeropfer, ERET 010 - Freibauer, ERET 011 - Rochadeangriff, ERET 012 - Entlastung, ERET 013 - Zentrum, ERET 014 - Endspiel, ERET 016 - Pos. Opfer, ERET 018 - Entwicklung, ERET 019 - Endspiel, ERET 020 - Laeuferopfer h7, ERET 021 - Prophylaxe, ERET 022 - Freibauer, ERET 023 - Rochadeangriff, ERET 024 - Entwicklung, ERET 026 - Springeropfer, ERET 027 - Zugzwang, ERET 028 - Vergifteter Bauer, ERET 029 - Qualitaetsopfer, ERET 030 - Initiative, ERET 031 - Endspiel, ERET 034 - Laeuferpaar, ERET 035 - Qualitaetsopfer, ERET 036 - Endspiel, ERET 039 - Entwicklung, ERET 040 - Koenigssicherheit, 40, ERET 042 - Endspiel, ERET 044 - Linienoeffnen, ERET 048 - Starke Felder, ERET 049 - Entwicklung, ERET 050 - Koenigsangriff, ERET 051 - Verteidigung, ERET 052 - Starke Felder, ERET 053 - Pos. Opfer, ERET 055 - Laeuferopfer h6, ERET 056 - Zwischenzug, ERET 057 - Abtausch, ERET 060 - Koenigsangriff, ERET 061 - Koenigsangriff, ERET 062 - Starke Felder, ERET 063 - Verteidigung, ERET 064 - Endspiel, ERET 065 - Zwischenzug, ERET 067 - Raeumung, ERET 069 - Koenigsangriff, ERET 070 - Starke Felder, ERET 071 - Ablenkung, ERET 074 - Endspiel, ERET 076 - Entwicklung, ERET 077 - Rochadeangriff, ERET 078 - Freibauer, ERET 079 - Damenopfer, ERET 080 - Raeumung, ERET 081 - Koenigsangriff, ERET 083 - Abtausch, ERET 085 - Abtausch, ERET 086 - Qualitaetsopfer, ERET 087 - Raeumung, ERET 088 - Endspiel, ERET 091 - Endspiel, ERET 092 - Vergifteter Bauer, ERET 095 - Damenopfer, ERET 097 - Endspiel, ERET 098 - Endspiel, ERET 099 - Endspiel, ERET 100 - Initiative, ERET 101 - Entwicklung, ERET 102 - Koenigsangriff, ERET 104 - Entwicklung, ERET 106 - Koenigssicherheit, ERET 107 - Verteidigung, ERET 109 - Entlastung, ERET 111 - Festung
Parent - - By Andreas Matthies Date 2022-02-10 18:31 Edited 2022-02-10 18:34 Upvotes 3
Die Frage ist: Wann gilt eine Stellung als gelöst?

Anhand deiner Banksia-Logs schließe ich, dass du "movetime 15 Sekunden" und "Expand ply: 1" gestetzt hast. Banksia stuft nach meiner Einschätzung die Stellung als gelöst ein, wenn der beste Zug irgendwann in den ersten 15 Sekunden als bester Zug auftaucht und dann auch noch in der nächsten Tiefe erhalten bleibt. Es würde also reichen, wenn die Suche bei Tiefe 2 und 3 den bestmove erwischt, obwohl die Engine da noch überhaupt keine Ahnung hat, was eigentlich abgeht. Zumindest habe ich bei eigenen Tests mit Banksia die Erfahrung gemacht, dass über viele Positionen hinweg gehuscht wird, weil bereits nach wenigen Millisekunden ein "gelöst" bewertet wurde. Das würde auch dein "irgendwie läuft der Test zu schnell ab" erklären.
Wenn Arena tatsächlich die 15 Sekunden rechnen lässt und erst dort den bestmove auswertet, würde das den Unterschied erklären.
Ob es besser geeignete Optionen in Banksia für diese Stellungstests gibt... kriegst du bestimmt raus, ich weiß es nicht.

Gruß, Andreas
Parent - By Peter Martan Date 2022-02-10 20:24 Edited 2022-02-10 21:15 Upvotes 1
Andreas Matthies schrieb:

Wenn Arena tatsächlich die 15 Sekunden rechnen lässt und erst dort den bestmove auswertet, würde das den Unterschied erklären.
Ob es besser geeignete Optionen in Banksia für diese Stellungstests gibt... kriegst du bestimmt raus, ich weiß es nicht.

Natürlich, man kann genau so Extra Plies einstellen, wie bei allen andere GUIs, die überhaupt so ein automatisches Stellungstest- Feature haben, weil es mittlerweile hinlänglich bekannt ist (oder halt sein sollte), dass sonst zuviele Zufalls- "Lösungen" gezählt werden, die sich die Engine bei ein paar Extraplies Suchtiefe noch anders überlegen würde. Drum empfiehlt ja Walter Eigenmann für seinen Eret das Maximum von 99 Halbzügen bei denjenigen GUIs, bei denen man nicht einstellen kann, dass immer gleich die ganze Zeit gerechnet wird.
Bei Arena muss man eigens das "Analyse vorzeitig Abbrechen" wählen, wenn man das nicht will, sonst wird eben immer bis zu den vorgegebenen Rechenzeiten mit dem Bewerten gewartet. Wählt man die Möglichkeit des vorzeitig Bewertens, kann man dann auch wieder Halbzüge über das erste "Finden" hinaus eingeben, ab denen das erlaubt werden soll.

Überhaupt seit NN und NNUE, wo ja auch oft gleich mal der beste Zug "aus der Eval" "gefunden" wird, bevor dann die Suche überhaupt so richtig beginnt und die Zugsortierung mit den frühen Iterationen häufig neu, nämlich häufig auch anders, erfolgt, spielt das wieder noch mehr Rolle.
Mit LC0 sieht man's am deutlichsten, weil das ja noch dazu eine MCTS- ähnliche Suche macht, wir hatten den Diskurs ja gerade erst in extenso mit Lothar gemeinsam über seine Beobachtungen mit Stellungstests, Banksia und den Extra- Halbzügen.
Danke, dass du's dem Threadersteller auch nochmal sagst, auch wenn's wie erwähnt,  eh gerade in der letzten Zeit immer wieder Thema war, z.B.:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=151255#pid151255

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=151229#pid151229

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=151233#pid151233

Mir hätte er es eh wieder nicht geglaubt wahrscheinlich, so begriffsstutzig, wie ich immer bin ihm gegenüber.
Parent - - By Lothar Jung Date 2022-02-10 21:19 Upvotes 1
Hallo Andreas, hallo Peter,

die Lösungsbedingungen von BanksiaGUI bei Suites, unterscheidet sich deshalb wesentlich von Arena und Fritz.
Es ist keine Analyse, ob der beste Zug nach XX Sekunden gefunden wird, sondern ob er unter den besten Zügen vorkommt.
Somit kann man die „Lösungen“ von der BanksiaGUI, nicht mit dem gefundenen besten Zug der anderen GUIs vergleichen.
MCTS ist nicht deterministisch. Aber es kommt noch die „Auswahl“ des vorgegeben Zugs der GUI hinzu.
BanksiaGUI ist somit nicht für einen Vergleich der Lösungsfähigkeiten zwischen Engines und insbesondere bei A/B-Engines geeignet.

Viele Grüße

Lothar

PS: Ein Heraufsetzen der Expanded Plys führt deshalb zu weniger Lösungen und mehr „no hits“.
Parent - - By Peter Martan Date 2022-02-10 21:23
Na, du bist ja der Banksia- Fachmann, Lothar, aber wenn das so ist, wie du's schilderst, würde ich das mal dem Entwickler schreiben (bevor's dir jemand Anderer rät )
Ich hab' ja noch nicht einmal die 0.53, weil ich immer warte, dass es ein Version gibt, die nicht das Beta dabei stehen hat. Nur kurz geschaut, wie das bei 0.52 einrichtbar ist, und natürlich angenommen, die Extra Plies wären Extra Plies wie bei anderen GUIs in dem Zusammenhang auch.
Sagt ja nur
Parent - - By Lothar Jung Date 2022-02-10 21:32
Hallo Peter,

es ist offensichtlich. Fritz kommt bei HTC114 bei gleicher Engine und Netz auf 65 Lösungen und BanksiaGUI auf 79.
Der Algorithmus muß unterschiedlich sein, sonst gäbe es nicht so große Diskrepanzen.

Grüße

Lothar
Parent - - By Peter Martan Date 2022-02-10 21:43 Edited 2022-02-10 22:01
Naja, und wenn man wirklich 99 Hz einstellt? Gehen würden (bei 0.52 beta) ja sogar 1000

Und wie man den erklärenden Text unter dem Feld

Zitat:
Afer having 1st correct answer, continue for extra plies


so grundsätzlich falsch verstehen könnte, weil's bei allen anderen GUIs halt heißt, was es heißt, und was es dann wirklich Anderes heißen soll, erschließt sich mir auch noch nicht ganz. Algorithmus?

Bei der Gelegenheit: hast du jetzt endlich mal geschaut, ob du bei der einen oder anderen Engine, die du im Banksia Stellungstest machen lässt, vielleicht MultiPV eingestellt hast?
Das wäre ein Grund, dass sich das GUI dann aus einer der als (multi) primaries von der Engine berechneten Variante eventuell wirklich die eine aussucht, deren erster Zug auf die Lösung passt. Auch falsch verstandener Algorithmus, aber immerhin ein vorstellbarer, weil

Arena hat da im MultiPV- Mode der Engine im automatischen Stellungstest die lustige Eigenart (bei 3.0 noch gehabt, hab's bei 3.51 noch gar nicht wieder probiert) die Reihenfolge der Züge der Sortierung, wie sie die Engine macht, bei der Bewertung vom GUI, nämlich dem Vergleich mit dem gespeicherten best move, umzudrehen, das sieht man aber auch erst, wenn man sich die komplette Protokoll- Datei anschaut.

Wenn man da jetzt dann also 1000 wählt, bei den Banksia- Extra Plies, (vielleicht ist der Fehl- Algorithmus, um bei deinem Ausdruch zu bleiben, ja vielleicht ein derartiger, dass nicht die erste Suchtiefen- Angabe der Engine genommen wird, sondern der für die "selektive" Tiefe, der zweite HZ- Wert?) wird das GUI ja wohl doch nach der definierten Maximal- Bedenkzeit werten und hat man auch immer noch erst dasselbe wie bei Arena, ohne das "Vorzeitige Abbrechen der Analyse" anzuwählen.
Schlägt zur Güte vor
Parent - - By Max Siegfried Date 2022-02-10 22:16
Die BanksiaGUI ist besser/genauer.
Von daher ist es normal das mehr Stellungen gelöst werden.
Jeder hier darf natürlich freiwillig die Vorteile als Nachteile darstellen

PS. Eine Sekunde pro Zug ist vollkommen ausreichend.
Parent - By Wolfgang Battig Date 2022-02-10 23:22 Upvotes 4
Laber, laber, Rhabarber oder gerne auch Bla, Bla, Bla
Immer derselbe Blödsinn
(Vor allem auf den letzten Satz bezogen)
Parent - - By Jörg Oster Date 2022-02-14 10:49 Upvotes 2
Ich hänge mich hier mal dran.

Mir sind 2 Dinge aufgefallen, als ich diese Funktion mal ausprobiert habe.
Die Nummerierung der Testpositionen im Fenster mit den Stellungen
und in dem mit den angezeigten Lösungen ist unterschiedlich.
Erstere beginnt mit 1 (richtig), letztere mit 0 (falsch!).

Zum anderen scheint kein 'ucinewgame' vor jeder Testposition gesendet zu werden.
Was zu nicht reproduzierbaren Ergebnissen führt und dieses Feature gehörig entwertet.

Beispiel:
Code:
Stockfish 11 64 POPCNT-1571833024 < position fen 5r1k/1p2r1b1/p2p1q1p/P2B1P1R/2P1p2R/4Q2K/7P/8 w - - 0 1
Stockfish 11 64 POPCNT-1571833024 < go movetime 5000
Stockfish 11 64 POPCNT-1571833024 > info depth 1 seldepth 1 multipv 1 score cp 61 nodes 77 nps 77000 tbhits 0 time 1 pv h4g4
Parent - - By Peter Martan Date 2022-02-14 13:07
Das ist mal eine klare Ansage, danke!
Parent - - By Jörg Oster Date 2022-02-14 23:24 Upvotes 2
Gerne.

Ich habe es übrigens gerade verifiziert, in dem ich Stockfish selbst per UCI-Option "Testsuite"
nach Erhalt eines 'position' Kommandos quasi ein 'ucinewgame' ausführen lasse.

Dann erhalte ich mit einem Thread auch reproduzierbare Ergebnisse.
Hier mal 2 Testdurchläufe:


Correct/Total:
StockfishTS: 17/27

Failed tests (hit *):
1. StockfishTS:
0*, 4, 7*, 9, 10, 14, 15, 16, 18, 21

Successful tests:
1. StockfishTS:
1, 2, 3, 5, 6, 8, 11, 12, 13, 17, 19, 20, 22, 23, 24, 25, 26

-----------------------------------------------------------------------------

Correct/Total:
StockfishTS: 17/27

Failed tests (hit *):
1. StockfishTS:
0*, 4, 7*, 9, 10, 14, 15, 16, 18, 21

Successful tests:
1. StockfishTS:
1, 2, 3, 5, 6, 8, 11, 12, 13, 17, 19, 20, 22, 23, 24, 25, 26
Parent - By Lothar Jung Date 2022-02-15 09:14 Upvotes 2
Danke Jörg für den wertvollen Hinweis.

Ich nehme an, das man diese UCI-Option auch für Ceres anwenden kann.
Ich versuche es auszuprobieren.

Viele Grüße

Lothar
Parent - By Max Siegfried Date 2022-02-15 07:45
Jörg Oster schrieb:

Ich hänge mich hier mal dran.

Mir sind 2 Dinge aufgefallen, als ich diese Funktion mal ausprobiert habe.
Die Nummerierung der Testpositionen im Fenster mit den Stellungen
und in dem mit den angezeigten Lösungen ist unterschiedlich.
Erstere beginnt mit 1 (richtig), letztere mit 0 (falsch!).

Zum anderen scheint kein 'ucinewgame' vor jeder Testposition gesendet zu werden.
Was zu nicht reproduzierbaren Ergebnissen führt und dieses Feature gehörig entwertet.

Beispiel:
Code:
Stockfish 11 64 POPCNT-1571833024 < position fen 5r1k/1p2r1b1/p2p1q1p/P2B1P1R/2P1p2R/4Q2K/7P/8 w - - 0 1
Stockfish 11 64 POPCNT-1571833024 < go movetime 5000
Stockfish 11 64 POPCNT-1571833024 > info depth 1 seldepth 1 multipv 1 score cp 61 nodes 77 nps 77000 tbhits 0 time 1 pv h4g4



Wenn dir das wichtig ist, dann solltest du vielleicht eine E-Mail an den Entwickler senden oder im Banksiagui Forum eine Nachricht schreiben.
https://banksiagui.com/forums/
Parent - - By Robert Bauer Date 2022-02-16 10:54 Upvotes 1
Hallo Lothar, Hallo Peter,

es ist dann keine 100% wissenschaftliche Vergleichbarkeit gewährleistet, aber eine praktische Vergleichbarkeit müsste man doch erreichen, wenn man Extra Plies in Banksia auf z.B. 20 einstellt.
Parent - By Lothar Jung Date 2022-02-16 10:57 Upvotes 1
Hallo Robert,

ich werde es versuchen.

Wenn das klappt, wäre es aber nur ein workaround.

Mal sehen.

Grüße

Lothar
Parent - By Lothar Jung Date 2022-02-16 14:13 Edited 2022-02-16 14:15
Hallo Robert,

HTC114 läuft zur Zeit.
Sieht gut aus. Jeder Stellung wird 1 Minute gegeben. 20 ply’s .
Mehr no hit’s.
Wird weniger als sonst mit 82 Lösungen generieren.
Wenn es dann kompatibler und belastbarer ist, ist diese Lösung hervorragend.

Ich teile dann das Endergebnis noch mit.
Soll ich danach die nicht gelösten Stellungen noch mal durchlaufen lassen?

Viele Grüße

Lothar
Parent - - By Lothar Jung Date 2022-02-16 14:53 Edited 2022-02-16 15:15
73/114 + 2 im zweiten Durchgang, also auch besser als Fritz.

1. Durchgang : 60 sec.
2. Durchgang : 30 sec.
Beide Durchgänge mit 20 ply’s.

In beiden Durchgängen keine schnellen Lösungen.

Lothar

PS: Vielleicht ist der Lösungsalgorithmus anders, aber besser?!
Parent - - By Robert Bauer Date 2022-02-16 17:38
Eigentlich müsste man doch rauskriegen, wenn eine Lösung mit Banksia gefunden wird, mit Fritz aber nicht, woran das liegt.
Man kann die diverenten Stellungen ja einzeln manuell sich zu Gemüte führen.

Schande über mein Haupt, dass ich noch keinen automatischen Testlauf gefahren habe.
Ich habe manuell die HTC108 durchgeklickt. Nach ca. 2 Stunden hat man dann aber auch alle durch.
Es gibt Stellungen, wo der Lösungszug zunächst favorisiert wird, dann aber verworfen wird.
Wenn man 20 extra plies wählt, dann ist das schon ein Pfund, und dann sollten es nur noch 1-2 Ausreiser in der HTC108 bzw. HTC114 sein.

Wie kommt es, dass mein Lc0 diese Stellung nicht in unter 1 Minute lösen kann:

Aus der Hard-Talkchess Suite 2020-140 (bzw. die Nummer 77 von HTC 108)



Lösung: 1.Ld4

Sind dann die Tablebases nicht richtig eingestellt?

Testest Du eigentlich mit Tablebases (6- oder 7-Steiner?) oder ohne?

Gruß, Robert
Parent - - By Peter Martan Date 2022-02-16 17:53
Hier mit 6Steinern:

q7/7R/k7/1p6/1p6/1P2B3/7K/8 w - - 0 1

Analysis by Lc0 v0.29.0-dev+git.fe0c87a:

1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kf2 Db8 8.Kf3 Da8+ 9.Ke3 De8+ 10.Kd3 Da8 11.Kd2 Db8 12.Kc2 Dh2+ 13.Kd3 Db8
  =  (0.09)   Tiefe: 13/30   00:00:16  1093kN, tb=22272
1.Td7 Db8+ 2.Kg2 Dg8+ 3.Kf2 Db8 4.Th7 Da8 5.Ke1 Db8 6.Ke2 Da8 7.Tg7 Db8 8.Kd3 Da8 9.Td7 Db8 10.Ta7+ Dxa7 11.Lxa7
  =  (0.09)   Tiefe: 13/30   00:00:16  1104kN, tb=22443
...
1.Td7 Db8+ 2.Kg2 Dg8+ 3.Kf2 Db8 4.Th7 Da8 5.Ld4 Db8 6.Kf3 Da8+ 7.Ke3 De8+ 8.Kd2 Db8 9.Tg7 Df4+ 10.Le3 Dd6+ 11.Ke1 Db8 12.Ta7+ Dxa7
  =  (0.08)   Tiefe: 14/34   00:00:37  3115kN, tb=57568
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kg3 Db8+ 8.Kf3 Da8+ 9.Kf2 Db8 10.Ke2 Da8 11.Kd2 Db8 12.Kc2 Da8 13.Kb2 Db8 14.Ka1 Da8 15.Ta7+ Dxa7
  =  (0.08)   Tiefe: 14/34   00:00:37  3182kN, tb=58701
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kg3 Db8+ 8.Kf3 Da8+ 9.Kf4 Db8+ 10.Ke3 Da8 11.Kd2 Db8 12.Kc2 Da8 13.Kb2 Db8 14.Ka1 Da8 15.Ka2 Db8 16.Tg6+ Ka5
  =  (0.08)   Tiefe: 15/34   00:00:41  3540kN, tb=64300
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kg3 Db8+ 8.Kf3 Da8+ 9.Ke3 De8+ 10.Kd3 Da8 11.Kd2 Db8 12.Kc2 Da8 13.Kb2 Db8 14.Ka1 Da8 15.Ka2 Db8 16.Ta7+ Dxa7
  =  (0.08)   Tiefe: 15/34   00:00:46  4038kN, tb=72235
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kg3 Db8+ 8.Kf3 Da8+ 9.Ke3 De8+ 10.Kd3 Da8 11.Kd2 Db8 12.Kc2 Da8 13.Kb2 Db8 14.Ka1 Da8 15.Ka2 Db8 16.Ta7+ Dxa7
  =  (0.08)   Tiefe: 15/34   00:00:51  4531kN, tb=79992
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Db8 4.Tg7 Da8 5.Kh2 Db8+ 6.Kg2 Da8+ 7.Kg3 Db8+ 8.Kf3 Da8+ 9.Ke3 De8+ 10.Kd2 Da8 11.Kc1 Dh1+ 12.Kb2 Dh2+ 13.Ka1 Db8 14.Tf7 Da8 15.Kb2 Db8 16.Ka2 Da8 17.Ta7+
  =  (0.08)   Tiefe: 15/35   00:00:56  4977kN, tb=86875

Hier Ceres mit demselben Netz (781032)

q7/7R/k7/1p6/1p6/1P2B3/7K/8 w - - 0 1

Analysis by Ceres 0.96:

1.Td7 Dh8+ 2.Kg2 Dg8+ 3.Kf2 Df8+ 4.Ke2 Da8 5.Ta7+ Dxa7 6.Lxa7
  =  (0.15)   Tiefe: 8/12   00:00:04  3kN
1.Td7 Db8+ 2.Kg2 Dg8+ 3.Kf2 Db8 4.Ke2 Dh2+ 5.Kd3 Db8
  =  (0.10)   Tiefe: 9/12   00:00:04  12kN
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kg3 Db8+ 7.Kf3 Da8+ 8.Ke3 Db8 9.Kd3 Da8
  =  (0.18)   Tiefe: 10/19   00:00:05  24kN
...
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kg3 Db8+ 7.Kf3 Df8+ 8.Ke3 De8+ 9.Kd2 Db8 10.Kc2 Dh2+ 11.Kb1
  =  (0.08)   Tiefe: 16/23   00:01:02  7504kN

Wenn man hier natürlich bei gelöst oder nicht gelöst auch Eval- Anforderungen stellte...

q7/7R/k7/1p6/1p6/1P2B3/7K/8 w - - 0 1

Analysis by Stockfish 100222:

1.Lc5 Db8+ 2.Kh1 Da8+
  =  (0.00)   Tiefe: 7/5   00:00:00  9kN
1.Ta7+ Dxa7 2.Lxa7
  =  (0.00)   Tiefe: 8/5   00:00:00  16kN, tb=136
...
1.Ta7+ Dxa7 2.Lxa7
  =  (0.00)   Tiefe: 15/4   00:00:00  46kN, tb=411
1.Lc5 Db8+ 2.Kh1 Da8+ 3.Kh2
  =  (0.00)   Tiefe: 16/6   00:00:00  47kN, tb=414
...
1.Lc5 Db8+ 2.Kh1 Da8+
  =  (0.00)   Tiefe: 18/5   00:00:00  62kN, tb=586
1.Ld4 Db8+ 2.Kh1 Da8+
  =  (0.00)   Tiefe: 19/21   00:00:00  198kN, tb=891
...
  =  (0.00)   Tiefe: 74/21   00:00:01  30618kN, tb=318153
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kf2 Df8+ 7.Ke2 De8+ 8.Kd3 Db8 9.Tg6+ Ka5 10.Tg2 Ka6 11.Tg7 Da8 12.Tf7 Db8 13.Kc2 Dh2+ 14.Lf2 Db8 15.Kb1 Da8 16.Ka2 Db8 17.Tg7 Da8 18.Th7 Db8 19.Ld4 Da8 20.Ka1 Db8 21.Th6+ Ka5 22.Th8 Dd6 23.Ta8+ Da6 24.Txa6+ Kxa6
  +-  (152.42)   Tiefe: 75/59   00:00:01  46519kN, tb=455152
...
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kf2 Df8+ 7.Ke2 De8+ 8.Kd3 Db8 9.Tg6+ Ka5 10.Tg2 Ka6 11.Tg7 Da8 12.Tf7 Db8 13.Kc2 Dh2+ 14.Lf2 Db8 15.Kb1 Da8 16.Ka2 Db8 17.Th7 Da8 18.Kb2 Db8 19.Ld4 Da8 20.Ka1 Db8 21.Th6+ Ka5 22.Th8 Dd6 23.Ta8+ Da6 24.Txa6+ Kxa6
  +-  (152.42)   Tiefe: 111/51   00:00:06  258MN, tb=7741960
Parent - - By Robert Bauer Date 2022-02-16 18:05 Upvotes 1
Zu gut Deutsch: Lc0 und Ceres lösen die Stellung nicht, Stockfish schon.
Lc0 und Ceres mögen zum Lösungszug Ld4 kommen und dort sogar stabil bleiben, trotzdem ist es ein "false positive" Ergebnis.
Umso mehr gilt es, die Ergebnisse unter Banksia und unter Fritz unter die Lupe zu nehmen.
Parent - - By Lothar Jung Date 2022-02-16 18:52 Edited 2022-02-16 18:55
Hallo Robert,

Lc0 und Ceres (Leelas) rechnen aufgrund ihres Ansatzes nicht so tief wie SF und kommen dennoch auf den richtigen Zug.
Die Zugfolge wie SF mit hoher Bewertung immer aufzuzeigen geht nicht immer bei Leelas.
Leelas Netze geben Gewinn-Wahrscheinlichkeiten wieder.

Also man muß unterscheiden zwischen Zug gefunden und richtige Lösung dazu aufgezeigt.

War das die Anforderung an die Testsuites?! Auch richtige Lösung?

Falls Leela den richtigen Zug zieht und der Gegner die richtige Antwort (erzwungen!?) findet könnte/müßte Leela die Lösung (wohl) danach kommen.

Lothar
Parent - - By Robert Bauer Date 2022-02-17 01:14 Upvotes 1
Lieber Lothar,

betrachten wir diesen von Peter angegebenen Output von Ceres 0.96:

Zitat:
1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kg3 Db8+ 7.Kf3 Df8+ 8.Ke3 De8+ 9.Kd2 Db8 10.Kc2 Dh2+ 11.Kb1
  =  (0.08)   Tiefe: 16/23   00:01:02  7504kN


Die Bewertung von +0.08 dürfte einer Gewinnwahrscheinlichkeit von ca. 52% bedeuten, wenn überhaupt.
Damit ist die Bewertung eindeutig falsch.

Außerdem enthält die Zugfolge einen gravierenden Fehler: Der Zug 10.Kc2 verdirbt die Stellung vom Matt ins Remis.
Dagegen führen dort sogar 4 Züge zum Sieg: 10.Kd1, 10.Kd3, 10.Ke1, 10.Ke3. Nur eben 10.Kc2 nicht!

Ich habe gerade auch noch die Stellung beim 10.Zug dem Lc0 vorgesetzt. Er will auch dort gestartet den Zug 10.Kc2 mit +0.11 spielen, was Remis ist.
Probier bitte Ceres mit der Stellung nach 1.Ld4 Db8+ 2.Kh1 Da8+ 3.Kg1 Dg8+ 4.Tg7 Db8 5.Kg2 Da8+ 6.Kg3 Db8+ 7.Kf3 Df8+ 8.Ke3 De8+ 9.Kd2 Db8 aus!

Da +0.08 praktisch nichts ist, sind Ld4 und das zeitweilig von Lc0 und Ceres angezeigte Td7 praktisch gleichwertig. Dabei führt nur Ld4 zum Sieg und dagegen Td7 zum Remis.
Die Engine sieht praktisch Null Siegchancen und bewertet den Zug Td7 ziemlich gleichauf.

D.h. wie man es auch dreht und wendet: diese Stellung wird von Lc0 und Ceres nicht gelöst. Es kommt weder zur korrekten Bewertung, noch zur korrekten Zugfolge für diese Stellung.
Stellungstests kommen nur je nach GUI zu einem false Positive.

Stockfish liegt dagegen sofort richtig mit +152 (freilich kann man das kritisieren, aber wir wissen das dies schon ein Matt bedeutet) und nach 1:30 auf meinem Rechner hat er dann ein Matt in 46.

Ergo: Lc0 und Ceres kommen mit dieser Stellung nicht zurecht und können bisher diese Stellung nicht lösen! (Auch wenn Banksia es anders anzeigt)
Parent - - By Lothar Jung Date 2022-02-17 07:53
Lieber Robert,

ich danke Dir.

Du hast das falsch positive Ergebnis von Ceres in dieser Stellung sehr überzeugend dargelegt.

Wird es denn hoffentlich bei 20 ply’s auch nicht mehr als gelöst angezeigt?

Wenn ja, ok, wenn nein dann kann man BanksiaGUI nicht für Suites gebrauchen.

HTC114 stellt, anders als ERET 111, nicht den Lösungsweg zur Verfügung.

Nochmals vielen Dank

Lothar
Parent - - By Peter Martan Date 2022-02-17 09:26 Edited 2022-02-17 10:04 Upvotes 1
Das ist eine Studie von Benno Pal, das ist der Lösungsweg:

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Was man hier aber unterscheiden muss: dass das von LC0 und Ceres "aus den falschen Gründen" gelöst wird, hat nichts mit dem GUI zu tun, mit dem man nur den ersten Zug bewerten lässt. Zumindest nicht nur damit und es muss kein Bug vom GUI dahinter stecken, es hat Gründe, die in der Engine bzw. in der Art, wie sie mit der Stellung umgeht, begründet sind.

Die Output- Lines, die ich nach jeweils ca. 1 Minute Rechenzeit gezeigt habe, sind, wie Robert erörtert hat, von Zügen nach dem 8. falsch (beim 10. warum ich den 8 erwähe, kommt noch), aber mehr als das an best moves in einer Output- Line zu verlangen, das ist schon viel verlangt.

Was man hingegen, wie du richtig geschrieben hast, verlangen müsste in dem Fall, wäre, dass es die Engine Zug um Zug richtig ausspielt, leider tut sie (tun sie, wenn man Ceres und LC0 gesondert betrachtet) das auch nicht (immer). Nicht im Selfplay und nicht (immer) gegen SF, wobei es auf die Bedenkzeit ankommt und von welcher Stellung im Verlauf der Lösungsvariante man ausgeht.

Ich habe mir den Spaß gemacht und sowohl Ceres als auch LC0 bei 25'+5" allein ausspielen zu lassen, da bin ich aber vom jeweils letzten noch korrekten Zug (bzw. einer auch noch zum Matt genügenden Abzweigung) ausgegangen aus der Output- Line.
8.Kd2 statt Kd3, das kann noch zur richtigen Lösung umstellen, ist also im Output noch nicht nachweisbar falsch.
Obwohl bei erreichtem 6Steiner das GUI sogar auch auf sie (die tbs) zugreifen konnte, haben es da sowohl Ceres als auch LC0 (in jeweils einzelnen Versuchen) geschafft, ins Remis zu tappen.

Bei Ceres könnte man der Engine zugute halten, dass sie vielleicht einen tbs- Bug hat, glaube ich aber gar nicht mehr, mir scheint eher, dass sie nur die hits immer noch nicht anzeigt, aber wie auch immer, Ceres habe ich dann außen vor gelassen und noch 2x LC0 gegen SF mit 45'+15" ausspielen lassen.
Die eine Partie, wieder von 8.Kd2 ausgehend, hat LC0 noch einmal in den Sand (ins Remis) gesetzt, hingegen von der Ausgangsstellung der Studie aus hat's endlich fürs Matt gereicht.
Ich habe hier alles Partien in eine .pgn zusammengefügt, damit man's so gemeinsam im GUI anschauen kann, was wozu gehört, ist in den Kommentaren enthalten:

[Event "Stellung ausspielen (Ceres96, Schnellsc"]
[Site "?"]
[Date "2006.??.??"]
[Round "?"]
[White "Pal, Benno"]
[Black "White to play and win"]
[Result "1/2-1/2"]
[Annotator "Martan,Peter"]
[SetUp "1"]
[FEN "q7/7R/k7/1p6/1p6/1P2B3/7K/8 w - - 0 1"]
[PlyCount "43"]

1. Bd4 Qb8+ 2. Kh1 Qa8+ 3. Kg1 Qg8+ 4. Rg7 Qb8 5. Kg2 Qa8+ 6. Kf2 Qb8 7. Ke3
Qe8+ 8. Kd3 (8. Kd2 {Ceres- Output} Qb8 (8... Qa8 9. Kc1 Qh1+ 10. Kb2 Qh2+ 11.
Kb1 Qh1+ 12. Ka2 Qh2+ 13. Ka1 Qh1+ 14. Ka2 Qh2+ 15. Ka1 {0.01/5} Qh1+ {0.00/3}
16. Bg1 {0.00/2} Qh8 {0.00/3} 17. Bd4 {0.00/2} Qh1+ {0.00/1 Ceres outplay}) 9.
Kc2 Qh2+ 10. Kb1) 8... Qb8 9. Rg6+ Ka5 10. Rg1 Ka6 11. Rg7 Qa8 12. Rf7 Qb8 13.
Kc2 Qa8 14. Kb2 Qg2+ (14... Qb8 15. Ka2 Qa8 16. Ra7+) 15. Bf2 Qa8 16. Rh7 Qb8
17. Bd4 Qa8 18. Ka1 {#129/1 0} Qb8 {#26/102 59 0.06;#40: '(Ka5)'} (18... Ka5 {
#129/1} 19. Ra7+ {#128/1} Qxa7 {#128/1} 20. Bxa7 {#127/1} Ka6 {3/1} 21. Bc5 {
2/0} Ka5 {2/1} 22. Kb1 {1/0} Ka6 {1/1} 23. Bxb4 {2/1} Kb6 {2/0} 24. Be7 {1/0}
Kc7 {1/0} 25. Bc5 {1/0} Kb7 {1/0} 26. Kc2 {1/0} Kc6 {1/0} 27. Ba3 {1/0} Kb6 {
1/0} 28. Be7 {1/0} Kc6 {1/0} 29. Ba3 {1/0} Kd5 {1/0} 30. Kc3 {1/0} Kc6 {1/0}
31. Kd4 {1/0} Kb6 {1/0} 32. Kd5 {1/0} Kb7 {1/0} 33. Kc5 {1/0} Ka6 {1/0} 34. Bb4
{1/0} Kb7 {1/0} 35. Kxb5 {2/1} Kc7 {2/0} 36. Bc5 {1/0} Kb7 {1/0} 37. Bd6 {1/0}
Ka7 {1/0} 38. Kc6 {1/0} Ka8 {1/0} 39. Bb8 {1/1} Kxb8 {1/1} 40. b4 {1/0} Ka8 {
1/0} 41. Kb6 {1/0} Kb8 {1/1} 42. Kc6 {1/0} Ka8 {1/0} 43. Kb6 {1/0} Kb8 {1/1}
44. Kc6 {1/0 LC0 outplay}) 19. Rh6+ {#128/1 0} Ka5 {#25/97 110} 20. Rh8 {#127/
1 0} Qb7 (20... Qd6 {#24/97 126 (Dxh8)} 21. Ra8+ {#124/1 0} Qa6 {#23/70 0} 22.
Rxa6+ {#123/1 0} Kxa6 {#22/69 0} 23. Bf2 {2/0 0 (Lc5)} Kb7 {2/0 0} 24. Be1 {1/
0 0} Kb6 {1/0 0} 25. Bxb4 {2/1 0} Kb7 {2/0 0} 26. Bc5 {1/0 0} Kc6 {1/0 0} 27.
Bf8 {1/0 0} Kd7 {1/0 0} 28. Bc5 {1/0 0} Ke8 {1/0 0} (28... Kd8 {1/0 0} 29. Kb2
{1/0 0} Kc7 {1/0 0} 30. Kc3 {1/0 0} Kd7 {1/0 0} 31. Bg1 {1/0 0} Kc8 {1/0 0} 32.
Kb4 {1/0 0} Kc7 {1/0 0} 33. Kxb5 {1/1 0} Kb7 {1/0 0} 34. Kc4 {1/0 0} Ka6 {1/0 0
} 35. b4 {1/0 0} Kb7 {1/1 0} 36. Be3 {1/0 0} Ka8 {1/0 0} 37. Kc5 {1/0 0} Kb7 {
1/0 0} 38. Bf4 {1/0 0} Ka7 {1/0 0} 39. Kc6 {1/0 0} Ka8 {1/0 0} 40. Bb8 {1/1 0}
Kxb8 {1/1 0} 41. Kb6 {1/1 0} Kc8 {1/0 0} 42. Kc6 {1/0 0} Kb8 {1/0 0} 43. Kb6 {
1/1 0} Kc8 {1/0 0} 44. Kc6 {1/0 0} Kb8 {1/0 0 Remis angenommen 1/2-1/2 (48)
Lc0 v0.29.0-dev+git.fe0c87a-Stockfish 100222 DESKTOP-9QB5AU4 2022 [0.06;#40]})
29. Kb2 {1/0 0} Kd7 {1/0 0} 30. Kc3 {1/0 0} Kc7 {1/0 0} 31. Bf2 {1/0 0} Kd6 {
1/0 0} 32. Kd4 {1/0 0} b4 {2/1 0} 33. Be1 {1/0 0} Kc6 {1/0 0} 34. Bxb4 {2/1 0}
Kb5 {2/0 0} 35. Bc5 {1/0 0} Ka6 {1/0 0} 36. Kc4 {1/0 0} Kb7 {1/0 0} 37. b4 {1/
0 0} Ka8 {1/0 0} 38. Kb3 {1/0 0} Kb7 {1/0 0} 39. b5 {1/0 0} Ka8 {1/0 0} 40. Kb4
{1/0 0} Kb7 {1/0 0} 41. Bg1 {1/0 0} Kb8 {1/0 0} 42. Kc5 {1/0 0} Kc7 {1/0 0} 43.
Kd5 {1/0 0} Kb8 {1/0 0} 44. Kc6 {1/0 0} Kc8 {1/0 0} 45. Bd4 {1/0 0} Kd8 {1/0 0}
46. b6 {1/0 0} Ke7 {1/0 0} 47. b7 {1/0 0} Ke6 {1/0 0} 48. b8=Q {4/1 0} Kf5 {4/
1 0} 49. Qe5+ {3/0 0} Kg4 {3/0 0} 50. Qe4+ {2/1 0} Kg3 {2/0 0} 51. Bg1 {1/1 0}
Kh3 {1/1 0} 52. Bh2 {1/1 0} Kxh2 {5/1 0} 53. Qg6 {4/0 0} Kh1 {4/0 0} 54. Kd5 {
3/1 0} Kh2 {3/1 0} 55. Ke4 {2/1 0} Kh1 {2/0 0} 56. Kf3 {1/1 0} Kh2 {1/1 0} 57.
Qg2# {1/1 0 1-0 (67) Lc0 v0.29.0-dev+git.fe0c87a-Stockfish 100222
DESKTOP-9QB5AU4 2022 [0.08;152.43]}) 21. Rh2 Ka6 22. Ra2# 1/2-1/2

Ich interpretiere das alles so: LCO (und Ceres) braucht (brauchen) hier viel Rechenzeit im Standrechnen und im game play, den Remis- Fallen im follow up auszuweichen, obwohl sie den richtigen Lösungszug finden. Wenn man sich anschaut, wie langsam diese NN- Engines werden, wenn sie in tbs- nahe Stellungen kommen und oder ein Matt anrechenbar wird, sieht man, wie schwer sie sich mit solchen Stellungen an und für sich tun. Drum gurken sie zeitweise ja auch immer noch im Endspiel rum statt den kürzesten Weg zu gehen im game playing.
Das wird aber, wie du auch schreibst, Lothar, schon "einfach" der MCTS- artigen Suche geschuldet sein, komodo weiß schon auch, warum er im MCTS- Modus auf A-B umschaltet, wenn die Stellungen nach sicher gewonnen oder verloren "ausschauen" für die Engine.

Zu der einzelnen Stellung in der einzelnen Test- Suite würde ich sagen, will man nicht riskieren, dass die beiden Engines je einen Punkt einfahren, den sie "nicht wirklich verdienen" hier, muss man die Stellung rausnehmen, dass das "aus falschen Gründen" gelöst und damit als nicht gelöst bewertet wird, kann man von keinem GUI verlangen, wenn die Engine die vorgeschriebene Rechenzeit lang den richtigen Lösungszug oben hat, (wenn Banksia sich in dieser Hinsicht fragwürdig verhält, ist das ein ähnliches aber anderes Problem) Evals sind kein Bewertungskriterium (was ich zeitweise bedauere, aber das ist ein anderer Thread ).

Ich persönlich gönne den beiden NN- Engines diese einen fragwürdigen Zähler (vielleicht, vielleicht auch nicht, je nachdem wie sie sich beim weiter Ausspielen je nach Gegner und Hardware-Zeit verhalten), auch wenn sie ihn wahrscheinlich nicht verdienen. Hier sind wir bei einem prinzipiellen Entscheidungskriterium von Stellungstests, wie auch immer man sie macht (weil das übrigens nämlich auch wieder für Teststellungen ganz allgemein gilt, egal, ob es (Eröffnungs-)Teststellungen sind, die fürs Eng-Eng-Match gedacht sind, siehe .pgn oben, oder für single best move Suiten):
Will man mehr Selektivität oder mehr Sensitivität der Stellungen, dass die meisten (Stellungen) für die meisten Engines (die man miteinander vergleicht) (zu) schwer sind, dann zählen natürlich einzelne richtige statistisch umso mehr, die error bar wächst aber relativ zur Gesamtzahl der Punkte, oder dass die meisten zu leicht sind, dann bekommt man mehr "Remis", bei genau dieser Entscheidung steht man (immer schon aber) heutzutage mehr und mehr gerade auch bei den Eröffnungsstellungen, von denen aus man Eng-Eng aufsetzt, mehr Vorteil einer Seite aus der Eröffnung heraus heißt weniger Remis aber mehr 1:1- Paare, was die error bar auch wieder steigert, die Remis sind ja, was die error bar angeht, ein Segen, 10 Remis ohne ganzen Punkt und sie ist ebeno 0 wie bei 100 oder 1000 Remis, man hat halt als Ergebnis nur das unbeliebte "gleichstark" als Ergebnis. Das alles aber wieder nur so dazugesagt, weil's halt in der letzten Zeit ein (mein) Thema für sich war und ist (mal wieder).

Hingegen wäre das hier einfach eine Teststellung, die man optimaler Weise nicht nur anhand des ersten Zuges beurteilen sollte, und das allerdings aber natürlich auch nicht nur im Stellungstest, sondern überhaupt nicht, weil man sich sonst leicht auch als Mensch über gelöst oder nicht gelöst irren könnte. (Dazu hat sich's der Autor der Studie ja auch so ausgedacht, um eigentlich Menschen, nicht primär Maschinen, in die Irre zu führen, nicht um zu zeigen, wie leicht das gewonnen ist.)

Man sollte optimaler Weise bei allen Stellungen, die man mit und ohne Engines beurteilen will, mehr als den ersten Zug allein anschauen, nämlich immer genau mindestens so viele Züge der Abspiele, bis wirklich Klarheit herrscht, aber diese Binsenweisheit muss vielleicht auch nicht wirklich gerade ich immer wieder zum Besten geben. "Richtige" oder "falsche" "Evals" sind schon Zweck der ganzen Übung, auch bei Menschen hätte man gern, wenn sie sich eine Weile in eine Stellung vertieft haben, dann nicht nur Züge, sondern auch ein zu erwartendes Ergebnis, wenn eine Engine also mit einer Reihe richtiger Züge in einem Abspiel und einem dann irgendwann entlang dieser Line falschen, durch den die Eval Schmarrn wird, dann darf man ihr das vorwerfen, wenn man's selber besser weiß, das Entscheidungskritierium wäre einerseits die Eval, andererseits die Länge der richtigen bzw. falschen Variante im Zusammenhang mit dieser Bewertung, das gilt jetzt wieder für Menschen und Maschinen gleichermaßen.

So what regards
Parent - - By Lothar Jung Date 2022-02-17 10:07 Edited 2022-02-17 10:48
Hallo Peter,

auch herzlichen Dank für Deine weitere sehr gute Analyse.

Ich meine, für die Weiterentwicklung von Testsuites war für unserer Unterfangen sehr nützlich.

Ich möchte lediglich vier Anmerkungen machen:

1. Ceres greift eindeutig auf Tablebases zu, zeigt sie jedoch nicht an.

2. Lc0 0.29dev mit dem vermeintlich stärksten T78-Netz kommt bei HTC114 mit 20 ply’s und 30 Sekunden auf 51 Lösungen, das sind knapp 30 Lösungen weniger als mit 1 ply.
In einem zweiten Durchlauf kommen 2. Lösungen hinzu.

3. Ceres 0.96 erreicht mit dem stärksten 30b Netz auf 22 Lösungen mehr (73 + 2).

4. Die Studie von Benno Pal „lösen“ beide (HTC114 79). Ceres kommt nach Tiefe 17 auf eine Bewertung von 0.10.
Also auch bei Ply’s 20 nicht gelöst.

Könntest Du mit Ceres nochmals die Suite mit 20 ply’s durchlaufen lassen.

Beste Grüße

Lothar
Parent - - By Peter Martan Date 2022-02-17 10:43 Edited 2022-02-17 11:02
Lothar Jung schrieb:

Könntest Du mit Ceres nochmal die Suite mit 20 ply’s durchlaufen lassen.

Mach' ich bei Gelgenheit, Lothar, momentan geht's grad schlecht, du meinst vermutich im Banksia GUI, oder? Da müsste ich auch zuerst endlich auf 0.53 beta umrüsten, schieb' ich derzeit auch noch immer auf, der cuda- Treiber wäre wichtiger, ist aber auch noch auf der to do list.

In dem Punkt sind wir uns jedenfalls einig: so lange wir keine (noch ) besseren Testmethoden und Teststellungen haben, einfach die vorhandenen Möglichkeiten so nutzen, dass die Fehlerquellen minimiert werden.
Mir schwebt eine Kombination von single best move taktical so wie bisher vor, komplettiert durch unforcierte Stellungen und Abspielen (zunächst mal vorwiegend aus der Eröffnung, vielleicht auch Mittel- und Endspiel extra, aber dafür hat man eh die taktischen Stellungen auch).
Für die "positionellen" Stellungen aber auch für taktisch zugespitzte mit mehr als einem einzelnen game changer als Lösung und mit nur anhand von mehrzügigen Varianten und Evalverläufen beurteilbaren solchen, müsste man außer den Stellungen ein Ablauf- Schema haben.

So wie im Ceres Stresstest- Thread geschildert und anhand der .pgns gezeigt, das wäre gar nicht so unpraktikabel, wenn man ein Script hätte, dass das Berechnen der Eval- Verläufe pro Engine über die vom GUI vorgegebene Zugzahl vornimmt und das Vergleichen und Auswerten untereinander und mit den eventuell vorgegebenen Testvarianten und den definierten Ranges an korrekten Evals- Verlaufswerten automatisiert ablaufen lässt. Für einen Python- Kundigen wahrscheinlich kein Problem.
Vielleicht würde sogar eine Batch- Datei reichen, die das GUI steuert, das ja jetzt auch schon einen Großteil der Aufgaben übernimmt, die Züge ablaufen lässt, automatisch ausspielen zu vorgegebenen Zugzahlen, ev. Backward, Evals pro Zug ausgibt, HCE und Fritz kennen und können ja auch das Prinzip vom Eval- Zuwachs und - Verlust pro Seite über die anylsieren Züge hinweg, und auch das zum Schluss Werte Abfragen und in ein Lösugsfile Einragen ist nicht prinzipill neu für viel GUIs.

Externe Anweisungen dazu von der Stapeldatei und zum Schuss eine Zusammenfassen und ein Auswerten in einem eigenen Lösungsfile, das müsste gar kein so komplettes zusätzliches Programm wie das von Frank Schubert sein, für wirklich schöne tabellarische Darstellung mehrerer Läufe und Engines wär's so wie bei EloStatTS halt perfekt, delegiert die Kleinigkeiten der Durchführung
Parent - - By Lothar Jung Date 2022-02-17 10:54 Upvotes 1
BanksiaGUI gibt im Log den Verlauf der Berechnungen aus.
Ich nehme an, man muß die ply’s weiter erhöhen, damit die „Lösungen“ mit geringer Bewertung dann als ungelöst bewertet werden.
Ich versuche es erst mal mit 40 ply’s.
Dein Test hat Zeit.

Beste Grüße

Lothar
Parent - - By Jörg Oster Date 2022-02-17 12:53 Upvotes 2
Lothar Jung schrieb:

BanksiaGUI gibt im Log den Verlauf der Berechnungen aus.
Ich nehme an, man muß die ply’s weiter erhöhen, damit die „Lösungen“ mit geringer Bewertung dann als ungelöst bewertet werden.
Ich versuche es erst mal mit 40 ply’s.
Dein Test hat Zeit.

Beste Grüße

Lothar


Irgendwie scheint ihr nicht so ganz zu verstehen, wie das mit dem Feature "Testsuites/Teststellungen lösen" funktioniert.
Es wird nur überprüft, ob der ausgegebene best move der Engine mit dem in den Teststellungen hinterlegten best move übereinstimmt.
Sonst nichts! Da wird keine Bewertung überprüft! (Zumindest soweit mir das bekannt ist.)

Um zu verhindern, dass eine Lösung schon gewertet wird, obwohl die Engine ja noch von diesem Zug innerhalb der
vorgegebenen Zeit abweichen könnte, hat man die zusätzlich einzustellenden plies.

Je höher man diese nun einstellt, umso mehr hat man die Sicherheit, dass immer die volle Zeit ausgeschöpft wird!
Wenn man also 30 Teststellungen mit je 10 Sekunden testen lässt, dann dauert das halt auch 300 Sekunden.
Wer hier mit weniger Sicherheit zufrieden ist, kann also auch nur 0, 1, 2 oder 3 plies einstellen, muss sich dafür
aber bewusst machen, dass hier auch falsche Lösungen einfließen können. Und mit falsche Lösungen meine ich hier
wirklich nur, dass die Engine evtl. nochmal den best move wechseln könnte, wenn ihr die volle Zeit zugestehen würde.

Gruß,
Jörg.
Parent - By Lothar Jung Date 2022-02-17 13:22 Edited 2022-02-17 13:53
Hallo Jörg,

das ist so.

Ply’s 99 ergaben bei 30 sec. Bedenkzeit immer noch 69 Lösungen + 2 Zusatzlösungen um 2. Durchlauf.
Dabei sind Lösungen die suspekt sind.
Sie müssen händisch auf falsch positiv überprüft werden.

Sie mein posting dazu.

Grüße

Lothar
Parent - - By Peter Martan Date 2022-02-17 13:31
Danke, Jörg, was mich angeht (weil du schreibst "ihr"), wusste ich das schon so, dass ich auf den Evals herumreite, hat andere Gründe, einfach, weil sie mir auch immer schon ein Thema waren und sind.

Was Lothar angeht, wäre ich mir auch ziemlich sicher, dass er nicht meint, dass mehr Halbzüge extra im GUI eingestellt einen anderen Einfluss haben als den auf die Zeit (die Plies an Tiefe), die das GUI verstreichen lässt, bis es den Zug, der dann gerade im Output ist, durch Vergleich mit dem gespeicherten als richtig oder falsch durchwinkt.

Aber bei einer Zugsortierung der Engine mit zumindest 2 für sie knapp beieinander liegenden best move Kandidaten, könnte die nächste und die übernächste und die zehntnächste Iteration halt auch die Auswahl des Zuges festigen, in dem Fall nämlich, dass die Folgezüge, die die Engine für die besten hält, die richtigen sind und richtig eingeschätzt werden in Hinblick auf die weiteren Folgezüge. In diesem Fall sollte auch die Eval eine besser und besser zu den Zügen und Zugfolgen passende werden, aber das ist nicht gefragt für diese Art des "Lösens".

Mich interessiert's halt schon auch immer wieder, und seien wir ehrlich: wen nicht, wenn man sich Engine- Output anschaut, ignoriert da wirklich jemand die Evals?

Dass sie ohne zugehörige Züge nichts sagen, eh klar, dass ihr Verlauf (der Unterschied zwischen der am Anfang und der am Ende einer Line, zumindest vor und nach einem bestimmten einzelnen Zug) viel mehr sagt als ein einzelner Wert, auch klar, aber weil du jetzt schon wieder gerade da bist:

Kannst du der Absicht etwas abgewinnen, in die Bewertung von Engines und dem, was sie an bestimmten Stellungen leisten, die Bewertung (die Evals) einzubeziehen, die sie selbst über die Stellungen und den Partieverlauf ausgeben?
Im weitesten Sinn zur Berechnung von Elo aus Eval?

Indirekt (oder eigentlich eh ziemlich direkt) gehen diese Engine- Evals sowieso in alles ein, was die Maschinen rechnen und ziehen, weil sie nach ihnen (wenngleich intern natürlich anderen als den im Output aufscheinenden) ja ihre Zugsortierung vornehmen.
Aber wär's nicht wirklich an der Zeit, sie beim Wort zu nehmen in dem, was sie an Ausgabe bieten, auch beim Eval- Wort, natürlich nur im Zusammenhang mit den zugehörigen Zügen?

Nicht beim einzelnen absoluten Zahlenwert und nicht ohne zugehörigen Zug, aber bei den Unterschieden zwischen den Zahlenwerten über die Zugfolgen hinweg und bei den Unterschieden zu den Unterschieden der Vergleichs- Engines und zu Vergleichs- Unterschieden, die der Mensch als richtige oder falsche Bewertung in einer bestimmten Range einschätzt?

Deine Meinung als Programmierer würde mich echt interessieren, belästigt den Fachmann
Parent - By Lothar Jung Date 2022-02-17 13:56 Upvotes 1
Ich finde den Thread von Walter hinsichtlich der Bewertung von A/B-Engines sehr interessant.
Parent - - By Robert Bauer Date 2022-02-17 23:26 Upvotes 1
Hallo Peter,

dein Rumreiten auf Evals ist doch gut.

Eigentlich sollte ja nicht nur der beste erste Zug "erraten" werden, sondern ggf. auch zusätzliche Kriterien erfüllt werden, die je nach Stellung auch unterschiedlich sein könnten.
Und das EPD-Format lässt genau diese Festlegungen bereits zu! 
Siehe: https://www.chessprogramming.org/Extended_Position_Description

z.B. ist die Angabe:
ce centipawn evaluation
die Bewertung. Und ich hoffe, dass hierbei die Mindestbewertung in centipawns gemeint ist.

z.B. enthält die Colditz-Suite diese Angaben: http://www.talkchess.com/forum3/viewtopic.php?t=62659

Einem engagierten Entwickler wie der von Banksia traue ich jedenfalls zu, dass er einige Verbesserungen umsetzen kann, die darauf beruhen, dass man das gewünschte Lösungsverhalten besser definiert.
Parent - - By Peter Martan Date 2022-02-18 08:05 Edited 2022-02-18 08:08
Endlich einer, der mich versteht

Hingegen hat das SF- Framework die Idee des fixed-length match's anscheinend ohnehin schon aufgegriffen.
Jörg wird mehr wissen, lehnt sich zurück, bis sich die Idee weit genug verbreitet hat, das meine hierorts erst mal mehr als notwendig dazu beigetragen habend, (ich hätte wissen sollen, dass das eh schon gemacht wird)
Parent - - By Jörg Oster Date 2022-02-18 12:41
Fixed-length matches gab es schon immer.
M.Costalba und J. Kiiski haben früher ausschließlich so getestet.
Wie wohl alle Entwickler früher.

Dann kam Fishtest, und mit ihm bzw. kurze Zeit darauf die Einführung von SPRT-Tests.
Von daher verstehe ich jetzt nicht, worauf du hinaus wolltest.
Parent - - By Peter Martan Date 2022-02-18 12:56 Edited 2022-02-18 12:59
Die fixed-length matches sollte man auf die Endevals im Verhältnis zu den Anfangsevals auswerten, das würde ein paar Remis in ganze Punkte verwandeln.

Marco Costalba hat noch viel mehr Sachen gemacht, die ganz in dem Sinn sind, von dem ich hier seit längerem Schwärme, ohne dass es irgendjemand liest und oder versteht und oder sich dafür interessiert.

Costalba hatte in grauer Vorzeit einen "double blind test", (unter diesem Suchbegriff müsste man es noch in CCC- Suche finden, wenn er nicht so wenig selektiv ist) den er anhand einer Test Suite machte, die er "poor fish" nannte.
Da hat er eine Stapeldatei dazu geschrieben, dass er der Fisch auf die für ihn damals schwere Teststellung ansetzte, nach einer Weile Standrechnen den gesuchten Zug ausführen ließ, wieder kurz rechnen und dann noch einmal ohne den Hash zu löschen, in der Ausgangsstellung rechnen ließ.

Die Minimalform des Zwischendings zwischen Stellungstest und Ausspielen, das mir nicht aus dem Kopf geht, für etwas längere Varianten (fixed-depth match) wär's noch vielseitiger, weil nicht auf einzelne single best move- Stellungen angewiesen.
Wiederholt sich
Parent - By Chess Player Date 2022-02-18 13:20
Peter Martan schrieb:

Die fixed-length matches sollte man auf die Endevals im Verhältnis zu den Anfangsevals auswerten, das würde ein paar Remis in ganze Punkte verwandeln.

Marco Costalba hat noch viel mehr Sachen gemacht, die ganz in dem Sinn sind, von dem ich hier seit längerem Schwärme, ohne dass es irgendjemand liest und oder versteht und oder sich dafür interessiert.


Tja dann liegt das an Dir, vielleicht?
Parent - By Lothar Jung Date 2022-02-17 12:49 Edited 2022-02-17 13:35
Ich lasse zur Zeit mit 99 ply’s die HTC114-Suite mit 30 sec. laufen.
Es wurden 69 Lösungen + 2 im 2. Durchlauf erreicht.
Im log liegt die Berechnung der Stellungen vor.

Unter den gelösten Stellungen die eine negative Bewertung haben, sind sehr suspekt.
Zusätzlich deren Bewertungen unter 1 liegen und eine Tiefe unter 20 aufweisen.
Dabei könnten jedoch positionelle Stellungen sein, die gleichwohl richtig positiv sind.

Klären kann das nur eine Analyse der log Datei.

Lothar
Parent - - By Kurt Utzinger Date 2022-02-10 21:53 Upvotes 3
Lothar Jung schrieb:

Hallo Andreas, hallo Peter,

die Lösungsbedingungen von BanksiaGUI bei Suites, unterscheidet sich deshalb wesentlich von Arena und Fritz.
Es ist keine Analyse, ob der beste Zug nach XX Sekunden gefunden wird, sondern ob er unter den besten Zügen vorkommt.
Somit kann man die „Lösungen“ von der BanksiaGUI, nicht mit dem gefundenen besten Zug der anderen GUIs vergleichen.
MCTS ist nicht deterministisch. Aber es kommt noch die „Auswahl“ des vorgegeben Zugs der GUI hinzu.
BanksiaGUI ist somit nicht für einen Vergleich der Lösungsfähigkeiten zwischen Engines und insbesondere bei A/B-Engines geeignet.

Viele Grüße
Lothar


Hallo Lothar
Dann kann man die hoch gelobte Banksia GUI für Test-Suites mit den sonst üblichen Bedingungen
(Best-Zug in X-Sek. gefunden) eigentlich gar nicht gebrauchen.
Gruss
Kurt
Parent - By Chess Player Date 2022-02-10 22:00
So ist es!
Parent - By Lothar Jung Date 2022-02-10 22:01
Hallo Kurt,

ja nicht zu gebrauchen.

It is not the best move found. It is the best move considering.

Bei Fritz wird der Lösungszug beim pondern schon mal angezeigt, aber nicht am Ende der Bedenkzeit als besten Zug gewertet.
MCTS „eiert“ bestimmt bei längeren Bedenkzeiten um den Lösungszug herum, zieht ihn aber nicht.
Aber darauf zielt Schach ab.

Viele Grüße

Lothar
Parent - - By Chess Player Date 2022-02-10 22:06
Andreas Matthies schrieb:

Die Frage ist: Wann gilt eine Stellung als gelöst?

Code:
Das ist doch gar keine Frage! Gelöst heißt, wenn der Zug in einer gewissen Tiefe gefunden wurde, mit der pasenden Bewertung natürlich, dieser beibehalten wird, selbst wenn bis in alle Ewigkeiten weiter gerechnet wird.


Anhand deiner Banksia-Logs schließe ich, dass du "movetime 15 Sekunden" und "Expand ply: 1" gestetzt hast. Banksia stuft nach meiner Einschätzung die Stellung als gelöst ein, wenn der beste Zug irgendwann in den ersten 15 Sekunden als bester Zug auftaucht und dann auch noch in der nächsten Tiefe erhalten bleibt. Es würde also reichen, wenn die Suche bei Tiefe 2 und 3 den bestmove erwischt, obwohl die Engine da noch überhaupt keine Ahnung hat, was eigentlich abgeht. Zumindest habe ich bei eigenen Tests mit Banksia die Erfahrung gemacht, dass über viele Positionen hinweg gehuscht wird, weil bereits nach wenigen Millisekunden ein "gelöst" bewertet wurde. Das würde auch dein "irgendwie läuft der Test zu schnell ab" erklären.
Wenn Arena tatsächlich die 15 Sekunden rechnen lässt und erst dort den bestmove auswertet, würde das den Unterschied erklären.
Ob es besser geeignete Optionen in Banksia für diese Stellungstests gibt... kriegst du bestimmt raus, ich weiß es nicht.

Gruß, Andreas
Parent - - By Reinhold Stibi Date 2022-02-10 22:43 Edited 2022-02-10 22:47
Also was ich bis jetzt vernommen habe ist BanksiaGUI überhaupt nicht für
Teststellungen zu gebrauchen.

Das ist ja ein Witz: "Lösungszug kommt unter den Besten vor" .

Für den Lösungszug gilt nur der Beste, nicht der Zweitbeste oder Drittbeste Zug.

Wenn ich am Schachbrett bin und spiele, kann ich mich doch auch nicht für mehrere Züge
gleichzeitig entscheiden sondern nur den für mich Besten.

Danke für die Aufklärung; die Super-Ergebnisse bei der BanksiaGUI haben überhaupt keinen Wert.

       
Parent - - By Walter Eigenmann Date 2022-02-10 23:49
Man sollte differenzieren.

Natürlich hat Banksia noch eine Unmenge Kinderkrankheiten, sowohl äusserlich als auch innerlich.
(Wenn seine Entwicklung im bisherigen Tempo weitergeht, dürfte es bis zur Reife noch ca. ein Jahr dauern).

Aber es hat viele gute Ansätze!

Das Feature "Testpositionen" gefällt mir persönlich schon recht gut (auch wenn man es putzigerweise suchen muss unter "Werkzeuge"--->"Entwickler"...

A) Das Berechnungs-Fenster

... während des Tests spuckt eine parallele und transparente Anzeige alle Angaben (hier von 3 Engines gleichzeitig!) aus.
Und noch ein bei allen anderen GUI vermisstes Feature: Man kann gezielte einzelne Positionen einer Suite herauspicken und berechnen lassen:



B) Die Engine-Einstellungen

... sind die üblichen:



C) Der Ergebnis-Output

... ist noch primitiv:



(Warum Stockfish hier - mit am wenigsten gelösten Stellungen - die Nummer Eins ist, habe ich noch nicht herausgefunden...

Gruss: Walter

.
Up Topic Hauptforen / CSS-Forum / BanksiaGui Stellungen testen im Vergleich zu Arena
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill