Testergebnisse für Cool Iris 11.70

By Max Siegfried Date 2024-01-07 21:46

Torsten Cuber schrieb:

Ich möchte daher behaupten, dass Cool Iris zur Zeit die stärkste Schachengine ist, zumindest was die taktische oder analytische Stärke angeht, gibt es momentan nichts Besseres!

Könnte es nicht sein, dass diese Engine diese Sammlung an Stellungen besonders gut löst, während Stockfish 17 dev. mehr Stellungen lösen würde, wenn wir beiden Engines eine Sammlung mit 5000 Stellungen geben?

Dann ist Stockfish im Großen und Ganzen im Detail immer noch besser.

Davon abgesehen hat Stockfish 17 dev. in den von ihm gelösten Stellungen die bessere (Bewertung) angezeigt, auch wenn er weniger Stellungen gelöst hat.
Jetzt müsste man Abwegen ob die Anzahl der gelösten extrem schwierigen Stellungen für die Analyse einer Partie sinnvoller ist als die korrekte Bewertung jedes einzelnen Zuges einer Partie.

By Torsten Cuber Date 2024-01-07 22:09 Upvotes 1

Also ich kenne keine Stockfish 17 Engine, daher weiß ich nicht, auf welche Engine Du dich beziehst.
Daß Stockfish mehr Stellungen lösen würde, wenn man ein Test von 5000 Stellungen nehmen würde, mag sein.
ABER: Mich interessieren nicht die 4900 Stellungen, die von den meisten Engines in wenigen Sekunden gelöst werden können!
Mich interessieren die restlichen 100 Stellungen, in denen die Engines große oder sehr große Probleme haben, und diese Stellungen sind es, die ich für wichtig erachte.
Deshalb fliegt aus meinem PC-ULTRA--TEST in regelmäßigen Abständen alles raus, was in wenigen Sekunden gelöst werden kann.
Und die 100 Stellungen, die aktuell von mir verwendet werden, sind höchst anspruchsvolle Aufgaben, und wäre die Bewertung von Cool Iris hier ungenauer oder schlechter als die Bewertung von Stockfish, würde Stockfish hier besser abschneiden!.
Und gerade die falsche Bewertung einer Stellung (Festungen, Zugzwang-Stellungen) durch Stockfish ist der Grund, warum Stockfish in diesem Test deutlich schwächer abschneidet!
Wie ein neuer Stockfish 17 abschneidet werde ich natürlich prüfen, sobald er erhältlich ist.
Momentan ist mir nicht bekannt, daß ein Stockfish 17 veröffentlicht wurde.
Vielleicht konnte ich damit ein paar Fragen klären.
Liebe Grüße vom Torsten

By Martin Steinwandter Date 2024-01-08 07:59 Upvotes 1

Du schreibst mit den Standardparametern, also mit Lernen an. Du lässt die Engine die Positionen zuerst mit 5 Minuten und dann mit 1 Minute bearbeiten. Dann hätte Cool Iris mit der Experience-Datei schon einen Vorteil gegenüber den nicht lernenden Engines. Zumindest habe ich das so verstanden.Eine Lerndatei hat genau bei Stellungstest den größten Einfluss auf das Ergebnis.

By Torsten Cuber Date 2024-01-08 13:07

Lieber Martin, daß hast Du falsch verstanden!
Natürlich deaktivier ich "experience enabled" zuerst, bei jedem Programmstart, damit eben keine Lerndatei angelegt werden kann.
Mir ist klar, dass dann Cool Iris einen großen Vorteil hätte, wenn es auf eine Lerndatei zugreifen könnte.
Also Nochmals: Alle Einstellungen sind Default, aber "experience enabled" wird jedesmal abgeschaltet ( Häkchen weggeklickt) .
Und der Test läuft nicht so ab, dass ich das Programm zweimal laufen lass, einmal mit fünf Minuten und dann einmal mit einer Minute Bedenkzeit.
Nein , viel einfacher, der Test läuft einmal, und ich notiere mir von Hand die Lösezeiten.
Am Ende zähl ich dann zusammen, wieviel Stellungen könnten innerhalb von 5 Minuten gelöst werden, und wieviel Lösungen wurden in 1 Minute gefunden!
Du siehst, daß Lerndateien hier nicht angelegt werden und deshalb auch keine Auswirkungen auf das Resultat haben.
Vielleicht ist es jetzt etwas klarer geworden, hoffe ich.

By Martin Steinwandter Date 2024-01-08 13:16

Danke

By Torsten Cuber Date 2024-02-19 22:45

Lieber Martin, natürlich wird "Experience" bei jedem meiner Testdurchgänge vorher deaktiviert!!
Und nachdem ich den Test mit 5 Minuten pro Stellung absolviert habe, wird der Rechner ausgeschaltet, und ein paar Tage später kommt dann der Durchgang mit 1 Minute pro Stellung.
Cool Iris kann also in keinem Fall von einer Experience Datei profitieren!
Ich hoffe, dass es jetzt klarer geworden ist, wie ich teste.
Liebe Grüße vom Torsten.

By Rainer Maikowski Date 2024-01-08 11:25 Upvotes 2

könntest Du Deinen PC_ULTRA 2-Test hier zur Verfügung stellen?

By Torsten Cuber Date 2024-01-08 13:30 Upvotes 2

Lieber Rainer, ich werde demnächst wieder eine Revision durchführen, das heißt, daß ich die Stellungen wieder aussortieren werde, die sich in den letzten 12 Monaten als zu leicht erwiesen haben, fliegen raus und werden durch solche ersetzt, die selbst die besten Engines zum Schwitzen bringen.
Viele Stellungen, die selbst ein Stockfish 15 nicht lösen konnte, werden heute, von Crystal, ShashChess GZ, Leptir Analyzer, und jetzt ganz aktuell, Cool Iris, in wenigen Sekunden gelöst.
Mein Test soll aber das Maximum an Schwierigkeiten bieten, die Engines an ihre Grenzen führen (Wohlgemerkt: Timelimit ist 5 Minuten pro Stellung).
Und gerade bin ich dabei, neue geeignete Stellungen zu suchen.
Von Peter Martan bin ich auf eine neue Testsuite aufmerksam gemacht worden, "256p.epd", die 128 Stellungen von ihm und 128 Stellungen von Dan Corbitt enthält.
Da bin ich gerade dabei, da ist auch vieles dabei, was mein Crystal 5 in wenigen Sekunden löst
(Anmerkung: Ich analysiere die Stellungen auf meinem Smartphone XIAOMI 11! Wenn eine Stellung dort in zwei oder drei Sekunden gelöst wird, schafft es mein PC in einer Sekunde oder in 0:00!).
Solche Stellungen sind natürlich uninteressant, selbst wenn viele davon wirklich sehr schön sind!
Aber ein paar Stellungen (vor allem Studien, Stellungen aus praktischen Partien sind heute viel zu leicht für die Top-Taktiker) sind dabei, die aussergewöhnlich schwierig sind, die kommen dann in meinen nächsten PC-ULTRA-3-TEST.
Deshalb dauert es noch ein wenig, bis ich mit dem neuen Test fertig bin.
Ich will einfach einen Test, bei dem die Top-Engines NICHT 99 von 100 Aufgaben lösen können.
60 von 100 wäre mir viel lieber!
Je schwieriger die Stellungen, je weniger Lösungen gefunden werden, desto besser ist der Test geeignet, als Messlatte zu dienen für die analytischen Fähigkeiten der Top-Engines!
Ich hoffe, damit ist einiges klarer geworden.

By Max Siegfried Date 2024-02-18 20:35

Torsten Cuber schrieb:

Wie ist der aktuelle Stand?

By Torsten Cuber Date 2024-02-19 22:33

Lieber Max, aktuell ist es so, dass ich auf meinem Smartphone XIAOMI 11 Pro die Testsuiten ACT 3, ACT4 und ACT5 analysiere, das sind insgesamt 300 Stellungen, plus die HARD-TALKCHESS-2020-SUITE (213 Stellungen), plus den Stockfish-2021-Testsuite (238 Stellungen).
Zusammen 750 Stellungen, die ich alle einzeln, interaktiv analysiere.
Daraus nehm ich dann nur noch die Stellungen, für die Crystal 5 (einer der absoluten Top-Taktiker für Android) mindestens eine Minute benötigt!!
Leptir Analyzer und Cool Iris gibt's momentan leider nicht für Android, also muss ich mit Crystal 5 arbeiten, gelegentlich nutze ich noch SugaR AI ICCF 1.80, das war die letzte Version, die für Android erschien.
Alles, was in weniger als einer Minute gelöst werden kann, ist nicht schwer genug für meinen Test.
Mein PC-ULTRA-2-TEST wird dann dahingehend umgebaut, das alles, was in wenigen Sekunden auf meinem PC gelöst werden kann, rausfliegt und ersetzt wird durch die Stellungen, die ich in den genannten Suiten gefunden habe, die schwer genug sind
Das dauert aber noch, zumal ich momentan wenig dazu komme.

By Max Siegfried Date 2024-02-19 23:53

Falls du dir etwas Arbeit sparen möchtest:
Die Stockfish Test Suite 2021 enthält nur die Stellungen, welche damals von Stockfish nicht gelöst werden konnten und das ist schon Jahre her.
(Somit siehst du eigentlich direkt was du aus ACT 3 und der HARD-TALKCHESS-2020-SUITE analysieren brauchst).
Manche Stellungen aus HTC gab es schon im ERET.
ACT4 und ACT5 waren nicht vorhanden.

Willst du jede Stellung nur 1x eine Minute lang testen?
Manchmal verrechnet sich Stockfish schon am Anfang und findet dadurch den besten Zug nicht mehr, egal wie lange er rechnet und manchmal lasse ich eine Testsuite 10000 mal laufen mit jeweils 1 Sekunde pro Stellung und Stellung X wird genau 1 mal von 10000 Versuchen gelöst. Manche Stellungen öfters.

Mit anderen Worten:
Es gibt Stellungen die Stockfish immer löst.
Es gibt Stellungen die Stockfish nie löst.
Es gibt Stellungen die Stockfish nur mit ausreichend Bedenkzeit löst, aber nicht bei jedem Versuch.
Es gibt Stellungen die Stockfish in 1er Sekunde löst aber je nach Schwierigkeit sehr oft oder nur in 1 von 10000 Durchläufen.

Siehe auch Stockfish Testsuite 2022 Nachfolger von 2021.
Das Problem ist eher zu definieren wie oft und wie lang du analysieren möchtest, damit am Ende nicht nur einpaar Stellungen übrig bleiben, weil Stockfish Stellung XY mindestens einmal gelöst hat von X Durchläufen.

By Torsten Cuber Date 2024-02-20 00:12

Lieber Max, aktuell beträgt mein Zeitlimit bei meinem PC-ULTRA-2-TEST 5 Minuten pro Stellung.
Sollte ich das Glück und Geld haben, mir einen neuen PC zulegen zu können, der, sagen wir Mal, 4x, 5x oder 10x so schnell ist wie mein aktueller PC ( Intel I7-8700), dann möchte ich das Zeitlimit auf eine Minute pro Stellung reduzieren, zum einen, weil der Strom immer teurer wird, zum anderen, weil ich dann wesentlich schneller zu Resultaten komme.
Aber soweit bin ich noch nicht!
Finanziell bin ich nicht auf Rosen gebettet, und jede Anschaffung muss ich mir gut überlegen!

By Peter Martan Date 2024-01-08 21:46 Edited 2024-01-08 22:39

Danke für deine Resultate.

Torsten Cuber schrieb:

Da ich eine Kontrolle haben wollte, hab ich noch zusätzlich die Stockfish-Testsuite-2021 absolviert (240 Stellungen, 238 + 2 eigene).

Du hast dir von der die einzelnen Stellungen doch sicher auch mal ein bisschen durchgeschaut. Ich hab' das das letzte Mal hier gemacht:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=156473#pid156473

Die Postings von mir unter dem vom Link sagen eigentlich mehr als das oberste.

Walter Eigenmann war auch not amused:

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=158496#pid158496

Ich lass ja nach wie vor viele verschiedene Suiten laufen, genaue Beurteilung einzelner Stellungen geht am besten interaktiv, da sind wir uns nach wie vor einig.

Zitat:

Natürlich sind diese Resultate statistisch anfechtbar

Damit sie wenigstens das nicht sind (Anfechtbarkeit im Sinn von mehr oder weniger Vergleichbarkeit mit anderen Tests wohnen ja allen inne, denen aus Suiten erst recht), braucht man halt bei Stellungstests mittlerweile auch große Mengen von Stellungen, und damit man die in absehbarer Zeit mit mehreren Engines durchlaufen lassen kann, greife ich dann auch gern zu very short TC, es müssen halt die dazu passenden Stellungen für die zu testenden Engines sein, und die Auswertung mit MEA ermöglicht die Verwendung von anderen als single best move Stellungen und sie geben zusätzliche Diskrimination zwischen den Ergebnissen durch die verschieden hohe Punktebewertung verschiedener Lösungen einzelner Stellungen. Und es ist wie beim game playing, kürzere Hardware- TCs bedeuten mehr Diskrimination, da wie dort jeweils in bestimmten Grenzen über und unter denen's wieder unschärfer wird.
Dann hat Frank Sanders noch ein feines Tool gebaut, mit dem man die MEA- Ergebnisse in win-draw-loss- Auswertungen ähnlich denen von EloStatTS bekommt

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=167687#pid167687

Eine auf diese Art und mit 3333 Stellungen und 200mscec/pos. erstellte Liste mit Cool Iris 11.80 und einem ihrer "Vater- Branches", CorChess von I.Ivec. Der hat halt den internen MultiPV- mode nicht, den ihr Anton101 (aus SugaR von Marco Zerbinati, der hat den Code von Cool Iris selbst auch erst ein paar Mal korrigiert, bevor er dann wirklich funktioniert hat) eingebaut hat. Bei VSTC wie hier ist der natürlich mehr von Nachteil als von Vorteil, das muss man hingegen ja auch beim game playing mit STC bedenken. Hier hätte ich den internen MultiPV- mode abdrehen können, aber default sind halt 5 multipvs bis Tiefe 16 und 20cp eval range, die anderen Engines sind auch alle default gelaufen und ich will ja (bei diesem Test) sehen, wie sich die default- Einstellungen auswirken, außer Lc0 sind auch alle single thread im Rennen gewesen.
CI 11.70, um die's in deinem Thread ja eigentlich geht, hatte ich in einem früheren Run schon mal probiert, war ungefähr gleich in der Performance.

   # PLAYER               :  RATING  ERROR  PLAYED     W      D     L   (%)  CFS(%)
   1 SF240101             :    3500   ----   30177  3191  25090  1896  52.1      68
   2 SF231202             :    3499      4   30181  3150  25086  1945  52.0      62
   3 CorChess240103       :    3498      4   30181  3146  25038  1997  51.9      96
   4 Lc0a4877961-2860M    :    3495      4   30186  3031  24945  2210  51.4      77
   5 Lc0e429eeb-2790M     :    3494      4   30186  2989  24894  2303  51.1     100
   6 Dragon3.3            :    3483      4   30186  2737  24388  3061  49.5      89
   7 Berserk12            :    3481      4   30190  2628  24395  3167  49.1     100
   8 CoolIris11.80        :    3473      4   30186  3069  22779  4338  47.9      86
   9 Koivisto9.2          :    3471      4   30223  2441  23875  3907  47.6      69
  10 CSTal2.00v21         :    3470      4   30178  2334  23952  3892  47.4     ---

Zum Vergleich, so schaut's in der puren MEA- Auswertung aus, die der WDL- Umrechnung zugrunde liegt:

Man kann so eine Liste nicht mit deinen Ergebnissen vergleichen, muss man ja aber auch nicht.
Ich mach auch nach wie vor meine single best move Suiten, für die taktisch wirklich kniffligen Stellungen, die dich ja auch am meisten interessieren, kehre ich auch immer wieder und eigentlich mehr und mehr zu interaktiv Stellung für Stellung zurück, je schwieriger es ja ebenso wie beim Testen mit game playing wird, statistisch relevante Ergebnisse überhaupt noch zu bekommen, die auch noch etwas über die unterschiedlichen Performances ähnlich starker Engines aussagen.

Dir weiter viel Spaß beim Testen!

P.S. Um Anfragen zuvor zu kommen, meine Suiten (ich hab' ich ja auch für MEA eine ganze Menge verschiedener in Verwendung) veröffentliche ich nicht mehr, allein schon auch deshalb nicht, weil sie sich ständig ändern, und ich mir das immer wieder neu Hochladen nicht mehr antue.

By Torsten Cuber Date 2024-01-08 22:10 Edited 2024-01-08 22:17

Zitat:
"Hast du dir von der die einzelnen Stellungen mal ein bisschen durchgeschaut? Als ich das das letzte Mal gemacht hab':"
Lieber Peter, natürlich hab ich mir die Stellungen der Stockfish-Testsuite genau angeschaut, ich analysiere ja jede Stellung von Hand, und das wieder und wieder!
Natürlich weiß ich, das da viele Stellungen dabei sind, die mehr als einen guten Zug haben, bzw die angegebene Lösung ist nicht die beste, oder es gibt "Nebenlösungen", die mindestens gleichwertig sind.
Das gilt aber auch für den Hard-Talkchess-2020-Test.
Deswegen baue ich ja seit Jahren an meinem eigenen PC-ULTRA--TEST, bei dem ich mich bemühe, alles auszusieben, was nicht eindeutig ist, oder aber zu einfach ist.
Und im Stockfish-Test wie auch im Hard-Talkchess-2020-Test hab ich doch einige sehr gute und sehr schwere Stellungen gefunden.
Auch in deinem 256p.epd Test hab ich mittlerweile einige wirklich sehr gute Stellungen gefunden, wobei ich dir zustimmen möchte, daß deine (erste) Hälfte des Test schwieriger ist, während von den zweiten 128 Stellungen von Dan Corbitt doch viele dabei sind, die zum Beispiel nein Crystal 5 auf meinem Smartphone in Nullkommanichts löst.
Ein wunderbares Beispiel möchte ich erwähnen:
Stellung 235, Lösung 1.Lf8!!
Und hier interessiert mich nicht, ob der Zug 1.Lf8 angezeigt wird, weil das viele Engines machen werden, sondern hier würde ich die Zeit als Lösung betrachten, nach der die Engine den Gewinn erkannt hat, also eine entsprechend hohe Bewertung abgeben wird!
Hier kommen die Engines an ihre Grenzen, den die Lösung besteht aus einem relativ einfachen Läufermanöver (daß ich selbst nach einigen Versuchen gefunden hab!), aber für Engines eben sehr schwer, weil dieses Manöver solange wiederholt werden muss, bis Schwarz die Züge ausgehen.
Solche Sachen sind Kandidaten für meinen Test!
Vielleicht kannst Du diese Stellung Mal hier im Forum zeigen!
Mit der Frage: Welche Engine erkennt den Gewinn für Weiß?
Die meisten Engines werden nur 0.00 anzeigen!

By Peter Martan Date 2024-01-08 22:34 Edited 2024-01-08 22:42

Torsten Cuber schrieb:

Ich hab' noch bevor ich deine Antwort sah, meine etwas provokant klingende Frage in eine entsprechende Vermutung umformuliert.

Ich weiß ja, dass du nicht unreflektiert irgendwelche Suiten verwendest, aber zwischen HTC 2020 (den Vincent Lejeune ja von 200 auf zuletzt 108 reduziert hat im Lauf der Jahre danach) und der "Stockfish 2021" Testsuite sind schon gewaltige Unterschiede an Eindeutigkeit der Lösungen und gemeinsamer Hardware- TC- Schwierigkeit, finde ich halt. Nichtsdestrotrotz ist er halt auch nicht mehr wirklich zeitgemäß, da hast du recht.

Zitat:

Deswegen baue ich ja seit Jahren an meinem eigenen PC-ULTRA--TEST, bei dem ich mich bemühe, alles auszusieben, was nicht eindeutig ist, oder aber zu einfach ist.
Und im Stockfish-Test wie auch im Hard-Talkchess-2020-Test hab ich doch einige sehr gute und sehr schwere Stellungen gefunden.

Die sind aber dann in ein paar anderen Suiten auch schon mal drin gewesen, sag' ich mal. Und das ist ja der Krebsschaden bei einer Suite schlechthin: ein paar schwere und ein paar leichte Stellungen gemeinsam und dann soll das Ganze von mehreren Engines (die ja auch nicht alle gleichstark sein werden) in einer gemeinsamen Hardware- TC durchlaufen, das ist genau die Art von Ergebnissen, die man sowohl statistisch als auch von der Reproduzierbarkeit her kübeln kann, von Vergleichbarkeit mit anderen Tests gar nicht zu reden.

Lassen wir's wieder gut sein, so richtig Sinn macht das Diskutieren über Teststellungen sowieso immer nur anhand der einzelnen solchen, das gute an MEA (und jetzt erst recht mit dem WDL- Tool von Frank Sanders) ist die Möglichkeit, in kurzer Zeit viele für STC und VSTC taugliche Stellungen mit mehreren Instanzen gleichzeitig laufen lassen zu können und eben auch andere als single best move ones, die ähnlich starken Lösungszüge bekommen ihre verschieden hohen Punkte und man kann, immer vorausgesetzt die Lösbarkeit ist für die TC zusammenpassend, praktisch beliebige nehmen, wenn man sie überhaupt in ein paar wenigen Abspielen gut durchanalysieren kann und das auch tut. So hab' ich z.B. in der Suite von oben 1001 UHO- Stellungen drin, STS war schon vor Jahren für die damaligen Engines und die damalige Hardware für wenige Sekunden pro Stellung gedacht, das ist heutzutage einfach durchaus vergleichbar mit 200msec auf heutiger Hardware mit den Engines, die wir jetzt haben. Dann passen viele der guten alten single best move- Stellungen auch schon in diese jetzige Vergleichbarkeit/Zeit, komponierte Studien, die nicht ausgesprochene anti engine puzzles sind, sondern für den menschlichen Problemlöser gedacht sind, findet mal mittlerweile auch leichter solche, die leicht genug für VSTC für Engines sind, vor allem Endspielstudien. Auf die Art bekommt man eigentlich viel eher als früher ein ausgewogenes Verhältnis von Eröffnung, Mittelspiel und Endspiel zusammen. Das mit entsprechend großer Zahl von Stellungen (man muss ja die vielen dann immer noch und erst recht von allen mitspielenden Engines gemeinsam gelösten Stellungen doch ähnlich wie die Remis im game playing durchaus auch akzeptieren, EloStatTS vermindert sie durch die Zeit- Vergleiche pro Stellung und Engine- Paar, MEA mit den Punkten), das geht halt praktisch nur STC und VSTC. Schadet meiner Erfahrung nach genau so wenig wie die kurzen und sehr kurzen TCs beim game playing, wenn man weiß, wie die Grenzen zu setzen sind, und wie weit man was womit vergleichen kann und was nicht.

By Peter Martan Date 2024-01-09 13:39 Edited 2024-01-09 13:50 Upvotes 1

Torsten Cuber schrieb:

Ein wunderbares Beispiel möchte ich erwähnen:
Stellung 235, Lösung 1.Lf8!!

Ich nehme an, du meinst die hier:

Ist bei mir in der jetzigen 256p nicht mehr die Nr. 235, weil ich davor welche ausgetauscht habe, in der nächsten Folge- Suite von 222 ist sie nicht mehr drin, weil eigentlich ist das ein Beispiel einer Stellung, die in einer automatisch ablaufenden single best move- Suite nichts verloren hat.
Die Stellung ist nach 57 Zügen dieser Orginal- Studie abgeschnitten:

[Event "British Chess Magazine"] [Site "?"] [Date "1979.??.??"] [Round "?"] [White "Melnichenko=E"] [Black "(+3084.68c2a7)"] [Result "1-0"] [Annotator "Peter"] [SetUp "1"] [FEN "2b3n1/kpBp1p2/p1pPpPp1/1P4P1/8/6P1/PpK1N2b/qB6 w - - 0 1"] [PlyCount "221"] [EventDate "1979.??.??"]  {British Chess Magazine/6.} 1. b6+ (1. Ba5 $2 cxb5 2. Bc3 b6 3. Bxb2 Qxb1+ 4. Kxb1 Bb7) 1... Ka8 2. Bd8 (2. Nf4 $2 Bxg3 3. Nxg6 e5 4. Ne7 e4 5. Nf5 Bf2 6. g6 Nxf6 7. gxf7 Nh7 8. Bd8 c5 9. Bg5 Nf8 10. Bh6 Ne6) 2... Kb8 3. Be7 Ka8 4. Bf8 Kb8 5. Bg7 Ka8 6. Bh6 Kb8 7. Bf8 Ka8 8. Be7 Kb8 9. Bd8 Ka8 10. Bc7 a5 11. Bd8 Kb8 12. Be7 Ka8 13. Bf8 Kb8 14. Bg7 Ka8 15. Bh6 Kb8 16. Bf8 Ka8 17. Be7 Kb8 18. Bd8 Ka8 19. Bc7 a4 20. Bd8 Kb8 21. Be7 Ka8 22. Bf8 Kb8 23. Bh6 Ka8 24. Bg7 Kb8 25. Bf8 Ka8 26. Be7 Kb8 27. Bd8 Ka8 28. Bc7 a3 29. Bd8 Kb8 30. Be7 Ka8 31. Bf8 Kb8 32. Bh6 Ka8 33. Bg7 Kb8 34. Bf8 Ka8 35. Be7 Kb8 36. Bd8 Ka8 37. Bc7 c5 38. Bd8 Kb8 39. Be7 Ka8 40. Bf8 Kb8 41. Bg7 Ka8 42. Bh6 Kb8 43. Bf8 Ka8 44. Be7 Kb8 45. Bd8 Ka8 46. Bc7 c4 47. Bd8 Kb8 48. Be7 Ka8 49. Bf8 Kb8 50. Bh6 Ka8 51. Bg7 Kb8 52. Bf8 Ka8 53. Be7 Kb8 54. Bd8 Ka8 55. Bc7 c3 56. Bd8 Kb8 57. Be7 Ka8 58. Bf8 (58. Bd8 Kb8 59. Be7 Ka8 {ZU 57.Ka8 HV}) 58... Kb8 59. Bg7 Ka8 60. Bh6 Kb8 61. Bf8 Ka8 62. Be7 Kb8 63. Bd8 Ka8 64. Bc7 e5 65. Bd8 Kb8 66. Be7 Ka8 67. Bf8 Kb8 68. Bh6 Ka8 69. Bg7 Kb8 70. Bf8 Ka8 71. Be7 Kb8 72. Bd8 Ka8 73. Bc7 e4 74. Bd8 Kb8 75. Be7 Ka8 76. Bf8 Kb8 77. Bh6 Ka8 78. Bg7 Kb8 79. Bf8 Ka8 80. Be7 Kb8 81. Bd8 Ka8 82. Bc7 e3 (82... Nxf6 83. gxf6 g5 84. Bd8 Kb8 85. Be7 Ka8 86. Bf8 Kb8 87. Bh6 g4 88. Bf8 Ka8 89. Be7 Kb8 90. Bd8 Ka8 91. Bc7 e3 92. Bd8 Kb8 93. Be7 Ka8 94. Bf8 Kb8 95. Bh6 Bxg3 96. Nxg3 Qxb1+ 97. Kxb1 c2+ 98. Kxc2 b1=Q+ 99. Kxb1 e2 100. Nxe2 Ka8 101. Be3 Kb8 102. Nc3 g3 103. Ne4 g2 104. Ng5 g1=R+ 105. Bxg1 Ka8 106. Nxf7 Kb8 107. Ne5 Ka8 108. f7 Kb8 109. f8=Q Ka8 110. Qxc8#) 83. Bd8 Kb8 84. Be7 Ka8 85. Bf8 Kb8 86. Bh6 Ka8 87. Bg7 Kb8 88. Bf8 Ka8 89. Be7 Kb8 90. Bd8 Ka8 91. Bc7 Nxf6 92. gxf6 g5 93. Bd8 Kb8 94. Be7 Ka8 95. Bf8 Kb8 96. Bh6 Ka8 97. Bxg5 Kb8 98. Bxe3 Ka8 99. Bg1 Bxg1 100. Nxg1 Kb8 101. Nf3 Ka8 102. Ne5 Qxb1+ 103. Kxb1 Kb8 104. Nxf7 Ka8 105. Ne5 Kb8 106. f7 Ka8 107. f8=Q c2+ 108. Kxc2 b1=Q+ 109. Kxb1 Kb8 110. Nxd7+ Ka8 111. Qxc8# 1-0

Event:

Ort:

Datum:

Weiss:

Schwarz:

Ergebnis

Board

Ich hab' in der .pgn nach dem 91. Zug, in der das endet, was in der HHdb drin ist, noch die restlichen Züge bis zum Matt eingefügt und an der Stelle, die in der Suite drin ist, den Alternativzug 58.Ld8 (?!) statt Lf8 eingefügt, um zu zeigen, dass das das Matt gerade mal um 2 Züge aufschiebt, also nach objektiven Kriterien nicht einmal ein Fragezeichen rechtfertigt, ob das in 111 oder in 113 Zügen Matt wird, das hat für die Studie einen Wert, an Kriterien, die man an Matt- Distanzen im game playing anlegt, nicht.
Das nur so am Rande, weil eigentlich ist das im klassischen Sinn somit auch keine klassische single best move- Stellung, der Unterschied zum zweitbesten Zug ist nicht groß genug, geschweige denn, dass es ein game changer wäre.
Du kannst von keiner Engine verlangen (oder zumindest nicht erwarten), dass sie den cyclic Zugzwang an der Stelle schon zum Matt durchrechnet, somit auch nicht, dass sie das hier an Eval richtig ausgibt, nicht ohne Forward- Backward.

Wenn eine Engine das hier zwischen Lf8 und Ld8 entscheiden muss, ist es in der weit überwiegenden Zahl der Fälle reiner Zufall, ob sie den einen oder den anderen Zug nimmt, nur wirst du bei manchen Runs die Lösung "gefunden" und bei manchen nicht gefunden haben.
Und das sind eben die Stellungen, die das Ergebnis einer Suite mehr infrage stellen, als Stellungen, die von zuvielen Engines in der vorgegebenen Zeit gelöst werden. Bei denen kannst du noch die genauen Lösungszeiten zur Entscheidung heranziehen, die von allen oder den meisten nicht gelösten bleiben im Dunkeln, man weiß einfach nicht, warum es sich nicht ausgegangen ist, ob's um ein paar Millisekunden zu kurz war, was die Engine rechnen konnte, oder ob's nach Stunden auch nicht anders gewesen wäre. Noch schlimmer sind nur die, die oft zufällig gelöst werden, dazu gehört die hier auch, weil einer der beiden (objektiv ohnehin auch fast gleich guten, wenn nicht aus der Sicht eines kunstverständigen Menschen, z.B. der des Studienautors betrachtet, ist es einfach schnurzpiep, ob das Matt in 54 oder in 56 Zügen kommt) für die Engine in Frage kommenden Züge wird gewählt werden, die Chance, dass das falsch positiv gezählt wird, ist ungefähr gleich groß, wie die, dass es negativ gezählt wird.
Und daran ändert auch die Hardware- TC nichts, das ist nach 10 Minuten auf 32 Kernen immer noch so wie nach 10 Sekunden auf einem: purer Zufall.

By Torsten Cuber Date 2024-01-09 14:10

Zitat von Peter
"Du kannst von keiner Engine verlangen (oder zumindest nicht erwarten), dass sie den cyclic Zugzwang an der Stelle schon zum Matt durchrechnet, somit auch nicht, dass sie das hier an Eval richtig ausgibt, nicht ohne Forward- Backward."
Peter, genau solche Stellungen sind es aber, an denen man in zehn oder zwanzig Jahren den Fortschritt der Engines oder der PC ablesen kann.
Heute noch unmöglich, daß sie den Gewinn erkennen (und das ist gesucht: Die Zeit, nach der der Gewinn erkannt wird, nicht der Zug nach d8 oder f8, das macht ja in der Tat keinen großen Unterschied!), aber in einigen Jahren geht es vielleicht doch.
Und deshalb nehme ich die Stellung in meinen Test auf.
Erinnere dich mal an die berühmte Behting Studie, mit 1.Kc6!! als Lösung.
Sie galt viele Jahre, Jahrzehnte als unlösbar...
Und heute schafft SugaR AI ICCF das auf meinem Smartphone in 1 Sekunde!
Gerade diese unlösbaren Stellungen sind es, die mich reizen, weil man sie auch noch in ein paar Jahren heranziehen kann.
Das wirst Du wahrscheinlich anders sehen, aber ich freue mich einfach darauf, dass irgendwann der Tag kommt, wo Engines den Gewinn erkennen, was heute noch unmöglich erscheint.
So war es damals bei der Behting Studie auch:
Ich bin fast in Ohnmacht gefallen, als SugaR AI ICCF nach einer (!) Sekunde die Bewertung 0.00 anzeigte.
Liebe Grüße vom Torsten

By Peter Martan Date 2024-01-09 14:23 Edited 2024-01-09 14:49

Torsten Cuber schrieb:

Peter, genau solche Stellungen sind es aber, an denen man in zehn oder zwanzig Jahren den Fortschritt der Engines oder der PC ablesen kann.
Heute noch unmöglich, daß sie den Gewinn erkennen (und das ist gesucht: Die Zeit, nach der der Gewinn erkannt wird, nicht der Zug nach d8 oder f8, das macht ja in der Tat keinen großen Unterschied!), aber in einigen Jahren geht es vielleicht doch.
Und deshalb nehme ich die Stellung in meinen Test auf.

Mach nur, Thorsten, ist ja dein Test, ich nehm sie dann (wieder, in den 256 ist sie ja eh auch noch drin, aber die verwende ich halt schon wieder kaum mehr praktisch relativ zu anderen Suiten, in der großen Problemdatenbank ist er natürlich auch noch drin, da kommt alles rein, was mir schachlich irgendwie interessant erscheint, was alles dann noch zusätzlich in der HHdb drin ist, kommt noch dazu) wieder in die mit praktikabler Hardware- TC machbaren Suiten rein, wenn ihn wenigstens ein paar Engines of interest in einer TC of interest lösen

Zitat:

Erinnere dich mal an die berühmte Behting Studie, mit 1.Kc6!! als Lösung.
Sie galt viele Jahre, Jahrzehnte als unlösbar...
Und heute schafft SugaR AI ICCF das auf meinem Smartphone in 1 Sekunde!

Und somit ist sie mittlerweile für solche Engines und solche Hardware- TCs verwendbar, was hast du davon, wenn du den 58. Zug der Melnichenko- Studie jetzt schon in einem Testset drin hast, dass du dadurch auch bei einer TC von 30 Minuten pro Zug nur um eine zufällig und aus falschen Gründen von der Hälfte an Engines mit Punkten belohnten Stellung größer machst? Sie interaktiv mit Engines zu beurteilen, macht höchstens mit Forward- Backward Sinn, um zu sehen, wieviele Züge du noch weiter in die Lösungsvariante reingehen musst, bis die Eval (begründet) steigt.
Drum mag' ich auch das in der letzten Zeit (Problem of the Week, pure.epd) modern gewordene Prinzip, von an sich für die Engines noch unlösbaren Studien beliebig viele Anfangszüge wegzustreichen, (und das gleich noch an ein paar Stellen derselben Studie, um mehr Stellungen "verschiedener Schwierigkeit" zu bekommen) nur bedingt. Es macht mehr her an einzelnen Teststellungen, aber der Charakter der Aufgaben bleibt ja doch ein- und derselbe, der Test wird nicht vielseitiger, nicht selektiver und nicht sensitiver, nur größer.

Zitat:

Gerade diese unlösbaren Stellungen sind es, die mich reizen, weil man sie auch noch in ein paar Jahren heranziehen kann.

Natürlich, immer wieder mal mit Huntsman und oder einem anderen auf die Mattsuche spezialisierten Programm probieren oder mit einem mit wenig Nullzug oder mit einem, bei dem man den abdrehen kann, oder mit Stellungen noch weiter hinten in der Lösung. Von diesen endlos langen cyclic zugwang- studies gibt's ja nicht gerade wenige, ob es wirklich die sein werden in ihrerer Lösbarkeit, die das Engine- Schach insgesamt vor dem Remistod retten werden, wage ich zu bezweifeln, mein Tipp auf eine Engine, die solche Stellungen mit fortschreitender Hardware in der näheren Zukunft wird lösen können, wäre Sting, wenn der noch lang genug weiter entwickelt wird.
Aber wer sagt, dass wir in ein paar Jahren überhaupt noch werden Eng-Eng-Matches spielen lassen, so wie wir das jetzt noch tun, vielleicht werden wir dann froh sein, die Engines wenigstens noch an solchen komponierten anti engine puzzles testen zu können

By Peter Martan Date 2024-01-09 17:48 Edited 2024-01-09 18:23

Zitat:

Natürlich, immer wieder mal mit Huntsman und oder einem anderen auf die Mattsuche spezialisierten Programm probieren

30 Threads der 16x3.5GHz CPU
Engine: The Huntsman 1 (32768 MB)
von the Stockfish developers (see AUTHORS

k1b3n1/1p1pBp2/1P1PpPp1/6P1/8/p1p3P1/PpK1N2b/qB6 w - -

           +---+---+---+---+---+---+---+---+
         8 |*K*|:::|*L*|:::|   |:::|*S*|:::
           +---+---+---+---+---+---+---+---+
         7 |:::|*B*|:::|*B*| L |*B*|:::|   
           +---+---+---+---+---+---+---+---+
         6 |   | B |   | B |*B*| B |*B*|:::
           +---+---+---+---+---+---+---+---+
         5 |:::|   |:::|   |:::|   | B |   
           +---+---+---+---+---+---+---+---+
         4 |   |:::|   |:::|   |:::|   |:::
           +---+---+---+---+---+---+---+---+
         3 |*B*|   |*B*|   |:::|   | B |   
           +---+---+---+---+---+---+---+---+
         2 | B |*B*| K |:::| S |:::|   |*L*
           +---+---+---+---+---+---+---+---+
         1 |*D*| L |:::|   |:::|   |:::|   
           +---+---+---+---+---+---+---+---+
             a   b   c   d   e   f   g   h

The Huntsman 1
Found 510 tablebases
classical evaluation enabled
1/01   0:00   +0.15   58.Kb3 (865) 865
2/02   0:00   +0.16   58.Kb3 Dxa2+ 59.Lxa2 b1D+ 60.Lxb1 Sxe7 (1.828) 1828
3/03   0:00   +0.15   58.Kb3 Dxb1 59.Sxc3 (3.565) 1782
4/04   0:00   +0.15   58.Kb3 Dxb1 59.Sxc3 Dxa2+ 60.Kxa2 b1D+ 61.Sxb1 Sxe7 (7.412) 3706
5/05   0:00   +0.15   58.Kb3 Dxb1 59.Sxc3 Dxa2+ 60.Kxa2 b1D+ 61.Sxb1 Sxe7 (13.639) 6819
6/07   0:00   +0.07   58.Ld8 Dxb1+ 59.Kxb1 c2+ 60.Kxc2 b1D+ 61.Kxb1 (36.799) 18399
...
82/05   6:33 0.00   58.Ld8 Kb8 59.Le7 Ka8 (15.049.817.770) 38278
83/53 12:54   +0.07++ 58.Ld8 (29.483.973.496) 38067
83/53 22:34   +0.15++ 58.Ld8 (50.804.112.650) 37519
83/53 31:55   +0.25++ 58.Ld8 (71.536.380.120) 37336
83/53 33:41   +0.39++ 58.Ld8 (75.815.668.298) 37499
83/53 38:39   +0.58++ 58.Ld8 (87.378.530.348) 37668
83/53 42:21   +0.81++ 58.Ld8 (95.837.188.490) 37703
83/60 46:32   +1.12++ 58.Ld8 (105.785.516.259) 37887
83/64 55:06   +1.50++ 58.Ld8 (125.684.480.514) 38008
83/71 64:57   +1.99++ 58.Ld8 (148.465.944.326) 38088
83/71 78:32   +2.61++ 58.Ld8 (179.836.103.722) 38159
83/71 93:10   +3.39++ 58.Ld8 (214.371.362.984) 38343
83/77 108:35   +4.38++ 58.Ld8 (253.130.595.064) 38852
83/77 124:28   +5.62++ 58.Ld8 (293.390.751.216) 39284
83/77 141:37   +7.18++ 58.Ld8 (337.890.198.003) 39765
83/77 156:37   +9.13++ 58.Ld8 (376.871.957.468) 40103
83/77 171:15 +11.59++ 58.Ld8 (415.989.963.810) 40483
83/77 186:42 +14.66++ 58.Ld8 (456.913.884.737) 40787
83/77 195:12 +18.50++ 58.Ld8 (479.176.706.067) 40911
83/77 199:25 +23.32++ 58.Ld8 (490.155.202.475) 40964
83/77 200:59 +29.35++ 58.Ld8 (494.234.652.156) 40984
83/77 201:13 +36.89++ 58.Ld8 (494.854.735.730) 40987
83/77 201:16 +46.39++ 58.Ld8 (495.011.363.985) 40989

Falsche Lösung, aber aus den richtigen Gründen

Mittlerweile wird aber zwar keine neue Iteration im kopierbaren Output angezeigt, hingegen in der Statuszeile der Berechnung ist die Tiefe auf 61 zurück gegangen, und am Zug 58.Lf8 hängt sich das Fail High weiter auf, vielleicht kommt ja dann doch noch bald mal wenigstens der richtige Zug nach oben, lasse jetzt (vermutlich über das Ende der Editierzeit hinaus) natürlich weiter laufen.
Lustig wär's schon auch, wenn Huntsman zuerst das Matt mit dem 2 Züge längeren Ld8 berechnete statt dem nach Lf8.

By Peter Martan Date 2024-01-09 18:51

Fast wär's sich noch in der Editierzeit ausgegangen:

k1b3n1/1p1pBp2/1P1PpPp1/6P1/8/p1p3P1/PpK1N2b/qB6 w - -
...
83/77 201:16 +46.39++ 58.Ld8 (495.011.363.985) 40989

83/87 218:13 +49.10   58.Lf8 Kb8 59.Lh6 Ka8 60.Lg7 Kb8
   61.Lf8 Ka8 62.Le7 Kb8 63.Ld8 Ka8
   64.Lc7 e5 65.Ld8 Kb8 66.Le7 Ka8
   67.Lf8 Kb8 68.Lh6 Ka8 69.Lg7 Kb8
   70.Lf8 Ka8 71.Le7 (542.620.854.323) 41441

Lassen wir das jetzt schon gelten? 2 der "3-Ecksmanöver" des Läufers sind immerhin im Output, ich glaube, das gilt.
Jetzt geben wir der Sache noch ein bisschen länger, vielleicht sogar noch eine DTM zu bekommen.

By Peter Martan Date 2024-01-09 08:37 Edited 2024-01-09 08:47

Zitat:

Hier hätte ich den internen MultiPV- mode abdrehen können, aber default sind halt 5 multipvs bis Tiefe 16 und 20cp eval range, die anderen Engines sind auch alle default gelaufen und ich will ja (bei diesem Test) sehen, wie sich die default- Einstellungen auswirken

Nachdem's ja aber doch nicht völlig ausgeschlossen ist, dass es doch sonst noch jemanden interessieren könnte, nicht nur mich, wie sich multipv- Einstellungen auf diesen einen Test in diesem Feld mit dieser Hardware- TC auswirkte, hab' ich CI noch 2x laufen lassen, einmal mit MultiPV=1, also abgedrehtem Modus (1 ist das Minimum) und einmal mit MultiPV=2, das default Setting, das schon gelaufen war, ist wieder ohne Zusatzbezeichnung:

   # PLAYER                :  RATING  ERROR  PLAYED     W      D     L   (%)  CFS(%)
   1 CoolIris11.80mupv1    :    3503      3   39020  4396  32189  2435  52.5      97
   2 SF240101              :    3500   ----   36878  3702  30872  2304  51.9      72
   3 SF231202              :    3499      3   36882  3675  30819  2388  51.7      61
   4 CorChess240103        :    3499      3   36882  3652  30807  2423  51.7      97
   5 Lc0a4877961-2860M     :    3495      3   36893  3678  30362  2853  51.1      78
   6 Lc0e429eeb-2790M      :    3494      3   36893  3628  30303  2962  50.9     100
   7 CoolIris11.80mupv2    :    3487      3   39110  4191  30750  4169  50.0      99
   8 Dragon3.3             :    3483      4   36893  3286  29779  3828  49.3      89
   9 Berserk12             :    3481      3   36899  3177  29740  3982  48.9     100
  10 CoolIris11.80         :    3472      4   41256  4119  30917  6220  47.5      68
  11 Koivisto9.2           :    3471      3   36941  2996  29038  4907  47.4      73
  12 CSTal2.00v21          :    3470      3   36883  2842  29170  4871  47.2     ---

Dazu sagen muss ich noch, dass es mir mit MEA vorläufig nicht gelingt, das Neuanlegen eines .exp- Files zu verhindern, nicht mit --eoption "Experience Enabled=false" und nicht mit sonst gleichlautend aber statt =false, value false, auf beides reagiert die Konsole ohne Fehlermeldung, MEA gibt auch keine solche ab, kümmert sich aber nicht drum, da muss ich für MEA erst noch eine funktionierende Syntax finden. So lange man nach jedem Run die Iris.exp wieder löscht, dürfte es nichts ausmachen.

By Lothar Jung Date 2024-01-09 08:56

Die Abstände sind fast so gering wie die Errorbar.
Bei Turnieren sind die Abstände der Engines deutlich größer.
Besonders im Verhältnis zu Stockfish.
Es ist doch ein Unterschied, ob eine Engine spielt oder löst.

By Peter Martan Date 2024-01-09 09:08 Edited 2024-01-09 09:46

Das ist nur insofern richtig, als das Tool von Frank Sanders WDL aus den MEA- Resultaten berechnet, sich aber nicht um die numerischen Abstände zwischen den Punkten pro Lösung kümmert, sondern nur darum, welche Engine bei welcher Stellung head to head mehr Punkte hat, gleichviel ist draw, mehr ist win, weniger loss. Das nivelliert das, was MEA selbst ausgibt, was die Elo angeht, schau dir den Screenshot meines ersten Postings an, was du da für Differenzen hast. (Beim Aufrufen vom Screenshot musst du ihn noch mit dem + auf der Postimages- site vergrößern, dass er ordentlich lesbar wird.
Und was für Abstände sind bei was für Turnieren bitte größer, vor allem im Verhältnis zur error bar?
Zwischen welchen Engines? Nicht einmal im Framework bei VSTC game playing von einer SF- Version zur nächsten, um solche Abstände geht's ja hier, oder um den zwischen 2 Lc0- Netzen. Was für Elo- Unterschiede erhoffst du dir da im game playing, die halbwegs in der Größenordnung der Irrtumswahrscheinlichkeit sind?
Wenn dir die fantastisch gespreizten der puren MEA- Auswertung besser gefallen, nimm halt die, sei dir aber im Klaren, dass die Performance- Unterschiede deshalb ja nicht wirklich größer sind, weil du sie in "Elo" aufblähst, die error bar wird da einfach nicht eigens für diese Elo ausgerechnet, aus meiner Erfahrung kann ich dir aber sagen, die Score- Prozent sollten um wenigsten 1 bis 1.5% differieren, du müsstest also mit entsprechend ebenfalls größerem error für die puren MEA- Elo rechnen. Mit dem Tool von Frank werden sie einfach dem game playing ähnlicher umgerechnet.
Mit EloStat hast du zusätzlich noch die Unterschiede an Lösungszeiten pro Stellung Eng-Eng zur WDL- Berechnung, das fehlt bei MEA halt.

Befreien sollte man sich sowieso beim game playing und bei anderen Tests von der Elosion, es würden auch nur die Abstände auf andere Matches oder Tests übertragbar sein, dass es die Absolutwerte wären, hat man einander und sich selbst nur ganz am Anfang der Celo versucht einzureden. Mittlerweile weiß man, dass die Abstände auch völlig von den Matchbedingungen abhängen, man muss froh sein, wenn das Ranking halbwegs statistisch abgesichert ist.

By Lothar Jung Date 2024-01-09 11:09 Edited 2024-01-09 11:12

Vielleicht verstehe ich das ganze nicht so richtig.

Eine Testaufgabe sollte schwierig sein, also von den meisten Engines nicht oder nur in unangemessener Zeit gelöst werden.
Die Suite sollte rd. 200 Stellungen betragen.
TBs sind erlaubt, Lerndateien nicht.
Die Lösungszeitvorgabe sollte 15 sec. mit einer 8 Kerne CPU sein.

Die Bedingungen sollten lauten:

- setzt Matt,
- findet den Gewinnzug/Zug zu einer gewonnen Stellung,
- hält Remis,
- der Zug muß mit einer entsprechenden Bewertung unterlegt sein.

Dadurch kommt es zu einem eindeutigen Ergebnis, z.B. 140/200 und einer eindeutigen Reihung.

By Peter Martan Date 2024-01-09 11:21 Edited 2024-01-09 11:40

Lothar Jung schrieb:

Dadurch kommt es zu einem eindeutigen Ergebnis, z.B. 140/200 und einer eindeutigen Reihung.

Ja, aber die error bar, wie hoch ist die bei den übrigen deiner Bedinungen? Die kannst du natürlich für einen bestimmten Test deines Interesses genau so oder ganz anders definieren, nur kannst du dann weder das Ergebnis mit dem eines anderen Tests vergleichen, noch hat er irgendeine statistische Relevanz als Test in sich, es sei denn die eine Engine hat 140/200 und die andere nur 70/200, das wäre immerhin ein 50%- Performance- Unterschied und du könntest daraus ableiten, dass die eine Engine in diesem einen Test relevant besser abgeschnitten hat, aber ab welchem Unterschied an einzelnen gelösten Stellungen bei einer bestimmten Hardware- TC würdest du dann anfangen zu sagen, ok, ist eigentlich eh ziemlich gleichstark? Du könntest die Lösungen der einzelnen Stellungen für jede der beiden Engines in win-draw-loss- Prozente umrechnen, von beiden gelöste und von beiden nicht gelöste wären Remis, die nur von der einen gelöste wären deren wins und die nur von der anderen wären die losses derselben ersten, dann würdest du sehen, wie groß mit Elostat die error bar wäre, nicht nur die in Elo, sondern auch die in Prozent der Performance, du könntest, wie es EloStatTs auch noch macht, die Lösungszeiten zur weiteren Diskrimination von Stellungen, die von beiden gelöst werden aber von einer schneller als von der anderen, zusätzlich auswerten lassen, oder du könntest den Stellungen mit mehreren ähnlich starken Lösungszügen verschieden viele Punkte zurechen, wie's MEA macht, auf alle diese Arten könntest du 140/200 der einen und die 70/200 statistisch weiter abwiegen.
Es ist dasselbe wie mit Matches, Lothar, wenn du eine Engine gegen eine andere spielen lässt, reicht im einen Fall ein 100- Partien- Match für eine gesicherte LOS, weil die eine Engine viel stärker ist als die andere, im anderen Fall reichen 1000 Partien auch noch nicht.

Wenn du zwei Engines, die nahe beisammen sind im game playing mit 200 Stellungen statistisch signifikant unterscheiden willst, kannst du natürlich Stellungen nehmen, die der einen Engine viel besser liegen als der anderen, aber was sagt dir das jetzt dann über das Verhältnis, das die beiden im game playing haben?

Es kommt immer drauf an, was dich interessiert, in diesem Sinn kannst du (für dich) lustige Turnieren mit Engines deines Interesses machen, dich um small sample size kümmern oder auch nicht, und ebenso kannst du Stellungstests mit (für dich) lustigen Stellungen deines persönlichen Interesses machen, da würde ich aber dazu raten, jede einzelne Stellung für sich allein von Engine zu Engine zu vergleichen, da kommst du auch blitzschnell aus jedweder Irrtumswahrscheinlichkeit heraus, allein schon die time to solution single thread auf msec genau gemessen und fertig ist der Spielstärkevergleich.
Wozu dann überhaupt 200 Stellungen? Nämlich wenn du eh keine Statistik mit Mindestanforderungen an statistische Signifkanz daraus machen willst?

By Lothar Jung Date 2024-01-09 12:09

Bei Engine/Engine ist die Errorbar wichtig.
Ist das bei einer Suite nicht anderes.
Es fehlt jedenfalls Remis bei einer Suite, entweder gelöst oder nicht gelöst.

By Peter Martan Date 2024-01-09 12:21 Edited 2024-01-09 12:46

Wie oft und wie wortreich soll ich das noch erklären?
Remis heißt entweder von beiden gelöst oder von beiden nicht gelöst, es sei denn, du unterscheidest bei denen, die von beiden gelöst werden, noch entweder Zeit oder Punkte (bei multiplen Lösungen) dann kannst du die von beiden gelösten noch weiter in ganze Punkte auflösen, bei denen die eine Engine schneller ist oder eine Lösung findet, die mehr zählt. Von beiden nicht gelöste Stellungen sind Remis und bleiben Remis.

Win ist aus der Sicht der Engine A eine Lösung, die Engine B nicht findet (oder langsamer oder nicht die, die am meisten zählt) Loss ist aus der Sicht derselben Engine A das Gegenstück an Stellungen, solche die B besser und oder schneller löst.

Natürlich macht das alles nur Sinn, wenn du jeweils jede einzelne Stellung zwischen je 2 Engines adjuzierst (als lauter Mini- Matches, genau so macht das z.B. EloStatTS, sehr ähnlich jetzt das Tool von Frank Sanders), egal wieviele Stellungen und wieviele Engines es sind.

Und nur so macht es Sinn, mehr als eine einzelne Stellung zum Spielstärke- Vergleich heranzuziehen, weil nur so zählt wenigstens jede einzelne Stellung auch für sich allein im direkten Vergleich zwischen je 2 Engines und nicht nur in Summe.

Und dann müssen es natürlich nicht einfach nur Stellungen sein, die dir persönlich als einem menschlichen Spieler "schwer" genug vorkommen, es müssen (damit eine Suite als solche, als Sammlung von Stellungen, die mit einer gemeinsamen Hardware- TC beurteilt werden sollen) solche sein, die einen gemeinsamen Schwierigkeitsgrad haben relativ zum Pool an Engines einer gewissen Spielstärke- Range und relativ zu der Hardware- TC, mit der du die Suite laufen lassen willst.
Und danach und nur danach richtet sich die Aussagekraft der Lösungszahlen, auch wenn du sie nur als einzelne Zahlenwerte zwischen den Engines wissen willst, was es für Stellungen welcher Schwierigkeit sind (wenigstens das sollte zusammenpassen, von Mustern und Themen und anderen Unterscheidungen, seien's wenigstens Eröffnung, Mittel- und Endspiel ganz zu schweigen) von den Engines, die du damit vergleichen willst, und je nachdem, wie groß die Unterschiede zwischen den Engines in Hinblick auf die Lösungszahlen/Zeit für die einzelne Suite und den einzelnen Engine- Pool dann sind, je nach dem muss sich die Zahl der Stellungen richten, die du brauchst, um der Aussage 140/200 irgendeinen näheren Stellenwert zu geben.
Es ist einfach dasselbe wie mit den Eng-Eng-Matches, manche kann man sich sparen, weil man das Ergebnis eh schon zur Genüge kennt, andere kann man sich sparen, weil sie nichts sagen (was hast du davon, SF dev. gegen die nächste dev.- Version 100 Partien von der Grundstellung aus buchlos mit langer TC spielen zu lassen? Das Ergebnis kennst du auch schon vorher, nämlich, dass sie lauter Remis spielen werden, aber ob zufällig doch die eine eine einzelne Partie gewinnt, das weißt du nicht, das gibt aber dann schon den Ausschlag, wer das Gesamtmatch gewonnen hat, du hast auch für das einzelne Match ein ganz und gar klares Ergebnis).
Bei den Stellungen kannst du auch lauter solche nehmen, die von keinem der Teilnehmer in der Zeit, die du vorgibst, gelöst werden, dann hast du auch lauter Remis und du kannst lauter solche nehmen, von denen alle von allen gelöst werden, ebenso wenig aussagekräftig, es sei denn, du unterscheidest nach weiteren Kriterien wie genauen Lösezeiten.
Um die Frage, ob dein Test (wenigstens dir selbst) irgendetwas sagt, und wie du ihn (wenigstens für dich selbst) aussagekräftiger machen kannst, kommst du nicht herum, es sei denn, es ist dir egal, und du willst nur irgendwelche Zahlenwerte produzieren.
In dem Fall spielt's dann auch keine Rolle, was für Stellungen du nimmst, weder beim Eng-Eng-Match musst du dir dann Gedanken um die Eröffnungen machen, noch beim Stellungstest um dessen Teststellungen

By Peter Martan Date 2024-01-09 22:46 Edited 2024-01-09 23:12

Zu diesen deinen Vorstellungen ein Beispiel aus dieser Art von Praxis (die ich ja durchaus auch nach wie vor hege und pflege):


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 HypnoSIccf-NN240623-Set1                 : 3570    4   5330    60.7 %   3495   170/215    3.5s    9.1s   0.70
  2 CrystalMZ040823-Set1                     : 3568    4   5322    60.4 %   3495   173/215    3.9s    9.0s   0.68
  3 ShashChessGZ-MuPV4                       : 3565    4   5376    59.9 %   3495   171/215    4.0s    9.3s   0.64
  4 HypnoSIccf-NN240623-Set2                 : 3564    4   5292    59.8 %   3495   170/215    3.8s    9.3s   0.67
  5 ShashChessGZ-HighTal+Cap.                : 3557    5   5244    58.7 %   3496   164/215    4.4s   10.4s   0.64
  
 10 Crystal7CMB                               : 3533    5   5061    55.2 %   3497   154/215    4.5s   11.7s   0.54
 11 CoolIris11.80-Set1                        : 3533    5   5103    55.1 %   3498   155/215    5.2s   12.1s   0.54
 12 Crystal7CMB-MuPV4                         : 3533    5   5073    55.1 %   3497   152/215    5.0s   12.3s   0.58

 18 Stockfishdev-20240101-MuPV4               : 3472    5   4785    45.7 %   3502   126/220    8.2s   17.5s   0.37
 19 Stockfishdev-20231202-MuPV4               : 3470    5   4704    45.3 %   3502   116/215    6.4s   17.3s   0.39

 21 Lc0v0.31.0-e429eeb-2790MMuPV4             : 3457    6   4744    43.2 %   3505   105/215    6.7s   18.6s   0.33
 22 Lc0v0.31.0-dag+git.e429eeb-2790M          : 3449    6   4676    41.9 %   3506   101/217    6.7s   19.1s   0.34
 23 Lc0v0.31.0-dag+git.a4877961-2860M         : 3445    6   4638    41.4 %   3506    98/215    6.5s   19.3s   0.33
 24 Lc0v0.31.0-dag+git.a4877961-2717500       : 3444    6   4696    41.3 %   3505   100/217    5.9s   18.9s   0.29
 
 26 Berserk12                                 : 3435    6   4574    40.1 %   3505    96/215    6.7s   19.6s   0.27
 27 Stockfishdev-20231202                     : 3434    5   4683    40.1 %   3504   108/215    9.1s   19.5s   0.23
 28 Lc0v0.31.0-dag+git.a4877961-3400M         : 3422    6   4547    38.0 %   3507    84/215    6.3s   20.8s   0.27
 29 Dragon3.3byKomodoChess-MuPV4              : 3412    6   4486    36.8 %   3506    88/215    8.4s   21.2s   0.24
 30 Dragon3.3byKomodoChess                    : 3402    6   4496    35.5 %   3506    83/215    8.4s   21.7s   0.21

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Was zeigt uns das?
Mit 30"/Stellung und 30 Threads bekommst da auch mit solchen Stellungen noch irgendwann genug Matches zusammen, auch mit Engines, die ähnlich stark abschneiden, aus der error bar zu kommen, aber das dauert einfach. 30 Runs (und da bleiben ja nur die drin, die mir was sagen, best versions, best settings...) dauern mit 2 Extra- Halbzügen nicht die vollen 30"/Stellung bei denen, die schneller gelöst werden, aber mit Fritz geht halt immer nur 1 Instanz zur gleichen Zeit. Spielt keine Rolle, wenn man mit einem Run ohnehin die CPU oder die GPU voll auslastet, aber ich würde es vom Zeitaufwand her einfach mit game playing mit LTC vergleichen, schnell und statistisch relevant schließen einander da ebenso aus. Und dann sind das lauter taktisch knifflige single best move- Stellungen, inwieweit die viel mit den Stellungen, die beim game playing von den Engines selbst aufs Brett gebracht werden, zu tun haben, ist immer wieder die Gretchenfrage, die die Gegner solcher Stellungstests in erster Linie und mit einer gewissen Berechtigung dagegen einwenden.

Und natürlich ist ein Gutteil der Unterscheidung der Engines, die ähnlich viele Lösungen haben, die zeitliche Differenzierung durch EloStatTS, sonst bliebe bei solchen Stellungen mit der im Schnitt allgemein schwächeren Prozent- Performance auch der starken Engines und mit weniger verglichenen Runs, (EloStatTS vergleicht ja immer alle alten mit jedem neuen und dadurch sinkt die error bar dann im Lauf der Zeit immer weiter) ohne EloStatTS bliebe einfach bei Weitem weniger Diskrimination übrig. Vergleiche die Lösungszahlen allein und relativ dazu die Unterschiede in Elo, dann weißt du, was ich meine.

By Max Siegfried Date 2024-01-10 11:24

Lothar Jung schrieb:

200 Stellungen müsste man erstmal finden.
Das 15 Sekunden heutzutage viel zu lang sind, wurde doch schon mehrfach geklärt.
Besonders wenn man Stockfish, LC0, Torch testet.
Vergleiche dieser Engines mit schwachen Engines machen auch nur bei kurzer Bedenkzeit Sinn, weil sonst der Vergleich massiv verfälscht wird.
Kauft euch ein MacBook mit M Chip + 7-Steiner, dann ist 1 Sekunde ausreichend.
Ich würde sogar behaupten, dass ihr alle einige Tests laufen lassen solltet mit 1 Sekunde pro Vorgabestellung und nur 1 CPU Kern. Die Ergebnisse sind atemberaubend.