Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Texel1.11
- - By Peter Martan Date 2024-01-13 13:46 Edited 2024-01-13 13:50
https://github.com/peterosterlund2/texel/releases/tag/1.11

https://talkchess.com/forum3/viewtopic.php?p=957124#p957124

3333 MEA- Stellungen mit 200msec/pos single thread (außer Lc0 mit 2 und der 3070ti) und dem Tool von Frank Sanders in WDL- Elo umgerechnet, von diesen Listen unter meinen Bedinungen kann ich mittlerweile sagen, dass die Rankings dem game playing mit VSTC ähneln, die Elo- Abstände damit aber in der Regel eher kleiner sind als im Eng-Eng-Match.

   # PLAYER               :  RATING  ERROR  PLAYED     W      D     L   (%)  CFS(%)
   1 SF240101             :    3500   ----   30187  4197  24068  1922  53.8      99
   2 Lc0a4877961-2860M    :    3495      4   30192  4026  23962  2204  53.0     100
   3 Dragon3.3            :    3483      4   30189  3455  23932  2802  51.1      79
   4 Berserk12            :    3481      4   30199  3257  24185  2757  50.8     100
   5 Caissa1.16           :    3476      4   30178  3106  23957  3115  50.0      98
   6 Ethereal14.25        :    3472      4   30194  3062  23705  3427  49.4      69
   7 Koivisto9.2          :    3471      4   30210  2890  23974  3346  49.2      70
   8 CSTal2.00v21         :    3470      4   30184  2893  23852  3439  49.1     100
   9 Texel1.11            :    3459      4   30192  2817  22959  4416  47.4     100
  10 Texel1.10            :    3452      4   30191  2657  22602  4932  46.2     ---


Mit 333 für 1"/pos. und 8 Threads geeigneten Stellungen und EloStatTS:

    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex
  1 CorChess4dev-20240103-8T-MuPV2           : 3524    2   7111    53.6 %   3498   313/333    1.0s    1.0s   0.98
  2 CrystalMZ040823-8T-Iccf2                 : 3521    2   7139    53.2 %   3499   311/333    1.0s    1.0s   0.97
  3 CoolIris11.80-8T                         : 3521    2   7056    53.2 %   3499   306/333    1.0s    1.0s   0.99

  6 Stockfishdev-20231202-8T                 : 3516    2   6894    52.5 %   3499   298/333    1.0s    1.0s   0.98
  7 Stockfishdev-20240101-8T                 : 3514    2   6821    52.2 %   3499   291/333    1.0s    1.0s   0.98

14 Dragon3.3byKomodoChess-8T                 : 3504    2   6685    50.6 %   3500   273/333    1.0s    1.0s   0.96
15 Lc0v0.31.0-dag+git.e429eeb-2790           : 3496    2   6598    49.3 %   3501   257/333    1.0s    1.0s   0.96
16 Berserk12-8T                              : 3496    2   6514    49.3 %   3501   257/333    1.0s    1.0s   0.95
17 Ethereal14.25.8T                          : 3495    2   6458    49.3 %   3501   254/333    1.0s    1.0s   0.97
18 Lc0v0.31.0-dag+git.a4877961-2860M         : 3495    2   6573    49.1 %   3501   255/333    1.0s    1.0s   0.98
19 Caissa1.16-8T                             : 3494    2   6431    49.1 %   3501   254/333    1.0s    1.0s   0.95
20 Caissa1.15-8T                             : 3485    2   6307    47.6 %   3502   239/333    1.1s    1.0s   0.92
21 Koivisto9.2-8T                            : 3484    2   6379    47.5 %   3502   237/333    1.0s    1.0s   0.94
22 Texel1.11                                 : 3481    2   6406    47.0 %   3502   232/333    1.0s    1.0s   0.94
23 Texel1.10                                 : 3479    2   6374    46.6 %   3502   233/333    1.1s    1.1s   0.90

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Mit den "LTC"- Stellungen von 30"/pos. lass' ich ihn vielleicht noch laufen, aber da schafft die Engine ziemlich sicher zu wenige Lösungen, um mit den in diesen Stellungen stärkeren Engines in derselben Liste geführt zu werden, ist Caissa 1.16 da schon mit 72/222 etwas out of range, alles unter 50% der Lösungen wird fragwürdig von der gemeinsamen Hardware- TC einer bestimmten Suite her.
Parent - - By Peter Martan Date 2024-01-13 17:42 Edited 2024-01-13 18:08
Zitat:

Mit den "LTC"- Stellungen von 30"/pos. lass' ich ihn vielleicht noch laufen, aber da schafft die Engine ziemlich sicher zu wenige Lösungen, um mit den in diesen Stellungen stärkeren Engines in derselben Liste geführt zu werden, ist Caissa 1.16 da schon mit 72/222 etwas out of range, alles unter 50% der Lösungen wird fragwürdig von der gemeinsamen Hardware- TC einer bestimmten Suite her.

Jetzt musste ich Texel aber dann natürlich doch auch noch mit den "großen Kindern" mitspielen lassen (da verwenden alle A-B-Engines 30 Threads und die TC ist 30"/pos.), und siehe da, ich hab' ihn unterschätzt, er ist (wieder mal, das ist ja nicht neu bei ihm) beim Lösen solcher taktisch kniffliger single best move- Stellungen relativ stärker als im game playing:

    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 HypnoSIccf-NN240623-Set1                 : 3582    4   6186    62.4 %   3494   169/214    3.5s    9.1s   0.71
  2 CrystalMZ040823-Set1                     : 3580    4   6182    62.2 %   3494   172/214    3.9s    9.0s   0.68
  3 ShashChessGZ-MuPV4                       : 3577    4   6237    61.7 %   3494   170/214    4.0s    9.3s   0.65

  9 SugaRAIICCF2.50-Set1                     : 3557    5   5999    58.7 %   3496   154/214    4.3s   11.5s   0.61
10 Crystal7CMB                               : 3546    4   5844    57.1 %   3496   153/214    4.5s   11.8s   0.54
11 CoolIris11.80-Set1                        : 3545    4   5903    57.0 %   3496   154/214    5.2s   12.1s   0.54

18 Stockfishdev-20240101-MuPV4               : 3484    5   5495    47.6 %   3501   125/219    8.2s   17.6s   0.37
19 Stockfishdev-20231202-MuPV4               : 3483    5   5371    47.4 %   3501   115/214    6.4s   17.3s   0.40

23 Lc0v0.31.0-dag+git.e429eeb-2790M          : 3463    5   5330    44.0 %   3505   101/216    6.7s   19.1s   0.34 

27 Stockfishdev-20231202                     : 3449    5   5337    42.2 %   3503   108/214    9.1s   19.4s   0.24
28 Berserk12                                 : 3448    5   5131    41.8 %   3505    95/214    6.8s   19.7s   0.29
29 Lc0v0.31.0-dag+git.a4877961-3400M         : 3436    6   5161    40.0 %   3506    84/214    6.3s   20.7s   0.28
30 Dragon3.3byKomodoChess-MuPV4              : 3427    5   5056    38.8 %   3506    88/214    8.4s   21.1s   0.25
31 Dragon3.3byKomodoChess                    : 3417    5   5039    37.3 %   3507    83/214    8.4s   21.6s   0.22
32 Texel1.11                                 : 3413    6   5026    36.7 %   3508    78/222    7.6s   22.1s   0.24
33 Texel1.10                                 : 3401    6   4952    35.0 %   3508    69/222    6.1s   22.6s   0.22
34 Caissa1.16BMI2                            : 3390    6   4892    33.6 %   3508    72/222    8.0s   22.9s   0.18
35 Caissa1.15BMI2                            : 3371    6   4845    31.1 %   3509    65/222    9.0s   23.8s   0.13

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position
Parent - - By Frank Quisinsky Date 2024-01-13 18:28 Edited 2024-01-13 18:30
Texel gehört wie Wasp, Velvet zu den Engines die taktisch sehr stark sind.
Je nachdem wie man Taktik definiert (die Geister haben sich unterschiedliche Erklärungen einfallen lassen, wenn ich so in Schachbücher schaue) fallen solche Engines schon in der Aggressivität im Spiel gegen den König auf.
Und das natürlich vor dem Endspiel, also bei vollem Brett.

Genau diese Engines, nehmen dann mit mehr Zeit deutlich Fahrt auf, sehen mehr im Endspiel und steigern sich überproportinal.
Das ist im schnellen Blitz nicht zu sehen.
Im Blitz zu sehen ist aber die Stärke im Königsangriff.

Bei stärkeren Engines wird es schwieriger zu sehen ... Igel oder Revenge, Slow oder besonders Uralochka sind hier die Paradebeispiele.
Ansatzweise auch CSTal. Mit mehr Zeit rücken die immer mehr auf zu den Engines die davor stehen.

Persönlich freue ich mich immer wenn neue Engines verfügbar werden, die einen vergleichbaren Stil haben wie Texel, Wasp oder Velvet.
Da die Königsangreifer viel für sich sehen, sehen sie auch gegen sich und verlieren äußerst selten sehr schnell Partien.
Texel hatte diese Stärke immer schon aber war zu weit weg vom Mittelfeld.

Es gibt aber hier auch Ausnahmen:
Fizbo früher oder DanaSah sind in der Lage der Spielstärke entsprechend überproportinal schnell zu gewinnen aber die verlieren auch einige Partien sehr schnell.

Absolutes Paradebeispiel im Vergleich zu Wasp, Texel oder Velvet war früher Spark.
Spark war schnell einfach kaum zu bezwingen, auch nicht von Engines die 300 Elo stärker waren.

Aber das alles sind keine Geheimnisse!

Wenn man Texel, Wasp oder auch Velvet z. B. 10x mehr Zeit gibt als Standard-Blitz halbiert sich der Unterschied in Elo zu den TOP-Programmen.
Und gibt man den Engines z. B. für eine Analyse mal die ganze Nacht dann ist man richtig verblüfft zu welchen Ergebnissen gerade die Königsangreifer in der Lage sind.

Das haben die Fernschachspieler natürlich mittlerweile auch schon lange erkannt und viele analysieren nicht nur mit Stockfish, nur weil Stockfish die Nummer 1 ist.
Parent - - By Peter Martan Date 2024-01-13 20:32 Edited 2024-01-13 21:14
Frank Quisinsky schrieb:

Texel gehört wie Wasp, Velvet zu den Engines die taktisch sehr stark sind.
Je nachdem wie man Taktik definiert (die Geister haben sich unterschiedliche Erklärungen einfallen lassen, wenn ich so in Schachbücher schaue) fallen solche Engines schon in der Aggressivität im Spiel gegen den König auf.

Ich tu' mich da leichter, für mich sind solche Definitionen einfach an Stellungen gebunden, und natürlich geben auch noch so viele verschiedene Stellungen und noch so viele Sammlungen davon auch immer nur ein Bild, das so viel sagt, wie der Betrachter die Stellungen für aussagekräftig hält. Aber da kann man sich halt als Spieler und als User wenigstens die Stellungen selbst aussuchen und muss sich nicht nur drauf verlassen, dass sie die Engines von selbst gegen andere (immer auch die Frage gegen welche) im Match aufs Brett bringen.

In diesem Sinn auf vielfachen Wunsch (deinen und meinen ) Wasp auch endlich über die aktuellen 222 single best move- Stellungen taktischer Selektivität für 30"/pos mit 30 Threads laufen lassen. Das muss man sich jetzt einfach an die Liste im Posting, auf das du geantwortet hast, angehängt denken:

   Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

32 Texel1.11                                : 3415    6   5130    37.0 %   3508    78/222    7.6s   22.1s   0.24
33 Wasp6.50                                 : 3413    5   5096    36.8 %   3507    80/222    7.8s   22.0s   0.24
34 Texel1.10                                : 3403    6   5055    35.3 %   3508    69/222    6.1s   22.6s   0.23
35 Caissa1.16BMI2                           : 3392    5   4995    33.8 %   3508    72/222    8.0s   22.9s   0.18
36 Caissa1.15BMI2                           : 3373    6   4944    31.3 %   3509    65/222    9.0s   23.8s   0.13


Übrigens, dass manche Engines in der kompletten Liste oben weniger Stellungen als maximalen Bezug haben, liegt daran, dass die 222 sich im Lauf der Listen- Bildung an einzelnen Stellungen geändert haben, es sind alle über 222 gelaufen, aber es werden bei den älteren runs nur mehr die von EloStatTS mit den neuen verglichen, die immer noch in der Suite sind.

Von Velvet hab' ich mir gerade erst die neue 6er- Version runtergeladen, ob diese Engine da wenigstens 50 Lösungen schafft, davon wird abhängen, ob sie auch in die Liste kommt bzw. in ihr gespeichert bleibt. Die letzte 5.3 konnte da mit der vorigen ähnlichen Suite noch nicht ganz mithalten, soweit ich mich erinnere, jedenfalls ist sie in der letzte 128- er- Liste nicht mehr drin.
Parent - - By Frank Quisinsky Date 2024-01-13 22:03 Edited 2024-01-13 22:36
Hi Peter,

das ist interessant zu sehen!!

Auch die Caissa Ergebnisse.
Caissa spielle noch in 2022 schrecklich langweilig.
Aber von Version zu Version (unabhänig von den vielen kleinen Spielstärkesteigerungen) spielt das Teil mit mehr Wums.

Der Begriff "Doppelwums" (kommt bestimmt aus einem Kinderbuch), ist in Computerschach-Sprache gleichzusetzen mit dem Wort "Uralochka" !!?
Im Begriff Uralochka verbirgt sich das Wort "Loch". Nach amtlicher Erklärung: Das umramte Nichts ... Einstein würde das jetzt verbinden mit schwarzen Löchern.

Selbst versuche ich z. B. bei den Königs-Angreifern (also KA ist viel interessanter als KI) die schnellen Gewinne in drei Spaghetti Töpfe einzusortieren.

Bei Wasp ist alles klar ... auch mit den schwarzen Steinen geht die Post ab.
Bei Texel habe ich nicht genug, aber es schaut danach aus das die Engine mit den weißen Steinen aggressiver ist und gar aggressiver als Wasp mit den weißen Steinen.
Velvet ist sehr besonders ... die Angriffe gehen nicht nur gegen die Rochadestellungen, sondern auch gegen die Mitte vom Brett.
Das ist wirklich eine große Kunst und so wie ich das beurteile beherrscht Velvet genau das von den drei "Gesandten" am Besten.

Alles was ich sagen will ist ...
Es ist nicht keinesfalls so, dass Velvet, Wasp und Texel alles gleich machen nur weil die Gesamtstärke diesen Eindruck vermittelt.

Bei Uralochka ist es anders ...
Versuche Dir bitte folgendes bildlich vorzustellen (wird dann deutlicher) ...

Neben dem Brett, also auf der imaginären neunten Reihe laufen Spione, Agenten, Spitzel permanent hin- und her.
Die funken geheime Informationen aus der Schattenwelt, dem dritten Raum, zur Engine.
Also, neben den Türmen stehen dann die wirklichen Türme, Beobachtungszentren von wo die Elite der Agenten, Spitzel, Spione
mit Ferngläsern beobachtet und von dort aus gesteuert wird. Über dem Schachbrett fliegen kleine Drohnen.

Wollte das mal einen Grafiker in die Hand drücken, der das aufarbeitet in Winobard Zeiten für die Winobard News Seite (gab früher Winboard den Namen Winobard).
Der Begriff diente auch mal als Codewort für eine wichtige Mission!

Seinerzeit wollte ich damit den Spielstil von Phalanx beschreiben.



Dir noch einen schönen Abend!

Gruß
Frank
Parent - - By Peter Martan Date 2024-01-13 23:01 Edited 2024-01-13 23:08
Frank Quisinsky schrieb:

Velvet ist sehr besonders ... die Angriffe gehen nicht nur gegen die Rochadestellungen, sondern auch gegen die Mitte vom Brett.

In die 222er-Liste schafft's Velvet nur knapp und wahrscheinlich nicht auf die Dauer, zuviele weiter unten verbessern die Statistik weiter oben nicht (so wie der Stärkeren, das ist der wirkliche Unterschied zum Eng-Eng-Match) und wenn sie zu lang wird, geht die Übersichtlichkeit verloren.
Aber jetzt mal, wenn ich den Run schon abgewartet habe...:

    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

32 Texel1.11                                : 3419    6   5224    37.4 %   3508    78/222    7.6s   22.1s   0.24
33 Wasp6.50                                 : 3417    5   5197    37.3 %   3507    80/222    7.8s   22.0s   0.24
34 Texel1.10                                : 3407    6   5136    35.7 %   3509    69/222    6.1s   22.6s   0.23
35 Caissa1.16BMI2                           : 3396    5   5093    34.3 %   3509    72/222    8.0s   22.9s   0.18
36 Caissa1.15BMI2                           : 3377    6   5035    31.7 %   3510    65/222    9.0s   23.8s   0.13
37 Velvetv6.0.0                             : 3354    6   4880    28.7 %   3511    49/222    8.1s   25.2s   0.13

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position


Bei der 3333- MEA- Suite ist's deutlich besser, 200msec/pos., single thread und nur die MEA- "Rohdaten", keine WDL- Umrechnung, man muss sich die error bar halt im Kopf dazu ungefähr ausrechnen, je nachdem, wo die Engines im Ranking mitspielen, so zwischen 1 und 1.5 der Score- Prozent.
Und die Elo sind keine WDL- Elo sondern allein von den Punkten relativ zum Maximalscore abhängig, dafür nahezu phantastisch gespreizt, fast das Gegenteil von dem, was EloStatTS und Frank Sanders Tools (gibt schon eine neue Version davon) machen. Mit diesen Methoden ändert sich dann zeitweise auch noch das Ranking, aber auch daher mal, um den Unterschied zu sehen, das originäre Format hier zum Vergleich. Dem Eingeweihten, der die Stellungen und die Ergebnisse einordnen kann (optimaler Weise selbst ausgesucht und mit MEA- Punkten bewertet hat) sagen sie eigentlich mehr, aber halt ebenso wie alle anderen Auswertungen natürlich nur als Einzelergebnisse. Mich freut halt immer wieder besonders, unterschiedliche Listen mit unterschiedlichen Ergebnissen gemeinsam zu haben, das gibt ein viel kompletteres Bild, als jede einzelne Suite für sich das geben kann. Und natürlich ist game playing wieder etwas anderes, aber wenn ich game playing- Ergebnisse haben will, lasse ich Eng-Eng-Matches spielen oder schaue in den Listen nach, die's eh schon gibt

    EPD  : 3333
    Time : ms
                                                Max    Total   Time   Hash         
    Engine           Score   Found  Pos   ELO  Score   Rate     ms     Mb  Cpu     

3  SF240101         237055   2586  3333  4117  259083  91.5%    200     4    1
4  SF231202         236940   2568  3333  4117  259083  91.5%    200     4    1

6  Lc0a4877961-2860M236260   2554  3333  4104  259083  91.2%    200     2    2

8  Dragon3.3        230843   2465  3333  4009  259083  89.1%    200     4    1
9  Berserk12        229429   2420  3333  3987  259083  88.6%    200     4    1
10  Caissa1.16      227320   2373  3333  3946  259083  87.7%    200     4    1
11  Ethereal14.25   226994   2343  3333  3942  259083  87.6%    200     4    1
12  CSTal2.00v21    225675   2340  3333  3919  259083  87.1%    200     4    1
13  Koivisto9.2     225290   2339  3333  3915  259083  87.0%    200     4    1
14  Caissa1.15      225207   2327  3333  3910  259083  86.9%    200     4    1

16  Velvet6.0       221654   2278  3333  3852  259083  85.6%    200     4    1
17  Texel1.11       219590   2236  3333  3816  259083  84.8%    200     4    1
18  Wasp6.50        219091   2212  3333  3807  259083  84.6%    200     4    1
19  Texel1.10       215831   2192  3333  3748  259083  83.3%    200     4    1

                                    Created with MEA
                                          by
                                       Ferdinand
                                         Mosca
Parent - - By Frank Quisinsky Date 2024-01-13 23:44 Edited 2024-01-13 23:51
Hi Peter,

interessant sind die Unterschiede ...

Wenn wir wissen, dass z. B. in Wasp bei 4+2 180 Elo hinter Caissa im Blitz ist, bei z. B. 10x mehr Zeit es ca. 80-100 Elo sind und genau diese Unterschiede mit mehr Zeit geringer werden, können solche Tatsachen durchaus auch mit Erkenntnissen aus dem Stellungstest verbunden werden. Auch für einen Stellungstest steht ja meist eine gewisse Lösungszeit im Raum.

Hier sind wir absolut beieinander.
Durch die Gesamtheit vieler Eindrücke wird es spannend. Die wenigstens haben natürlich die Zeit die Erkenntnisse zu studieren und oftmals ist es auch so das nur wenige nach rechts und links schauen ... eher total fixiert auf das eigene sind.
Wenn wir dann versuchen Puzzlesteine zusammenzusetzen, bleibt leider einiges auf der Strecke.

Stelle z. B. sehr oft fest, dass viele Engines vieles gleich machen und dann kommen die Kopfschmerzen.
Ich meine, selbst mit viel Fantasie und bei aller Liebe findet sich nichts um gewisse Engines wirklich ein Gesicht zu geben.

Das jetzt z. B. beim Eng-Eng Spiel teils deutliche Vorteile in Elo erreicht werden liegt meist am Endspiel oder daran Engines teils mit Gewalt auf höhere Suchtiefen zu puschen.
Das gleicht sich mit mehr Zeit aus und dann stellt sich die Frage ... welche Engine arbeitet genauer.
Die, die schnell ein Ergebnis erzielt aber auch übersieht oder die, die langsamer ein Ergebnis erzielt aber dann mit mehr Zeit auch mehr sieht.

Tja, wenn wir jetzt alle Schachspieler wären, deren Spielstärke bei 3500 Elo beginnt wäre das alles so leicht zu sehen und zu erklären.
Ich hoffe immer im Dunkeln nicht durch die Gegend zu stolpern.

In einem Punkt muss ich Dich korrigieren!
Die Listen sind nicht unterschiedlich.
CEGT 40 in 20 ist im Grunde 40 in 6 auf schneller Hardware.
Im Grunde kann jede Liste immer eingeschätzt werden nach den Unterschieden in Elo zwischen Ankerpunkten.
Ankerpunkte: Engines wo es deutlich wird das durch mehr Zeit die Unterschiede geringer werden.
Muss man dann nur schauen wie die Unterschiede in den Listen sind und weiß direkt ob es sich um eine Blitz, Schnellschach etc. Liste handelt.

Testen mit mehreren Cores macht keinen Sinn, weil Prozessorleistung verplempert wird. Fast alles was wir haben beruht auf ... möglich schnell, möglich viel zu erzeugen.
Bei CCRL mit 4 Cores ist leicht zu erkennen wo es hingeht, wenn die Bedenkzeiten angehoben werden.
Aber letztendlich gibt es keine Liste die wirklich mit höheren Bedenkzeiten testet, leider!

Es würde eher Sinn machen wenn einige Tester zusammengehen und wirklich mal etwas mit längeren Bedenkzeiten auf schneller Hardware aufbauen.
Aber die Tester gehen aus und Strom ist heute leider teuer und es sind zu viele Individualisten unterwegs (gehöre auch zu der Spezies).

Gruß
Frank

PS: Finde es eher erschreckend (wenn ich auf Deine Ergebnisse schaue) wie gering die Unterschiede von deutlich stärkeren Engines zu schwächeren Engines sind.
Und wie gesagt, es gibt keine großen Unterschiede der Ratinglisten untereinander. Das etwas mehr Zeit oder etwas weniger Zeit spielt kaum eine Rolle.
Parent - By Frank Quisinsky Date 2024-01-13 23:58 Edited 2024-01-14 00:02
Mann müsste beim Stellungstest mal ein Experiment starten.
Bei einem Test mit Zeitvorgabe, z. B. wenn die 3 Minuten pro Zug ist.

Mann nimmt einfach 8 Stunden für einen Zug und schaut dann welche Engines am meisten der Stellungen gelöst hat.
Dann wirds auch deutlicher und es ist einfacher die Perlen zu suchen und zu finden.
Parent - - By Peter Martan Date 2024-01-14 00:13
Frank Quisinsky schrieb:

Stelle z. B. sehr oft fest, dass viele Engines vieles gleich machen und dann kommen die Kopfschmerzen.
Ich meine, selbst mit viel Fantasie und bei aller Liebe findet sich nichts um gewisse Engines wirklich ein Gesicht zu geben.

Das sehe ich eben überhaupt nicht, wenn ich einzelne Stellungen hernehme. Unterschiedlicher als das Verhalten verschiedener Engines bei jeder einzelnen Stellung sein können, an time to best move(s, wenn's mehrere ähnlich gute gibt), time to best eval, time to best line, Unterschieden der einzelnen ersten Züge, ersten Gegenzüge, mit jedem weiteren Halbzug fächern die Unterscheide mehr und mehr auf, was kann man sich mehr als das überhaupt wünschen? Statistiken können die Unterschiede relativieren, genau in all ihrer Vielfalt sieht man sie bei den einzelnen Stellungen.
Die kann man nach Eröffnungen (da wieder verschiedenen Systemen), Mittel- und Endspiel und nach Mustern sortieren, nach Manövern, Materialverteilungen...

Zitat:

Das jetzt z. B. beim Eng-Eng Spiel teils deutliche Vorteile in Elo erreicht werden liegt meist am Endspiel oder daran Engines teils mit Gewalt auf höhere Suchtiefen zu puschen.
Das gleicht sich mit mehr Zeit aus und dann stellt sich die Frage ... welche Engines arbeitet genauer.
Die, die schnell ein Ergebnis erzielt aber auch übersieht oder die, die langsamer ein Ergebnis erzielt aber dann mit mehr Zeit auch mehr sieht.

Auch solche Fragen würde ich persönlich nicht statistisch zu beantworten versuchen sondern anhand der Verläufe der einzelnen Partien, der einzelnen Züge, kommt ja auch immer drauf an, welche Gegner was vorgeben.
Zitat:

In einem Punkt muss ich Dich korrigieren!
Die Listen sind nicht unterschiedlich.

Erstens meinte ich meine eigenen Stellungstest- Listen, aber wenn du von denen vom game playing redest, widersprichst du dir in dem Punkt auch ein bisschen selbst, wenn du dann gleich drunter wieder von den Unterschieden in der Hardware- TC schwärmst.
Ich würde eben auch beim game playing nicht nach der einen ultimativen Rangliste suchen, die kannst du mit längeren TCs schon allein deshalb nicht mehr für dich allein erreichen, weil du nicht schnell genug ausreichend Partien zusammenkriegst, die statisitsch belastbar sind, bei den schon bei kurzen TCs zu großen error bars. Nicht schnell genug, um noch alle neuen Versionen der vielen Engines, die ähnlich stark sind, einordnen zu können, bevor sie wieder überholt sind.

Ich würde im Gegenteil auch bei den game playing- Listen einfach die Ergebnisse mit den Teilnehmerfeldern (die machen ja, je mehr starke Engines es werden, sowieso schon einen enormen Selektionszwang für sich aus) und den Hardware- TCs relativieren und mehr Einzelergebnisse anschauen, ohne noch alles, was man irgendwie testen kann, unter einen gemeinsamen Ergebnis- Hut zu zwingen versuchen, der dann einfach niemandem mehr wirklich passt und niemandem mehr wirklich was sagt.
Große Testergruppen können es sich (noch) leisten, komplette Listen verschiedener Hardware- TCs zu führen, die spezialisierten Frameworks kümmern sich um die Entwicklungskontrollen ihrer eigenen einzelnen Engines, die User und die Schachspieler können sich aus alledem wirklich viel für ihre persönlichen Interessen herausholen, dass Interessen wie deine oder meine nur von dir für deine und mir für meine genaue Antworten erwarten können, ist ja ohnehin klar.

Dir auch eine gute Nacht mal wieder.
Parent - - By Frank Quisinsky Date 2024-01-14 00:32 Edited 2024-01-14 00:46
Hi Peter,

das sind ja die Punkte.

Nehmen wir CEGT:
5+3 Ponder = on ... bei ca. 35% Ponder Treffer außerhalb von Eröffnungszügen oder Zügen aus Endspieldatenbanken.
Das ist nur ein kleiner Zeitvorteil ...

Ob z. B. 10+6 oder 5+3 ... daran erkennst Du nicht so viel anderes.
Und so viele Personen arbeiten nicht bei den Ratinglisten.
Habe mit Leuten Kontakte die produzieren viel mehr Material auf ihren Rechnern als Ratinglisten mit Ihren paar tausend Partien pro Woche.

Es gibt keine wirklich gravierenden Unterschiede bei allem was wir seit vielen Jahren haben.
Und dennoch, die Bemühungen derer, die für die bekannten Ratinglisten aktiv sind, sind lobenswert, weil die das über viele Jahre machen.

Bei der SSDF sind glaube ich noch 2 Personen, einer eher selten aktiv (mal um ein Beispiel zu nennen).

Ich halte es dennoch für absolute Zeitverschwendung mit Ponder=on zu testen oder mit mehreren Cores zu testen.
Weil, wenn sämtliche Programme meist um Faktor 1.8 bei zwei Cores zulegen ist das alles nur ein kleiner Zeitvorteil.

Gerade bei den NN-Engines werden diese Dinge nach noch viel krasser.
Die geringen Zeitvorteile legitimieren sich durch Neural-Network auch noch deutlich.

Ich hatte früher mal mit Gurevich eine Diskussion im ChessBits Forum über Stellungstest-Klamotten, das ging mehrere Monate hin- und her.
Er argumentierte vergleichbar wie Du es machst.

Ich schrieb ihm seinerzeit er sollte mal Schablonen über die gefundenen Stellungen legen und nicht auf die Lösungszeiten schauen.
Er lies sich einfach nicht überzeugen.

Dann schrieb ich ihm, dann nehme zwei Clones.
Was siehst Du ...
Er schrieb, völlig verschiedene Lösungszeiten ...

Aber gab es Unterschiede in dem was gefunden wurde ... dann kam, nee ... eigentlich nicht.
Ich hatte im Gefühl er begann nachzudenken.

Als ich ihm schrieb ...
Dann lasse doch ChessTiger mal einfach deutlich länger laufen und schaue ob irgend etwas zusätzliches gefunden wird.

Es hat sich bis heute kaum etwas an den Wahrnehmungen geändert Peter.
Man ist zu versteift in dem was man sieht und denkt oft das Ultimative ist das "Eigene Werkeln".
Leider ist dem nicht so.

Ich verenne mich pausenlos immer in den eigenen Dingen.
Das ist menschlich ... wenn ich das merke, lasse ich los und denke mir, OK ... starte den nächsten Versuch.

Es bedarf wirklich großer Gruppen an Testern, die vielleicht etwas zusammen feststellen könnten.
Die müssen mit Ausdauer gesegnet sein (wie z. B. die CCRL oder CEGT Tester) und wirklich mit Forscherdrang pur ausgestattet sein.
Bereit sein Veränderungen zu akzeptieren und nicht jahrelang gleiches tun.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2024-01-14 00:40 Edited 2024-01-14 00:43
Das Geheimnis ist wie bei so vielen anderen Dingen ...
Mit den geringsten Mitteln so viel wie möglich feststellen.
Und selbst wenn die Fehlerquote höher liegt, so ist das finale Ergebnis deutlich besser!!
Gerade im Computerschach rennen wir uns fest wenn bis zum Exzess ausgetest wird.

Das Argument ...
Ich muss schnell testen, morgen gibt es zahlreiche neue Versionen und alles ist alt ist mehr Schein als Sein!
Wenn das im Vordergrund steht darf man niemals Engines testen! Um zu wirklich guten Ergebnissen zu kommen zählt einzig und allein die Ausdauer.
Nur solche Ergebnisse bleiben nachhaltig, ganz egal wie viele Updates kommen!
Parent - - By Peter Martan Date 2024-01-14 08:52 Edited 2024-01-14 09:10 Upvotes 1
Frank Quisinsky schrieb:

Das Argument ...
Ich muss schnell testen, morgen gibt es zahlreiche neue Versionen und alles ist alt ist mehr Schein als Sein!

Frank, du kannst natürlich die Frameworks von SF und Lc0 ignorieren und dir erst das anschauen, was dann bei den großen (und deinen kleinen) Ranglisten rauskommt, und nur das, was dir nicht am Aufmerksamkeitsfenster (sorry, aber da passt's halt mal wieder so gut) vorbeigeht, als das Engine- Testen schlechthin sehen wollen. Aber an der Engine- Entwicklung, wie sie heute stattfindet, schaust du dann halt vorbei, dafür bist du der Fachmann schlechthin für den Zügedurchschnitt in deinen Turnieren, der Engines, die du spielen lässt.

Und mich interessieren halt gerade Stockfish und Lc0 auch und ja, auch die Branches und die Settings, und mich interessiert halt, wie die besten Engines (und deren Branches und Settings) besimmte Stellungen behandeln und um wieviel besser und schneller sie das machen, und nicht nur, wie's Uralochka und Velvet macht, und ob sie überhaupt auch irgendwann die besten Züge in der richtigen Reihenfolge und mit den richtigen Abspielen und mit einer halbwegs richtigen Eval haben. Mich interessieren derlei Leistungen im Verhältnis zu dem, was die besten können, ja vor allem auch deshalb, weil ich zur Analyse der Stellungen, die mich interessieren, gerne die besten Werkzeuge haben will.
Und ja, Schach hat auch immer etwas mit Zeit zu tun, es gibt keine Matches ohne Vorgaben von Bedenkzeiten, irgendwelche schachlichen Leistungen zu messen, ohne sich dabei die zeitlichen Abläufe, unter denen sie erbracht werden zu vergegenwärtigen, das ist wie Wettrennen ohne Stoppuhr. Dann weißt du zum Schluss nur, dass alle Teilnehmer ziemlich gleich weit gelaufen sind und musst dir auch keine Gedanken um die durchschnittlichen Laufmeter machen. Und wenn jemand einen Abschneider nimmt, wird er disqualifiziert, bei dir halt erst recht, wenn er Umwege läuft.

Und über Stellungstests zu diskutieren, ohne sich dazu einzelne Stellungen herzunehmen, anhand derer man das macht, hat halt auch immer wieder keinen rechten Sinn.
Und ich wollte und will ja hier auch nicht mit dir über Stellungstests diskutieren, das hat außer nur anhand von Stellungen, auch nur Sinn zwischen Leuten, die's beide mit einer gewissen praktischen Erfahrung machen und nicht nur aus der theoretischen Überlegung heraus, ob das, was der Eine macht und der Andere nicht, von dem, der's nicht macht, viel besser gemacht würde, wenn er's denn überhaupt machte
Parent - By Frank Quisinsky Date 2024-01-14 11:52 Upvotes 1
Hi Peter,

für mich macht das keinen Sinn viele Stockfish Versionen zu testen.
Das Plus was dort festgestellt wird verläuft sich bei längeren Bedenkzeiten.
Machte ich zwar in der Vergangenheit auch hin- und wieder aber es reicht auf die Release Versionen zu warten.

Außerdem leide ich unter dem tückischen Verpassungswahn!
Ich verpasse zu viel bei den wirklich spannenden anderen Entwicklungen und da gibt es immer reichlich News.
Halte Stockfish persönlich auch nicht für so spannend, weil mich die Einzelleistungen von Programmieren mehr interessieren.
Das gibt den Programmen eine individuelle Note während Stockfish ein recht "kaltes" Programm ist.

Aber ich finde es gut das Stockfish so mehr oder weniger Richtwerte stellt.
Daran ziehen sich alle hoch.
Ein netter Vergleich zu der wahrscheinlich derzeit bestmöglichen Performance.

Es gibt so viele interessante Entwicklungen.
Im Grunde schauen CCRL und CEGT genauer hin und testen was möglich ist.
Das ist z. B. der Punkt der mich an den Ratinglisten interessiert, dieser enorme Aufwand wirklich so viel wie möglich in einem Test einzubeziehen.
Daraus schöpfe ich viele Informationen.
Würde das auch gerne machen und viel mehr Programme testen aber mir fehlt die Zeit neben Beruf und anderen Aktivitäten.

Aber ich kann nachvollziehen wenn Personen von Stockfish oder Lc0 begeistert sind.
Auch anderen fehlt die Zeit sich mit mehr zu beschäftigen, ist mir klar.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / Texel1.11

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill