Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Idee für Darstellung der Ratingliste ... Eindrücke?!
- - By Frank Qy. Date 2016-02-13 00:33 Upvotes 1
Hallo zusammen,

denke ich habe eine gute Idee eine Ratingliste besser darzustellen ... siehe Ende des Beitrages.

Bekanntlich berechnen fast alle Ratinglisten Ersteller meist Ihre Listen mit dem kompletten Partie Material. Dagegen spricht zunächst mal auch nichts, auch wenn z. B. eine Engine oft gegen viele Versionen einer anderer Engine spielte (sehe da nur in Einzelfällen mal Unterschiede bis zu 5 Elo bei den vielen verschiedenen Gegnern die bei einem test-run bei mir herhalten müssen. Wie dem auch ist, ich will es genauer!

Soweit so gut ...

Wir interessieren uns meist für die Ratings der letzten Version einer Engine. Nur in wenigen Fällen kommt es vor, dass eine neuere Version nicht das Rating der Vorversion erreicht und mithin schlechter nach Elo bewertet wird. Wenn nun viele verschiedene Gegner vorliegen benötigen wir meines Erachtens weniger Partien für ein stabiles Rating.

Klar ... ein Rating mit nur 1.000 Partien und 20 Gegner wird mehr aussagen als ein Rating nach 1.000 Partien bei nur 2 Gegner.

Soweit so gut ...

Nun habe ich mir mal die Arbeit gemacht und meine derzeit 175950 umfassende Datenbank der 45-Minuten Partien näher unter die Lupe genommen. 60 unterschiedliche Engines sind derzeit aufgenommen. Diese 60 Engines spielten 71.500 Partien in den jeweils letzten Versionen gegeneinander. Am wenigsten Gegner hatten Equinox, Fire, GullChess und Critter. Diese vier spielten 1.800 Partien, also demnach bei 50-Partien Matches 36 Gegner. Alle anderen 56 Engines hatten mehr unterschiedliche Gegner.

Soweit so gut ...

Ich denke mir, dass nun die Ratingliste dieser 71.500 Partien interessanter und auch aussagekräftiger ist als die Ratingliste der kompletten 179950 Partien. Ganz einfach, weil keine der 60 Programme gegen einen Gegner in unterschiedlichen Versionen doppelt oder mehrfach antreten musste. Diese Ratingliste findet sich am Ende vom Posting und wenn ich nun die beiden Ratinglisten vergleiche (mit der aller Partien) kann festgestellt, dass dann doch einige Engines bis zu 6 Elo von der Ratingliste mit allen Partien abweichen. Spricht auf der einen Seite für eine sehr gute Genauigkeit der Liste aller Partien auch wenn dann Engines gar bis zu 7x in unterschiedlichen Versionen auftauchen.

Warum nun der ganze Spuk?
Ganz einfach, viele Programme werden oft immer wieder upgedatet. Wir haben in den Ratinglisten z. B. sehr viele Komodo und Stockfish Versionen. Zwar können wir immer sehen wenn sich ein Kandidat verbessert hat aber letztendlich ist es bei Liste 1 dann 50 Elo und bei Liste zwei dann 70 Elo oder bei Liste 3 dann 100 Elo. Ich denke es geht sehr viel genauer wenn wir einfach für die Berechnung nur immer eine Version einer Engine verwenden. Funktioniert aber nur dann wenn wir wirklich viele Gegner haben weil sonst meist zu wenige Partien für eine Berechnung vorliegen. Die anderen Listenbetreiber haben bei den aktuellen TOP-60 nicht so viele Gegner wie jetzt im Vergleich zu mir (will nicht protzig daherkommen ... darum geht es mir nicht). Eher ...

Was gefällt besser: Betrifft jetzt meine Arbeit!
Die Liste aller Partien ... mit x Stockfish und Komodo Versionen und der Tatsache dann dann Engines wie Zappa oder Senpei im Ergebnis immer wieder gegen Stockfish und Komodo antreten mussten und die Ratings dieser Engines dadurch leicht verzerrt werden oder ...
Eine Liste bei der nur die beste Version einer Engine eingeht?

Gruß
Frank

Hier also die beschriebene Liste ...
Abgelesen werden kann sehr leicht, wie viele Gegner jede Engine hatte (und nur die beste Version einer Engine ist enthalten).
Meines Erachtens stellt diese Liste die maximal mögliche Genauigkeit dar (geht natürlich besser wenn jetzt noch mehr Partien vorliegen ... eine Frage der Zeit).

Hinweis:
Durch das Drei-Liga System ist alles gut ausgewogen. Die besten Engines in meiner Liste spielten natürlich nicht 50 Partien gegen Liga 3 Engines. Dennoch fehlen mir ein paar Match-Konstellation die ich in den nächsten 2 Monaten auf meinem Notebook mit 40 in 16 spielen lasse.

Code:
  FCP Test Rating List
  --------------------

  Date           : February 12th, 2016 (23:00)
  Games          : 71.150 (News 269)

  Generated with : Ordo 1.0.9.8 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)
 
     
  -------------------------------------------------------------------------------------------
  Still running after round 0/50 = 0%
  Stockfish 7 KP BMI2 x64 =
  -------------------------------------------------------------------------------------------

   # PLAYER                           : RATING  PLAYED     (%)    D(%)  ERROR  OppErr  OppDiv
   1 Komodo 9.3 x64                   : 3188.1    2050    84.9    26.9   15.7    10.9    41.0
   2 Stockfish 02Dec2015 BMI2 x64     : 3169.6    2050    83.5    29.9   15.1    10.9    41.0
   3 Houdini 4 STD B x64              : 3104.7    2100    78.4    31.7   13.8    11.0    42.0
   4 Fire 4 x64                       : 3053.3    1800    71.4    39.4   13.5    11.0    36.0
   5 GullChess 3.0 BMI2 x64           : 3048.4    1800    70.9    41.9   13.6    11.0    36.0
   6 Equinox 3.30 x64                 : 3009.6    1800    66.5    45.4   13.6    11.0    36.0
   7 Fritz 15 x64                     : 2998.2    2050    66.9    43.2   12.2    11.0    41.0
   8 Critter 1.6a x64                 : 2996.4    1800    64.9    45.7   12.5    11.1    36.0
   9 Protector 1.9.0 x64              : 2959.3    2000    62.0    46.9   12.2    11.0    40.0
  10 Nirvanachess 2.2 POP x64         : 2945.7    2000    60.4    45.5   11.9    11.0    40.0
  11 Sting SF 4.8.4 x64               : 2945.6    1900    59.9    44.3   12.4    11.1    38.0
  12 iCE 3.0 v658 POP x64             : 2931.4    2050    58.8    43.5   11.9    11.0    41.0
  13 Andscacs 0.83 POP x64            : 2924.0    2000    57.6    45.0   11.6    11.0    40.0
  14 Hannibal 1.5 x64                 : 2911.6    2150    58.0    44.9   11.3    11.0    43.0
  15 Chiron 2.0 x64                   : 2910.4    2450    60.2    40.4   10.5    11.0    49.0
  16 Texel 1.05 x64                   : 2907.0    2100    57.0    42.3   11.2    11.1    42.0
  17 Naum 4.6 x64                     : 2890.0    2500    58.3    44.7   10.7    11.1    50.0
  18 SmarThink 1.80 AVX x64           : 2856.4    2050    49.1    41.3   11.7    11.0    41.0
  19 Hakkapeliitta 3.0 x64            : 2840.9    2650    52.3    38.9   10.2    11.0    53.0
  20 Senpai 1.0 SSE42 x64             : 2840.4    2750    53.3    43.1    9.7    11.0    55.0
  21 Hiarcs 14 WCSC w32               : 2831.5    2900    52.8    41.4    9.6    11.0    58.0
  22 Fizbo 1.5 x64                    : 2816.2    2750    50.1    44.7    9.8    11.0    55.0
  23 Sjeng c't 2010 w32               : 2812.8    2900    50.4    40.8   10.0    11.0    58.0
  24 Cheng 4.39 x64                   : 2804.0    2900    49.2    41.3    9.3    11.0    58.0
  25 Shredder 12 x64                  : 2800.5    2900    48.8    43.3    9.7    11.0    58.0
  26 Junior 13.3.00 x64               : 2798.8    2950    48.9    40.7   10.1    11.0    59.0
  27 Vajolet2 2.0 POP x64             : 2795.9    2950    48.5    41.1    9.5    11.0    59.0
  28 Spike 1.4 Leiden w32             : 2787.1    2950    47.4    42.3    9.4    11.0    59.0
  29 DiscoCheck 5.2.1 x64             : 2782.9    2950    46.8    39.6    9.6    11.0    59.0
  30 Booot 5.2.0 x64                  : 2777.4    2350    49.4    39.9   10.7    10.8    47.0
  31 Quazar 0.4 x64                   : 2774.2    2900    45.9    42.7    9.6    11.0    58.0
  32 Deuterium 14.3.34.130 POP x64    : 2764.1    2950    44.4    43.7    9.5    11.0    59.0
  33 Alfil 15.04 C# Beta 24 x64       : 2760.0    2450    47.6    34.7   10.7    10.8    49.0
  34 Zappa Mexico II x64              : 2755.1    2900    43.5    43.0    9.6    11.0    58.0
  35 Spark 1.0 x64                    : 2752.8    2900    43.2    42.9   10.1    11.0    58.0
  36 Doch 1.3.4 JA x64                : 2749.2    2200    49.9    46.9   11.1    10.5    44.0
  37 Thinker 5.4d Inert x64           : 2748.6    2950    42.5    41.8    9.8    11.0    59.0
  38 Crafty 25.0 DC x64               : 2740.7    2250    48.3    42.4   10.7    10.5    45.0
  39 TogaII 280513 Intel w32          : 2736.3    2400    45.6    40.6   10.3    10.7    48.0
  40 Atlas 3.80 x64                   : 2732.3    2750    42.0    39.6    9.7    10.9    55.0
  41 Gaviota 1.0 AVX x64              : 2730.6    2950    40.2    38.0    9.8    11.0    59.0
  42 MinkoChess 1.3 JA POP x64        : 2729.3    2550    43.2    43.0   10.2    10.8    51.0
  43 Tornado 5.0 SSE4 x64             : 2729.2    2350    45.2    38.9   10.3    10.6    47.0
  44 Arasan 18.1 POP x64              : 2728.7    2500    43.5    39.9   10.3    10.8    50.0
  45 Dirty 03NOV2015 POP x64          : 2725.5    2100    47.7    43.2   10.8    10.4    42.0
  46 Bobcat 7.1 x64                   : 2716.7    2100    46.5    44.5   10.8    10.4    42.0
  47 EXchess 7.71b x64                : 2713.8    2200    43.0    40.5   11.2    10.8    44.0
  48 Rodent 1.7 Build 1 POP x64       : 2710.8    2050    45.7    43.9   10.8    10.4    41.0
  49 Murka 3 x64                      : 2710.5    2100    44.8    46.5   11.6    10.4    42.0
  50 Nemo 1.01 Beta POP x64           : 2710.5    2350    42.5    42.1   10.3    10.6    47.0
  51 Pedone 1.2 BMI2 x64              : 2707.2    2550    40.3    43.7   10.3    10.8    51.0
  52 DisasterArea 1.54 x64            : 2685.6    1950    42.3    45.3   11.2    10.4    39.0
  53 GNU Chess5 5.60 x64              : 2681.7    2150    41.2    41.3   11.0    10.4    43.0
  54 Scorpio 2.77 JA POP x64          : 2678.1    2300    39.4    40.1   10.9    10.5    46.0
  55 Glaurung 2.2 JA x64              : 2662.1    2200    38.1    42.8   11.1    10.4    44.0
  56 Rhetoric 1.4.3 POP x64           : 2654.4    2100    38.0    41.4   11.0    10.4    42.0
  57 The Baron 3.29 x64               : 2647.8    2300    35.4    38.0   10.9    10.4    46.0
  58 Octochess r5190 SSE4 x64         : 2641.6    2150    35.9    41.2   11.0    10.4    43.0
  59 BugChess2 1.9 POP x64            : 2621.1    2000    34.3    37.1   11.4    10.3    40.0
  60 Frenzee 3.5.19 x64               : 2613.0    1950    33.6    35.1   11.8    10.4    39.0

White advantage = 36.04 +/- 1.00
Draw rate (equal opponents) = 47.69 % +/- 0.22

Parent - By ? Date 2016-02-13 01:28
Hatte Miguel gebeten ein paar Optionen in Ordo aufzunehmen was er auch tat und ich sehr froh damit bin.

OppErr
Die durchschnittliche ErrorBar der Gegner.

Interessiert mich mehr als Error der jeweiligen Engines selbst.
Anzahl der Gegner wird bei keiner Rating Berechnung berücksichtigt was ich nicht für korrekt halte.

Wer meine Meinung zu den Ratings kennt, der weiß, das mir viele Gegner wichtig sind. Einfach, weil weniger Partien für "genaue" Ratings produziert werden müssen.

OppDiv
Beschreibt Miguel sehr schön in seiner Readme.
Für mich ein Kontrollwert.
Bei 60 Engines in der Liste kann es maximal zu 59 Gegnern kommen. Einige der 60 Engines in meiner Liste waren also sehr fleißig
Klar, meist Engines der Liga 2 die nach oben und unten spielen. Auch klar, denn je mehr ich von der Mitte nach oben oder unten steure desto besser wird's. Genauere Ratings finden sich immer in der Mitte einer Ratingliste. Auch ein Grund für mein 3 Liga System.

59.0 ... die 0 ist der Kontrollwert für mich. Hätte Stockfish - Komodo nun nicht 50 sondern 100 Partien gegeneinander gespielt, würde ich ein 41.6 sehen anstatt ein 41.0.

Die Ratingliste zeigt also an wie viele Gegner eine Engine hatte. Bei der SWCR hatte ich mal mit Excel hochgerechnet wann sich ca. bei seinerzeit 40 Partien-Matches die Ratings verhältnismäßig weniger bewegt wenn ich bei gleicher Anzahl an Partien die Anzahl der Gegner erhöhe und kam zum Ergebnis das bei 40-Partien Matches ein Rating meinen Ansprüchen gerecht wird wenn ca. 18-22 Gegner vorliegen bzw. die Kurve sich bei 26 Gegner dann nur noch sehr minimal bewegt. Um sicher zu gehen wollte ich mit der FCP Rating Liste langfristig ca. verdoppeln. Also bei 50-Partien Matches = mindestens 40 Gegner!

Immer mit dem Ziel ... wie kann ich mit weniger Partien aussagekräftige Ratings erzeugen.

Soweit noch zum Vorposting ein paar Erläuterungen zu meiner Denke.
Wobei die Ratings selbst zweitrangig für mich sind das Spieleigenschaften mittels Statistiken und das Eröffnungsbuch bei der FCP Rating Liste die höhere Priorität haben als Ratings erzeugen. Aber dennoch, an mehren Dingen gleichzeitig basteln bringt ein wenig mehr Abwechslung und es kommt nicht zu schnell Langeweile auf, macht mehr Spaß.

Gruß
Frank

So, genug hierzu ...
Wie gesagt würde mich interessieren was wirklich lieber gesehen wird.
Liste aller Partien contra Liste mit den Partien der jeweils besten Version einer Engine!
Parent - - By Kurt Utzinger Date 2016-02-13 07:40
Hallo Frank

Super Arbeit ... für mich klar: Eine Liste, bei der nur die beste Version einer Engine eingeht.

Mfg
Kurt
Parent - - By Frank Qy. Date 2016-02-13 09:51
Hallo Kurt,

freue mich über Deine Antwort weil ich Dich als sehr kritischen Menschen in Deinen Forenbeiträgen kennengelernt habe.

Noch kurz ein Hinweis.
Beispiel Test-Run startet und die hier im Eingangsposting aufgeführte Liste dient als Basisberechnung.

Bedeutet, dass wenn nun ein neuer Stockfish Test-Run läuft die 2050 Partien dieser Stockfish Version aus der Basisliste gelöscht werden müssen.
Nun werden die neuen Stockfish Partien vom Test-Run hinzugefügt (es bleibt also bei einer Stockfish Version).

Und das schaut dann wie folgt aus ...
Derzeit spielt Stockfish 7 ...

Basis war 71.150 Partien (Liste 1)
- 2050 Partien ... = 69.100 Partien
derzeit hat Stockfish 1.353 (nach Runde 33 von 50 gespielt)
69.100 + 1.353 Partien = 70.453 Partien (Liste 2)

Und nun kann korrekt verglichen werden ...

Code:

  -------------------------------------------------------------------------------------------
  Still running after round 33/50 = 66%
  Stockfish 7 KP BMI2 x64 = +4.6 Elo
 
   2 Stockfish 7 KP BMI2 x64          : 3174.2    1353    83.8    30.5   18.6    11.0    41.0 (Liste 2)
   2 Stockfish 02Dec2015 BMI2 x64     : 3169.6    2050    83.5    29.9   15.1    10.9    41.0 (Liste 1)
  -------------------------------------------------------------------------------------------


Wobei jetzt auch schön zu sehen wie sich ein Rating eines Gegners von SF noch verändert wenn ein besonders gutes oder schlechtes Resultat vorliegt.
Das kommt hinzu und macht alles sehr viel spannender!

Bedeutet ... ich muss die Basis-Liste nach 71.150 Partien und die Liste mit dem derzeitigen Resultat einblenden, damit dann letztendlich mittels der Elo aus den beiden Listen die wie beschrieben besseren Vergleiche möglich werden.

Gruß
Frank
Parent - - By Kurt Utzinger Date 2016-02-13 13:09
Hallo Frank

Bin immer wieder beeindruckt, welchen Aufwand Du treibst, um
uns Schächern wieder mal was Neues zu offenbaren. Insbesondere
Deine Einschätzung bezüglich Spielstil/Stärken/Schwächenb der
Engines in den verschiedenen Partiephasen hat es mir angetan.
Ob Deine doch sehr persönlichen Eindrücke immer zutreffend sind,
spielt dabei keine Rolle.

Mfg
Kurt
Parent - - By Roland Riener Date 2016-02-13 13:32
Schließe mich Kurts lobenden Ausführungen vollinhaltlich an.

Roland
Parent - By Frank Qy. Date 2016-02-13 15:56
Hallo Kurt, Roland,

ja, habe mir hier sehr viel Arbeit gemacht.
Schwachpunkt ist aber auch klar ... Übergang Endspiel und spätes Mittelspiel. Hier ist die Spielstilbeschreibung für mich kaum möglich und hat einen Schwachpunkt. Aber egal, wurde dennoch schon viel herausgefunden.

Freue mich das es gefällt.

Euch ein schönes WE.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2016-02-17 13:38 Edited 2016-02-17 13:41
Hallo Kurt,

habe eine kleine Agenda Seite eingeführt.
Hier kannst Du beobachten wie sich die interne Datenstruktur der "FCP Test Rating List" verbessern wird.

Die Ratingliste findet sich jetzt auch im Menü-System von meinen Seiten, wie natürlich auch die FCP Rating List (alle Partien).
So kannst Du auch wild zwischen den Ratinglisten hin- und herspringen und schauen wie die Unterschiede zwischen den beiden Listen ist.

Status zur Zeit:
Die 60 eingepickten Engines in meiner Liste spielten zu 80.5% gegeneinander.
Klar, es fehlen viele Paarungen von ganz oben zu ganz unten (macht keinen Sinn, zu großer Elo-Unterschied).
Aber es fehlen auch Paarungen die Sinn ergeben (meist von älteren Engines). So versuche ich dann auf 90% zu kommen um die Sache zu perfektionieren.

Eine Frage der Zeit zumal ich zukünftig Test-Runs mit 2.950 Partien spielen lasse (also gegen alle 59 Gegner durch, sofern die Engines in der Mitte bei ca. 2700 - 2900 Elo liegen).

Was fehlt ist nun eine GUI, die in der Lage ist eine Datenbank einzulesen und ein Ergebnis auszuspucken.
Dann könnten User beliebige eingelesenen Engines einpicken und daraus dann beliebige Turniere / Ratinglisten simulieren.

Also:
GUI liest ein, User stellt die Gruppe der Engines zusammen, GUI wirft eine Ratingliste oder Turniertabelle aus.
Das alles wird machbar und noch vieles mehr wenn eine solche Datenbank existiert!

Viele Grüße
Frank
Parent - - By Clemens Keck Date 2016-02-13 13:32
Hey Frank !

finde diese Liste super !!

MfG Clemens
Parent - By Frank Qy. Date 2016-02-13 15:57
Clemens,

bin endlich auch mal zufrieden gestellt.
Finde die Liste auch Klasse ... auch wenn Eigenlob stinkt aber in diesem Fall ... soll es stinken.



Gruß
Frank
Parent - - By Ingo B. Date 2016-02-13 14:21
Frank Qy. schrieb:

...
Unterschiede bis zu 5 Elo bei den vielen verschiedenen Gegnern die bei einem test-run bei mir herhalten müssen. Wie dem auch ist, ich will es genauer!
...


Hier nur die kurze, fast philosophische Frage des "Warum?" - 5 Elo wirst du niemals "merken" können ...
ist aber mehr ein allgemeiner Anstoss sich zu Fragen ob das noch etwas bringt ...

Frank Qy. schrieb:

Wir interessieren uns meist für die Ratings der letzten Version einer Engine. Nur in wenigen Fällen kommt es vor, dass eine neuere Version nicht das Rating der Vorversion erreicht und mithin schlechter nach Elo bewertet wird. Wenn nun viele verschiedene Gegner vorliegen benötigen wir meines Erachtens weniger Partien für ein stabiles Rating.


Schön das du das "meines Erachtens" hier einfügst. "Meine Erachten" und das jedes Mathematikers ist ein anderes.

Frank Qy. schrieb:

Klar ... ein Rating mit nur 1.000 Partien und 20 Gegner wird mehr aussagen als ein Rating nach 1.000 Partien bei nur 2 Gegner.


Überhaupt nicht "Klar", im Gegenteil, das ist falsch (ich glaube allerdings du meinst das)! Ein Rating gegen 20 Gegen mit 1000 Spielen zeigt das Verhältniss dieser 20 Engines mit einer gewissen Genauigkeit. Das Rating von zwei Engines mit 1000 Partien zeigt eben nur das Verhältniss dieser zwei Engines - dafür mit größerer Genauigkeit. Ein "mehr" an Aussagen gibt es da nicht, es sagt etwas anderes. Dir "gefällt" das erste besser, es "ist" aber nicht "besser".

Frank Qy. schrieb:

...

Nun habe ich mir mal die Arbeit gemacht und meine derzeit 175950 umfassende Datenbank der 45-Minuten Partien näher unter die Lupe genommen. 60 unterschiedliche Engines sind derzeit aufgenommen. Diese 60 Engines spielten 71.500 Partien in den jeweils letzten Versionen gegeneinander. Am wenigsten Gegner hatten Equinox, Fire, GullChess und Critter. Diese vier spielten 1.800 Partien, also demnach bei 50-Partien Matches 36 Gegner. Alle anderen 56 Engines hatten mehr unterschiedliche Gegner.

Soweit so gut ...

Ich denke mir, dass nun die Ratingliste dieser 71.500 Partien interessanter und auch aussagekräftiger ist als die Ratingliste der kompletten 179950 Partien. Ganz einfach, weil keine der 60 Programme gegen einen Gegner in unterschiedlichen Versionen doppelt oder mehrfach antreten musste. Diese Ratingliste findet sich am Ende vom Posting und wenn ich nun die beiden Ratinglisten vergleiche (mit der aller Partien) kann festgestellt, dass dann doch einige Engines bis zu 6 Elo von der Ratingliste mit allen Partien abweichen. Spricht auf der einen Seite für eine sehr gute Genauigkeit der Liste aller Partien auch wenn dann Engines gar bis zu 7x in unterschiedlichen Versionen auftauchen.


Guck an, mache ich mit der RRRL seit Jahren. Allerdings mit anderer Begründung und wenn schon versucht werden soll die Gegnerschaft zu vereinheitlichen um eine bessere Vergleichbarkeit hin zu bekommen, sollte man dann nicht auch konsequenterweise die Eröffnungen, Hardware, Zeitkontrolle etc. vereinheitlichen, um noch "besser" Vergleichen zu können ... (hmm sieht so aus als hat das schon jemand gemacht )

Frank Qy. schrieb:

...
Ich denke es geht sehr viel genauer, wenn wir einfach für die Berechnung nur immer eine Version einer Engine verwenden.


Nicht genauer, das ist etwas anderes! (S. o, hatten wir schon)

Frank Qy. schrieb:

Funktioniert aber nur dann wenn wir wirklich viele Gegner haben weil sonst meist zu wenige Partien für eine Berechnung vorliegen.


Nein, wenn sich Leute nur für die 5 besten Engines interessieren, weil nur die in der Praxis für diese Leute eine Rolle spielen, so ist das völlig legitim und nachzuvollziehen (solange genug Partien gespielt werden). Wäre nicht mein "Ding", aber ich kann den Ansatz schon verstehen (allerdings wüßten wir nicht welche die 5 besten sind, wenn ausnahmslos jeder nur die vermeintlich 5 besten testen würde. Insofern "schmarotzen" da einige an anderer Leute "Arbeit" )

Frank Qy. schrieb:

Die anderen Listenbetreiber haben bei den aktuellen TOP-60 nicht so viele Gegner wie jetzt im Vergleich zu mir (will nicht protzig daherkommen ... darum geht es mir nicht). Eher ...


Tue Gutes und rede darüber. Auch das ist legitim!

Frank Qy. schrieb:

Was gefällt besser: Betrifft jetzt meine Arbeit!


Am Ende kommst du zum Punkt: "Was gefällt besser"? Mehr ist es leider nicht.

Frank Qy. schrieb:

Die Liste aller Partien ... mit x Stockfish und Komodo Versionen und der Tatsache dann dann Engines wie Zappa oder Senpei im Ergebnis immer wieder gegen Stockfish und Komodo antreten mussten und die Ratings dieser Engines dadurch leicht verzerrt werden oder ...
Eine Liste bei der nur die beste Version einer Engine eingeht?


Ja, das ist ein Problem. Wenn Komodo im Blitz nicht so gut ausgerechnet mit seinem schärfsten Gegener SF zurechtkommt und eine Liste mit relativ kurzer Bedenkzeit einen Großteil der Spiele von Komodo gegen X verschiedene Stockfische (womöglich noch gleiche Stockfische mit wachsender Kernanzahl)  spielt, wird der Abstand von K zu SF größer erscheinen als er ist.
Leider interessiert das 99% der Webseitenbesucher nicht. Niemand macht sich die Mühe das mal aufzudröseln ... wieder "leider"
(und ich muß zugeben das ist schon theoretisch und könnte sich in meinem oben kritisierten Elobereich bewegen! Vielleicht sollte ich diesen Absatz doch mit einem "Ja, theoretisch ist das ein Problem" beginnen sollen)

Frank Qy. schrieb:

...
Meines Erachtens stellt diese Liste die maximal mögliche Genauigkeit dar (geht natürlich besser wenn jetzt noch mehr Partien vorliegen ... eine Frage der Zeit).


https://www.youtube.com/watch?v=X9uRCKtaOCU

Die Liste mit der "Maximal möglichen Genauigkeit" in deinem Sinne ist eine in dem der von erbetene Faktor "OppDiv" gleich der Anzahl der Gegner ist UND für alle Engines einer Liste die selbe Zahl enthält. (Wäre der Fall bei der RRRL, ich spare mir aber, das Offensichtliche dort anzuzeigen) Wenn das so ist, ist übrigens auch der "OppErr" redundant, weil er "fast" identisch ist für alle Engines..

Gruß
Ingo
Parent - - By Frank Qy. Date 2016-02-13 15:44
Hallo Ingo,

nur weil es keine Berechnungsgrundlage für das Verhältnis Anzahl der Partien in Kombination zu Anzahl der Gegner gibt sollten wir nicht hingehen und und den Umstand ignorieren bzw. argumentieren was irgendwelche Mathematiker herausgefunden haben welche diese Komponente offenbar gar nicht auf dem Schirm hatten. Wobei irgendwelche nicht abwertend gemeint ist, gab nur so viele davon.

Richtig ist natürlich, dass bei 1.000 Partien, ermittelt zwischen 2 oder 20 Engines, das Ergebnis jeweils korrekt ist wenn es darum geht wie es im Verhältnis zwischen den eingesetzten Testkandidaten ausschaut. Das streite ich nicht ab allerdings spiegelt Elo eine allgemeine Spielstärkeeinstufung wieder, nicht zuletzt weil wir kaum etwas vergleichbares haben.

Du sagst ja auch nicht Karpow hat 2.700 Elo, ermittelt gegen 10 oder gegen 400 Spielern. Du sagst Karpow hat eine Elo von 2.700. Wir hegen den Anspruch eine möglichst genaue Einstufung einer Engine zu erhalten.

Kein User würde sagen ...
Komodo hat 3.200 Elo bei 16 Gegnern und 3.175 Elo bei 32 Gegnern, sondern Komodo hat x Elo.

Auf der einen Seite wollen wir genau sein, auf der anderen Seite vergleichen wir Äpfel mit Birnen. Vergleichen CEGT mit IPON oder von mir aus meiner Ratingliste ... was so nicht so ganz korrekt ist wenn mittels unterschiedlichen Beeinflussungsfaktoren ermittelt.

Selbst versuche ich unter den Voraussetzungen, die mich interessieren, ein möglichst realitätsnahes Ergebnis zu erhalten unter der Prämisse dies mit so wenigen Partien wie möglich zu bewirken. So ganz nach dem Grundsatz, mit den geringsten Mitteln den größtmöglichen Erfolg und hinter den Faktor mit den geringsten Mitteln verbirgt sich für mich ... mit weniger Partien.

Oh, doch es ist viel mehr ...
Während eines Test-Runs wird viel genauer dargestellt ob sich eine Engine verbessert hat ... selbst kleine Verbesserungen in Elo werden sichtbar durch viele Gegner und deutlich weniger Partien. Es muss nur richtig dargestellt werden.

Auch wenn ich Deine Arbeit keinesfalls angreifen möchte aber bei weniger Gegnern passiert immer wieder gleiches. Schaue in Deine Liste, schaue auf Elo von denen die unten stehen, vergleiche das mit meiner Liga 1 Tabelle. Engines oben oder unten in einer Liste weichen um ca. durchschnittlich 20 Elo ab. Das ist dann bei meiner Liga 1 Turniertabelle nicht anders als bei Dir. In einer Liste mit vielen Gegnern wird genau das minimiert. Das wird richtig schön ersichtlich wenn meine Liga 1 Turniertabelle mit der Ratingliste verglichen wird. Was bringen mir dann 10.000 Partien wenn sich daran nichts ändert und schon die Darstellung von 2.000 Partien dies deutlich aufzeigt wenn einfach mehr Gegner vorhanden sind.

Möchte keine Streitdiskussion zumal diverse Ansichten unterschiedlich sind. Um das nochmals klar zu stellen, ich will keine andere Arbeit angreifen und schaue selbst oft und gern auf Deine Liste wenn gleich ich Deine Zahlen sicherlich anders lese als Du es tust aufgrund unterschiedlicher Sichtweisen.

Viele Grüße und ein schönes WE.

Gruß
Frank

Komodo und Stockfish
Meine Meinung war hier immer sehr klar. Stockfish spielt einfach zu oft Remis gegen schwächere. Das wird aus jedem meiner Test-Runs sehr deutlich. Contemp funktioniert bei Komodo extrem gut. Fraglich ist ob Komodo bei längeren Bedenkzeiten besser als Stockfish ist. Vermutlich eher nicht, glaube nicht so wirklich daran. Wenn dann liegt das maximal vermutlich in einem kaum messbaren Bereich. Komodo 9.3 ist minimal besser als Komodo 9.2. Vielleicht 10 Elo. Das bei Dir dann Stockfish vorne liegt ist für mich logisch bei den Bedingungen die Du einsetzt. Eigene Ergebnisse sollten auch gar nicht in Frage gestellt werden. Was interessanter ist ... wie kann ich etwas verbessern, genau das versuchen die Programmierer und genau das versuche ich natürlich mit dem was ich tue auch. Mit der Darstellung der FCP Test Rating Liste bin ich sehr zufrieden (endlich bin ich mal selbst zufrieden, bin eher auch immer zu kritisch, auch mit eigenen Dingen).

Die neuen Ordo Optionen zeigen mir beim Betrachten einer Ratingliste ... wie viele Gegner. Gleiche Anzahl an Partien. Bei der Darstellung Deiner Liste und gleicher Anzahl an Partien ist es im Grunde egal denn es ist klar das Du 15 Gegner hast. In anderen Listen ist das beim Betrachten nicht klar. Es ist einfach geil zu sehen das ein Rating mittels 50 Partien sauber gegen 59 Gegner erzielt wurde. Entspricht meinen Ansprüchen bei Engines die in der Mitte einer Liste stehen. Erst Recht wenn ich jetzt beginne zu simulieren ... einfach mal 10 weg nehmen und schauen wie sich ein Rating verändert. Einfach geil ... es verändert sich kaum etwas ... bleibt im +-2 Elo Bereich. Glaube mir ich habe bzw. mache deutlich mehr von diesen Statistiken bevor ich etwas veröffentliche wenn gleich ich zugegeben muss das ich mich natürlich auch hier und da habe irren lassen weil ich Stats einfach falsch angepackt habe.

Von gleichen Eröffnungsvorgaben halte ich absolut nichts.
Es ist scheiß egal ob eine Engine eine gleiche Eröffnung mit weiß oder schwarz spielt oder unterschiedliche wenn diese ausgeglichen sind. Die Partie entscheidet sich nicht direkt nach der Eröffnung wenn diese ausgeglichen ist. Es wird zwar vorgegaukelt das eine Beeinflussungsfaktor ausgeschaltet wird aber letztendlich ist es keiner.
Parent - - By Ingo B. Date 2016-02-13 16:46
Frank Qy. schrieb:

...
nur weil es keine Berechnungsgrundlage für das Verhältnis Anzahl der Partien in Kombination zu Anzahl der Gegner gibt sollten wir nicht hingehen und und den Umstand ignorieren bzw. argumentieren was irgendwelche Mathematiker herausgefunden haben welche diese Komponente offenbar gar nicht auf dem Schirm hatten. Wobei irgendwelche nicht abwertend gemeint ist, gab nur so viele davon.


Frank, ich vermute es hat dir noch keiner gesagt, aber immer wenn du deine selbsterdachte Mathematik über verschiedene mathematische Größen stellst machst du dich lächerlich. Sorry.

Frank Qy. schrieb:

Schaue in Deine Liste, schaue auf Elo von denen die unten stehen, vergleiche das mit meiner Liga 1 Tabelle. Engines oben oder unten in einer Liste weichen um ca. durchschnittlich 20 Elo ab. Das ist dann bei meiner Liga 1 Turniertabelle nicht anders als bei Dir.


Wenn du das ordentlich vergleichts, aber das ist schon einen Tick kompliziertert als "eine Elozahl ablesen". Hatte ich dir mal auseinandergesetzt.

Frank Qy. schrieb:

...
In einer Liste mit vielen Gegnern wird genau das minimiert.
...


Du minimierst nichts, du optimierst dir vielleicht etwas zu Recht wie du es gerne hättest...
Sorry aber wenn jemand an die eigene Mathematik oder auch Astrologie glauben will kann man (ich!) nicht mehr weiter.

Gruß
Ingo
Parent - - By Frank Qy. Date 2016-02-13 18:07
Ingo,

wir unterhalten uns ins 100 Jahren nochmal.
Bis dahin ist mein Eröffnungsbuch so weit optimiert bzw. alles mit F deaktiviert wurde das nur noch 1. e4 übrig geblieben ist.
Dann präsentiere ich meine Buchversion 104.87 ganz stolz und Millionen von Downloads werden als Resultat herhalten.

Spätestens dann ... kommt Dein Einsatz.

Aber doch nicht bei diesen eindeutigen Dingen wo doch nun wirklich alles dokumentiert ist.
Vielleicht findet sich ja mal ein Mathematiker der ein wenig aufräumt und vorhandenes weiter verbessert.

Stehe nicht so lange still, Hunde könnten Dich mit einem Baum verwechseln.
Steht auf meiner Kaffeetasse zum Thema Steinbock ... Steinböcke von wichtiger Bedeutung hat es noch nie gegeben.

Fest steht aber ... der Kaffee schmeckt gut!

Gruß
Frank
Parent - - By Klaus Meier Date 2016-02-13 20:44
Frank Qy. schrieb:


Vielleicht findet sich ja mal ein Mathematiker der ein wenig aufräumt und vorhandenes weiter verbessert.



Hmmm da versprichst du dir viel von Mathematikern.
Bin mir inzwischen recht sicher, das Mthematiker und vor allem Statistiker mit ihren abstakten Vorstellungen
das Schachspiel nur verderben können, anstatt etwas daran zu verbessern.
Parent - - By Frank Qy. Date 2016-02-14 07:11
Hallo Klaus,

da magst Du nicht ganz Unrecht haben, zumal die Schönheit des Spiels selbst auf der Strecke bleibt. Nur wird uns Menschen langfristig gar nichts anderes übrig bleiben wenn wir etwas beurteilen möchten was weit über unseren Horizont liegt. Die Spielstärke von Schachprogrammen ist auf einem Level angelangt wo es so langsam beginnt das wir mehr Statistiken benötigen um überhaupt noch selbst zu erkennen. Ingo hat in seinem Posting die Mathematiker angesprochen. Wir neigen dazu auf etwas rumzureiten und als gegeben hinzunehmen. Ich finde das bedeutet Stillstand. Es ist meines Erachtens absolut klar, dass ein Rating durch mehrere Gegner in der finalen Spielstärkeaussage "griffiger" wird.

Die Frage ist, ob es die Masse interessiert wenn sich die Mehrzahl von Interessenten eh nur die TOP-Programme anschauen. So möchten wir wissen wie das Verhältnis unter den TOP-Programmen ist. Bei dieser Betrachtungsweise reichen auch die Gegner aus, die für die Beantwortung der Frage oben stehen. Dafür muss ich nicht komplett Fußball Deutschland in eine Liste einpicken um festzustellen wie stark Bayern München ist.

Es ist ja nicht so dass ich Meinungen nicht akzeptieren möchte aber ich denke es ist absolut nicht korrekt seine Meinung anderen aufzuzwingen. Der Eindruck entsteht sicherlich immer wenn eine Person aktiv wird aber ich bin mir sicher das beabsichtigen die Personen meist gar nicht. Ich bin froh dass es gerade beim Computerschach immer viele verschiedene Meinungen und Ansichten gibt weil dadurch langfristig immer neue Ideen geboren werden und sich kein Stillstand aufdrängt.

Alles wird gut ... so lange wir an irgend etwas basteln was uns interessiert.
Egal was es ist.

Gruß
Frank
Parent - By Klaus Meier Date 2016-02-14 11:59
Frank Qy. schrieb:


Alles wird gut ... so lange wir an irgend etwas basteln was uns interessiert.
Egal was es ist.

Gruß
Frank


Zustimmung.
Auf Mathematiker bin ich vermutlich immer noch ertwas verärgert, weil ich mal in jungen Jahren
kurz einen Mathe-Lehrer hatte, der so schlecht war, das ich plötzlich dem Mathematik Unterricht nicht mehr folgen konnte.
Du musst dabei wissen, das früher die Mathe eines meiner beiden Ausgleichsfächer zu meinen schwachen Englisch, Geschichte und Erdkunde Noten war.
Nachdem der alte völlig unfähige Mathe-Lehrer dann glücklicherweise schon nach einem Schuljahr in Pension entlassen wurde, kamen meine Mathe-Noten schnell wieder ins Lot.
Lehrer sind eigentlich auch keine Mathematiker. Die Mathe-Leher in den Schulen fühlen sich jedoch als solche.
Grüße
K.M.
Parent - By Klaus Meier Date 2016-02-14 07:59
Klaus Meier schrieb:


Hmmm da versprichst du dir viel von Mathematikern.
Bin mir inzwischen recht sicher, das Mthematiker und vor allem Statistiker mit ihren abstakten Vorstellungen
das Schachspiel nur verderben können, anstatt etwas daran zu verbessern.


Was mir dazu noch einfällt...
Beispielsweise der ungarische Statistiker Arpad Elo hat zum Schachspiel nichts beigetragen.
Keine Verbesserung der Eröffnungstheorie ist da bekannt von dem Manne. Schachlich war der Mann leider eine absolute Niete.

Zu seiner eigenen Erfindung des Elo Bewertunsmodells soll er sich dann auch selbst sehr kritisch geäussert haben.
Er selbst sagte über das von ihm entwickelte System: „Manchmal denke ich, ich habe Frankensteins Monster erschaffen!
Die jungen Spieler interessieren sich mehr für die Elo-Wertung als für die Dinge auf dem Brett.“

Seitdem wird ja nun auch kaum noch Schach gespielt stattdessen wird Elo gespielt.
Mein Vorschlag, wir benennen den Schachturniersaal einfach um in Eloturniersaal
Parent - By Frank Qy. Date 2016-02-14 07:45
Hallo,

das ist immer wieder interessant (egal mit welcher Engine simuliert).

Achten wir jetzt mal auf Hiarcs ...

Spielstärke:

Code:
Alle Partien:
21 Hiarcs 14 WCSC w32               : 2832.5   6350   51.7   41.6    6.4  2824.2  112.6   10.9


Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


FCT League 1:
http://www.amateurschach.de/ftptrigger/fct-l1.html

Wo sind denn urplötzlich die 20 Elo geblieben ...
Würde es doch nur 21 Engines geben die schlechter als Hiarcs sind ... dann wird es deutlich ...
Ach die gibt es ja ...

FCT League 2:
http://www.amateurschach.de/ftptrigger/fct-l2.html

Da sind sie ja wieder ...
Die verlorenen 20 Brüder in Elo ...

Ist immer das gleiche wobei hier zwei Sachen beachtet werden müssen:

- Der Elo Unterschied in Liga 1 von Platz 01 - 21 beträgt derzeit: 372,9 Elo. Der Elo Unterschied in Liga 2 von Platz 22 - 42 beträgt 107,6 Elo. Je höher die Differenzen desto mehr unsicher die Ratings auf den letzten Plätzen (so gut sind unsere Mathematiker hinsichtlich ErrorBar, die Du über den Jordan jagen kannst).

- Gleiches ist zu vermuten wenn nun bei einer Liste mit größeren Differenzen die Betrachtung zur Nummer 1 geht. Die Elo wird zu hoch sein. Bei aber nur 106 Elo Differenz wie in Liga 2 hält sich alles im normalen Rahmen.

Es gibt so viele Betrachtungsweisen um eine Spielstärkeaussage in Elo richtig zu deuten. Glaube bei der Masse an unterschiedlichen Ergebnissen scheint das heute wirklich eine Kunst zu sein.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Idee für Darstellung der Ratingliste ... Eindrücke?!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill