Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Frage zu Start-ELO in Bayesian Elo Rating
- - By Frank Rahde Date 2010-12-22 16:40
Bei meinem erstmaligen Einsatz des Programms mit einer test-pgn bekam ich folgenden Input:
Code:
   1 Houdini 1.5 x64          201   42   40   219   76%   -12   12%
   2 Naum 4.1                   9   19   19   723   55%   -22   36%
   3 protector-136-OM3        -12   14   13  1401   47%    16   43%
   4 Protector_OM4            -13   17   17   881   52%   -25   46%
   5 Protector OM2            -23   16   16   996   50%   -21   48%
   6 Protector 1.3.4 JA x64   -28   21   21   591   49%   -23   39%
   7 Protector 1.3.6 x64      -41   62   62    69   50%   -43   30%
   8 Hiarcs13.1MP             -43   20   20   693   47%   -25   33%
   9 protector-134-64-ja      -51   19   20   667   44%   -15   39%


Wie (mit welchem Befehl) kann ich ein gewöhnliches vierstelliges Rating anzeigen lasse und nicht wie im Beispiel nur die relativen Elo-Abstände? Werden die ELO-Angaben in der pgn herangezogen (hoffentlich nicht)?

Danke+Gruß, Frank
Parent - - By Frank Quisinsky Date 2010-12-22 16:43
Hi Frank,

Du hast noch nie eine Datenbank von meinen Seiten heruntergeladen!
Das ist der Beweis, dabei gebe ich mir doch so viel Mühe mit den Datenbanken.

Lade Dir eine Datenbank von meinem Downloadbereich.
Dann sind alle Deine Fragen beantwortet.

Müsstest zu den Bayesian Files (hast dann ein Beispiel) lediglich die bayesian.exe kopieren und die Bayesian Files von mir anpassen. In 2 Minuten erledigt.

Viel Erfolg
Gruß
Frank
Parent - - By Frank Rahde Date 2010-12-22 17:01
Hallo Frank,

ich verstehe nur Bahnhof. Ich will doch meine eigene große pgn-Datenbank voller Engine-Games auswerten lassen, nicht eine von Deinen. Das unbefriedigende Ergebnis meines Tests mit dem Prog habe ich ja dargestellt. Ich habe dann mal "?" eingetippt in der Eingabeaufforderung, werde aber von den möglichen Kommandos erschlagen. Mein Englisch hilft mir dummerweise grad wenig.
Anscheinend muss ich mit der ELO-Angaben wie "201" leben... An sich genügt das Ergebnis, weil es die Differenzen aufzeigt, aber ich hätte gern gewusst, wie ihr die Eichung hinbekommt.

Gruß, Frank
Parent - - By Frank Rahde Date 2010-12-22 17:09
Hab was gefunden:
"offset 2800 Naum 4.1", wenn ich alles an dieser Engine mit diesem Elo-Wert ausrichten wöllte. Stimmts?

Gruß, Frank
Parent - By Frank Rahde Date 2010-12-22 17:18
Bin schon weiter:

Code:
Rank Name                     Elo    +    - games score oppo. draws
   1 Houdini 1.5 x64         2913   42   40   219   76%  2700   12%
   2 Naum 4.1                2721   19   19   723   55%  2690   36%
   3 protector-136-OM3       2700   14   13  1401   47%  2728   43%
   4 Protector_OM4           2699   17   17   881   52%  2687   46%
   5 Protector OM2           2689   16   16   996   50%  2691   48%
   6 Protector 1.3.4 JA x64  2684   21   21   591   49%  2689   39%
   7 Protector 1.3.6 x64     2671   62   62    69   50%  2669   30%
   8 Hiarcs13.1MP            2669   20   20   693   47%  2687   33%
   9 protector-134-64-ja     2661   19   20   667   44%  2697   39%


Ist nur eine Testdatei, die eigentliche pgn muss ich noch in den Benamungen verbessern und bei der Anzahl der Partien ins Gleichgewicht bringen...

Keine Angst, ich will keine neue Ratingliste als Konkurrenz aufstellen, sondern für mich als Beta-Tester...

Gruß, Frank
Parent - - By Frank Quisinsky Date 2010-12-22 17:13 Edited 2010-12-22 17:18
Hallo Frank,

nochmals, lade einfach eine Datenbank von meinen Webseiten und Du findest neben der *.pgn Datenbank eine *.cui und eine *.cmd Datei. Dann kopierst Du die bayesian.exe dazu. Änderst die *.cmd und *.cui nach Deinen Wünschen, löscht meine *.pgn Datenbank, kopierst Deine *.pgn Datenbank hinzu und Dein Problem ist gelöst.

Warum mit der Datenbank?
Dann kannst Du zunächst mal ausprobieren und wirst die *.cui und *.cmd direkt verstehen.
Sonst ufert das in einem langen Thread aus!

Gruß
Frank
Parent - By Frank Rahde Date 2010-12-22 17:19
Danke, Frank.

Jetzt verstehe ich, was Du meinst. Ja, ich werde mir das mal bei Dir anschauen.

Gruß, Frank
Parent - - By Frank Rahde Date 2010-12-27 12:00
Hallo Frank,

coole Sache, hat sehr gut funktioniert. Danke! Aber wie bekomme ich Aktualisierungen der Dateien "programs.dat" und "ratings-elostat.dat" für mich hin, basierend auf meiner Datenbank? Geht das nicht auch automatisch?

Gruß, Frank R.
Parent - - By Frank Quisinsky Date 2010-12-27 12:09
Hi Frank,

programs.dat oder ratings-elostat.dat sind die ELOstat 1.3 files.
ELOstat ist das zweite Berechnungsprogramm neben Bayesian.

ratings-elostat.dat ... ist von mir umbenannt.
Nach der ELOstat Ausgabe schimpft sich diese Datei rating.dat.

Und da Du jetzt bestimmt weiter fragst.
summary.txt ist eine Datei die das PGN tool summary von Norm Pollock fabriziert.

Also in meinen Download Dateien sind:

- *.pgn file der Datenbank
- summary.txt produziert vom Tool summary von Norm Pollock (die Ausgabe von Summary wurde auch in summary.txt umbenannt).
- Bayesian 0056 Dateien: Eine *.cui und eine *.cmd Datei und die ratings-bayesian.txt (Ausgabe Datei von mir umbenannt)
- ELOstat 1.3 Dateien: cluster.dat, general.dat, programs.dat und die ratings.dat die von mir in ratings-elostat.dat umbenannt wurde.

Gehe beim Umbenennen so vor damit die Ausgabedateien einfach zuzordnen sind bzw. einfacher zu erkennen sind (ratings-bayesian odre ratings-elostat).

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2010-12-27 12:58
Hi Frank !

[quote="Frank Quisinsky"]
[...snip...]
ELOstat ist das zweite Berechnungsprogramm neben Bayesian.
[...snip...]
[/quote]

Genau anders herum muss es heissen:
Bayesian ist das zweite Berechnungsprogramm neben ELO-Stat !

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2010-12-27 16:43
Hi Gerhard,

von der zeitlichen Abfolge
Wäre schön wenn die CEGT auf Bayesian umstellt, dann wären die größeren Listen zumindest alle dahingehend kompatibel.
Leider berechnet derzeit nur noch CEGT mit ELOstat.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2010-12-27 17:09
Hi Frank !

Besser wäre es zu schreiben, dass die CEGT
"Gott sei Dank" mit ELO-Stat auswertet.

Viele Grüsse,
G.S.
Parent - - By Ingo Bauer Date 2010-12-27 17:36
Hallo Gerhard,

[quote="Gerhard Sonnabend"]
Hi Frank !

Besser wäre es zu schreiben, dass die CEGT
"Gott sei Dank" mit ELO-Stat auswertet.

[/quote]

Warum wäre das besser? Ich bin kein Mathematiker aber Bayselo schint mir wesentlich durchdachter als Elostat, auch bei Kagle und dem dortigen Elowettbewerb liefen ja Elostat und Bayes mit. Bayes hat deutlich besser abgeschnitten im Vorhersagen der möglichen Ratings (wenngleich viel schlechter als der Gewinner). Ich jedenfalls sehe keinen Grund bei Elostat zu bleiben dewegen würde mich interessieren ob einen Grund jenseits von "das war schon immer so" gibt.

Gruß
Ingo
Parent - - By Gerhard Sonnabend Date 2010-12-27 18:51
Ganz einfach:
Linux, dass bessere OS...ääh, ELO-Stat, das bessere....



Viele Grüsse,
G.S.
Parent - - By Kurt Utzinger Date 2010-12-27 19:48
[quote="Gerhard Sonnabend"]
Ganz einfach:
Linux, dass bessere OS...ääh, ELO-Stat, das bessere....



Viele Grüsse,
G.S.
[/quote]

... die Katze lässt das Mausen nicht

Kurt
Parent - - By Frank Quisinsky Date 2010-12-27 20:29
Hallo Kurt,

jetzt komm nicht auch noch mit einer Katze um die Ecke.
Hast schon einen Hund.

Oder Du inszenierst bzw. kopierst dieses Forum nun auch für zu Hause!



Gruß
Frank

Und für Gerhard ... Du hältst ELOstat wenigstens die Stange!
Auch solche Dinge sind wichtig
Parent - By Kurt Utzinger Date 2010-12-27 20:48
[quote="Frank Quisinsky"]
Hallo Kurt,

jetzt komm nicht auch noch mit einer Katze um die Ecke.
Hast schon einen Hund.

Oder Du inszenierst bzw. kopierst dieses Forum nun auch für zu Hause!



Gruß
Frank

Und für Gerhard ... Du hältst ELOstat wenigstens die Stange!
Auch solche Dinge sind wichtig
[/quote]

Hallo Frank
Natürlich haben wir nebst dem Hund auch noch eine Katze (die
zweite ist leider überfahren worden), denn wir sind ein tierverrückte
Familie ... bis letztes Jahr gehörte gar noch ein Pferd dazu.
Gruss
Kurt
Parent - - By Frank Rahde Date 2010-12-27 13:07
Danke für den Tipp. Was mich stark irritiert, sind die gegensätzlichen Auswertungsergebnisse. Ich meine bei Stockfish. Wie kann das so verdreht sein? Auch wird die zugrundeliegende gleiche pgn-Datenbank anscheinend unterschiedlich ausgelesen (siehe Anzahl der Partien: Prot 1.4 mal mit 300 Partien, mal mit 299 Partien??).

Nach ELO-Stat:

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Protector 1.4.0 x64            : 2840   30  30   299    60.9 %   2763   43.5 %
  2 Stockfish 1.9 x64 ja           : 2791   35  35   250    51.8 %   2778   34.8 %
  3 Naum 4.1 x64                   : 2772   28  28   379    51.6 %   2761   37.7 %
  4 Protector 1.3.6 x64 OM4        : 2757   27  27   336    53.4 %   2733   46.1 %
  5 Deep Junior 12 UCI             : 2738   45  44   150    52.3 %   2722   36.7 %
  6 Protector 1.3.6 x64 OM3        : 2727   19  19   703    47.4 %   2745   47.5 %
  7 Protector 1.3.6 rev370 64 JA   : 2723   38  38   201    47.3 %   2742   38.8 %
  8 Zappa Mexico II x64            : 2713   36  36   201    47.3 %   2732   43.8 %
  9 Protector 1.3.6 x64 OM2        : 2682   23  23   442    48.1 %   2695   48.2 %
10 Protector 1.3.4 JA x64         : 2682   33  33   265    50.6 %   2678   37.7 %
11 Hiarcs13.1MP                   : 2665   39  39   210    41.9 %   2722   33.3 %
12 Protector 1.3.6 x64 OM1        : 2619   54  58    50    41.0 %   2682   66.0 %


nach Bayes:

Code:
Rank Name                           Elo    +    - games score oppo. draws
   1 Stockfish 1.9 x64 ja          2887   36   34   250   76%  2713   34%
   2 Protector 1.3.6 x64 OM4       2750   28   27   336   53%  2728   46%
   3 Naum 4.1 x64                  2731   27   26   379   53%  2709   38%
   4 Deep Junior 12 UCI            2722   42   42   150   52%  2708   37%
   5 Protector 1.3.6 x64 OM3       2705   19   19   704   47%  2726   48%
   6 Protector 1.4.0 x64           2702   29   30   300   39%  2774   43%
   7 Protector 1.3.6 rev370 64 JA  2696   36   36   200   48%  2713   39%
   8 Zappa Mexico II x64           2695   35   36   200   47%  2711   44%
   9 Protector 1.3.6 x64 OM2       2669   24   24   442   48%  2681   48%
  10 Protector 1.3.4 JA x64        2668   32   32   265   51%  2665   38%
  11 Hiarcs13.1MP                  2651   36   36   210   42%  2707   33%
  12 Protector 1.3.6 x64 OM1       2621   65   66    50   41%  2669   66%


Ich meine die erstpatzierten Stockfish und Protector 1.3.6. Wie kann das so verdreht sein? Auch wird die zugrundeliegende gleiche pgn-Datenbank anscheinend unterschiedlich gelesen (siehe Anzahl der Partien).

Gruß, Frank R.
Parent - - By Frank Quisinsky Date 2010-12-27 16:20
Hallo Frank,

auf diese Umstände habe ich z. B. schon x-mal im Forum oder auf meiner Aktuell Seite hingewiesen. Siehst Du, irgend wann beschäftigen sich die Leute damit und wenn nicht kommt dann ... dieses Ratinglisten-Zeug interessiert uns nicht. Aber wenn dann die ersten eigenen Versuche unternommen werden (meine jetzt nicht Dich) dann kommen diese Fragen auf.

Es macht Sinn mal ein wenig hinter die Kulissen zu schauen wenn für so viele Personen die Computerschachratings eine so immense Bedeutung zukommt.

In Kurzform:
Bayesian wertet die Remisquote strenger als ELOstat. Das ist meines Erachtens auch richtig. Fertige Dir mal Just for Fun eine Excel Tabelle an und setze die Fussballwertung ein.
Gewonnen 3 Punkte und Remis einen Punkt. Dann wird deutlich ... grob gesagt ... wie Bayesian vorgeht.

Auch ist Bayesian aussagekräftiger hinsichtlich der ersten Plätze und der letzten Plätze in einer Ratingliste.

Kann auch einfach festgestellt werden:
Betrachte die Abweichungen bei einem Vergleich der wie folgt ausschauen könnte:
Nehme meine Datenbank mit 75.000 Partien hierfür.

Lösche alle Engines von Platz 1-20 aus der Datenbank.
Engine 21 liegt auf Platz 1

Fertige eine neue Ratingliste von Platz 20-117 und schaue mal um wie viel ELO die neue Nummer 1 (ehemals Platz 21) von dieser Liste im Vergleich zu der Liste aller Partien abweicht. Werte aus mit ELOstat und Bayesian. Gleiches Spielchen wenn Du das mit den Engines machst die auf den letzten Plätzen liegen.

Hingegen die Engines in der Mitte von den beiden Berechnungsprogrammen fast gleich bewertet werden.

Also es gibt augenscheinlich 2 Unterschiede zwischen ELOstat und Bayesian.

Und zu Deinem Test ...
Sagt leider hinsichtlich der Protector Versionen wenig aus. Sind einfach zu wenige Gegner und Partien. Kommst so nicht zu der Aussage ... Protector x ist besser als Protector y. Hinzu kommt leider der Tatbestand, dass in den letzten Monaten kaum messbares bei den vielen Protector Versionen herausgekommen ist. Habe ja unzählige schon in meiner Liste aufgenommen. Ca. Mitte Januar teste ich mal die aktuelle Protector Version, steht ja auf meiner Liste aber ich bin mir sicher es wird auch hier kaum ein großen Plus dabei herauskommen.

Aber, was augenscheinlich bei Protector ist ...
Von Version zu Version spielt die Engine aggressiver und insofern gehört Protector für mich zu den interessantesten Engines in der SWCR.

Viele Grüße
Frank
Parent - - By Frank Rahde Date 2010-12-27 16:29 Edited 2010-12-27 16:32
Danke für die Hinweise.

Wenn aber Stockfish eindeutig die bessere Engine ist, mit Riesenvorsprung (siehe Baysean), kann sie doch nicht bei ELO-Stat so schlecht dastehen. Umgekehrt: Prot 1.4 ist in der einen Liste mittendrin, in der anderen Liste ganz oben?! Ich mag nicht glauben, dass die Auswertungen so radikal voneinander abweichen. Ich mag jetzt keiner der beiden "Listen" glauben.

Meine Datenbank wird noch wachsen (größere Partienmenge) und erweitert (weitere Engines). Ich will mind. 500 Partien pro Engine erreichen usw. Dann ist das schon aussagekräftig genug, denke ich. Es geht mir ja nicht um eine Mega-Rangliste, sondern um einen Betatest (Engine-Matches im Vergleich zu Vorgängern).

Gruß, Frank

PS: Wie erklärst Du Dir die Partiezahlen, die unterschiedlich pro Engines (vergleiche beide Listen) angegeben werden: Wie kann ELO-Stat Partien unterschlagen (alle haben ein eindeutiges Ergebnis)?! Ich verlasse mich eher auf Bayesan, aber dann habe ich nicht den Automatismus bei der Erzeugung der individuellen Statistiken...
Parent - By Frank Quisinsky Date 2010-12-27 16:37 Edited 2010-12-27 16:39
Hi Frank,

Möglichkeit 1:
Beim Beta Testen wäre es interessanter sich mittels der SWCR die Angstgegner von Protector heraus zu selektieren oder ...

Möglichkeit 2:
Nehme doch einfach die SWCR Datenbank als Datenbasis.
Spiele unter den SWCR Bedingungen mit neuen Versionen dann sparst Du Dir sehr viel Arbeit.
So gehen mittlerweile übrigens 4 mir bekannte Programmierer vor, daher werde ich auch zukünftig öfters die aktuelle Datenbank auf meine Download Seite setzen.

Und woran Du glaubst oder nicht ...
Schwierig bei den Auswertungsprogrammen aber wenn Du dich mit den Auswertungen näher beschäftigst, wird es für Dich deutlicher werden und Du wirst Bayesian den Vortritt geben.

Ich bin der Meinung, dass keines der beiden Programmen perfekte Auswertungen produziert. Aber auch das ELO-System ist veraltet und steht in der Kritik. Das schreit alles nach einer gründlichen Überarbeitung + neues Berechnungsprogramm.

Viel Spaß beim Beta Testen und Auswerten Deiner Ergebnissen.
Mache es Dir nicht so schwierig ... nehme die SWCR Datenbank als Datenbasis (Nachteil: Müsstest mit meinen Rahmenbedingungen testen ... die sich aber bewährt haben) !!

Gruß
Frank
Parent - - By Ingo Bauer Date 2010-12-27 17:04 Edited 2010-12-27 17:11
Hallo Frank,

[quote="Frank Rahde"]

Wenn aber Stockfish eindeutig die bessere Engine ist, mit Riesenvorsprung (siehe Baysean), kann sie doch nicht bei ELO-Stat so schlecht dastehen. Umgekehrt: Prot 1.4 ist in der einen Liste mittendrin, in der anderen Liste ganz oben?! Ich mag nicht glauben, dass die Auswertungen so radikal voneinander abweichen. Ich mag jetzt keiner der beiden "Listen" glauben.

...

PS: Wie erklärst Du Dir die Partiezahlen, die unterschiedlich pro Engines (vergleiche beide Listen) angegeben werden: Wie kann ELO-Stat Partien unterschlagen (alle haben ein eindeutiges Ergebnis)?! Ich verlasse mich eher auf Bayesan, aber dann habe ich nicht den Automatismus bei der Erzeugung der individuellen Statistiken...
[/quote]

Du hast schon Recht, irgendetwas stimmt da nicht. Bei mir ist das nicht so. Wichtig ist das man eine saubere PGN behält.

Hast du dein PGN von Hand zusammnkopiert, also mit cut and paste in einem editor zusammengefügt? Wenn ja fehlen dir eventuell abstände zw. einzelnen Partien die vorgeschrieben sind und die das ein Programm braucht, das andere nicht. Auch schreibst du das überall Ergebnisse vorhanden sind, bist du da sicher. Es könnte auch eine Partie vorhanden sein, aber kein Ergebniss (line bei der CB GUI).

Ich würde die PGN nehmen, in ein Datenbank Programm übernehmen (CB, SCID ...) und dann mal sehr genau hinschauen. Das Protector 1.4 (wo gibts den?) mal erster und mal mittendrin ist, ist seltsam. Ich nehme an das dort einige SPiele vorhanden sind die eine Programm ordentlichen parsen (lesen) kann, das andere nicht.
Beide Programme, also Elostat und Bayeselo, funktinieren in ihrem Rahmen einwandfrei.

protector 1.4 hat einmal einen Score von 39%, einmal 60% bei gleicher Remisquote. Ich bin ziemlich sicher, dass deine PGN irgendwie "zerschossen" ist.

Schick mir ne PM, ich dir dann mein Email, ich schau mal kurz rein wenn du willst.

Gruß
Ingo
Parent - - By Frank Rahde Date 2010-12-27 17:31
Hallo Ingo,

Dein Hinweis auf korrupte pgn durch Copy & Paste war der Knaller!   Ich habe aus meiner cbh (die ich durch Copy & Paste befülle, da ich die Engine-Matches unter Aquarium 4 durchführe und dort mittels Export die Partien an eine temporäre pgn anhänge, aus der ich wiederum in die cbh hineinkopiere) eine frische pgn gemacht in CB11.

Jetzt sehen die Ergebnisse authentisch aus! (habe beide Listen auf Zappa Mexico II mit ELO 2713 geeicht:

ELO-Stat:

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Stockfish 1.9 x64 ja           : 2939   37  36   250    76.0 %   2739   34.4 %
  2 Protector 1.3.6 x64 OM4        : 2778   27  27   336    53.4 %   2754   46.1 %
  3 Naum 4.1 x64                   : 2757   28  28   379    53.4 %   2734   37.7 %
  4 Deep Junior 12 UCI             : 2745   45  44   150    52.3 %   2729   36.7 %
  5 Protector 1.4.0 x64            : 2732   30  30   300    39.3 %   2808   43.3 %
  6 Protector 1.3.6 x64 OM3        : 2730   19  19   704    46.9 %   2751   47.6 %
  7 Protector 1.3.6 rev370 64 JA   : 2717   38  38   200    47.5 %   2734   39.0 %
  8 Zappa Mexico II x64            : 2713   36  36   200    47.0 %   2734   44.0 %
  9 Protector 1.3.6 x64 OM2        : 2683   23  23   442    48.1 %   2696   48.2 %
10 Protector 1.3.4 JA x64         : 2683   33  33   265    50.6 %   2679   37.7 %
11 Hiarcs13.1MP                   : 2672   39  39   210    41.9 %   2728   33.3 %
12 Protector 1.3.6 x64 OM1        : 2619   54  58    50    41.0 %   2682   66.0 %


Bayesan:

Code:
Rank Name                           Elo    +    - games score oppo. draws
   1 Stockfish 1.9 x64 ja          2905   36   34   250   76%  2731   34%
   2 Protector 1.3.6 x64 OM4       2768   28   27   336   53%  2746   46%
   3 Naum 4.1 x64                  2749   27   26   379   53%  2727   38%
   4 Deep Junior 12 UCI            2740   42   42   150   52%  2726   37%
   5 Protector 1.3.6 x64 OM3       2723   19   19   704   47%  2744   48%
   6 Protector 1.4.0 x64           2720   29   30   300   39%  2792   43%
   7 Protector 1.3.6 rev370 64 JA  2714   36   36   200   48%  2731   39%
   8 Zappa Mexico II x64           2713   35   36   200   47%  2729   44%
   9 Protector 1.3.6 x64 OM2       2687   24   24   442   48%  2699   48%
  10 Protector 1.3.4 JA x64        2686   32   32   265   51%  2683   38%
  11 Hiarcs13.1MP                  2669   36   36   210   42%  2725   33%
  12 Protector 1.3.6 x64 OM1       2639   65   66    50   41%  2687   66%
Parent - By Ingo Bauer Date 2010-12-27 17:39
[quote="Frank Rahde"]
...Ich habe aus meiner cbh (die ich durch Copy & Paste befülle, da ich die Engine-Matches unter Aquarium 4 durchführe und dort mittels Export die Partien an eine temporäre pgn anhänge, aus der ich wiederum in die cbh hineinkopiere) ...
[/quote]

Schön das ich dir helfen konnte, aber dein obiges Verfahren schreit regelrecht nach Problemen!

Gruß
Ingo
Parent - - By Frank Rahde Date 2010-12-27 17:37
Protector 1.4 ist der neue Releasekandidat.

Aber er scheint mir etwas schwächer zu sein als die Experimentalversion "OM4", die ich zuletzt im CSS OM Turnier verwenden durfte. Mal sehen, ob das Ergebnis so bleibt. Immerhin siehst Du hier bei aller Vorsicht (zu wenige Partien etc.) einen großen Abstand von 82 (Bayesan) bzw. 95 "Elo"-Pünktchen (ELO-Stat) zwischen Prot 1.3.4 (wie ihn Frank Q. noch benutzt) und der besten Prot-Version OM4.

Gruß, Frank
Parent - - By Ingo Bauer Date 2010-12-27 17:40 Edited 2010-12-27 17:45
82 Elo wären toll,

Wenn es eine 1.4 gibt könnte ich die glatt mal wieder ausprobieren!

Was das "schwächer" betrifft, so hast du 3 Elo Differenz bei einer Error bar von 30 ... das ist ein defakto "gleich"!

Es scheint dich hat auch der Testerwahn befallen - schade, noch eine verlorene Seele!

Gruß
Ingo
Parent - By Frank Rahde Date 2010-12-27 18:10
Hast recht. Der "Fehlerkorridor" ist zu beachten. Ich hoffe nicht, dass ich im Testfieber gelandet bin, habe nur einen Quad-Rechner und führe keine offizielle Rangliste wie Du. Es macht aber Spaß, diese Tools zu entdecken und ich will ja aussagekräftige Statistiken und Listen liefern. Du und Frank, ihr habt mir schon geholfen, ich hatte auch auf Eure Antworten gehofft.

Gruß, Frank R.
Parent - - By Frank Quisinsky Date 2010-12-27 17:55 Edited 2010-12-27 17:58
Hallo Frank,

Korrektur:
Derzeit ist Protector 1.3.6 Rev. 370 im Test.
Diese Version ist von den 6 veröffentlichten Protector 1.3.6 Versionen die vierte, also danach kam noch Rev. 379 und 387.
Nach jetzt 900 Partien liegt Protector 1.3.6 Rev. 370 12 ELO hinter Protector 1.3.4 x64, welche auch nicht die letzte war die ich getestet hatte aber die bislang Beste.

Bei Protector ist das schon fast wie mit den IvanHoe Versionen. Deine Versionsbeschreibungen machen alles noch komplizierter denn niemand weiß was Du da genau testest!
Es reicht eigentlich alle drei Monate mal eine neue Version zu testen wenn zu viele veröffentlicht werden.

Wird dieses Spielchen mitgespielt (selbst wenn möglich) wittern die Programmierer Lunte und es kommt jeden Tag etwas neues, denn die Partien werden ja zum Download angeboten. So werden die Ratinglistenbetreiber die Beta Tester für alle getesteten Engines. Das ist auch nicht im Sinne des Erfinders. Im letzten Jahr haben meinen Maschinen schon weit über 6.000 Protector Partien gespielt!

Also, wenn zu oft upgedatet wird muss ich mir noch etwas einfallen lassen.
Gut ist, alle drei Monate mal testen ... reicht oder wenn dann noch öfters als oft upgedatet wird gibt es eine Strafe ... Auszeit für 6 Monate da ich davon ausgehen muss das zu heftig entwickelt wird. Es wäre z. B. immer gut in diesen Fällen wenn der Programmierer ein paar Infos zu den vielen Versionen gibt.

z. B. diese Version hat sich beim internen Test bewährt und könnte z. B. bei einer Ratingliste getestet werden. Don Dailey geht hier gerade mit gutem Beispiel voran!

Gruß
Frank
Parent - - By Frank Rahde Date 2010-12-27 18:07
Hallo Frank,

das Du nicht jede Engine-Version testest, verstehe ich. Das war auch kein Vorwurf. Ich bezog mich übrigens auf Deine 64bit-Liste (siehe http://wwww.amateurschach.de/swcr/_x64.htm), in der nur Prot 1.3.6 rev 370 gelistet ist. Mich interessieren diese rev-Versionen nicht, ich verwende derzeit nur die von Raimund (die wurden dann nicht extern umgemodelt). Meine Bezeichnungen "OMx" sind übrigens eher intern und daher ohne Belang, da musst Du noch nicht durchsehen, denn es sind reine Experimentalversionen. Wenn Protector 1.4 herauskommt, ist die Bezeichnung dann ja eindeutig.   Könntest bis dahin mit deinem Test warten...

Gruß, Frank
Parent - - By Frank Quisinsky Date 2010-12-27 18:16 Edited 2010-12-27 18:20
Hi Frank,

meine 64-bit Liste ist und bleibt so lange ein Problem wie das laufende SWCR-64 Turnier nicht zu Ende gespielt wird.
Daher kann ich nicht updaten.

Aber Du findest ja auf meiner Startseite die aktuelle Ratingliste aller Partien und im Downloadbereich die Datenbank aller Partien.
Für die Übergangszeit in der dieses mächtige Update Turnier mit 11 Engines läuft ist das OK so.

Verschiebt sich alles ein wenig weil ich 8 Spießroutenläufe dazwischen geschoben habe, also 8.000 Partien aufgrund der vielen Updates.

Komme vor Mitte Januar eh nicht dazu einen neuen Protector zu testen
Muss das Turnier zu Ende spielen lassen. Erst Recht weil bei mir alles strukturiert ist und aufeinander aufbaut.
Daher ist der laufende Test mit Rybka 4 Exp. 61 nun wirklich der vorerst letzte Spießroutenlauf.

Also, schaue auf die Liste aller Partien, entweder ...

Hier im Forum in den Threads zu den neuen Spießroutenläufen oder auf meinen Webseiten (Startseite ... Ratings, actual situation).

Gruß
Frank

Code:
Protector 1.3.4 JA x64       2712   14   14  1720   50%  2711   37%
Protector 1.3.6-370 JA x64   2700   20   20   905   45%  2739   33% NEW -  12
Protector 1.3.5 x64          2685   20   20   840   47%  2707   39%
Protector 1.3.4 JA w32       2679   14   14  1600   47%  2701   39%
Protector 1.3.2 w32          2673   16   17  1160   47%  2695   41%
Protector 1.3.5 JA w32       2669   20   20   840   44%  2711   42%
Protector 1.3.1b w32         2666   19   19   840   47%  2689   42%


= 7.905 Partien von Protector ...
Bei Version 1.3.5 gab es ein Problem bei der JA Version, daher wurde die Version von Raimund selbst getestet.
Bei 1.3.2 kam die JA Version erst später, bei 1.31b gab es noch keine JA (Jim Ablett) Version.

Die SWCR-64 gibt es erst seit Juni 2010. Mit Hochdruck wird diese Liste aufgebaut, mitlerweile über 40.000 Partien!
Daher wurden bis dato nur die 32bit Versionen getestet.

Schaust Du auf die Ergebnisse wird es klarer ...
Kein wesentlicher Fortschritt!

Gruß
Frank
Parent - - By Frank Rahde Date 2010-12-27 18:29
Hast eine beeindruckende Menge an Partien von Protector!! Ja, bei Deiner Engine-Sammlung ist kein Fortschritt zu erkennen.

Protector 1.3.6 x64 OM4 liegt bei mir 82 Elo-Pünktchen vor der bei dir als beste gelistete "Protector 1.3.4 JA x64" (siehe oben). Ich gehe davon aus, dass Raimund daher ein kleiner Fortschritt gelungen ist, der am Ende vermutlich ca. 50 ELO ausmachen könnte. Ich weiß, ich habe noch zu wenig Partien, aber das wird schon noch. Ich könnte natürlich auf Deiner Datenbank aufsetzen, hätte ich es doch nur eher gewusst!! Nun will ich meine Partien mit den neuesten Protector-Versionen aber nicht wegwerfen, die unter etwas anderer Zeitkontrolle und Bedingungen entstanden sind: 2+1, Ponder=on, 12 Eröffnungszüge erlaubt, jede Eröffnung 2x usw.

Zumindest werde ich Deine Protector-Partien mit beachten. Könnte ich nicht diese Partien in meine Datenbank kopieren und trotz anderer Testbedingungen davon ausgehen, dass Bayes sie adäquat mit integriert?!

Gruß, Frank
Parent - - By Frank Quisinsky Date 2010-12-27 18:42 Edited 2010-12-27 18:45
Hallo Frank,

Partien in die Tonne drücken gehört zum Tester-Alltag

Ganz ehrlich wenn Du z. B. 3.000 Partien von Protector Versionen bei 2+1 hast, wäre es nicht so schlimm die Tonne zu nutzen. Denn bei diesen Zeitkontrollen muss Du mehr Partien haben als bei höheren Zeitkontrollen. Diese Erfahrung habe ich mit der eingestellten SWCR Blitz-Ratingliste auch schon gesammelt. Je höher die Bedenkzeit und je mehr Gegnerschaft Du verwendest, desto weniger Partien sind notwendig. Leider sind diese Faktoren nicht in den bekannten ELO-Berechnungsprogrammen ELOstat und Bayesian integriert (nicht nach meinem Wissen und beim ELOstat Beta Test habe ich aktiv mitgewerkelt). Nach meinen Statistiken aber absolut klar und eindeutig der Fall.

Drückst Du also 3.000 Blitzpartien in die Tonne ist das nicht schlimm, denn Du hast 75.000 40-Minuten Partien bereits vorliegen.
Darauf könntest Du aufbauen um deutlich bessere Test-Resultate zu erzielen.

Beispiel:
Du hast einen Quad Core, könntest 2 Partien gleichzeitig mit Ponder = on testen.
70 Partien pro Tag wären möglich. 600 Partien wären für einen Test einer neuen Version nach meinen Statistiken ausreichend.
Dafür benötigst Du genau ... 8,5 Tage!

Willst Du die Partien dann auch noch auswerten brauchst Du dieses Material um überhaupt eine Aussage treffen zu können.

Und, wenn Du nicht alle kommerziellen Versionen hast, es sind 34 Engines in der SWCR derzeit integriert.
Schaffe Dir ein Testfeld von 20 Engines aus der SWCR Liste und lasse diese 20 Engines dann 30 Partien im Spießroutenlauf gegen Protector Versionen antreten.
Füge die Daten in die SWCR Datenbank und Du hast ein richtig gutes Ergebnis, sowohl hinsichtlich Anhaltspunkt wie stark die neue Version ist als auch genug Testmaterial um auf Fehlersuche zu gehen.

Mixen würde ich die SWCR Datenbank mit Blitzergebnissen nicht.
Willst Du Dich beim Beta Testen auf Blitz fixieren (würde ich niemals tun) dann sollltest Du mal Gerhard fragen ob er Dir die CEGT Blitzdatenbank zur Verfügung stellt. So könntest Du die CEGT Blitzdatenbank und deren Einstellungen und Rahmenbedingungen auch für Deinen Protector Test nutzen.

Sind nur so ein paar Überlegungen.
Persönlich bin ich froh wenn die SWCR Daten auch rege genutzt werden, dass ist Sinn und Zweck dieser sehr aufwendigen Aktion!

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2010-12-27 18:46
[quote="Frank Quisinsky"]
[...snip...]
Willst Du Dich beim Beta Testen auf Blitz fixieren (würde ich niemals tun) dann sollltest Du mal Gerhard fragen ob er Dir die CEGT Blitzdatenbank zur Verfügung stellt. So könntest Du die CEGT Blitzdatenbank und deren Einstellungen und Rahmenbedingungen auch für Deinen Protector Test nutzen.
[...snip...]
[/quote]

Dafür muss man G.S. nicht fragen, die komplette
CEGT-Blitz-Datenbank steht jedem zum DL zur Verfügung, siehe:
http://www.husvankempen.de/nunn/downloads/40_4/downloads.htm
Parent - - By Frank Rahde Date 2010-12-27 19:06
[quote="Frank Quisinsky"]

Beispiel:
Du hast einen Quad Core, könntest 2 Partien gleichzeitig mit Ponder = on testen.
70 Partien pro Tag wären möglich. 600 Partien wären für einen Test einer neuen Version nach meinen Statistiken ausreichend.
Dafür benötigst Du genau ... 8,5 Tage!

[/quote]

Hallo Frank,

könntest Du das bitte genauer ausführen?! Ich lasse derzeit nur ein Enginematch laufen auf meinem Quad, da ich jeder Engine 2 Cores gebe (mit Pondern). Damit sind schon alle vier Kerne ausgelastet! Ich könnte höchstens zwei Engine-Matches laufen lassen, aber dann müsste ich 1 Core pro Engine verteilen, das wäre dann aber keine Messung der Multi-Core-Leistung mehr, oder?! Bestimmte Engine profitieren doch davon im Vergleich zum Singlemodus. Macht das Sinn, mittendrin dann die Core-Verteilung bei den Testbedingungen zu ändern?! Wäre gut zu wissen. Klar, bei 1 Core pro Engine könnte ich 2 Matches laufen lassen, mehr Partien erzielen. Leider kann ich nicht unter Aquarium 2 Matches zugleich spielen... Welche GUI erlaubt 2 Matches zugleich?

Danke+Gruß, Frank
Parent - By Frank Quisinsky Date 2010-12-27 19:22
Hi Frank,

müsstest unter der Shredder GUI testen. Dort kannst Du ein Turnier konfigurieren und 2x die GUI starten bzw. dann das Turnier spielen lassen. Spießroutenlauf als Turnier. Funktioniert via Netzwerk und wenn Du es dann noch besonders spannend machen möchtest dann setze im CSS Forum noch einen Link zum laufenden LIVE-Beta-Test von Protector wie Ingo und meine Wenigkeit das machen.

Derzeit verfolgen z. B. 810 Leute den laufenden Test von Rybka 4 Exp. 61 auf meinen Webseiten (lt. zuverlässiger Serverstatistik). Meine eingebaute Homepage-Statistik auf den Seiten selbst gibt zwar nur ca. 350 aus aber viele haben sich offenbar den Link zu der LIVE Tabelle anders gesavt um die Webseiten nicht laufend aufzurufen. Was auch nicht unbedingt Sinn macht denn die verpassen ja die LIVE ELO-Berechnungen

Engine auf mehrere Cores testen macht keinen Sinn bei einem Beta Test. Du möchtest doch wissen wie stark die Engine bzw. die neue Version gegenüber der älteren geworden ist. Dafür musst Du nicht auf 2 Cores testen zumal oftmals die Ergebnisse nicht reproduziertbar sind und Raimund dadurch eh keinen Vorteil hätte.

Nutze die Shredder GUI, den Spießroutenlauf, konfiguriere 20 Engines als Gegner ... freundest Du dich mit der bewährten SWCR Testmethode an findest Du das SWCR Testbuch und alle Konfigurationen zu den bislang getesteten Engines auch auf meinen Webseiten.

Mit Arena, ChessBase oder Aquarium geht das alles nicht. So gut diese GUIs auch sind (alle GUIs haben Ihre Vor- und Nachteile) aber das kann wirklich nur Shredder und das in Perfektion! Auch wenn die Idee der Turniertabellen von Arena übernommen wurden und die Ideen von Arena beruhen dahingehend nicht nur von Martin sondern auch von mir. Aber Stefan hat viele Verbesserungen eingearbeitet wie z. B. die Netzwerkfunktionen.

Gruß
Frank

Wird ein langer Thread wenn Du jetzt jedes Detail erfragst.
Kannst mich auch anrufen, wäre einfacher ... irgendwie jetzt auch keine Lust mehr zu schreiben. Schreibe mir eh seit Jahren die Finger wund und die brauchen jetzt einfach mal eine Pause
Up Topic Hauptforen / CSS-Forum / Frage zu Start-ELO in Bayesian Elo Rating

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill