CEGT stellt auf Ordo um

By Frank Brenner Date 2014-08-02 18:44

Die Entscheidung ist sehr gut.

Ordo berechnet die Elo Zahlen exakt und macht nicht den elementaren Fehler den Elostat macht, nämlich Elo Zahlen mitteln. In dem iterationsprozess von Elostat konvergieren die Elozahlen gegen fehlerhafte Werte.

Wenn Sie wahren Elozahlen recht nah beinander liegen ist der Fehler nur gering, je weiter die Streuung der wahren Elowerte ist umso stärker ist der Konvergenzfehler von Elostat , auch bei hunderten millionen von Spielen.

By Frank Quisinsky Date 2014-08-02 18:55 Edited 2014-08-02 18:59

Hallo Frank,

finde auch das die Ausgaben plausibler sind.
In meiner History der Ergebnisse setze ich die Ausgaben von allen drei Programmen.
Alles auf Shredder mit 2.800 ... was über 2.800 steigt bei Ordo deutlicher an und logischer Weise was drunter geht fällt mehr ab. Eigentlich optimal wenn auf eine Engine geeicht wird die in der Mitte liegt, etwas verwirrend wenn Shredder z. B. auf Platz 21 liegen würde (würde im Vergleich mit anderen Listen zu einer kleinen Inflation führen).

Mit dem Ergebnis dass ich mich mit den reinen Unterschieden zwischen Platz 1 und 21 mehr anfreunden kann weil das für mich gefühlsmäßig auch realitätsnäher ausschaut. Remispartien werden auch logischer Bewertung (bei Bayesian hoher Einfluss bei EloStat kein Einfluss).

Werde das Problem der CEGT nicht haben aber ich finde das für den Einsatzzweck bei meinem kleinen fortlaufenden Turnier ganz interessant ist, was die 3 Programme ausgeben. Daher mache ich mir hier auch die Mühe und setze das alles in die Tabellen, leider immer mit Arbeit verbunden aber was solls.

Viele Grüße
Frank

Aus meiner History (Ergebnisse vor dem noch laufenden FCT1 Update Turnier).

Code:


    Programs                      Score       1-0  =  0-1          EloS  Baye  Ordo  +   -  Draws  MoveØ won<50 lost<50
 01. Stockfish 26.03.14 SSE42 x64  811.5/1000  649 325  26  81.2%   3065  3044  3091  19 19  32.5%   81     27       0
 02. Komodo TCECr x64              778.5/1000  609 339  52  77.8%   3031  3016  3055  19 18  33.9%   86     22       1
 03. GullChess 2.8 Beta BMI2 x64   716.5/1000  516 401  83  71.7%   2977  2968  2996  17 17  40.1%   90     11       3
 04. Fire 3.0 AVX x64              690.0/1000  486 408 106  69.0%   2956  2948  2973  17 17  40.8%   88      8       3
 05. Chiron 2.0 x64                580.0/1000  376 408 216  58.0%   2877  2874  2885  17 17  40.8%   85     14       6
 06. Hannibal 1.4b x64             572.5/1000  353 439 208  57.2%   2872  2868  2879  16 16  43.9%   91     10       5
 07. Protector 1.5.0 JA x64        540.5/1000  313 455 232  54.0%   2850  2848  2855  16 16  45.5%   88     10       5
 08. Senpai 1.0 SSE42 x64          512.0/1000  292 440 268  51.2%   2831  2830  2834  16 16  44.0%   88      4      10
 09. Hiarcs 14 WCSC w32            499.5/1000  269 461 270  50.0%   2823  2822  2825  16 16  46.1%   88     13       9
 10. Shredder 12 x64               465.5/1000  253 425 322  46.6%   2800  2800  2800  16 16  42.5%   88      7      12
 11. Texel 1.03 x64                459.5/1000  247 425 328  46.0%   2796  2795  2795  16 16  42.5%   90      7       6
 12. Junior 13.8.04 Yokohama x64   446.0/1000  236 420 344  44.6%   2787  2788  2785  16 16  42.0%   84     10       5
 13. Spike 1.4 Leiden w32          442.0/1000  235 414 351  44.2%   2785  2785  2782  17 17  41.4%   88      5      10
 14. Spark 1.0 x64                 421.5/1000  219 405 376  42.1%   2771  2772  2767  17 17  40.5%   87     20       0
 15. Quazar 0.4 x64                417.5/1000  208 419 373  41.8%   2768  2769  2764  16 17  41.9%  100      2       7
 16. Zappa Mexico II x64           403.0/1000  188 430 382  40.3%   2758  2760  2753  16 16  43.0%   90      6      10
 17. Gaviota 1.0 AVX x64           369.0/1000  177 384 439  36.9%   2735  2736  2727  17 17  38.4%   86      3      23
 18. Deuterium 14.2.33.276 x64     363.5/1000  155 417 428  36.4%   2731  2735  2723  17 17  41.7%   83      2      32
 19. Vajolet2 1.28 POP x64         359.0/1000  159 400 441  35.9%   2727  2731  2719  17 17  40.0%   88      1      12
 20. SmarThink 1.50 SSE3 x64       338.5/1000  162 353 485  33.9%   2712  2715  2703  18 18  35.3%   84      5      16
 21. Nirvanachess 1.6 x64          314.0/1000  131 366 503  31.4%   2694  2700  2683  18 18  36.6%   87      5      17

By Frank Brenner Date 2014-08-02 19:09

du bist doppelt im Irrtum. Dein gefühl täuscht dich. Ordo nimmt keine Notitz von Remis. Es berechnet nur anhand der erzielten Punktzahl, egal wie hoch die Remisquote ist.

Ein weiterer Irrtum: Die Elo werte sehen nicht gefühlsmässig genauer aus, sondern sie sind es auch. Dies hat mathematische Gründe, denn ordo berechnet die Elo Werte so genau wie möglich. Aufgrund der nicht 100%igen Transitivität hatte Frank Schubert seinerzeit probleme einen besseren konvergenten Algorithmus zu finden und hat daher einen im Limes verkehrten Iterationsalgorithmus von Ken Thomson gewählt, der zwar stets konvergiert, aber leider gegen relativ falsche Werte.

By Frank Quisinsky Date 2014-08-02 19:18 Edited 2014-08-02 19:28

Hallo Frank,

nun editiere ich ja laufend die Ordo Zahlen hinzu.
Wenn Platz 19 eine niedrigere Punktzahl als Platz 20 hat (gleiche Anzahl an Partien) und aufgrund deutlich mehr Remispartien aber drüber steht ... muss ich davon ausgehen das!?
Ich hatte das dann auch immer mit Bayesian verglichen, aber Bayesian geht hier ziemlich krass zur Sache!

1. Es so ist wie ich schreibe
2. Ein Programmfehler vorliegt
3. Geistige Umnachtung beim Editieren bei mir vorhanden war (ist mir aber ehrlich gesagt schon 4-5x aufgefallen, schließe ich daher aus ... oder ich muss den Arzt aufsuchen)

4. Mal wieder ein Denkfehler meinerseits weil irgend etwas anderes in Kombination auch greift.

Zum weiteren Irrtum ...
Ich bin nicht der Mathematiker, der das so gut beurteilen kann wie Du es bekanntlich aufgrund von Deinem Wissen kannst. Ordo setze ich schon lange für meinen Auswertungen ein und anhand meiner Statistiken kann ich daher auch nur schreiben "gefühlsmäßig genauer". Ich hatte auch begonnen mich mehr mit dem Thema zu beschäftigen, habe auch einiges an Lektüre gesammelt aber vor kurzer Zeit das Thema abgebrochen. Alles schon gehört was Du schreibst und mal wieder alles vergessen was ich mir schon angelesen hatte. Das Thema ist nicht einfach oder ... mit mehr Jahren auf dem Buckel wird es schwieriger?

Insofern ...
Kann derzeit nicht mitreden aber höre Dir interessiert zu!

Viele Grüße
Frank

By Benno Hartwig Date 2014-08-02 22:11

> Ordo berechnet die Elo Zahlen exakt

Ich las auf https://sites.google.com/site/gaviotachessengine/ordo
"Ordo is a program to calculate ratings of individual chess engines (or players) with similar goals as ELO"
Ich will gern akzeptieren, dass das Ordo-Rating in sich schlüssiger und konsistenter sein mag als ELO.
Vielleicht ist 'besser' auch wirklich gerechtfertigt.
Aber Ordo berechnet dann doch nicht tatsächlich ELO, oder? Und schon gar nicht 'ELO-Werte' exakter.
Benno

By Frank Brenner Date 2014-08-03 00:38 Edited 2014-08-03 00:43

> Ich will gern akzeptieren, dass das Ordo-Rating in sich schlüssiger und konsistenter sein mag als ELO.

Nein, das ist es nicht.

Ordo berechnet die ELO Formel so wie sie in der Wikipedia steht. Die ELo Formel taucht auch in der doku von Ordo auf unter (3).

Du kannst das Ordo Progamm auch mit jeder beliebigen zweier-Begegnung testen und entsprechende PGN erstellen mit Spieler A und Spieler B wo A zb 65% gewinnt (oder mit einem beliebig anderen Prozentsatz. Dann stimmt die Ordo-Differenz genau mit der Elo Differenz überein.

Guckst du dir die Formel (3) aus der Ordo Dokumentation an:
Ob du nun e hoch oder 10 hoch berechnest und ob du durch 400 oder mit -beta malnimmst, spielt keine rolle. Dies ist letzlich nur eine lineare Skalierung. Das Ordo Programm ist per default nachträglich so skaliert worden dass es die selben resultate liefert wie ELO Formel.

Die ELO Formel aus der Wikipedia ist aber so direkt nur bei einer Begegnung von zwei Spielern anwendbar. Du kannst die Elo Zahl bzw den Erwartungswert direkt mit dem Taschenrechner ausrechnen.

Wenn viele Spieler untereinander spielen, so wird die Berechnung der ELO recht kniffelig, man kann nicht mehr einfach mit dem Taschenrechner den Score in die Formel einsetzen um den Elo wert zu erhalten. Dies ist viel schwieriger als man denkt.

Und Genau hier setzt dann EloStat bzw Ordo an.

EloStat basiert auf einem sehr einfachen iterationsalgorithmus, den jeder Schüler der 1 Jahr programmieren gelernt (egal welche Sprache) hat an einem Wochenende programmieren kann.

Ordo hingegen ist mathematisch deutlich anspruchsvoller und eine ganze Klasse intelligenter.
Sowohl Ken Thomson als auch Frank Schubert haben die schlaue Berechnungsmethode von Ordo nicht entdeckt.

EloStat berechnet die Elo Werte nur dann korrekt gemäß der Elo-Formel wenn es nur zwei Spieler in der PGN gibt.

hier ein Beispiel welches du selber nachprüfen kannst mit einem selbergebastelten PGN, welches Elo Stat ab 3 Spielern wiederlegt.

Wir haben zwei Spieler A und B mit folgenden ELO zahlen:

A: 2000
B: 1642

Diese Elozahlen sind mit hundertausenden von Spielen in einem PGN gesichert!

Sowohl EloStat als auch Ordo beherrschen die Auswertung von zweier-begegnungen perfekt und liefern exakt das ELO Ergebnis.

Nun kommt ein Spieler C dazu.
Den Spieler C modellieren wir so, dass er genau 2100 ELO haben soll.

Mit der ELO Formel (aus der Wikipedia) berechnen wir die theoretische Gewinnquote gegen A und gegen B

C vs A: 2100 ELO vs 2000 ELO --> 64 %
C vs B: 2100 ELO vs 1642 ELO --> 93.317 %

Also erweitern wir unser PGN mit 100 Spielen C Vs A mit 64 gewinnen und 36 Verlusten
und um weitere 1000 Partien mit 933 Gewinnen gegen B und 67 Verlusten gegen B

Danach schicken wir das PGN durch ordo und elostsat.

Bei Ordo erzielen wir dann in der Rangliste das wahre Ergebnis, nämlich
C: 2100
A: 2000
B: 1642

bei Elostat dagegen

C: 2072
A: 2000
B: 1645

Mit dem folgenden Resultat: Elostat macht hier einen großen Fehler indem es C 28 Elo weniger zubilligt als es eigentlich sein müsste. Dieser Fehler ist tief verwurzelt und kann auch nicht durch 1000 mal mehr spiele behoben werden.

Ordo hingegen stimmt exakt mit dem Erwartungswert überein den man per Hand mit der Eloformel berechnet hat.

Dieser Fehler kann beliebig groß werden bei elostat , nämlich dann wenn die Differenz zwischen A und B immer größer wird.

In fast allen Elolisten ist die Spanne zwischen dem ersten und dem letzten Platz größer als 355 ELO. EloStat berechnet hier also signifikante Fehler.

By Benno Hartwig Date 2014-08-04 09:09 Edited 2014-08-04 09:11

Thanx für die Ausführungen.
In einem alten Posting beklagte ich auch mal, dass die etablierten ELO-Berechnungen in solchen Fällen, wo die die Ergebnisse konkret nahelegten, welche Abstände 3 Engines haben sollten (A 100 ELO weniger als B, B 100 ELO weniger als C, A 200 ELO weniger als C) trotzdem eine ELO-Verteilung brachten, die dies nicht wiedergab.
"Benno, es ist so. Deine Intuition gilt eben nicht!" hieß es da.
Vielleicht handhabt Ordo das ja doch eher so, wie ich es intuitiv für richtiger halte. Mal näher ansehen...

Benno

By GS Date 2014-08-04 15:25 Upvotes 1

Hier mal eine Auflistung unserer 5'+3" pb=on Liste, unter
unterschiedlicher Verwendung zweier verschiedener Parameter.

Zuerst Parameter "-s #", perform # simulations to calulate errors.
Referenzpunkt ist immer Shredder 12 x64 mit 2800 ELO.


Liste mit "-s600"                                      Liste mit "-s10000"
 
   Program                   Elo    +    -  Games      Anmerkung nur falls abweichend
01 Houdini 4.0 x64          3146   18   18  1850       19   19
02 Stockfish 5.0 x64        3142   19   19  1800
03 Komodo 7.0a x64          3107   19   19  1750
04 Stockfish DD x64         3103   18   18  1800
05 Houdini 3.0 x64          3098   19   19  1850       18   18
06 Gull 3.0 x64             3083   18   18  1800
07 Komodo TCEC x64          3080   18   18  1750
08 Komodo 6.0 x64           3078   18   18  1750
09 Gull 2.8 beta x64        3049   18   18  1800
10 Stockfish 4.0 x64        3047   18   18  1800
11 Komodo 5.1r2 x64         3047   19   19  1750       18   18
12 Equinox 3.00 x64         3022   17   17  1850
13 Critter 1.6 x64          3015   18   18  1900       17   17
14 Gull 2.2 x64             3004   18   18  1800
15 Equinox 2.01 x64         3000   17   17  1850
16 Rybka 4.1 x64            2970   17   17  1900
17 BlackMamba 1.4 x64       2937   17   17  1900
18 Deep Fritz 14 x64        2921   18   18  1900       17   17
19 Chiron 2.0 x64           2911   17   17  1850
20 Protector 1.6.0 x64      2888   17   17  1850
21 Hannibal 1.4a x64        2865   18   18  1900       17   17
22 Chiron 1.5 x64           2861   17   17  1850
23 Texel 1.04 x64           2849   18   18  1850       17   17
24 Loop 2010-x x64          2844   16   16  1900       17   17
25 Senpai 1.0 x64           2842   17   17  1900
26 Protector 1.5.0 x64      2842   17   17  1850
27 Hiarcs 14                2836   18   18  1900       17   17
28 Naum 4.2 x64             2826   17   17  1900   
29 Fritz 13                 2821   18   18  1900       17   17
30 Deep Sjeng ct 2010 w32   2802   17   17  1900
31 Deep Shredder 12 x64     2800    0    0  1900
32 Texel 1.03 x64           2794   17   17  1850       18   18
33 Jonny 6.00 x64           2789   18   18  1900       17   17
34 Spike 1.4                2774   17   17  1900
35 Deep Junior 13.3 x64     2761   17   17  1900       18   18
36 Spark 1.0 x64            2757   17   17  1900       18   18
37 DiscoCheck 5.2 x64       2750   18   18  1900
38 Booot 5.2.0 x64          2747   18   18  1900
39 Quazar 0.4 x64           2743   18   18  1900

Man erkennt sehr schnell, dass "-s600" vollkommen ausreichend ist.

Nun ein Test mit dem Parameter "-W", white advantage, automatially adjusted


Liste mit "-s600" und "-W"                             Liste mit "-s600", jedoch OHNE "-W"
 
   Program                   Elo    +    -  Games       Elo    +    -
01 Houdini 4.0 x64          3146   18   18  1850       3140   19   19
02 Stockfish 5.0 x64        3142   19   19  1800       3136   18   18
03 Komodo 7.0a x64          3107   19   19  1750       3102   19   19
04 Stockfish DD x64         3103   18   18  1800       3097   18   18
05 Houdini 3.0 x64          3098   19   19  1850       3093   18   18
06 Gull 3.0 x64             3083   18   18  1800       3078   18   18
07 Komodo TCEC x64          3080   18   18  1750       3075   18   18
08 Komodo 6.0 x64           3078   18   18  1750       3073   17   17
09 Gull 2.8 beta x64        3049   18   18  1800       3044   18   18
10 Stockfish 4.0 x64        3047   18   18  1800       3043   18   18
11 Komodo 5.1r2 x64         3047   19   19  1750       3042   18   18
12 Equinox 3.00 x64         3022   17   17  1850       3018   16   16
13 Critter 1.6 x64          3015   18   18  1900       3011   17   17
14 Gull 2.2 x64             3004   18   18  1800       3001   18   18
15 Equinox 2.01 x64         3000   17   17  1850       2997   16   16
16 Rybka 4.1 x64            2970   17   17  1900       2967   17   17
17 BlackMamba 1.4 x64       2937   17   17  1900       2935   17   17
18 Deep Fritz 14 x64        2921   18   18  1900       2919   17   17
19 Chiron 2.0 x64           2911   17   17  1850       2909   17   17
20 Protector 1.6.0 x64      2888   17   17  1850       2887   16   16
21 Hannibal 1.4a x64        2865   18   18  1900       2863   17   17
22 Chiron 1.5 x64           2861   17   17  1850       2860   17   17
23 Texel 1.04 x64           2849   18   18  1850       2849   17   17
24 Loop 2010-x x64          2844   16   16  1900       2843   16   16
25 Senpai 1.0 x64           2842   17   17  1900       2841   16   16
26 Protector 1.5.0 x64      2842   17   17  1850       2841   17   17
27 Hiarcs 14                2836   18   18  1900       2836   17   17
28 Naum 4.2 x64             2826   17   17  1900       2826   17   17
29 Fritz 13                 2821   18   18  1900       2821   18   18
30 Deep Sjeng ct 2010 w32   2802   17   17  1900       2802   17   17
31 Deep Shredder 12 x64     2800    0    0  1900       2800    0    0
32 Texel 1.03 x64           2794   17   17  1850       2794   17   17
33 Jonny 6.00 x64           2789   18   18  1900       2789   17   17
34 Spike 1.4                2774   17   17  1900       2775   17   17
35 Deep Junior 13.3 x64     2761   17   17  1900       2761   16   16
36 Spark 1.0 x64            2757   17   17  1900       2758   17   17
37 DiscoCheck 5.2 x64       2750   18   18  1900       2751   17   17
38 Booot 5.2.0 x64          2747   18   18  1900       2748   17   17
39 Quazar 0.4 x64           2743   18   18  1900       2744   18   18

Hier passiert nicht viel, obwohl viele glauben und es immer wieder behaupten,
wie wichtig es doch sei zu unterschieden, ob denn mit Weiss oder Schwarz gespielt
resp. performed worden sei !!

--->
Alle Auswertungen durchgeführt mit Ordo v0.8-cegt23
--->

By Ingo B. Date 2014-08-04 17:00

GS schrieb:

Bei mir läuft das mit -s1000, und dauert schon ganz schön lange bis es durch ist. Wie lange duaert denn die 10000 bei euch?

GS schrieb:

Nun ein Test mit dem Parameter "-W", white advantage, automatially adjusted

Nicht das -W viel ausmacht, aber der läuft bei mir mit "falls" es mal etwas ausmacht. Wenn nicht schadet er auch nicht ....

Gruß
Ingo

By GS Date 2014-08-04 17:24

Hi Ingo !

Ingo B. schrieb:

Bei mir läuft das mit -s1000, und dauert schon ganz schön lange bis es durch ist. Wie lange duaert denn die 10000 bei euch?

Auf meinem i5 ca. 15 Minuten, auf dem Atom-Netbook dauert das natürlich lange.
Allerdings ist mir das egal, in der Zwischenzeit arbeite ich an etwas anderem.

Ingo B. schrieb:

Nicht das -W viel ausmacht, aber der läuft bei mir mit "falls" es mal etwas ausmacht. Wenn nicht schadet er auch nicht ....

Ja klar, ich lasse den Parameter auch drin.
Nur, es wird immer behauptet, dass man doch tunlichst berücksichtigen
sollte mit welcher Farbe denn die Punkte erzielt werden. Manchmal wird
gar gefordert einen halben und/oder einen ganzen Punkt mit Schwarz
höher zu bewerten als mit Weiss.
Wie man jedoch in der Praxis sieht spielt dies überhaupt keine Rolle.

Viele Grüsse,
G.S.

By Ingo B. Date 2014-08-04 18:32

GS schrieb:

...
Auf meinem i5 ca. 15 Minuten, auf dem Atom-Netbook dauert das natürlich lange.
Allerdings ist mir das egal, in der Zwischenzeit arbeite ich an etwas anderem.

Na ja, wenn man wie ich zwei, oder ihr X Listen machen muß, kommt da schon etwas Zeit zusammen ....

GS schrieb:

...
Nur, es wird immer behauptet, ....

Ja, es ist schon erstaunlich wie viel immer behaupter wird ...
Ein bisschen kann ich es verstehen. Menschen sind "psychologische Gebilde". Die haben manchmal ein Problem mit Schwarz oder mit einem bestimmten Gegner oder mit einer Zeitkontrolle oder schlechter Performance gegen schlechte Gegner oder zu viele Remisen oder, oder, oder. Und natürlich wird das verallgemeinert und die wenigen Spiele der Menschen untereineander auf eine große Masse and Spielen von Engines übertragen und dann gibt niemand zu das er zu Unrecht verallgemeinert ... so ist das halt.

Keep on testing
Ingo

By GS Date 2014-08-06 10:24

Hi Ingo !

Ingo B. schrieb:

Na ja, wenn man wie ich zwei, oder ihr X Listen machen muß, kommt da schon etwas Zeit zusammen ....
[...snip...]

Z.Zt. betreue ich die CEGT 40/4, 40/120, 5'+3" und meine eigenen 2 Listen.
Da kommt es auf 15 Minuten hin oder her nicht mehr an.

Am Montag habe ich zum ersten Mal die 40/4 mit Ordo erzeugen lassen; das ganze
hat doch tatsächlich 50 Minuten gedauert auf meinem Atom-Netbook.
Allerdings beinhaltet die DB z.Zt. 1.404.519 games von 1436 engines/versions,
da hatte Ordo schon etwas zu tun.
ELO-Stat braucht bei vergleichbaren Einstellungen die Hälfe der Zeit.

Nun sind, bis auf die CEGT 40/120, alle CEGT-Listen auf Ordo umgestellt und online.

Es gibt nun natürlich deutlich andere Zahlen, das Verhältnis der Engines zueinander jedoch
ist sehr vergleichbar geblieben, nachfolgend ein kleiner Ausschnitt, die TOP-10 der 40/4:

Code:


                          Auswertung    Auswertung
Engine                    mit ELO-Stat  mit Ordo v0.8

Stockfish 5.0 x64 8CPU    3257 +22 -22  3303 +24 -24
Komodo 7.0a x64 8CPU      3183 +26 -26  3228 +27 -27
Stockfish 5.0 x64 4CPU    3181 +13 -13  3221 +14 -14 
Houdini 4.0 x64 8CPU      3176 +30 -30  3219 +31 -31
Houdini 4.0 x64 4CPU      3175 +12 -12  3222 +13 -13
Houdini 3.0 x64 4CPU      3171 +10 -10  3206 +12 -12
Komodo 7.0a x64 4CPU      3167 +17 -17  3207 +20 -20
Stockfish 5.0 x64 2CPU    3162 +15 -15  3201 +18 -18
Komodo TCEC x64 4CPU      3150 +19 -19  3181 +23 -23
Stockfish DD x64 4CPU     3143 +11 -11  3182 +13 -13
...
Shredder 12 x64 1CPU      2800 + 5 - 5  2800

Z.Zt. ist diese Liste ein wenig chaotisch, da wir gerade erst mit "8-CPU" angefangen
haben und auch bei "4-CPU" noch einige Matches fehlen.

Viele Grüsse,
G.S.

By Tylor Date 2014-08-06 10:54

Das sind aber große Differenzen meines Erachtens! Die Engine Shredder 12 ist nun 503 Punkte hinter dem Spitzenreiter - vor einer Woche noch waren es "nur" deren 457?! Gibt es die alten cegt Listen noch irgendwo für weitere Vergleiche im Netz?

By GS Date 2014-08-07 11:52

Tylor schrieb:

Das sind aber große Differenzen meines Erachtens! Die Engine Shredder 12 ist nun 503 Punkte hinter dem Spitzenreiter - vor einer Woche noch waren es "nur" deren 457?!

Ordo "rechnet" anders resp. verwendet ein anderes Modell
als ELO-Stat, hält sich jedoch ebenfalls exakt an die ELO-Formel.

Tylor schrieb:

Gibt es die alten cegt Listen noch irgendwo für weitere Vergleiche im Netz?

Ja, unter:
http://www.cegt.net

Ist aber noch im Aufbau.

By Benno Hartwig Date 2014-08-08 16:18

> Z.Zt. ist diese Liste ein wenig chaotisch...

OK. Als dramatischer hatte ich es seinerzeit auch nicht darstellen wollen.
Benno

By Krug Peter Date 2014-08-02 19:20

Übrigens sehr spannende Liste!
Obwohl die Elozahlen eigentlich schon so "runtergedrückt" wurden.
So würde beispielsweise Hiarcs 10 unter menschliche Turnieren deutlich mehr elo haben.

Stockfish 5 mit 8 Cpu´s schwebt hoch oben.
Smirf dagegen ist vergleichbar wie eine Eidechse, die den Höhenflügen des Adlers (Stockfish)
nicht mehr nachfolgen kann.

Gruß Peter

By Reinhard Scharnagl Date 2014-08-02 20:43

Smirf jagt das Feld vor sich her!

... und hat sein angestammtes Biotop: 10x8

By Krug Peter Date 2014-08-04 01:26

Hallo geschätzter Reinhard,

Ja, Smirf hat ganz eigene Fähigkeiten und
in diesem Sinne nicht vergleichbar mit die anderen -
vorallem nicht mit den Ippoliten.

Schön dass es noch Menschen gibt, die eigene Ideen haben!
Schön, dass es Menschen gibt, die an sich selbst glauben!

- Mit melancholischen und sehr traurigen Grüßen

Peter

By Benno Hartwig Date 2014-08-02 22:17 Edited 2014-08-02 22:19

> So würde beispielsweise Hiarcs 10 unter menschliche Turnieren deutlich mehr elo haben.

Vermutlich werden wir nie so recht erfahren, ob 2 Engines, die im Computerumfeld 200 ELO auseinanderliegen, in einem Menschenumfeld ebenfalls ungefähr 200 ELO auseinanderliegen werden.
Ich befürchte halt, dass es nie mehr genügend Engine-Mensch-Partien geben wird, um so was bei den etwas besseren Engines beurteilen zu können.

Benno