Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR zu CEGT Vergleich am 30.08.2011
- - By Frank Quisinsky Date 2011-08-30 23:25 Edited 2011-08-30 23:33
Hallo,

1x im Jahr mache ich diesen Vergleich.
Möchte sehen ob ich diverse Engines vielleicht mehr Partien spielen lassen sollte.
Allerdings auch sehr fraglich, denn die SWCR hat meist bedeutend mehr Partien als die CEGT bei den getesteten Engines die verglichen werden können!

Beim letzten Vergleich, wie gesagt ca. vor einem Jahr, hatten wir 56 Ratings die verglichen werden konnten.
Derzeit sind es 101 Ratings, sehr schön!

Zu beachten ist:
- die CEGT testet seit geraumer Zeit verstärkt Engines mit mehreren Cores. In der SWCR wird nur Single getestet. Auffällig ist daher was der CEGT alles fehlt, denn selbst habe ich fast alles (natürlich nicht alle IvanHoes) sowohl als 32bit wie auch als 64bit durch jagen lassen.
- die CEGT gibt es länger, daher sind bei der SWCR natürlich nicht die Versionen älter als 2 Jahre enthalten. Eingie Oldies werde ich ja noch aufnehmen!
- die CEGT testet mehr Engines im unteren Amateurbereich, die SWCR ist noch nicht so weit.

Wer sich den Vergleich genauer anschaut wird feststellen:
Bei einem Core, sowohl 32bit als auch 64bit Engines der letzten 2 Jahre im TOP-30 Bereich ist die SWCR deutlich vorne. Nicht nur das, denn es wurden bedeutend mehr Partien bei 1-Core Engines gespielt als bei der CEGT. Von 101 Engines wartet die CEGT 18x mit mehr Partien auf. Ca. 60 Engine Updates der letzten 2 Jahre (meist 32bit) wurden von der CEGT nicht getestet.

Zu den Unterschieden:
Bin etwas überrascht, die guten Werte vom letzten Jahr sind ein wenig verflogen. Insbesondere gibt es deutlichere Abweichungen bei Stockfish und Junior Versionen. In der Tabelle in "Rot" gekennzeichnet.

Warum vergleiche ich mit der CEGT:
Die CEGT spielt 40 in 20 auf Pentium IV 2.0 GHZ Vergleichshardware ohne Ponder.
Ich spiele mit Ponder 40 in 10 auf Q9550 2.86GHz Hardware.

CEGT wäre bei Einberechnung des Ponder Faktors ca. 40 in 7 nach meinen SWCR Bedingungen.
CCRL wäre 40 in 14 ... im Vergleich zur SWCR, die Liste mit der durchschnittlich höchsten Bedenkzeit.
Daher vergleiche ich mit CEGT denn die Zeitbedingungen kommen der der SWCR sehr nahe.

Viel Spaß mit diesem Vergleich!

SWCR to CEGT Vergleich (einfache Gegenüberstellung):
http://www.amateurschach.de/swcr/swcr-to-cegt-30082011.htm

Gruß
Frank

Für den Vergleich habe ich mit ELOstat berechnet.
Die SWCR auf den CEGT Wert von Shredder 12 w32 geeicht.
Bekanntlich berechnet die CEGT mit ELOstat, ich selbst mit Bayesian.

Soll kein wer ist besser sein, eher schön zu sehen das sich die Listen auch gegenseitig ergänzen.
Was der eine nicht hat, hat der andere drin! Ferner ist die CEGT aufgrund der vielen getesteten Versionen aus den vergangenen Jahren viel stärker als die SWCR.
Die SWCR glänzt aber durch einen meines Erachtens durch strukturierten Ablauf. Klar, ich organisiere alleine, nicht in einer Gruppe (Gruppenarbeit ist schwieriger).
Parent - - By Benno Hartwig Date 2011-08-31 13:19
Schön, der Vergleich.
Und solche Vergleiche zwischen den größeren Listen sind immer interessant,
denn wenn da auffälige Unterschiede erscheinen, macht Sinn, sich über die Ursachen Gedanken zu machen.

Stockfish 2.01 schneidet bei dir bei w32 und x64 schlechter ab. Obwohl zwei Versionen so stark davon betroffen sind, könnte es reiner Zufall sein. Oder sind doch prinzipielle Randbedingungen denkbar, die SF bei dir benachteiligen oder bei CEGT bevorzugen?
Bei Junior 11 und 12 gilt dasselbe.

Critter hat z.B. 33 ELO Differenz.
Unter der Annahme gleicher Erwartunswerte für diese ELO-Schätzung: Wie groß mag die Wahrscheinlichkeit sein, dass der eine um mindestens 16,5 ELO zuviel erhält und der andere gleichzeitig um mindestens 16,5 zu wenig?
Gestattet diese vermutlich sehr kleine Wahrscheinlichkeit noch die Annahme 'reiner Zufall', oder sollte hier auch über andere Gründe nachgedacht werden.
Generell: erscheinen die Unterschiede mit 'Zufall' genügend plausibel erklärbar, oder sollte nach alternativen Gründen gefahndet werden?
Angaben zu 2 Kerne und 6 Kerne machen meiner Meinung nach die Listen vor allem unübersichtlich.

Ist die da bei 'Rybka 4 x64 Exp. 61' ein Fehler unterlaufen?

Sind die ELO-Zahlen durch deine auf-Shredder-Eichung auf ein Niveau gebracht worden? Die jeweiligen Listen gestatten ja lediglich nur einen Vergleich der Enginestärken,
Für einen Vergleich der Enginestärken aus unterschiedlichen Listen sollten die angeglichen werden (überprüfbar z.B. indem beide dann einen gleichen Mittelwert bilden)

Ich würde begrüßen, wenn CEGT die Übersichtlichkeit z.B. dadurch steigert, indem sie nur noch 1core-w32, 1core-x64 und 4core-x64 nutzt, präsentiert vielleicht in 4 Listen (neben diesen 3 Listen käme halt 'alles zusammen' dazu)
Und wenn man einen davon rauschmeißt? Dann vielleicht 1core-w32. ("Wer auf 32bit abfährt, den interessiert Spielstärke sowieso nicht sooo brennend!")

Benno
Parent - - By Benno Hartwig Date 2011-08-31 13:33
Sorry, zusammengehörende Sätze sind im Posting auseinandergerutscht. gemeint war:

"Ich würde begrüßen, wenn CEGT die Übersichtlichkeit z.B. dadurch steigert, indem sie nur noch 1core-w32, 1core-x64 und 4core-x64 nutzt, präsentiert vielleicht in 4 Listen (neben diesen 3 Listen käme halt 'alles zusammen' dazu).
Und wenn man einen davon rauschmeißt? Dann vielleicht 1core-w32. ("Wer auf 32bit abfährt, den interessiert Spielstärke sowieso nicht sooo brennend!")
Angaben zu 2 Kerne und 6 Kerne machen meiner Meinung nach die Listen vor allem unübersichtlich"
Parent - - By Frank Quisinsky Date 2011-08-31 15:39 Edited 2011-08-31 15:42
Hallo Benno,

beachte, Houdini liegt nur ca. 20 ELO bei der w32 hinter der x64 und ist die Nummer 1.
20 ELO sind kaum zu bemerken und mit wenig Zeit mehr bei einer Analyse leicht zu kompensieren.

Die x64 Hype ist meines Erachtens immer noch stark überdreht, zumal wenn nur die Nummer 1 zählt (und viele denken so) sind 20 ELO nicht der Rede Wert. Viele weitere Engines stehen lediglich als 32bit zur Verfügung bzw. ist der Zuwachs von w32 auf x64 sehr gering (Critter, Stockfish, Naum, Junior, Shredder, etc.).

Zustimmen muss ich Dir, dass tendenziell nun auch langsam bei der SWCR die x64 Turniere eine höhere Aufmerksamkeit genießen. Das war im letzten Jahr noch nicht der Fall. Sicherlich durch neue Maschinen und Windows 7. Fast jeder neue PC wird heute mit x64 angeboten.

Dennoch halte ich 32bit auch weiterhin für extrem wichtig. Es sind vielleicht 1/3 der TOP-30 die spührbar profitieren. Schauen wir auf das Stockfish Interview und den diesbezüglichen Kommentaren. Wenn der Zuwachs über 30 ELO geht ist das eher ein Indiz dafür, dass die 32bit Optimierung ... wie soll ich sagen ... ohne böse zu sein ... vielleicht schlampiger ist?

Muss aber nicht "schlampiger" sein. Don Daily hat gar keine 32bit Möglichkeit und versucht was er kann, meist selbst ungetestet. Dafür ist das 32bit Ergebnis hervorragend geworden.

Und zur CEGT:
Da der CEGT sehr viel beim 32bit Testen fehlt, wäre es vielleicht besser die Prio von 32bit weiter wegzunehmen. Interessiert ein Rating bei mehreren Cores (bin immer noch der Meinung, der Zuwachs von 1 auf 2 oder von 1 auf 4 Cores ist doch so leicht zu errechnen, dafür so viele Partien?, egal) muss eh auf CEGT geschaut werden. Die CCRL ist zudem im Vergleich zur CEGT richtig löchrig und kommt wenn ich mit der SWCR vergleiche zu deutlich gravierenden Abweichungen (was aber auch teilweise mit der höheren Bedenkzeit der CCRL im Vergleich zur SWCR zu tun haben könnte).

Viele Grüße
Frank
Parent - - By Benno Hartwig Date 2011-08-31 15:57 Edited 2011-08-31 16:01
[quote="Frank Quisinsky"]Die x64 Hype ist meines Erachtens immer noch stark überdreht[/quote]Ich will gar nicht ein "x64 ist gemeinhin um XYZ besser!" beginnen.
Ich denke aber mal frech, wer sich heute einen neuen Rechner kauft (annähernd egal welcher Preisklasse) und dabei z.B. auch Wert auf die Spielstärke seiner Engines legt, der könnte/sollte/wird zu einem 64bit-System greifen.
Wäre zumindest meine Empfehlung.
Und ich vermute einfach mal, dass die 32bit-Altgerätbesitzer oder die sehr wenigen "ich will mir jetzt aber unbedingt ein 32bit-System kaufen"-Leute auf eine besonders genaue 32bit-ELO-Einschätzung gar nicht soo verpicht sind.
Etwas überspitzt: die Spielstärke der 16bit-DOS-Engines hat in letzter Zeit auch deutlich an Interesse verloren.

Natürlich habe ich nichts dagegen, wenn sich jemand um 32bit kümmert.
Und natürlich verrichten diverse dieser Maschinen immer noch und noch einige Zeit sehr wacker ihren Dienst. Natürlich betrifft dies ganz besonders auch ihre bereits enorme Spielstärke im Spiel gegen uns Menschen.
Aus meiner Sicht sind diese Ergebnisse ("Wer ist eigentlich der größte der nicht ganz so Großen?") aber inzwischen am ehesten entbehrlich.

Benno
Parent - - By Frank Quisinsky Date 2011-08-31 16:13 Edited 2011-08-31 16:16
Hi Benno,

da ist sicherlich etwas dran.
Aber oft werden PCs ohne OS gekauft.
Oft möchten User auch weiterhin XP einsetzen, weil einfach zufrieden.
XP x64 ist wenig verbreitet.

Netbooks ... meist 32bit!
Ältere Systeme ... meist 32bit, viele möchten nicht aufrüsten, halten einen Pentium 2.0 GHZ für Schach für völlig ausreichend.

Vor ca. 1 Jahr habe ich mal im Trierer Schachverein nachgefragt. Keiner nutze ein 64bit System. Mehr als 2 Engines oder Programme hatten nur wenige installiert. GM Meyer nutzt z. B. auf seinem Notebook neueren Models ein 32bit System. Nutzt ChessBase und wenn lädt er zwei Kibitze und nicht eine Engine mit 2 Cores. Kenne kaum jemanden der viele Cores für Analysen nutzt. Die meisten mit denen ich Infos austausche nutzen 1 Core und mehrere verschiedene Engines, schon alleine um keine Hardwarepower zu verschenken ... bei einer Engine und vier Cores geht 0.8 der 4.0 Cores mindestens verloren. Auch sind die Analysen unterschiedlich etc.. Aber das ist ein anderes Thema.

Natürlich würde ich jeder Person die kaufen möchte auch ein x64 System empfehlen.

Aber 32bit ist schon deswegen wichtig um Engines besser vergleichen zu können. Der x64 Zuwachs ist nunmal unterschiedlich ... mithin ein Beeinflussungsfaktor. Beeinflussungsfaktoren bei Vergleichen sollten ausgeschaltet werden damit verglichen werden kann.

Das hat nichts damit zu tun Rechner zu tunen um das meiste für die Analysen herauszuholen. Klar das dies versucht wird aber für eine Ratingliste ist das meines Erachtens eher weniger interessant.

Viele Grüße
Frank

Zugegeben, habe da auch sehr eigenwillige Ansichten!
Oft nicht zu verstehen für Personen die auf der Suche nach dem Besten sind, Ihre Rechner tunen, oft neu kaufen, auf Servern spielen etc..
Verstehe ich ja!
Parent - - By Benno Hartwig Date 2011-08-31 16:53
[quote="Frank Quisinsky"]Oft möchten User auch weiterhin XP einsetzen, weil einfach zufrieden. XP x64 ist wenig verbreitet.[/quote]Natürlich akzeptiere ich gern, wenn Leute sagen, sie betreiben solche Systeme, und sie sind tatsächlich an der Spielstärkeermittlung der absoluten Topengines für dieses doch schon suboptimale Umfeld interessiert.
Ich sagte nur einfach, was ich davon halte. Vielleicht wird mir meist zugestimmt. Oder es wird mir viel widersprochen. Ich höre beides mit Interesse.

Meinst du, dass unter den im letzten Jahr verkauften Windows-Systemen die 64-bit-Rechner in der Unterzahl waren? Ich habe keine Zahlen, aber es würde mich überraschen?
Wie hoch mag der Anteil der heute tatsächlich verkauften 32bit-Windows-Rechner sein? (mal Netbooks und Telefone ausgenommen) Spielt 32bit da wirklich noch ein wichtige Rolle? Und in einem Jahr, wenn die jetzigen Ergebnisse doch gern immer noch von Interesse sein sollen?
Gerade hier im Forum wird gern über diverse Höchstleistungen diskutiert. Ich finde nur konsequent, dass dies dann auch vornehmlich mit Blick auf 64bit-Betriebssysteme erfolgt, die längst zum Butter-und-Brot-System geworden sind.
Aber ich hob einfach nur mal den Finger um zu schauen, ob ich Widerspruch oder Zustimmung ernte.

Benno
Parent - By Frank Quisinsky Date 2011-08-31 17:21 Edited 2011-08-31 17:27
Hallo Benno,

nein, nein grundsätzlich bin ich ja bei Deiner Meinung.
Ich kenne Gebietsverkaufszahlen, war lange im IT-Bereich tätig.
Und bei neuen PCs und Notebooks (sind immer noch im Notebook Boom) werden natürlich mehr 64bit als 32bit verkauft. Absolut klar, das bei den heutigen Möglichkeiten natürlich zu optimaler Hardware und Software gegriffen wird und das ist XP natürlich nicht mehr auch wenn die XP Fans nun schreien werden. Aber, aus beschriebenen Gründen halte ich an dem Ratinglisten-Test für 32bit fest. Die Zielsetzung ist doch hier anders als bei Personen die auf der Suche nach der optimalen Leistung sind. Mehrere Cores und 64bit sind grob gesagt zeitbeeinflussende Faktoren. Beim Messen von Ratings möchte ich direkte Vergleiche mit möglich gleichen Voraussetzungen. Hatte ich ja schon drüber geschrieben.

Ich denke:
Ratingliste oder optimale Leistung zur jeweiligen Engine sind zwei verschiedene Paar Schuhe die gerne zusammengeworfen werden aber bei der genauen Ermittlung von Vergleichen (ich spreche nicht von puren Ratings) hinderlich sind.

Gutes Beispiel:
Cyclone xTreme Wrath Vergleich zur letzten privaten Fruit Version.
Diese letzte private Fruit Version ist auch 64bit kompatibel. Es gibt meines Wissens kein Clone von Fruit der 64bit kompatibel ist. Diese private Fruit Version ist schwächer als der spielstärkste Clone, wenn die 32bit Versionen gegenüber gestellt werden. Wir können nicht hingehen und sagen ... Fruit ist stärker nur weil wir den 64bit Zuwachs hinzurechnen. Dann könnten wir um Umkehrschluss auch sagen, nein Cyclone 32bit ist stärker als Fruit 64bit wenn ich Cyclone einfach mehr Zeit gebe. Zeitfaktoren ... für Vergleiche hinderlich!

Und so zieht sich das durch mächtige Listen und beeinflusst hier und dort.
Also, zwei verschiedene paar Schuhe aus meiner Sicht.

Oder anders:
Wir ermitteln die Basis!

Basis + 64bit Zuwachs + Core Zuwachs (je nachdem was die Leute so einsetzen) = Spielstärke.
Ohne Basis keine genaue Ermittlung!

Daher über 50 Vergleichswerte in der SWCR.
Der 32bit Test prüft den 64bit Test um den 1/52 Fall (grob gesagt) auszuschließen.
So die Denke, mit der ich vorgehe!

Gruß
Frank
Parent - - By Simon Gros Date 2011-08-31 19:13
Also ich finde die CEGT-Listungen, hier am Beispiel der Blitzliste, sehr übersichtlich.
All Versions
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html
Hier findet man alle jemals getesteten Engines, z.Zt. immerhin deren 1055.

Best Versions
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_BestVersion/rangliste.html
Hier findet man die jeweils ELO-Besten Versionen eines Programmes. Diese Auflistung gleicht der Best-MP (siehe unten), allerdings stehen hier auch Engines, welche nicht MP-fähig sind und/oder noch nicht getestet wurden. Aktuelles Beispiel ist Komodo.

Best MP Versions
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_mp/rangliste.html
Hier findet man die besten MP-Versionen einer Engine, meist mit 4-Cores, einige mit lediglich 2-Cores.

Best Single Versions
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/rangliste.html
Hier findet man letztendlich die besten Single-Versionen eines Programmes, meist sind das natürlich die 64-Bitter.

Kann man das alles wesentlich besser darstellen?
Ich persönlich finde diese Listungen schön schlicht aufgemacht, übersichtlich und reichlich informativ.

Simon_G
Parent - - By Kurt Utzinger Date 2011-08-31 19:57
Hallo Simon
Auch ich habe gar nichts zu meckern. Natürlich kann man alles noch ein
bisschen besser machen, doch lohnt sich der Aufwand dafür einfach nicht,
man denke an die Verwendung des so genannten Pareto-Prinzips.
Gruss
Kurt
Parent - By Werner Mueller Date 2011-08-31 21:22
[quote="Kurt Utzinger"]
Hallo Simon
Auch ich habe gar nichts zu meckern. Natürlich kann man alles noch ein
bisschen besser machen, doch lohnt sich der Aufwand dafür einfach nicht,
man denke an die Verwendung des so genannten Pareto-Prinzips.
Gruss
Kurt
[/quote]
Ja, und wenn 20% der Menschheit für 80% des umlaufenden Schwachsinns verantwortlich sind, gehörte Signor Pareto jedenfalls zur geistigen Elite.
Parent - - By Benno Hartwig Date 2011-08-31 21:36 Edited 2011-08-31 21:45
Zitat:
doch lohnt sich der Aufwand dafür einfach nicht,
Mein Vorschlag mit den 3 bis 4 anderen Listen würde ja nicht mehr Aufwand machen.
OK, die jetzt vorhandenen 2-core- und 6-core-Systeme wären dann nur noch für 1-core- und 4-core(Sünde)-Tests nutzbar. Das ist natürlich auch ein Argument.
Ich spreche ja nur für eine gewisse Standardisierung des CEGT-Tests, und im Ergebnis nicht für mehr Listen, die dieses standardisiert Getestete transportieren.

Ich stelle mir gerade vor, ein Tester ersteht einen Rechner mit AMD-3-Kern-Prozessor und andere Tester gönnen sich Supersysteme mit zwei Prozessoren mit dann 8 oder 12 Kernen (wären auch 10 Kerne denkbar?). Dann finden wir in den Listen so die richtig bunte Vielfalt des Lebens wieder.

1,2,3,4,6,8,10,12...
Benno
Parent - - By Simon Gros Date 2011-08-31 22:13
Ich persönlich ertappe mich fast jeden Tag dabei einen Blick auf die o.g. Blitzliste der CEGT zu werfen und deren Forum einen Besuch abzustatten. Deshalb ist es an der Zeit den Herren Battig und Schüle ein herzliches Dankeschön für diese Arbeit zukommen zu lassen.
Simon_G
Parent - By Benno Hartwig Date 2011-09-01 12:55
[quote="Simon Gros"]Deshalb ist es an der Zeit den Herren Battig und Schüle ein herzliches Dankeschön für diese Arbeit zukommen zu lassen.[/quote]Klar, und dies natürlich nicht erst jetzt, und auch wenn man Vorstellungen für eine Verbesserung dieser Listen hat:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=23757;hl=thanx
Benno
Parent - - By Frank Quisinsky Date 2011-09-02 06:26 Edited 2011-09-02 06:36
Hallo,

Benno hatte es angesprochen.
Es ist problematisch die CEGT besser zu strukturieren.
In sich wird die Liste wahrscheinlich nicht strukturiert genug sein.

Damit meine ich:
1. w32 1 core spielt nur gegen w32 1 core
2. x64 1 core spielt nur gegen x64 1 core
Das gleiche dann bei zwei, vier und sechs cores.
Das wären schon 8 Listen und die Liste aller Partien = 9 Listen

Nicht strukturiert genug weil ich mir nicht vorstellen kann, dass darauf geachtet wurde. Hinzukommen müssten dann viele Engines (Vergleichsengines) die in allen Listen spielen um das wieder alles zu einer Liste zu mixen. Und oder ob es so viele Gegner überhaupt gibt, z. B. Gegner die 6Cores, 4Cores nutzen und ob diese auch gegeneinander gespielt haben.

Wenn ich an die SWCR denke bei der strickt zwischen w32 und x64 unterteilt wird, nur diese auch wirklich gegeneinander antreten + Vergleichsengines (meist nur Engines die kompatibel zu w32, nicht zu x64 sind) ist das eine Horrorarbeit.

Wenn jetzt so unterteilt wird, würden viele Engines deutlich weniger Partien haben, die ELOs würden viel zu weit auseinander klaffen. Bei der SWCR sind es bei nur zwei Listen und trotz ausreichender Partieanzahl und trotz dessen auf die beschriebene Umstände geachtet wurde ca. 2 ELO durchschnittlich (SWCR-32 und SWCR-64 weichen grob gesagt um 2 ELO voneinander ab). Dieser Punkt wird bei mir laufend verbessert, meist durch die Wartungsmaßnahmen die ich zwischendurch durchführe.

Was bei der CEGT geht:
Das alles zu ignorieren, die Liste aller Partien berechnen lassen und dann sortieren in 8 Listen. Das ist nicht die feine und genaue Art einer geteilten Berechnung, wie diese z. B. bei der SWCR-32 / SWCR-64 getrennt durchgeführt wird.

Die oben genannte Strukturierung ist heute sicherlich kaum noch durchzuführen. Müsste zu viel umorganisiert werden, bis die 8 Listen mit vielen Vergleichsengines stimmig werden sind zu viele Partien notwendig. Das wird sicherlich bei der Anzahl an Partien die, die Tester der CEGT spielen können nach meinen Berechnungen ca. 14 Monate dauern. Bis dato gibt es wieder viele neue Engines, der ganze Testbetrieb würde eine lange Zeit stehen. Auch schon deswegen schwierig weil das alles nicht von einer Person durchgeführt werden würde. Die Tester der CEGT müssen dann jenes und dieses gezielt spielen und um das zu organisieren und das alles auch noch privat ... puh, möchte gar nicht an die Arbeit denken die bei Gott nicht gerade interessant ist.

Insofern, ist die Darstellung der CEGT in jetziger Form absolut OK. Klar könnte das noch etwas besser sein aber es nimmt zu viel Zeit in Anspruch berechnete Tabelle im *.txt Format vernünftig und immer wieder in das HTML Format umzusetzen. Allein für diese eintönige Arbeit braucht die CEGT eine Person die das pflegen würde und problematisch ist ... dauerhaft auch macht. Ein bissel mehr Lob zur CEGT oder CCRL motiviert die Tester. Lob lesen wir immer weniger, denn heute ist alles zu weit verzwickt. Zu viele die selbst aktiv sind und versuchen etwas festzustellen und dann eher beginnen über bekannte Dinge kritischer zu schreiben, selbst das Interesse verlieren bis sie merken ... hoch ist mir zu viel Arbeit, muss dann heit mit dem Leben was da ist. Denke da an die Bucherstellungsleute an die die Settings testen oder sich mit Testpositionen beschäftigen. An die Fernschächler die nur wissen wollen was, an die Hardwarefreaks die auf Servern Engines spielen lassen etc.. Es verzweigt sich immer mehr nicht zuletzt es gibt fast 700 Engines und viele beschäftigen sich gar nicht mit den TOP-30. Schon alleine 670 Programmierer die Engines erstellen und nicht unter den TOP-30 stehen oder andere die mit der Programmierung beginnen.

Die SWCR zieht derzeit 2.000 unterschiedliche IPs. IPs die öfters oder von Zeit zu Zeit die Liste beobachten. Das ist gewaltig und wird sicherlich eher weniger als mehr werden. Weil sich alles immer weiter unterteilen wird.

CEGT Blitz:
Diese Liste ist besser strukturiert, weist mehr Partien aus und kommt mit genaueren Ergebnissen als die 40 in 20 Liste. Wahrscheinlich reicht diese Liste auch hinsichtlich der Ergebnisse aus, weil zu wenige Engines spührbar bei den Zeitbedinungen die eingesetzt werden könnten mit mehr Zeit bessere Leistungen erzielen. Das Partiematerial wäre allerdings nicht sehr hochwertig. Selbst spiele ich kein Blitz weil ich bei den Partien zusehen möchte, mir geht es bei schnelleren Partien zu schnell, würde mir keinen Spass machen. Eine Liste zu erstellen ohne den Spassfaktor zu haben macht keinen Sinn, würde nur um Statistik gehen und mit Schach nichts mehr zu tun haben. Dennoch sind Blitzlisten wichtig um Vergleiche zu Listen mit höheren Bedenkzeiten zu erzielen. Schließlich möchten wir wissen ob Engines mit mehr Zeit zulegen können oder auch an Leistung abnehmen. Nur so entstehen neue Erkenntnisse und das ist meines Erachtens noch ein Punkt der vielleicht die Sinnhaftigkeit von Listen unterstreicht. Es geht immer weiter und mit immer mehr neuen Erkenntnissen gehen wir Schritt für Schritt voran und sind zur Zeit da wo wir heute stehen ... die Entwicklung.

Eine Ratingliste ist ziemlich viel Arbeit wenn es gutes gelingen soll. Muss sich stetig neu anpassen, muss sich stetig neu optimieren nicht zuletzt aufgrund der vielen Updates. Es muss auf einiges geachtet werden schon beim Start einer solchen Liste. Heute liegen viele Erkenntnisse vor die genutzt werden können, z. B. meine eigenen aus meinen älteren Ratinglisten. Und selbst heute würde ich die SWCR anders aufbauen wenn ich wieder von vorne beginnen könnte. Es ist heit nichts wirklich perfekt ... das gibt es einfach nicht.

Gruß
Frank
Parent - By Frank Quisinsky Date 2011-09-02 06:58 Edited 2011-09-02 07:02
Hallo,

bevor ich falsch verstanden werde.
Die CEGT glänzt durch die beständige Arbeit nunmehr über viele Jahre.
Es gehört viel Motivation dazu das alles privat durchzuführen.

Es gibt viele Kritikpunkte an den größeren Listen aber wer sich mit dem Thema selbst beschäftigt wird feststellen ... damit müssen wir leben oder erst gar nicht beginnen. Jede neue Liste die erstellt wird kann aufgrund der vorliegenden Erkenntnisse besser gestaltet werden als die CEGT, die CCRL oder die SWCR. Aber erstmal müssen sich Personen finden die langfristig diese Motivation aufbringen und natürlich auch die Kosten auf sich nehmen. Eine Ratingliste zu organisieren ist teuer, nicht nur Hardware, sondern auch Hardwareverschleiß und Kosten für Strom. Derjenige der das macht sponsert mehr oder weniger den Bereich Computerschach denn alle Beteiligten können aus dem TOPF der zur Verfügung gestellten Daten profitieren. Programmierer finden schnell Fehler in Ihren Engines durch das Partiematerial.

Auch wenn ich jetzt nicht protzen möchte, aber es ist schon jetzt klar ersichtlich, dass die SWCR im 32bit Bereich und einem Core konkurrenzlos ist. Das zeigt der Vergleich auf aber auch nur dann wenn es um die TOPs geht bzw. um die TOPs der letzten beiden Jahre. Alles steht zur Verfügung, Konfigurationen, Partien, alles wird hier getestet, ob interessante Settings, IPPOs die oft noch blockiert werden etc.. Im 64bit Bereich gibt es noch IPON mit kleinen Einschränkungen (nicht alles wird getestet, Partien stehen nicht zur Verfügung, Bedenkzeit ist ein Mix zwischen Blitz und Schnellschach, dafür sehr aktuell, informiert schnell.

Was bei IPON oder meiner Liste bislang zu Stande gebracht wurde ist ein Kraftakt an Kosten und Mühen hier von jeweils nur einer Person.

Die großen Listen können nicht strukturiert testen, das können eher die Einzelkämpfer sofern sie möchten, wollen und können!

Und dennoch zählt die Motivation, die Dauer der Laufzeit und die Bemühungen der Tester hier in Gruppen wie bei CEGT und CCRL. Und von daher sind diese Listen etwas besonderes, sollten auch einen höheren Stellenwert als ergänzende Listen wie IPON oder SWCR haben. Persönlich interessieren mich allerdings die ganzen Listen nicht mehr sonderlich, mein Interesse an den reinen Listen auch der SWCR nimmt weiter ab. Für mich ist die SWCR nur ein Mittel zum Zweck, mir geht es eher um Erkenntnisse und einer guten Datenbasis für Statistiken und natürlich darum zuzuschauen wann ich Lust habe. Bei 8 zeitgleich laufenden Partien gibt es immer etwas spannendes zu beobachten, sofern ich die Zeit hierfür wirklich habe.

Genug ...
Wird eh nur wenige Interessieren was ich hier zu dem Thema schreibe, zumal der Aufhänger ja die Konkurrenzliste ist auch wenn ich die CEGT nicht mehr als Konkurrenz betrachte denn bei dem was die SWCR festtellt gibt es keine Konkurrenz ... so muss ich bei dem was mich interessiert eh auf die eigene Liste schauen zumal mehrere Cores zu testen für mich uninteressant ist bzw. überhaupt keinen Sinn macht.

Gruß
Frank
Parent - - By Ingo Bauer Date 2011-08-31 14:03
Hi,

[quote="Benno Hartwig"]
..
Sind die ELO-Zahlen durch deine auf-Shredder-Eichung auf ein Niveau gebracht worden? Die jeweiligen Listen gestatten ja lediglich nur einen Vergleich der Enginestärken,
Für einen Vergleich der Enginestärken aus unterschiedlichen Listen sollten die angeglichen werden (überprüfbar z.B. indem beide dann einen gleichen Mittelwert bilden)
[/quote]

Das ist zwar auf Shredder geeicht, trotzdem müßte er noch die Abweichung minimieren. Das sind über die 101 Engines 253 Elo oder pro Engine 2.53 gerundet 3 Elo. De fakto sind die CEGT Ratings 3 Elo zu niedrig oder SWCR 3 Elo zu hoch. Nicht die Welt.

Junior fällt in der SWCR auf, der ist bei der IPON und der CEGT in den selber Regionen. Critter 1.2 ist bei der CEGT sehr hoch, da sind die SWCR, IPON und CCRL 40/40 alle auf R4.1 Level, nur die CEGT sieht den deutlich besser. Richtig böse ist Stockfish 2.01 w32, das ist so viel bei der CEGT, das es bei schon zwei Kerne gewesen sein könnten, andererseits ist es die 2.01 UND w32 UND nur 540 Spiele ...  - ich glaube nicht das sich dafür viele interessieren.

Ausser den oben genannten würde ich sagen "Alles im grünen Bereich"!

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2011-08-31 15:25
Hallo Ingo,

ja ca. 3 ELO, es waren mal 0.7 ELO.
Wahrscheinlich auch nur wegen den rot markierten extremen Abweichungen.

Zu Junior:
Wirklich kaum für mich zu erklären. Deine Liste ist noch am Niedrigsten sofern jetzt ohne nachzusehen noch im Kopf. Dann geht es etwas höher bei CEGT und dann deutlicher nach oben bei mir? Also das nur mit höheren Bedenkzeiten zu erklären wäre zu einfach. Junior nutzt bei Ponder = On extrem gut die zur Verfügung stehende Zeit. Ich kann mir das nur so erklären, vielleicht ist Junior durch die von Dir gewählte Fischer-Zeit-Kontrolle benachteiligt (selbst nicht überprüft). Könnte auch an Intel / AMD liegen?

Sofern Du die Zeit hast kannst Du ja Junior Partien mal extrem aufs Korn nehmen bzw. beobachten. Vielleicht fällt Dir etwas auf?

Und bei Stockfish 2.0.1 w32 ... hier bin ich mir sicher das irgend ein Umstand bei der CEGT zu suchen ist. Der CEGT Wert ist deutlich zu hoch. Über 50 ELO bei schon 500 Partien ... also da muss es schon sehr viel Zufall zusammenkommen. Merkwürdig dennoch, denn bei mir war es die Version 1.9.1 w32, die gar über Rybka 4.0 w32 in der SWCR lag. Bei den 32bit Version ist irgend wie ne Menge Chaos drin. Teilweise liegt das auch an den Compiles denn die w32 und x64 gleicher Versionsnummern verhalten sich nicht immer gleich.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2011-08-31 18:14
Hi Ingo,

vergessen!
Ganz klar, die SWCR aller Partien liegt eher 3 ELO zu hoch!
2.4 nach meiner letzten eigenen Berechnung (ohne mit CEGT Werten abzugleichen), zu wenige Vergleichsengines, diverse andere Gründe.
Arbeite daran nach dem SWCR-32 Update Turnier.

Durch den Mix der beiden SWCR Listen wird es etwas ungenauer, die CEGT ist hier genauer.
Aber ... mit 3 ELO dennoch kaum der Rede Wert.
Erstaunlich gutes Ergebnis für die SWCR aufgrund des erfolgten Mixes der SWCR-32 und SWCR-64 zu einer Liste.

Gruß
Frank
Parent - By Frank Quisinsky Date 2011-08-31 16:05
Hallo Ingo,

genau, kommt es zu Unterschieden wird es erst so richtig interessant

Stockfish 2.0.1 w32:
Keine Ahnung aber ich bin mir sicher das die CEGT Werte hier eher zu überprüfen sind.
Es kann nicht sein, dass Stockfish 2.0.1 w32 auf Critter 1.2 w32 Level steht. Schaue mal wo sich Stockfish 2.0.1 w32 bei der CEGT einreiht. Und wenn direkt beide Versionen betroffen sind, dann muss schon sehr viel Zufall im Spiel sein. Meine Konfigurationen aller getesteten Engines liegen zum Download offen. Die Konfigurationen der CEGT Tester kenne ich nicht. Schwierig da zu suchen.

Selbst benutze ich die Version:
2.0.1 JA w32 vom 04.01.2011, 204.800 bytes, 13:40
2.0.1 JA x64 vom 04.01.2011, 838,656 bytes, 15:06

Allerdings, bei mir ist Stockfish 2.01 w32 deutlich niedriger als Vorgängerversionen. Auch Stockfish 1.9.1 w32 liegt über Rybka 4.0 w32 und ist nur minimal schwächer als Stockfish 2.1.1 w32? Merkwürdig, aber ich habe diese Werte und ich denke genug Partien. Sofern ich das richtig mitbekommen habe gab es bei den Compiles auch viele Versuche seitens von Jim Ablett. Die Kombination aus diesen Umständen könnte für das 32bit Versionsdurcheinander in Ratinglisten bei Stockfish sorgen. So ganz aufsteigend sind die 32bit Versionen in der CEGT auch nicht (aufsteigend Versionsnummer und Spielstärke). Bei den 64bit Versionen ist das etwas klarer. Müsste die Sache mal konkret ohne diese Statistiken von Ratinglisten auf den Grund gehen.

Critter:
Weißt Du wie viel eigentlich 1.000 Partien sind. Wie wenige Engiens da noch mit größeren Abständen von mehr als 20 ELO daherkommen. Es kann nicht jede Abweichung mit Zufallsergebnis gedeutet werden, erst Recht nicht in der SWCR weil der wichtige Faktor 2 ... viele Gegner ... ausgereizt ist. Ingo schrieb es, die Ratinglisten sind sich bei Critter 1.2 eigentlich einig, die CEGT liegt hier sehr hoch. Das minimiert den sehr geringen Zufallsfaktor weiterhin deutlich.

Wieso soll mir bei Rybka 4.0 Exp. 61 ein Fehler unterlaufen sein?
Sehe keinen, weiß jetzt nicht was Du meinst.

ELO-Zahlen, Shredder Eichung:
Ja, steht in meinem Posting unten.
Ich habe den CEGT Wert von Shredder 12 w32 genommen und natürlich mit ELOstat auf diesen Wert berechnet, siehe auch Rating in Rot in meiner Tabelle bei Shredder 12 w32. Genaue Mittelwertberechungen habe ich gestern nicht gemacht. Würde zwar genauer werden aber mir ging es nur darum grobe Unterschiede zu sehen. Selbst sehe ich z. B. derzeit nur das Problem, dass eine Onno Version bei mir mehr Partien spielen sollte. Da scheint ein ELO-Wert nach 1.000 Partien sichbar um ca. 10 ELO zu gering zu sein. Bei vielen gröberen Abweichungen hat die CEGT deutlich weniger Partien und wahrscheinlich auch deutlich weniger Gegner.

Die Stockfish Klamotte und die Junior Klamotte sollte mal näher überprüft werden. Das könnte interessant werden!

Viele Grüße
Frank
Parent - - By Wolfgang Battig Date 2011-09-02 20:22 Edited 2011-09-02 20:27
[quote="Frank Quisinsky"]
....

Warum vergleiche ich mit der CEGT:
Die CEGT spielt 40 in 20 auf Pentium IV 2.0 GHZ Vergleichshardware ohne Ponder.
Ich spiele mit Ponder 40 in 10 auf Q9550 2.86GHz Hardware.

...
[/quote]

Hi Frank,

gehe jetzt nicht auf alles ein, bin gerade erst aus dem Urlaub zurück...

Nur kurz zu Deiner obigen Aussage (fett hervorgehben von mir): Die ist falsch!

Unter "Conditions" findest Du: http://www.husvankempen.de/nunn/testers/conditions.htm

Time control and hash:
.....
Given the different hardware from testers we agreed to adapt to AMD64X2 4200+ for 40/120 and 40/20 and 2 GHz Pentium CPU for 40/4


Vergleichshardware ist also der AMD X2-400+ mit (glaube ich) 2,4 GHZ. Der olle P4 mit 2GHZ war früher mal die Referenz, allerdings haben wir da noch mit 40/40 (!!) gespielt, also doppelte Bedenkzeit zu heute, dafür halb so schnelle (?) Hardware.

Also 40/20 auf AMD-400+ nicht auf P4-2GHZ. Auf P4 war es wie gesagt 40/40

Ob das an Deiner Rechnung nun etwas ändert hab ich nicht nachgerechnet, ich wollte das nur kurz klarstellen.

Die Aussage zum Blitz stimmt so auch nicht mehr, wir spielen hier 40/3, hardwareunabhängig.

Viele Grüße
Wolfgang
Parent - By Frank Quisinsky Date 2011-09-05 22:56
HI Wolfgang,

oh, da liegt ein Irrtum von mir vor.
Also auf 2.4 GHz Athlon zu Q9550 auf 2.86 (SWCR Rechner sind natürlich nicht übertacktet) + Ponder Faktor (Intel 2.86 ist minimal schneller als AMD auf 2.4), Ponder macht laut Crafty SWCR test ca. 40-45 ELO aus, sollten wir wirklich fast identische Bedingungen haben.

Sorry!
Hatte noch die älteren Werte im Kopf!

Schön, dann kann ja noch besser verglichen werden!

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / SWCR zu CEGT Vergleich am 30.08.2011

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill