Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Wie stark verändert sich die Elo wenn unterschiedliche Eng.?
- - By Frank Quisinsky Date 2014-05-28 17:29 Edited 2014-05-28 17:58
Die Herren Computerschach Kritiker seien gegrüßt,

Das ist die Frage die ich mir beantworten möchte.
Nicht zuletzt deswegen und auch wegen mehr Spannung versuche ich in der FCT1 stark gleiche Programme zu vermeiden mit dem Ziel ...

Hinsichtlich Statistik bringt es wenig ...
Hinsichtlich mehr Spannung durch unterschiedliche Spielstile gewaltig viel !!

Folgendes wird sehr schön aus der Tabelle zum laufenden FCT1 Turnier auf einen Blick ersichtlich ...

Die Taktiker untereinander (z. B. Stockfish - Spark, Stockfish - Junior, Stockfish - Protector) nehmen sich mehr Punkte weg. Das heißt Stockfish müsste 10-20% mehr Punkte hinsichtlich Elo Unterschied erreichen aber das ist nicht der Fall. Wenn nun in einer Liste 17 Gegner sind und bei drei dieser Gegner kommt am Ende 10-20% weniger raus bedeutet das, dass die Elo um ca. 5 Punkte nach unten geht. Würde Stockfish hingegen nur gegen Ipps spielen würde das nicht passieren.

Gleiches ist mir seinerzeit schon bei Ktulu aufgefallen. Die Engine erreichte zum damaligen Zeitpunkt gegen damalige Gegner im Endspiel so starke Ergebnisse wie z. B. Spark im frühen Mittelspiel. Im frühen Mittelspiel hingegen war Ktulu in meiner Liste nicht die Nummer 4 (im Gesamtergebnis) sondern die Nummer 14 in der Welt (wie gesagt immer zum damaligen Zeitpunkt). Ktulu spielt taktisch katastrophal. Anhand meiner älteren Partien habe ich das heute mal ausgerechnet. Bei Spark geht die Spielstärke vom frühen Mittelspiel zum Endspiel um 350 Elo nach unten. Bei Ktulu um 275 Elo nach oben !!

Ktulu - Spark ist wahrscheinlich die extremste Engine-Engine Konstellation auf einem Niveau von 2.600 Elo die wir derzeit haben.
Da spielen zwei unterschiedliche Galaxien Gartenschach!!

Letztendlich variieren die Ratinglisten nach dieser Beobachtung um bis zu 5 Elo im direkten Vergleich untereinander, ganz egal wie viele Partien gespielt sind.

Oder anders ...
Spielt Stockfish - Stockfish ... eine extrem Engine weil im Bereich Taktik herausragend ... wird alleine schon die Leistung in Elo niedriger sein.

---

Noch krasser wird es wenn eine Engine mit einer erheblichen Stärke im Übergang zum Endspiel daher kommt. Da dort die Partien entschieden werden könnten Ratinglisten sich untereinander gar um 10-15 Elo variabel sein. Eine solche Engine ist Houdini oder auch Critter und natürlich vor allem Komodo. Das heißt spielt in einer Ratingliste nun Critter, Komodo und Houdini und meinetwegen dann nur noch 13 andere werden die Ergebnisse um bis 15 Elo von anderen Listen abweichen bei denen diese Engines nicht alle zusammen spielen. Weil in dieser Partiephase weit über 70% der Partien entschieden werden.

Auch das hat nichts zu tun mit statistischen Abweichungen oder Anzahl der Partien.

Im Grunde können wir rein gar nichts dagegen tun bzw. es gibt hier keine perfekte Lösung.
Ob nun bei einer Ratingliste von 18 Programmen 4 Taktiker dabei sind oder 2 Engines die im Übergang stark sind oder nicht ...
Das ist auch ein wenig willkürliche Auswahl der Engines (selbst wenn keine Clones dabei wären).

Hätten wir heute also 18 TOP Engines die alle taktisch stark wären würden wir zwar über andere Zuwächse bei einer neuen Engine Version diskutieren. Oder uns würde gar nicht bewusst sein warum im Nachbarforum über 20 ELO mehr diskutiert wird wenn dort 18 andere Programme zum Einsatz kommen die das langweilige IPP Geschiebe pflegen.

Es ist also nicht möglich eine Elo genau zu messen, zu sagen doch ich kann es mit ca. 10.000 Partien weil die Ergebnisse genauer werden ...
Bleibe dabei ... das ist absoluter Unfug.

Sie hörten das Wort vor dem Feiertag gesprochen von einer kleinen Leuchte

Wenn wir ganz gemein wären könnten wir gar beeinflussen mit der Info.
Stockfish - Junior, Spark, Protector je 200 Partien ... die taktisch starken
Stockfish - Shredder, Gaviota, Senpai je 200 Partien ... die taktisch schwachen
Stockfish - GullChess, Texel, Quazar je 200 Partien ... die unberührbaren

Und wir hätten stark abweichende Ergebnisse, nicht weil "nur" 600 Partien gespielt sind sondern weil die Gegner gezielt gewählt worden sind.
So Dinger sind möglich

Und würden dann einzelne Herren nur auf Ihre Statistik schauen (nehmen wir an diese drei Konstellationen würden in Form einer Ratinglisten aufeinander prallen) würden sich diese Herren richtig im CSS Forum rumkloppen, die Schädel einschlagen mit Senftuben spritzen ... alles schon erlebt. Weil wir Menschen sind und die Engines würden sich ... wenn sie denn intelligenter wären ... denken, sind die bekloppt.

Das die Spielstile die Listen beeinflussen war mir natürlich immer schon klar. Aber je mehr ich mich diesem Thema annehme desto interessanter die Feststellungen. Seinerzeit (SWCR1 Zeiten) prüfte ich bei wie vielen Engines in einer Liste die Schwankungen geringer werden und stellte fest ca. bei 22-26 ... bei mehr als 26 Gegner ist es egal ob dann 5 oder 6 Taktiker oder Endspiel starke Engines dabei sind. Die Werte gehen zurück auf 1-2 Elo bei egal wie vielen Partien. Haben wir aber eine Liste mit wenigen Gegnern und dann zu vielen gleichen Spielstilen werden die Ergebnisse zu Listen mit vielen Gegnern nicht mehr vergleichbar. Die Experten unter uns argumentieren dann mit ErrBar ... unsere Standard Ausrede

Die CEGT war schon alleine deswegen immer gut weil im Laufe der Zeit immer mehr Gegner hinzukamen. Die SWCR1 ging ja vergleichbar vor und auch bei IPON wurden die Ergebnisse besser wenn mehr unterschiedliche Engines drin waren und durch die Updates oder neueren Engines die Ergebnisse vergleichbarer wurden. Insofern sind die Ratinglisten wichtig denn mittels Einzelvergleiche oder Vergleichen von gleichen Engines stellen wir wenig fest wenn es um die Spielstärke geht. Aber immer sollte uns bewusst sein ... hätten wir heute 17 andere starke Engine und würden die mit Stockfish mischen hätte Stockfish andere Ergebnisse. Die genaue Elo kann es nicht geben, maximal wird die Elo genauer wenn viele Engines gegeneinander spielen.

Wahrscheinlich wird es gar so sein ...
Spielt ein Mensch 2 Partien gegen 50 Gegner ... hat also 100 Partien wird der Wert genauer sein als wenn der Mensch 10 Partien gegen 20 Gegner gespielt hat (200 Partien). Vielleicht jetzt etwas krass aber das ist wahrscheinlicher!

Gruß
Frank

Und ich will nicht hören das wissen wir alles ... denn wenn ich an die Diskussionen der letzten Jahre denke wird es deutlich das genau das nie so richtig betrachtet wurde. Wohl auch weil es immer schwierig war die Engines selbst im Detail zu bewerten. Engines zu bewerten nach Stärken und Schwächen ist der wichtigste Anhaltspunkt wenn eine Ratingliste betrachtet wird. Nur mit dem Wissen ist etwas aus Zahlen abzulesen, erst Recht wenn Extrem-Engines wie Stockfish beobachtet werden. Daher müssen die Ratinglisten auch mehr Details in die Listen bringen ... sonst hat es der Betrachter nicht so einfach etwas heraus zu lesen.
Parent - By Frank Quisinsky Date 2014-05-28 20:54
Ach ja ...

Im Grunde sind die Updates bei den Extrem Engines immer gefährlich.

Spielte in einer Liste ein taktisch anfälliges Programm gegen direkt 5x Stockfish fällt die Elo.
Das ist der Grund warum eine Gesamtliste ausgewogen sein muss, nicht die Anzahl der Partien macht es sondern wie ausgewogen die Gegner gewählt wurden.
Wesentlich weniger Partien sind notwendig um wesentlich klarere Ergebnisse zu produzieren.

Zukünftig wie in der SWCR2 werde ich daher auch immer nur die Liste im direkten Vergleich aufführen, also die 1.000 Partien und die Ratings die sich hieraus von 21 unterschiedlichen Programmen ergeben. Die Gesamtratingliste mit dann immer mehr Partien wird leider ungenauer werden.

Genug für heute geschrieben!
Up Topic Hauptforen / CSS-Forum / Wie stark verändert sich die Elo wenn unterschiedliche Eng.?

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill