Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Bewertungssystem für Engines, hoffe das andere mithelfen!
- - By Frank Quisinsky Date 2014-06-14 17:39 Edited 2014-06-14 17:42
Hallo zusammen,

plane ein simples Bewertungssystem für Engines auf meinen Webseiten einzuführen.
Diesbezüglich noch ein paar Statistiken zu veröffentlichen.

1-5 Sterne zu ...

1. Grundspielstärke (habe ich schon auf der Engine Link Seite).
2. Eröffnungsstärke eher taktisch ausgeprägt, also taktisch stark bei wenigen Verlustpartien ...
3. Mittelspiel
4. Übergang Endspiel
5. Endspiel
6. Menschenänlich ... auch wenn Stockfish hier z. B. 2 Sterne erhalten würde, heißt das nicht das die Engine schlecht ist, sondern das Menschen wahrscheinlich mit dem Stil nicht klar kommen. Aber das werde ich alles erklären.

Die teilnehmenden FCT1 Engines werden also dann auf einer Seite diese Bewertungen mittels Vergabe von "Sternen" erhalten.

Probleme habe ich Bewertungen aufzunehmen ... strategisch und positionell stark. Lasse das bei dem Mittelspiel / Übergang Endspiel mit bewerten. Für Bewertungen im Detail reicht meine Spielstärke leider nicht aus. Aber ich werde nachdem mein Eröffnungsbuch so gut geworden ist, dass ich kaum noch was ändern muss eine Seite mit Stellungen veröffentlichen bzw. versuche dann einen Stellungstest aufgrund der FCT1 Partien aufzubauen. Aber das gehe ich erst im kommenden Jahr an wäre derzeit zu viel des Guten weil ich immer noch ziemlich viel Arbeit wegen dem Eröffnungsbuch habe.

Finde diese Bewertung von Engines auch sinnvoll und zeigt dann auch den Betrachter meiner Liste wo die Stärken und Schwächen der Engines im Grunde zu suchen sind bzw. welche Engines eher gleich spielen oder total aus der Reihe im direkten Vergleich liegen.

Wenn ich diese Seite erstelle, möchte ich wie einst bei den Spielstilbeschreibungen auch User Kommentare hinzufügen bzw. zu einzelnen Engines auch etwas zu den Stärken kurz und knapp schreiben. Denke diese Aufgabe starte ich in kürzester Zeit. Das mit den User Kommentaren ist mir sehr wichtig. Möglich viele Anhaltspunkte von Usern, würden Betrachtern der Liste noch mehr Infos zu den Engines selbst geben. Wäre das alles nur von mir kommt Langeweile auf, zumal ich auch nicht immer ne Engine hundertprozentig treffe und meine Einschätzungen für sich allein gestellt nicht so interessant sind.

Also, habe noch so einiges vor mit dem fortlaufenden FCT1 Turnier aber das alles ist sehr zeitaufwendig wenn denn wieder was gutes entstehen soll.

Gruß
Frank
Parent - - By Tom Paul Date 2014-06-14 17:49
Unbedingt 1-10 Sterne, da du nicht nur zwei Engines miteinander vergleichen willst.
Parent - - By Frank Quisinsky Date 2014-06-14 18:00
Hi Tom,

ich fühle mich dann aber nicht mehr in der Lage bei 10 Sternen zu differenzieren.
Meine setze ich bei GullChess im Mittelspiel 7 oder 8 ... das wäre ein Zufallsprodukt.

Das ist das Problem mit dem Sternesystem wenn denn es auf menschlichen Einschätzungen beruht.
So meine Denke ... daher 1-5 und je unkomplizierter es ist, desto verständlicher auch für die Leser!

Oder ... ?!

Gruß
Frank
Parent - - By Tom Paul Date 2014-06-14 19:11
Würdest du denn Stockfish im Bereich X 5 Sterne geben, wenn du weißt dass die Engine dort sichtbare Schwächen hat?
Parent - - By Frank Quisinsky Date 2014-06-15 10:48 Edited 2014-06-15 10:50
Hallo Tom,

also im Grunde würde ich Stockfish wie folgt bewerten ...

Eröffnung: 5 von 5
Mittelspiel: 5 von 5
Übergang Endspiel: 4 von 5
Endspiel: 3 von 5
spielt menschlich: .... hier erfolgt dann ein Text zu den Spieleigenschaften.

Gruß
Frank

Wobei ich derzeit von den FCT1 Engines nur Komodo ein 4 von 5 im Endspiel geben würde. Halte Komodo da für stärker.

Komodo würde ich wie folgt bewerten:

Eröffnung: 4 von 5
Mittelspiel: 4 von 5
Übergang Endspiel: 5 von 5
Endspiel: 4 von 5

Was ausdrückt, dass sich die beiden Engines vom Spielstil schon unterscheiden.
Stockfish ist in der ersten Partiephase besser und legt hier viele Bausteine für den Übergang zum Endspiel.

Muss mir die neuen Komodo und Stockfish Versionen natürlich auch noch ansehen.
Wie gesagt, derzeit baue ich die Ratingliste noch auf und muss erst mal die 21 Engines finden die dann zunächst drin bleiben.
Crafty ist gut gestartet ...
Parent - - By Jörg Oster Date 2014-06-15 11:45
Hallo Frank,

die Idee mit deinem Bewertungssystem finde ich ganz gut. Auch, dass du es zu Beginn einfach halten willst.
Differenzierter bewerten könnte man dann auch später noch bei Bedarf.

Bei Stockfish würde ich die beiden letzten Punkte tauschen wollen.
Also Übergang Endspiel: 3 von 5 Punkten
                       Endspiel: 4 von 5 Punkten

Ich finde Stockfish spielt die Endspiele durchaus gut bis sehr gut; nur beim Übergang verhaut er sich öfter mal seine Gewinnchancen und wickelt in ein remisliches Endspiel ab und erkennt dieses dann zu spät.
Ansonsten wünsche ich dir viel Erfolg mit deinem Vorhaben und dir und allen anderen einen schönen Sonntag.

Gruß, Jörg.
Parent - - By Schachhai Date 2014-06-15 13:44
so sehe ich das auch
der Übergang zum Endspiel ist wohl Stockis grösste Schwäche

Gruß Heiko
Parent - By Frank Quisinsky Date 2014-06-15 14:34
Hi,

schaut mal hier ...

Zug Nummer 60 - 99 (Übergang Endspiel)
Da liegen 51 ELO zwischen den beiden !!
Code:
    Programs                         Elo   +   - Games Score Av.Op. Draws   Won Draw Lost
01. Stockfish 26.03.14 SSE42 x64   : 3129  32 32  609  87.4%  2792  17.9%   478  109   22
02. Komodo TCECr x64               : 3078  30 29  602  83.5%  2797  20.8%   440  125   37


Insbesondere wie viele Partien Komodo hier verliert und dann schaut euch mal die Partien an.
Das sind taktische Löcher die Komodo hier hat ...

Und nun ...

Zug Nummer 100-300
Code:
01. Stockfish 26.03.14 SSE42 x64   : 2935  29 26  176  63.4%  2840  68.8%    51  121    4
02. Komodo TCECr x64               : 2934  28 27  216  64.1%  2833  62.5%    71  135   10


OK, SF verliert nur 4 und Komodo 10. Aber hier ist ja entscheidend wie die beiden in Zug 100 gegangen sind.
Und siehe da ... bei den Verlusten von Komodo geht Komodo schon mit schlechterer Stellung in Zug Nummer 100.

Und nun schaut mal wie viele Gewinnpartien Komodo erspielt hat und Stockfish erspielt hat.
Auch hier, wenn das auseinandergenommen wird (habe ich schon gemacht) wird klar, dass Komodo viele kleine Positionsverbesserungen spielt die langfristig gar noch zum Gewinn führen. Also viel bissiger als Stockfish im Endspiel ist und gnadenloser jeden kleinen Vorteil ausnutzt.

Stockfish ist es der den Übergang zum Endspiel in der FCT1 wirklich deutlich besser spielt und auch hier weil die taktische Stärke zu Buche schlägt (niedriger Partiedurchschnitt muss hier auch einfließen). Der bessere Übergang zum Endspiel, zugegeben ... kommt auch durch die taktische Stärke der Linienöffnung. SF profitiert also aufgrund der offenen Spielweise auch im Übergang zum Endspiel ... legt die Grundsteine früher als Komodo. Alles in allem bin ich wirklich der Meinung das ...

1. Stockfish
Beim Übergang zum Endspiel schlägt auch wieder die taktische Schlagkraft zu und daher würde ich SF noch die 4 von 5 geben.

2. Komodo
Scheint hier 50 ELO schwächer zu sein als SF aber man muss betrachten woher Komodo kommt.
Sind die Stellungen ausgeglichen spielt Komodo einen Hauch besser, diese sind aber meist nicht ausgeglichen denn SF legt den Grundstein früher.

Aber rein nach dieser Statistik ...

Müssten eigentlich beide beim Übergang zum Endspiel 4 von 5 bekommen.
Parent - - By Tom Paul Date 2014-06-15 12:29
Wie wäre es mit 0,5 also z.B. 3,5 von 5 Sternen. 4,5 von 5 Sternen.

Ich würde Stockfish keine 5 Sterne in der Eröffnung geben.
1. Stockfish lässt sowohl Doppelbauern als auch kaputte Bauernstrukturen zu und bewertet weiter mit 0.00 und bekommt dann von Komodo einen auf den Deckel.
2. Die Figuren werden nicht immer richtig entwickelt. Z.B. spielt Stockfish einen Turm auf die B oder G Linie und sperrt damit seinen anderen Turm auf der A oder H Linie für längere Zeit ein und wird dann auch von Komodo platt gemacht.

5 Sterne auch nicht im Mittelspiel, da spielt Stockfish oft mit Dame + X gegen 3 Leichtfiguren + X und wird aufs übelste verdroschen.

Die drei Punkte haben wir alle beim TCEC Superfinale beobachten können.
Parent - - By Frank Quisinsky Date 2014-06-15 14:46 Edited 2014-06-15 15:15
Hi Tom,

wenn ich mit 0.5 arbeite habe ich ja wieder 10 Stufen
Kommt auf das selbe raus, zu Deinem anderen Vorschlag.
Vielleicht 6 Sterne ...

Mittels 6 kann auch besser differenziert werden und ist noch übersichtlich.
Siehe Stockfish / Komodo Problem ...

Wenn ich hier die Meinungen der anderen lese und ... an alles ist auch etwas dran und sind plausibel und nachvollziehbar.
Schaue Dir meine Stat an ist die für sich genommen teilweise unlogisch bzw. die Einstufung durch die Übergang Endspiel Statistik (SF 50 Elo besser) blendet ein wenig für sich allein betrachtet.

Gruß
Frank
Parent - By Tom Paul Date 2014-06-15 16:27
Stärken/Schwächen
-beim Kampf gegen Komodo
-oder Gegner unabhängig?

6 oder 7 Sterne wären besser als 5.

Nur wie viele Engines willst du aufnehmen?
Nr. 1 Stockfish,
Nr. 2 Komodo,
Nr. 3 Houdini
Im großen und ganzen gibt es immer weniger Sterne je schwächer die Engine ist.
Und was machst du wenn du bei einer schwachen Engine nur noch jeweils 1 Stern vergeben kannst?
Und dann kommt z.B. Deep Fritz 14 und der ist dann noch schwächer als die Engine die jeweils nur einen Stern hat.

Ich würde z.B. 10 Sterne nehmen und dann bei Stockfish schauen wo die Engine in der Eröffnung etc. Schwächen hat und dann pro Schwäche einen Stern abziehen.
Kenne schon 3 Schwächen in der Eröffnung, somit kommt Stockfish auf 7 von 10 Sternen in der Eröffnung.
Das erscheint mir sinnvoller als 2 von 5 Sternen in der Eröffnung.
Parent - - By Thomas P. Date 2014-06-15 06:35
Ich kenne deinen unzähligen Beiträge über die Stärken und Schwächen von Engines und halte die allermeisten deiner Aussagen für nicht mal ansatzweise belegt. Was du zunächst mal machen müsstest, ist zu QUANTIFIZIEREN, wie du Eröffnungsstärke, Mittelspielstärke, usw. exakt definierst. Die Definitionen müssen unabhängig sein von der Person, die sie anwendet (und sollte deshalb auf harten Zahlen beruhen). Du beurteilst viele Sachen nach Gefühl und das geht mal gar nicht. Ich zum Beispiel finde, dass die drei stärksten Engines auf dem Markt auch am meisten menschenähnlich spielen und ich finde Stockfisch sogar menschenähnlicher als Houdini, ganz im Gegensatz zu dir. Ich behaupte nicht, dass ich Recht habe, sondern möchte dir nur klar machen, dass Bewertungen aufgrund von Gefühlen und Eindrücken vermieden werden sollten, weil sie von den Personen abhängen, die diese Gefühle und Eindrücke haben.
Parent - - By Frank Quisinsky Date 2014-06-15 08:51 Edited 2014-06-15 09:03
Hallo Thomas,

natürlich ist da auch Gefühl dabei ...
Da hast Du völlig Recht.

Bei den Spielstilbeschreibungen hatte ich ja gar großmeisterliche Unterstützung bei einigen Engines, musste aber nichts verändern. Es haben viele Leser der Schachwelt sich beteiligt als ich das einst machte. Es gab auch unterschiedliche Meinungen zu diversen Einschätzungen die sehr schön dargestellt wurden (das war wunderbar, wie das gemacht wurde). Meist hat es aber daran gehapert, dass viele gar keine Eindrücke von all den Engines hatten, weil sie ehrlicher Weise sich nicht mit all den Engines beschäftigt haben. Insofern gab es auch immer nur vereinzelt Meldungen zu Engine A oder B oder hin- und wieder mal zu zwei Engines.

Neben Gefühl aber auch Statistik. Seinerzeit hatte ich über 50 Stats ausgearbeitet. Das war nicht das Problem, eher die Stats zu pflegen weil das händisch erfolgen musste. Eine Wahnsinnsarbeit, kannst Du dir nicht vorstellen. Zu unterscheiden, Engine spielt strategisch oder positionell scheitert oft meist schon daran, weil was ist strategisch und was ist positionell. Da gehen schon viele Meinungen auseinander. Das ist schwierig, selbst für einen GM der hier auch im Übergang zu Endspiel schon deutlich den TOPs unterlegen ist.

Ob eine Engine im Endspiel Stärken hat oder nicht ... das kann besser beurteilt werden wenn diese ohne und mit Endspieldatenbanken spielt. Ob eine Engine stark in der Eröffnung spielt ist einfach ... siehst Du anhand von gewonnen und verlorenen Partien, und hier dann noch besser wenn Du ins Detail schaust. Im Grunde kannst Du das auch alles berechnen in dem Du die Partien in die entsprechenden Datenbanken zu den Statistiken kopierst.

Und selbst wenn Du das alles machst, verbleibt immer noch keine 100%ige Aussage aber in der Regel kommt was vernünftiges dabei heraus was den Interessenten dazu bewegt selbst zu forschen. Viele Interessen greifen zusammen, denn auch Personen die Fernschach spielen und hierbei Engines einsetzen oder auch Personen die es lieben Stellungen zu analysieren können Aussagen treffen.

Wenn eine Engine wie Stockfish in der frühen Partiephase wesentlich mehr Partien gewinnt als andere ist das für Menschen eher so, dass gegen die Engine schwierig zu spielen ist, denn im Menschenschach ist das nicht so ausgeprägt wie im Computerschach dass die Partien im Übergang zum Endspiel gewonnen werden. Beim Menschenschach werden genauso viele Partien im Mittelspiel entschieden. Wenn eine Engine im Mittelspiel schon viele Partien gewinnt wie Stockfish, ist die für einen Menschen schwieriger zu spielen als wenn der andere Fall eintritt. Das ist sowohl menschlich als auch nicht. Menschen spielen aggressiver wenn etwas gesehen wird als Engines die sich den Plan errechnen müssen. Es kommt immer auf die eigene Sichtweise an.

Keine Panik, diese Kritik habe ich schon seinerzeit vernommen, Kritik gibt es immer an solchen Arbeiten ...
Aber besser ne Kritik zu irgend etwas als wenn das irgend etwas gar nicht da wäre.
Dann lieber mit der Kritik leben ... denn Kritik animiert und genau das ist der eigentliche Aufhänger für alles im Computerschach.

Kommt es also zu einer Kritik wäre das Ziel schon erreicht
Und dennoch seinerzeit hätte ich mir noch viel mehr Eindrücke gewünscht als die die da waren. Machen die User im Kollektiv nicht mit und senden eine gute Einschätzung verbleibt immer der Nachgeschmack das die wesentlichen Einschätzungen von einer Personen kommen, wie auch immer das festgestellt wurde.

Gegengesetzt könnten auch einfach nur Stats veröffentlich werden und der User bastelt sich daraus die eigenen Ansatzpunkte. Aber das wäre zu trocken und wäre auch nicht interaktiv.

Gruß
Frank

Persönlich finde ich das gar nicht so schwierig eine Engine einzuschätzen.
Partien in Reihe beobachten und versuchen die Partie die gerade gespielt wird beim Zusehen selbst einzuschätzen (nicht nur auf die Stellungsbewertung achten, die ist zweitrangig dafür).
Schaue ich mir neue Engines an wie Nirvana oder Vajolet bestätigen aber dann meist die Stats die Eindrücke. Hatte mich da bislang eigentlich noch nicht geirrt. Schwierig sind allerdings Engines wie Zappa oder Spike ... die fallen nicht direkt durch echte Stärken oder echte Schwächen auf oder Stärken und Schwächen sind nicht immer gleich zu bewerten ... meine das eine gefühlte Stärke in einer anderen Stellung dann wieder zu einer gefühlten Schwäche wird. Dann bin ich natürlich restlos überfordert wenn ich selbst nichts eindeutiges erkennen kann und mich dann selbst auf die Stats verlassen muss ... die aber auch nicht in jeden Fall greifen. Aber das sind Ausnahmen.
Parent - - By Tom Paul Date 2014-06-15 10:00
Bsp. Stockfish
Endspiel.
Drei dicke Schwächen.
1. Stockfish versucht seine Stellungen im Gegensatz zu Komodo nicht maximal/eigentlich garnicht zu verbessern.
2. Wenn Stockfish mehrere 0.00 oder ... Varianten sieht, dann spielt die Engine irgendetwas davon = Die Bewertung muss falsch sein, da die Variante...trickreicher ist, selbst wenn es nur Zugumstellung sein sollte oder auch nicht.
3. Stockfish spielt bei mehreren möglichen 0.00 Zügen z.B. den Zug der zum 3-Fold Rep führt und erreicht somit ein Remis gegen einen 600 ELO Spieler.

Wenn Stockfish ein mal Remis spielt, und 9999 mal gewinnt, dann beträgt die ELO Differenz +1720 ELO.
= Somit hat Stockfish nur eine ELO von 600 + 1720 = 2320 ELO
Man die Engine ist ja richtig schwach.

Stärke:
Wenn der Gegner ungenau spielt wird durch die hohe Rechentiefe eine Gewinnvariante gespielt.
Parent - By Frank Quisinsky Date 2014-06-15 10:42
Hi Tom,

wenn Du magst und ich starte die Rubrik dann nehme ich das gerne auf.
Aber das dauert noch ein Weilchen.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Bewertungssystem für Engines, hoffe das andere mithelfen!

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill