Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Senpai in der SWCR ...
- - By Frank Quisinsky Date 2014-03-20 14:08 Edited 2014-03-20 14:12
Hallo zusammen,

schaue ich auf das Teilnehmerfeld sind in der SWCR nun durch die Herausnahme von Houdini 20 unterschiedliche Programme aktiv (Tool von Don, Clone-Vergleich). Einzig Rybka ist noch ein wenig strittig, aber sei es drum (nehme ich vielleicht auch noch raus wenn die nächste starke Engine nach oben stürmt oder bei DiskoCheck das Ponder Problem gelöst ist).

Fruit von Ryan hatte erhebliche Probleme mit schnellen Verlustpartien, auch der Weg zum Matt wurde nicht eingehalten. Sah Fruit ein Matt gegen sich, z. B. nach 10 Zügen verkürzte es die Engine z. B. auf 3 Züge. Machte mir auch ein wenig die Mattstatistik in der SWCR1 kaputt.

Nun wie schaut es bei Senpai aus gegen die Gewalt an unterschiedlich agierenden Engines. Gegen Smarthink und Zappa schaut es nicht so gut aus. Auch gegen Komodo oder Fire sind die Ergebnisse noch nicht so gut. Müssen jetzt einfach mehr Partien hinzukommen um zu sehen ob sich Angstgegner herauskristalisieren.

Bei den schnellen Verlusten ist aber schon zu sehen das es nach 180 Partien deren schon 5 gibt und nur ein schneller Sieg. Das Endspiel ist sehr einfach und gut (vergleichbar zu Stockfish). Das Mittelspiel ist gut und im späten Mittelspiel ist Senpai dann gefühlsmäßig etwas aggressiver als so manche andere Engines.

In der SWCR vielleicht auch schlecht gestartet. Vermute aber das die Engine gegen spielschwächere zu viele Punkte abgibt. Sehr gute Ergebnisse gegen Stockfish bislang. Schaue ich mal ein wenig in die Partien gegen Stockfish rein, so sehe ich das wenn Stockfish öffnet Senpai immer gut dagegen hält. Im Endspiel laufen die Partien dann auf ein Remis. Diese Tatsache eröffnet die Hoffnung das es noch zu schnellen Gewinnpartien kommen wird aber das wird sich zeigen.

Also erster Eindruck bestätigt den Eindruck den ich aus Partien der Entwicklungsversion ersehen konnte.
Taktisch ein wenig anfällig, Mittelspiel ist gut, Endspiel ist gut wobei bei den Turmendspielen einiges an Wissen fehlt.
Denke allein durch Magic Bitboards könnte gerade Senpai mächtig zulegen und wird dann auch deutlich schneller (ist derzeit noch nicht implementiert, lediglich Bitboards). Die Spielanlage ist eher aktiv als passiv und mithin interessant wobei hier der Drang fehlt die Bauern aggressiver nach vorne zu treiben. Fabien hat den Eindruck das Senpai ohne Dame stärker spielt (konnte ich noch nicht beobachten). Herausragend ist das Leichtfigurenspiel in der Eröffnung. Da steckt also sehr viel Potential in Senpai wobei die Spielstärke bei dem was drin ist schon als sensationell betrachtet werden muss. Da kommt eine gewaltige Engine-Entwicklung auf uns zu.

Technisch alles sehr sauber (Zeiteinteilung und Ponder etc.).
Senpai hatte vor der Veröffentlichung noch ein Ponder Problem (führte dazu das mit wenigen Figuren die Engine nichts mehr machte bzw. die GUI hing). Fabien hat den Fehler schnell gefunden und das Release am beabsichtigen 17.03. ... 10 Jahre nach Fruit ... hatte sich etwas verzögert aber dank Joachim konnte dann noch alles am 17.03. veröffentlicht werden.

Fazit:
Sehr sehr stark für 1.0 und komplett neu geschrieben und mal schauen wie es weiter geht in der SWCR. Nach offenbar einem schlechten Start sollte die Elo steigen.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-20 14:28
Hi Frank !

Frank Quisinsky schrieb:

[...snip...]
Fazit:
Sehr sehr stark für 1.0 und komplett neu geschrieben und mal schauen
wie es weiter geht in der SWCR. Nach offenbar einem schlechten Start
sollte die Elo steigen
.


Da drängt sich mir ja förmlich die Frage auf:
Du willst doch in Zukunft deutlich weniger spielen lassen.
Was wäre wohl, wenn Du dies bereits heute tun würdest ?
Dann müsste die neue Engine von Fabien mit einem (zu)
schlechten Platz in Deiner Liste wohl leben, nicht wahr ?

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-20 18:38 Edited 2014-03-20 18:48
Hi Gerhard,

richtig, die Anzahl der Partien so weit es geht nach unten drücken.
Natürlich benötigen wir dennoch eine gewisse Anzahl an Partien, klar.
Für andere statistische Auswertungen im Detail (nicht Spielstärke) dann in der Tat mehrere Tausend Partien.

Gehe derzeit dahingend eigentlich nur die folgende Frage an.
Mit mehr unterschiedlichen Engines in einer Liste sinkt die Remsiquote. Muss natürlich immer in ein Verhältnis zur Spielstärke der Teilnehmer gestellt werden. Also, wenn der erste und der letzte in einer Liste, wie bei mir ca. 400 ELO auseinanderklaffen ist die Remisquote logischer Weise geringer. Daher schwierig auseinanderzunehmen. Spielt z. b. Panchess - Ivanhoe ist die Remisquote hoch, das hat nur indirekt etwas mit höherer Spielstärke zu tun, sondern eher damit das die Engines sich kaum unterscheiden. Versuche also in der SWCR2 genau diese interne (habe ich noch nicht veröffentlicht) so weit es irgend geht zu optimieren. Als Vergleich helfen mir die Partiedaten von anderen Computerschachfreunden, meine Daten reichen kaum aus.

Wenn denn das optimiert ist (arbeite ja auch noch daran das SWCR Buch zu verbessern) dann sind auch bessere Aussagen möglich wie viele Partien notwendig sind bzw. wie so die Grenze nach unten ausschauen wird. Als Vergleich hier nehme ich die eigene SWCR1 mit den 100er Partieserien (kann die reproduzieren). Zur Zeit erhalte ich aufgrund der Daten den Aussage dass es ca. 600 Partien sind (im Wiederspruch zu den Auswertungen von einem User der hier auch sehr eifrig mich mit Daten versorgt). Bei der SWCR1 waren es ca. 800 weil mehr gleiche Engines drin waren. Also, versuche durch die Auswahl der Engines zunächst festzustellen wie kann ich die Remisquote senken damit ich dann bei den Auswertungen als Ergebnis bekomme ... es werden schneller aussagekräftige Ergebnisse innerhalb der 1.000 Partien Grenze möglich sein.

Zur Zeit bin ich sehr froh mit den Ergebnissen denn jetzt beginnt Senpai genau da zu wirbeln wo ich den Schwachpunkt in der Statistik bei den Ratinglisten vermute. Das ist die logischer Weise höhere Remisquote von Engines die in der Mitte liegen. Kannst ja mal in der SWCR Tabelle auf der Hauptseite überfliegen. Achte nur auf die Anzahl der Remispartien. Oben und unten (leider auch aufgrund der Unterschiede in Elo) gering und in der Mitte höher. Welche Engines tanzen aus der Reihe bei dieser Statistik ... Zappa und Junior. Und wenn ich dann so auf alle Statistiken schaue sind es immer andere die klar aus der Reihe tanzen. Einzig Rybka fällt noch auf wenn ich die Endspielstatistik ausklammere. Die Engine muss raus aus der SWCR2, verzerrt ein wenig alle anderen Ergebnisse. Wohl daher auch zum Eichen gut geeignet aber hinsichtlich gleiche Spieleigenschaften ist das Teil hinderlich bei meinen Experimenten. Wollte Murka drin haben, aber auch hier ... ist zu gleich zu anderen.

Überlege derzeit:
Ich baue die SWCR2 neu auf unter einen anderen Namen.
Nehme Ponder = on mal weg, verdoppel die Zeit und nehme Rybka noch raus. Arbeite auch mit anderen Partien die nicht von mir sind. Dabei fällt auf das bei Ponder = off die Ergebnisse schneller schlüssig werden. Ponder = On gefällt mir zwar besser aber für die Messungen scheint Ponder = off besser zu sein. Auch so ein Thema!

Aber das geht jetzt sehr weit was ich schreibe weil die Stats nicht online sind und schwierig nachzuvollziehen sind für die Leser hier.

Statistik Spielchen die so ne nette Sache sind neben dem eigentlich interessanteren Zuschauen bei den Partien.

Und zu Deiner Frage die immer noch nicht so ganz klar beantwortet ist.
Eigentlich könnte ich nach 600 Partien derzeit den Test abbrechen. Mache ich nicht weil die 1.000 Partie Marke so schön ist um einfacher Statistiken zu erstellen.
Voll optimal ... 21 Engines 50 Partien und 1.000 Partien. Innerhalb der 1.000 versuche ich herauszufinden ...

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-03-22 09:19
Hallo zusammen,

weitere Eindrücke:
Also die Ergebnisse gegen Smarthink, Komodo und Chiron sollten mal beobachtet werden. Smarthink und Komodo scheinen echte Angstgegner zu sein. Geht schon aus der Analyse der Partien hervor.

Es fehlt Senpai für nach ganz oben einfach ein wenig mehr Endspielstärke. Bei den schnellen Verlustpartien hat sich alles ein wenig realtiviert, 2x schnell gewonnen und 8x schnell verloren. Taktisch in der Eröffnung ein wenig anfällig und dennoch geht Senpai aktiv vor. Das Mittelspiel ist gut wobei wirklich die Bauern nicht schnell genug nach vorne getrieben werden bzw. hier auch ein wenig Wissen fehlt.

Aber was dieses Programm für eine Spielanlage hat, so einfach und schlicht und gut.
Was für ein genialer Start für Fabien mit seiner Version 1.0.

War schon bei Doch begeistert und schrieb direkt ... da kommt einiges auf uns zu.
Das war auch klar nach der ersten Version, muss wirklich mal hier nachgelesen werden wie Doch seinerzeit begeistert hat.
Aber Senpai setzt ja nochmal ne Schippe an Begeisterung drauf.

Nun, die Ergebnisse in der SWCR sind etwas schlechter als bei den bisher bekannten anderer User. Aber ich haben nach unten raus mehr Gegner in der Liste und hier verliert Senpai ein paar ELOs. Wie gesagt, es ist bei den Listen wirklich wichtig viele Gegner unterschiedliche Gegner drin zu haben, genauso wichtig wie dann die Anzahl der Partien.

Und wie sich das herausnehmen von Gegner und hinzunehmen von Gegner dann auswirkt kann schön unter "Time Lapse" auf meine Webseiten beobachtet werden. Immer in Anbetracht das auf eine Engine geeicht wird, was die Betrachtung dann immer schwierig im Detail macht. Denn wenn Rybka gut oder schlecht spielt hat das Auswirkungen für die anderen.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2014-03-22 10:06 Edited 2014-03-22 10:16
Hi,

gerade mal ein wenig genauer geschaut.
Auffällig ist die enorm hohe Gewinnquote als schwarzer, auch so sehen auf meiner Startseite, schaut so langsam nicht mehr nach statistischer Ungenauigkeit aus.
Auch ein Grund warum es hoch und runter geht in der SWCR. Das habe ich ja noch nie erlebt beim Test einer Engine.

Bei den Analysen wird auch schnell klar, so schnell wechselt Senpai den zunächst gefunden Zug nicht im Vergleich zu anderen.
Hängt sicherlich auch damit zusammen das noch einiges an Schachwissen rein muss, gerade in den spielentscheidenden Endspielen.

Vermutung bei der Version 1.0 liegt nahe:
Die Engine nimmt mit mehr Zeit etwas an Spielstärke ab.
Müsste mal ein Vergleich der Listen gemacht werden wenn alle ausreichend Partien vorliegen haben.

Voll der Gegensatz zu Junior ...
Und was liegt nahe sich die Partien gegen Junior anzusehen ... der Hammer ... zwei Welten prallen aufeinander!

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-22 10:40
Eine Frage Frank, weil es mir gerade auffällt:
warst Du nicht auch einst mit dabei als viele Ratinglistenbetreiber
Shredder 12 auf 2800 setzten, damit man die Listen etwas besser
miteinander vergleichen konnte ?
Nun sehe ich gerade, dass Shredder 12 bei Dir auf 2789 steht ...

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-03-22 10:58
Hi Gerhard,

eiche auf Rybka mit 2.950 Elo seit der Version 1.00.
Shredder schwankte mir zu viel in der SWCR1. Außerdem hatte ich anfangs viele gleiche Programme drin und Shredder stand ziemlich unten bzw. rutschte ab. Gut ist zu eichen auf eine Engine die taktisch stark ist. Critter oder Spark, Stockfish spielen sehr konstant, auch schon bei meinen vielen Auswertungen in der SWCR1. Es muss auch eine Engine sein, die nicht mehr verändert wird wegen der Vergleichbarkeit auf Dauer.

Bei Rybka dachte ich erst die Engine spielt mit wenig Schwankungen aber so ganz stimmt das auch nicht. Rybka hätte sich gut zum Eichen geeignet aber die Engine will ich herausnehmen aus diversen Gründen. Rybka ist nicht auffällig bei meinen Statistiken zu unterschiedlichen Spielstilen, maximal bei der Endspielstatistik tanzt die Engine positiv aus der Reihe. Dachte deswegen auch wenn die meisten Partien im Endspiel entschieden werden ... aber das war kontraproduktiv.

Überlege Critter 0.9 in die Liste zu holen und auf Critter 0.9 zu eichen mit 2.900 Elo.
Alternativ wieder auf Shredder mit 2.800 Elo.

Shredder spielt meines Erachtens gerade gegen Clone Engines etwas schwächer als durchschnittlich. Muss mir das bei Shredder noch mal ansehen. Bei den letzten Spießroutenläufen spielte Shredder immer besser als die durchschnittliche Elo ausgab.

Bin mir noch nicht sicher mit Critter 0.9 (ob ich das mache). Wäre aber schön für die Liste denn Critter 0.9 ist meines Erachtens taktisch stärker als die Nachfolgeversionen und ist kaum vergleichbar mit IPP Engines. Habe deswegen mal Normann gefragt ob er mit Critter 0.9 mit in die Grafik holen könnte. Oder in der Tat wieder auf Shredder. Shredder steht ja jetzt auch wieder bei mir deutlich höher. Besser wäre eine Engine die anstatt auf 2.800 bei 2.900 steht ... langfristig gedacht.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-03-22 11:08
Wie gesagt, immer alles unter dem Gesichtspunkt ... mit weniger mehr erreichen.
Und mit mehr unterschiedlichen Programmen werden die Ratings nach meinen Statistiken einfach schneller genauer.

Also mit weniger Partien mehr erreichen ist das Ziel was ich mir stelle.
Aus unterschiedlichen Gründen, Spaß haben, Strom sparen und zu animieren was mit einem Rechner möglich ist.

Denn eine Ratingliste kann jeder erstellen die dann auch richtig gut sein kann.
Dafür braucht niemand x Maschinen ...

Der Hauptgrund warum mir die ErrorBar auf den Keks geht, dass animiert viele eher zu unnützen Serien was aber nicht mein Problem ist.
Mehr Spaß macht es sich mit unterschiedlichen Dingen zu beschäftigen, so ergeht es mir zumindest.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-22 12:11
Danke f.d. Aufklärung.
Du warst ja einst der grösste Verfechter wenn es darum
ging, eine Referenzengine in den Listen zu haben, nur
deshalb habe ich mich gewundert.

Ich persönlich finde die Idee von Thomas Mayer gut, siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=76659#pid76659

Für die CEGT wird sich die Frage jedoch nicht stellen,
in der 40/4 (als Beispiel) steht Shredder 12 x64 1CPU
an 214. Stelle (von 1390), also im oberen Bereich.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-22 14:21 Edited 2014-03-22 14:23
Hi Gerhard,

nee, Komodo eignet sich überhaupt gar nicht zum Eichen. Die Stärken von Komodo sind zu krass. Siehst Du doch z. b. beim Senpai Test ...
Würde auf Komodo geeicht schwanken sämtliche anderen mit.

So rein von den Zahlen her hat Thomas schon recht aber aufgrund der Spieleigenschaften wird's mit Komodo ungenauer (was ich schreibe gilt immer bei einem Verhältnis von 1.000 Partien). Will ja nicht x tausend unnötige produzieren.

Komodo geht überhaupt gar nicht. Zu herausragend mit offenbaren Stellungen wo Schachwissen gefordert ist. Das haben nur wenige andere Programme noch nicht mal ansatzweise so drin. Zumindest habe ich den Eindruck bei Komodo. Nun ist Komodo dadurch aber taktisch anfällig bei wenigen Figuren auf dem Brett. Gab da schon so einige Partien wo ich den Kopf geschüttelt habe, dennoch taktisch wesentlich stärker geworden als die Vorgängerversion (letzte Version).

Auf Komodo eichen wäre wie auch Junior zu eichen da muss ein Ersteller schon sehr lebensmüde sein wenn er sich das antut.

Muss eine Engine um 2.900 sein die nicht upgedatet wird oder fest in der Liste bleibt, taktisch stark ist ... Remisquote etwas höher als bei den anderen und in den Stats auffällt durch ausgeglichenes Spiel. Chiron wäre optimal. Finde Critter 0.90 x64 wäre perfekt aber auch nur dann wenn nicht auch zu nahe an den IPPs, kommt für mich dann nicht in Betracht.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-03-23 08:50
Hi Gerhard,

nachdem die Aktion diverse Engines durch andere zu ersetzen fast abgeschlossen ist, werde ich die SWCR2 in FCT1 umbenennen, etwas neu strukturieren und mit den gleichen Bedingungen fortfahren. Einzig was sich ändern wird, werde vielleicht hier und dort ein paar Qualifikations-Matches einfügen um festzustellen ob eine andere Engine Platz 21 oder höher einnehmen könnte. Werde mich dahingehend weiter an Eure CEGT orientieren.

Rybka wird noch ersetzt durch Crafty und dann sollte ich da sein wo ich eigentlich hin wollte. Werde dann wieder auf Shredder 12 x64 ... 2.800 Elo eichen, zumindest so lange wie diese Shredder Version noch aktuell ist.

Tja und Senpai ... dreht nun etwas beständiger seine Runde aber wird bei mir nicht über Protector landen. Dafür sind die Ergebnisse gegen einige Engines unter Senpai noch nicht stark genug. Aber fest steht ein unglaubliches Engines für Fabien!

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2014-03-22 10:44 Edited 2014-03-22 10:49
Hi,

mal ganz nett ...
Was passiert wenn ich einen Angstgegner bei den vielen unterschiedlichen Engines in der SWCR2 herausnehme?
Was normal ist, das durch die Herausnahme einer Engine die stark unterschiedlich spielt bei ca. 1.000 Partien die ELO um bis zu 5 ELO bei allen schwankt. Interessant wird's im Grunde dann wenn die Elo bei 21 Gegner und deiner Herausnahme um ca. 10 Elo schwankt. Und wenn ich so auf die Partien schaue ist es eher wahrscheinlicher als unwahrscheinlich das Smarthink zumindest die Leistung gegen Senpai in etwa halten wird.

Nehme ich eine Engine heraus, die sehr gleich zu einer der anderen Engines ist, passiert das nicht es sei denn extrem Fall ... ganz oben in der Liste wie z. b. bei Houdini.
Nehme ich Houdini raus, fällt die Leistung ein wenig ab, denn Houdini zieht durch die hohe Elo andere ein wenig mit nach oben (Elo Problem welches bekannt ist).

Mal mit und ohne SmarThink ...
Wobei ich noch nicht weiß ob SmarThink wirklich ein Angstgegner ist ... dafür müssen dann wirklich mehr Partien her, Vermutung aber wie gesagt liegt nahe.

Aber alleine das Resultat gegen SmarThink macht derzeit ca. 10 ELO aus.
Und das was SmarThink gegen Senpai zaubert ist richtig gut.

Hier mal die beiden Tabellen mit und ohne SmarThink ...

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

1 Stockfish 08.02.14 SSE42 x64   : 3066   19  19   920    80.1 %   2824   33.8 %
2 Komodo TCECr x64               : 3029   20  19   920    76.2 %   2826   32.9 %
3 GullChess 2.8 Beta BMI2 x64    : 3005   19  19   920    73.6 %   2827   35.7 %
4 Fire 3.0 AVX x64               : 2962   18  18   920    68.2 %   2830   37.4 %
5 Rybka 4.1 SSE42 x64            : 2950   18  18   920    66.6 %   2830   37.3 %
6 Chiron 2.0 x64                 : 2893   18  17   920    58.5 %   2833   39.9 %
7 Hannibal 1.4b x64              : 2866   17  17   920    54.4 %   2835   41.6 %
8 Protector 1.5.0 JA x64         : 2846   17  17   920    51.5 %   2836   41.4 %
9 Senpai 1.0 SSE42 x64           : 2828   27  27   380    48.7 %   2837   39.5 %
10 Hiarcs 14 WCSC w32             : 2820   18  18   920    47.5 %   2837   38.9 %
11 Shredder 12 x64                : 2789   17  17   920    42.9 %   2839   40.1 %
12 Texel 1.03 x64                 : 2786   18  18   920    42.4 %   2839   39.0 %
13 Junior 13.8.04 Yokohama x64    : 2782   18  18   920    41.8 %   2840   34.0 %
14 Quazar 0.4 x64                 : 2757   18  18   920    38.1 %   2841   38.8 %
15 Spike 1.4 Leiden w32           : 2756   18  18   920    38.0 %   2841   38.5 %
16 Zappa Mexico II x64            : 2747   17  17   920    36.7 %   2841   41.7 %
17 Booot 5.2.0 x64                : 2746   18  18   920    36.6 %   2841   37.9 %
18 Spark 1.0 x64                  : 2745   17  17   920    36.5 %   2841   41.1 %
19 Gaviota 1.0 AVX x64            : 2718   19  19   920    32.8 %   2843   33.2 %
20 MinkoChess 1.3 JA x64          : 2682   19  19   920    28.2 %   2845   34.3 %


Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

1 Stockfish 08.02.14 SSE42 x64   : 3060   19  19   970    80.5 %   2814   33.3 %
2 Komodo TCECr x64               : 3024   19  19   970    76.8 %   2816   32.3 %
3 GullChess 2.8 Beta BMI2 x64    : 3002   19  18   970    74.4 %   2817   34.9 %
4 Fire 3.0 AVX x64               : 2959   18  18   970    69.1 %   2820   36.5 %
5 Rybka 4.1 SSE42 x64            : 2950   18  18   970    67.9 %   2820   36.1 %
6 Chiron 2.0 x64                 : 2891   17  17   970    59.6 %   2823   39.5 %
7 Hannibal 1.4b x64              : 2859   17  17   970    54.9 %   2825   41.9 %
8 Protector 1.5.0 JA x64         : 2839   17  17   970    52.0 %   2826   41.9 %
9 Senpai 1.0 SSE42 x64           : 2819   27  27   400    48.9 %   2826   39.2 %
10 Hiarcs 14 WCSC w32             : 2817   17  17   970    48.6 %   2827   38.9 %
11 Shredder 12 x64                : 2789   17  17   970    44.3 %   2828   40.0 %
12 Texel 1.03 x64                 : 2783   17  17   970    43.5 %   2829   39.5 %
13 Junior 13.8.04 Yokohama x64    : 2780   18  18   970    43.0 %   2829   34.0 %
14 Spike 1.4 Leiden w32           : 2759   17  17   970    40.0 %   2830   38.4 %
15 Quazar 0.4 x64                 : 2752   17  17   970    38.9 %   2830   38.4 %
16 Spark 1.0 x64                  : 2745   17  17   970    38.0 %   2831   40.5 %
17 Booot 5.2.0 x64                : 2744   17  17   970    37.8 %   2831   37.8 %
18 Zappa Mexico II x64            : 2742   17  17   970    37.5 %   2831   42.3 %
19 Gaviota 1.0 AVX x64            : 2717   18  18   970    34.0 %   2832   33.4 %
20 SmarThink 1.50 SSE3 x64        : 2689   18  18   970    30.3 %   2833   34.4 %
21 MinkoChess 1.3 JA x64          : 2682   18  18   970    29.4 %   2834   34.9 %


Auch auffällig die noch hohe Remisquote von Senpai weil die Engine in der Mitte der Liste liegt. Dennoch ca. 5% zu hoch (durchschnittlicher Wert im Verhältnis zu allen anderen Engines).
Wenn sich die Remisquote stabilisiert wird das Rating genauer.

Macht schon Spaß die Gründe für ein Rating zu suchen, anstatt immer nur alles mit statistischer Genauigkeit oder Ungenauigkeit zu tun. Das ist nur die halbe Wahrheit.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-22 11:13
Danke f.d. Mühe und die vielen Daten !

Auffällig ist, dies liegt jedoch mit Sicherheit an den
noch zu wenig gespielten Partien, dass Senpai bei
Dir hinter Protector liegt (immerhin 20 Punkte) !
In allen anderen Listen ist das Gegenteil der Fall.

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-03-22 14:14
Hi Gerhard,

in allen anderen Listen spielen auch viele gleiche Programme.
Kenne derzeit keinen Test bei dem Senpai gegen so viele unterschiedlichen Gegner spielt.

Beispiel:
Smarthink wäre Open Source und es wären z. b. drei davon mit verschiedenen Änderungen bei mir drin ...
Ergebnis wären nicht 10 sondern 30 ELO Differenz.

Gleiche Engine verzerren das Bild einer Liste und selbst viele Partien mehr können dies nicht korrigieren.

Aber ich denke das Senpai bei mir noch steigen wird. Die Resultate gegen Komodo und Smarthink sind echt hart für Senpai.
Und ferner, hatte es ja geschrieben ... die Engine verändert mit mehr Zeit seltener einen Zug, daher ist auch hier schon in der Analyze auffällig das die Engine mit mehr Zeit im Vergleich zu den anderen eher abnimmt. Die bekannten Resultate beruhen alle auf deutlich weniger Zeit als ich in der SWCR einsetze.

Denke alles im grünen Bereich aber ca. 15 ELO sollte es dennoch nach oben gehen.
Schaun wir mal ...

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-23 14:15
Frank Quisinsky schrieb:

in allen anderen Listen spielen auch viele gleiche Programme.
Kenne derzeit keinen Test bei dem Senpai gegen so viele unterschiedlichen Gegner spielt.
[...snip...]


Bei uns, CEGT 40/4, sind es nun 20 x 100 Spiele, also 20 unterschiedliche Gegner.
Bei Ingo sind es etwas weniger unterschiedliche Gegner, dafür aber mehr Spiele.
Daran kann "es" also nicht liegen ...
Parent - - By Frank Quisinsky Date 2014-03-23 17:26
Hi Gerhard,

meist liegt der Grund im Detail.
Wenn Senpai in Deiner 5+3 Ponder Liste drin ist können wir ja mal vergleichen.
Blitz macht keinen Sinn weil für mich klar nach 10 Minuten Analyse das dieses Programm ein wenig mit mehr Zeit verliert.
Senpai findet schnell einen Zug und hält diesen.

Krass z. B. dagegen z.B. Junior oder Gaviota.
Lade mal Senpai und Junior gleichzeitig und dann lasse mal 5-6 Mittelspielstellungen durchlaufen, siehste direkt.

Aber wie gesagt, kannst ja dann mit Deiner 5-3 vergleichen, die Blitzergebnisse interessieren mich nicht so sehr.
Und bei Ingo, die SWCR auch hier ... ich spiele mit deutlich mehr als der doppelten Zeit als IPON. Außerdem fehlen Ingo die
ganzen Programne nach unten weg gegen die Senpai nicht so gut spielt.

Auch das wird deutlich an meinen Ergebnissen wenn Du auf den Gegner Durchschnitt schaust.

Beim konfigurieren können wir nicht falsch gemacht haben, da gibt es derzeit nicht viel einzustellen.
Log ist aus bei mir und Thread = 1.

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2014-03-23 18:12
Hi Frank !

Weil es wichtig ist:
die CEGT 5'+3" pb=on ist nicht meine Liste, sondern eine der CEGT !!

Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-03-23 17:41 Edited 2014-03-23 17:46
Hi Gerhard,

und schaue mal in Eure eigene Liste mit 40 in 20, die ist zwar auch nicht so direkt vergleichbar mit meiner 40 in 5 da ich mit Ponder = on spiele und die Hardware ca. 3-4x schneller als der Vergleichsrechner von Euch ist aber dann wird es klar. Dort hat Senpai 2.820. Und mit mehr Zeit muss diese Engine abnehmen. Wenn es nach ca. 700 Partien bei der 40 in 20 bei Euch so bleibt, und 700 Partien wären bei meiner Testmethode schon mehr als genug, müsste die Rating bei mir sich ca. bei auch bei 2.820 einpendeln, da ich ca. durchschnittlich 10 ELO unter dem CEGT Rating wegen dem eichen der Liste bin. Sprich also 10 ELO weniger bei mir als in der CEGT würde ich dann auch erwarten.

Also die Masse an Partien, die ich für mich unbedeutender als die Auswahl der Gegner ist, und vor allem der anderen Bedingungen müssen gesehen werden. Masse ist nicht Klasse und das wird im Computerschach bei jedem Test wie dieser von Senpai schon direkt wieder klar.

Blitz ist nicht vergleichbar mit längeren Bedenkzeiten bei den Engines die etwas Zeit brauchen um überhaupt mal eine Variante anzuzeigen (Junior) oder bei den Engines die einen gefunden Zug zunächst so schnell nicht mehr loslassen.

Interessant wird es bei meinem i7 mit 4.3 GHz ca. ab 40 in 5, drunter würde ich beim Testen niemals gehen!
Was soll denn irgend jemand mit den Ratings anfangen wenn bei einer Analyse der Eindruck entsteht dass die Einstufung nicht so wirklich passen kann.

Also, weniger ist mehr ...
Weniger Partien spielen lassen mehr Gegner einsetzen und dann lieber mit mehr Bedenkzeit. Kein Mensch der sich zu Hause was ansieht würde unter Blitz Bedingungen schauen. Lediglich um schnelle Ratings zu erzeugen, die aber nicht wirklich was bringen ist und bleibt Blitz interessant.

Das macht ihr ja auch bei der CEGT und insofern könnt ihr das geschriebene ja selbst reproduzieren.

Also bei der SWCR1 ist mal wieder nach 100 Partien alles klar ...
Schwankt um 10 ELO hin- und her, etwas mehr als bei den anderen getesteten Engines aber das ist alles noch normal wie ich finde (wenn auch selten, Schwankungen um 10 ELO rauf und runter aber noch normal). Schätze das bei 40 in 40 in etwas Senpai auf dem Niveau von Shredder liegt.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-23 18:19
Frank Quisinsky schrieb:

[...snip...]
Also bei der SWCR1 ist mal wieder nach 100 Partien alles klar ...
Schwankt um 10 ELO hin- und her, etwas mehr als bei den anderen getesteten Engines aber das ist alles noch normal wie ich finde (wenn auch selten, Schwankungen um 10 ELO rauf und runter aber noch normal). Schätze das bei 40 in 40 in etwas Senpai auf dem Niveau von Shredder liegt.


Hhm, ich sehe +- 20, nicht 10 hin oder her:
Code:

09. Senpai 1.0 SSE42 x64              2820    500  48.9%  39.0%  27,0  22,0   49,0   30/38/32
09. Senpai 1.0 SSE42 x64              2819    400  48.9%  39.2%  21,5  31,5   53,0   35/36/29  +4,1% Elo=
10. Senpai 1.0 SSE42 x64              2809    300  47.5%  40.3%  23,0  19,0   42,0   26/32/42 -6,9% Elo=
09. Senpai 1.0 SSE42 x64              2829    200  50.2%  44.5%  27,0  26,0   53,0   32/42/26  +4,1% Elo=
10. Senpai 1.0 SSE42 x64              2809    100  47.5%  47.0%  23,5  24,0   47,5   24/47/29


Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-23 20:14
Hi Gerhard,

ja aber bei den erzielten Punkten (beste 100ter zu schlechteste 100ter Serie) pendelt sich das mit mehr Partien auf +-5 mit dem hin- und her ein. Meine bei den gleichen Serien mit mehr Partien bis 1.000 sind es dann nicht 20 sondern maximal 10 Elo. Das da jetzt noch schlechtere oder bessere Serien kommen, daran glaube ich nicht. Klafft schon zu weit auseinander.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2014-03-23 17:18
Bei uns (CEGT 40/4) würde es z.Zt. wie folgt aussehen:
Code:

...
12. Hannibal 1.4 x64 1CPU     2855  +11 -11   2700 43.4%
13. Loop 2010-x x 64 1CPU     2846   +7 - 7   6400 48.6%
14. Senpai 1.0 x64 1CPU       2837  +12 -12   2000 50.4%
15. Hiarcs 14 1CPU            2826  + 8 - 8   5000 36.6%
16. Protector 1.5.0 x64 1CPU  2823  + 9 - 9   3700 35.5%
...
19. Deep Shredder 12 x64 1CPU 2800  + 5 - 5  13438 34.5%
...


Viele Grüsse,
G.S.
Parent - - By Frank Quisinsky Date 2014-03-23 18:22
Hi Gerhard,

gibt es denn Listen die noch schneller sind als CEGT Blitz. Eigentlich die von Stefan Pohl. Bei Stefan müsste Senpai ja geradezu nach oben explodieren. Würde gegen viele Clones spielen gegen die mehr Punkte eingefahren werden als gegen schwächere Programme und Ultra Blitz sollte Senpai puschen. Glaube Stefan hat auch getestet, muss mal schauen da wird sicherlich ein großer Unterschied zu sehen sein zu der CEGT Blitz nochmals nach oben.

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2014-03-24 09:22
Frank Quisinsky schrieb:

Hi Gerhard,

gibt es denn Listen die noch schneller sind als CEGT Blitz.
[...snip...]


Keine Ahnung.

40/3+ 40/3 + ... ist meiner Meinung die untere Grenze.
Weniger an Bedenkzeit sollte es nicht sein. Z.Zt. liegt
der Partiendurchschnitt bei 80-81 Züge, d.h. also, dass
ein Spiel i.d.R. 12 Minuten dauert.

Viele Grüsse,
G.S.
Parent - By Frank Quisinsky Date 2014-03-22 11:30
Wobei sich die Remisquote schon ein wenig bei Senpai korrigiert hat, hatte noch die ersten 200 Partien im Sinn.

Eine hohe Remisquote stabilsiert ein Rating.
Trugschluss, kommt auch hier auf ein paar andere Kriterien an.

Die Taktiker haben alle sehr hohe Remisquoten (Stockfish, Spark, Protector, Critter).
Eignen sich zum Eichen einer Liste sehr gut.

Bei Spark etwas im Wiederspruch denn das Endspiel ist grundsätzlich bei Spark sehr schlecht und auch Endspielstärke führt zu einer höheren Remisquote.

Aber die Remisquote muss auch ein wenig auseinander genommen werden (Remisquote bei den Endspielen ist das Thema weil hier viel Partien entschieden werden).

Im Grunde müsste bei den Ratinglisten die Ausgabe der Remisquote, hinsichtlich Gesamtbild der Ergebnisse ein wenig besser unterteilt werden.
Remisquote während der ersten 60 Züge und ab Zugnummer 61 ... dann wird's deutlicher.

Sind einfach viele Infos die beim Betrachten der Listen fehlen aber bei den Statistiken im Detail immer wieder auffallen.
Warum hat Quazar z. B. einen um 10 Züge höheren Partiedurchschnitt als dahingehend alle anderen in meiner Liste ... fällt natürlich auch nur auf wenn ohne Aufgabefaktor gespielt wird.
Alles so Auffälligkeiten, warum hat Junior einen so niedrigen Zügedurchschnitt und das beständig seit der SWCR Version 1.0.
Und so könnte ich zu jeder Engine mindestens eine Statistik herauspicken die auffällig ist.

Und das ist der Reiz beim Engine testen, und wenn unterschiedliche Programme aktiv sind wird es richtig spannend!

Gruß
Frank
Parent - - By chess player 2 Date 2014-03-22 18:21
Parent - By Frank Quisinsky Date 2014-03-22 20:12
Hallo,

ja habe ich gesehen, aber wenn ich eine andere Version nehme dann eine von Joachim.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Senpai in der SWCR ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill