LS-Rangliste: Senpai 1

By Stefan Pohl Date 2014-03-19 15:39 Edited 2014-03-19 15:43

Wie erwartet, hat Senpai 1 es nicht geschafft, 30% gegen die Gegner des LS-top10-tournaments zu erreichen, auch weil das Niveau des LS-top10-tournaments mittlerweile beträchtlich gestiegen ist (man betrachte dazu den Elodurchschnitt der Gegner (Senpai 1: 3082. Bei Protector 1.5 waren es noch 3041 (!)).
Daher hat es nur zu einem Eintrag in die prospective freeware engine-list gereicht.
Aber dennoch ist das Ergebnis besser als erwartet. Der Autor ging ja von einem Niveau im Bereich von Protector aus. Gegen die (ausschließlich starken (aus Sicht von Senpai sogar sehr starken)) Gegner im LS-testrun kamen aber 55 Elo mehr raus, sogar Hannibal 1.4b wurde um 24 Elo übertroffen.
Man kann also feststellen, daß Senpai mit wenig Bedenkzeit und starken Gegnern richtig gut zurecht kommt. Besonders Letzteres macht Senpai natürlich auch fürs TCEC interessant...

Stefan

P.S: Ich habe den SSE42-Compile direkt von der Senpai-Homepage (http://www.chessprogramming.net/senpai/) benutzt. Dieser lief problemlos unter cutechess.

By Joachim Rang Date 2014-03-19 17:05

Danke Stefan für diesen Test. Ein beachtliches Resultat und schön, dass der Test problemlos durchlief. Für ein 1.0 Release ist das schon eine ordentliche Spielstärke.
Bin gespannt wie es bei längeren Bedenkzeiten aussieht, im IPON-Test schneidet Senpai etwas schlechter ab.

By Stefan Pohl Date 2014-03-19 17:20

Joachim Rang schrieb:

Ja, das kann an den kürzeren Bedenkzeiten liegen. Aber evt. auch daran, daß Senpai mit sehr viel stärkeren Gegnern besonders gut klarkommt. In einem LS-Testrun geht es ja immer nur gegen die Engines des LS-top10-tournaments. In der Ipon ist die Bandbreite der Gegnerspielstärke deutlich größer (also auch weniger gute Gegner).

Stefan

By ? Date 2014-03-19 17:34

Stefan Pohl schrieb:

Aber evt. auch daran, daß Senpai mit sehr viel stärkeren Gegnern besonders gut klarkommt.

Das würde ich aufgrund miener Ergebniss komplett ausschließen. Wenn ich mir einfach mal die Performance ansehe die Senpai gegen die Top 5 und die Last 5 erspielt hat ist da kein Unterschied zu sehen. Wäre auch die erst Engine die plötzlich extrem gut nur gegen gute Gegner scored - ich wüßte auch nicht wie so etwas gehen soll. (Ausser durch Inzucht weil die Tops alle gleich wären. Eine gute Performance gegen EINEN Gegner kann mal sein, sofern genug Gegner da sind ist der Schnitt wieder i.O.)
Ansonsten legt Senpai seinen beste Performance gegen die vorletzte Engine (Shredder) hin und die schlechteste gegen Komodo (94Elo Differenz). Das wäre eher ein Indiz für das Gegenteil, aber auch das glaube ich nicht.

Zeitkontrolle wird es wohl sein. Meine Theorie über zu kurze Z. und ein Plateau das sich ab einer gewissen Zeit einstellt scheint sich hier mal wieder (wie immer) abzuzeichnen.

Ingo

By Ingo B. Date 2014-03-19 17:49

Ich muß mich (ein wenig) korigieren:

Es ist wenig Unterschied zu sehen! Das dürfte aber einfach nur daran liegen das das Sample (Top/Last 5) zu klein ist. Wenn man es allerdings nimmt, hat Senpai gegen diese Top 5 eher schlechter gespielt als gegen die Last5.

Ingo

By Michael Scheidl Date 2014-03-19 23:28

Soviel ich sehe, sind leichte Angstgegner nur Houdini 4 und Komodo TCECr (was ist das "r"?), sonst alles in einem engen Rahmen. Ich kann mir Verschiebungen insbesondere durch SMP vorstellen. Dramatisch werden sie nicht sein.

Wir haben erst Version 1.0 und ich denke, im Jahresverlauf werden - zu erhoffende - Folgeversionen noch interessanter.

Der Sourcecode steht in einer einzigen Datei mit 7.360 Zeilen. Ich verstehe davon nichts, aber das ist derzeit vermutlich die bevorzugte Bettlektüre vieler Schachprogrammierer.

By Klaus S. Date 2014-03-19 23:55

TCECr behebt einen Fehler in fenstrings mit folgender Rochade.

http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=546896&t=50412

By Michael Scheidl Date 2014-03-20 00:38

Danke. - Komodo CCT hat den Fehler nicht.

By Ingo B. Date 2014-03-20 09:16

Michael Scheidl schrieb:

...Ich kann mir Verschiebungen insbesondere durch SMP vorstellen. Dramatisch werden sie nicht sein....

Gab es jemal eine "dramatische" Verschiebung durch SMP? Wenn ja, welche?
Vielleicht tauschen zwei Engines mal den Platz wenn sie wenige Elo auseinanderliegen. Dramatisch wäre für mich eine single Engine die unscheinbar ist und mit SMP (2,3,4 ... Kerne) unter anderen SMP Engines (2,3,4 ... Kerne) plötzlich von der unteren Bundesliga in die Champions L. aufsteigen würde - an so ein dramatisches Ereigniss kann ich nicht erinnern ... (deswegen habe ich ja auch aufgehört 2 KEren zu testen. Nur Stromverschwendung)

Gruß
Ingo

PS: Wobei Bundesliga und CL im C-Schach zu definieren wäre. Es sollte aber klar sein was ich meine.

By Gerhard Sonnabend Date 2014-03-20 11:55

Ich kenne z.Zt. nur nachfolgendes Beispiel, auch weil
ich das seit einiger Zeit beobachte (aus der CEGT 40/4):

Code:


                           1-CPU                   4-CPU
Engine                  ELO / Spiele / Diff.    ELO / Spiele / Diff.
Shredder 12 x64 1CPU   2800 / 13438    + 25    2899 / 5500     - 03
Spike 1.4 1CPU         2775 /  8720            2902 / 5600

Da wir jedoch, wie wohl alle anderen auch, mit den 95%-
Fehlergrenzen auswerten, kann (wird wohl) dies einer der
5 Fälle von 100 sein, in welchem das Rating ausserhalb
der Error-Bars liegt.
Oder aber Shredder 12 profitiert nicht so sehr von MP wie
dies die anderen Engines tun ?!

Viele Grüsse,
G.S.

By Ingo B. Date 2014-03-20 12:44

Moin Gerhard,

Gerhard Sonnabend schrieb:

Code:


                           1-CPU                   4-CPU
Engine                  ELO / Spiele / Diff.    ELO / Spiele / Diff.
Shredder 12 x64 1CPU   2800 / 13438    + 25    2899 / 5500     - 03
Spike 1.4 1CPU         2775 /  8720            2902 / 5600

Mal abgesehen davon das es auch noch andere Möglichkeiten gibt, aber wenn das das extremste Bsp ist, also eine Engine (im Schnitt) 14 rauf, eine 14 runter, alles auf BL Level bin ich extrem weit davon entfernt das damatisch zu nennen.

Gerhard Sonnabend schrieb:

... kann (wird wohl) dies einer der 5 Fälle von 100 sein...

Ich habe jetzt nicht nachgesehen, aber bei 5500 Spielen hast du so ca +/9 Elo Errorbar. Da ist noch nichts ausserhalb der 95%.

Ansonsten habe ich keine Probleme damit zu glauben das eine Engine von 1 auf 4 Kerne 15 Elo besser skaliert als eine andere. In der "Liga" ändert sich dadurch für mich nichts, vielleicht im Ranking mal.

Mir ging es hauptsächlich um das "dramatisch", was für mich bedeuten würde, dass eine Engine wegen SMP plötzlich in einer Nachbarschaft steht wo man sie nie erwarten würde ...

Gruß
Ingo

By Gerhard Sonnabend Date 2014-03-20 14:10

Ingo B. schrieb:

Mal abgesehen davon das es auch noch andere Möglichkeiten gibt, aber wenn das das
extremste Bsp ist, also eine Engine (im Schnitt) 14 rauf, eine 14 runter, alles auf BL
Level bin ich extrem weit davon entfernt das damatisch zu nennen.

Ich selbst habe das gar nicht kommentiert, "dramatisch" jedoch
würde ich bei solch kleinen Unterschieden noch nicht mal denken,
geschweige denn schreiben.

Ingo B. schrieb:

Ich habe jetzt nicht nachgesehen, aber bei 5500 Spielen hast du so ca +/9 Elo Errorbar.
Da ist noch nichts ausserhalb der 95%.

Deep Shredder 12 x64 4CPU ELO 2899 +7 -7
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/127.html

Viele Grüsse,
G.S.

By ? Date 2014-03-20 19:40

Gerhard Sonnabend schrieb:

Ich selbst habe das gar nicht kommentiert, "dramatisch" jedoch
würde ich bei solch kleinen Unterschieden noch nicht mal denken,
geschweige denn schreiben.

Auch Michael sprach davon das es "wohl nicht dramatisch" wäre. Mir geht es nur wie dir, das Wort kommt mir wegen SMP nicht mal in den Sinn.

Ist aber auch egal, demnächst siulieren wir das sowieso alles, bekommen bessere Ergebnisse und sparen jede Menge Zeit und Strom

Gruß
Ingo

By Frank Quisinsky Date 2014-03-20 13:09

81 Shredder 12 x64 / w32 : 2798 5 5 9890 53.6 % 2773 36.7 %
90 Spike 1.4 Leiden w32 : 2782 6 6 7050 49.8 % 2783 37.0 %

SWCR:
Simulieren könnten wir noch viel mehr als die willkürlich gesetzten 5%.
Und hier hatten beide bis zu 200 Gegner!

Muss immer so lachen wenn es denn gar nicht anders geht und wir schieben dann auf irgend welche selbstgemachten 5%.
Schauen wir uns doch mal im Detail Shredder zu Sjeng an ... die Entwicklung von Shredder zu Sjeng ... der nächste Fall.
Sjeng wird offenbar stärker gegen neuere Engines die eingepickt werden. Dafür brauchen wir aber keine x tausend unnötige Partien sondern sehen es auch schon mit deutlich weniger.

So wenig Infos in unseren Ratinglisten und die die drin sind sind auch noch Murks bzw. unbrauchbar!

Gruß
Frank

By Gerhard Sonnabend Date 2014-03-20 13:54

Frank Quisinsky schrieb:

[...snip...]
Muss immer so lachen wenn es denn gar nicht anders geht und wir schieben dann auf irgend welche selbstgemachten 5%.
[...snip...]

Die sind nicht selbstgemacht !
Oder wertest Du anders aus ?

By Frank Quisinsky Date 2014-03-20 20:48

Hi Gerhard,

ehrlich jetzt ...
Ich orientiere mich mit Mittelwertenstatistik an der Remisquote und versuche anhand der Remisquote Rückschlüsse hinsichtlich Prognose zu suchen. Problematisch ist eigentlich nur, dass durch zu grobe Spielstärkeunterschiede die Remisquote sinkt. Also versuche ich mir selbst eine Tabelle zu konstruieren wie hoch die Remisquote durchschnittlich bei unterschiedlichen Engines je nach Elo Unterschied ist. Ist diese höher oder niedriger vermute ich, dass die Prognose nach x Partien zu y Partien besser wird.

Glaube der Versuch ist diesmal nicht für die Tonne.

Gruß
Frank

By Frank Quisinsky Date 2014-03-20 21:17

Hi Gerhard,

gehe vergleichbar vor wie das Stockfish Team im Framework. Wenn ich an diese oder jene Schraube drehen könnte das positiv oder negativ beeinflussen, ohne wirklich zu wissen ob ich erfolgreich damit bin. Mir fehlen hierzu einfach die mathematischen Kenntnisse aber hinsichtlich praktische Erfahrungswerte könnte ich ja zumindest mal diese Versuche starten.

Eigentlich finde ich es richtig gut wie Prof. Elo vorging um etwas herauszufinden. Nicht zuletzt war er eher spezialisiert auf theoretische Physik. Anhand von gesammelten Ergebnisse hat diesen Herrn die Wut gepackt

Kopfzerbrechen machen mir die Schwankungsbreiten denn es ist wie es ist. Mit aller Mathematik hinsichtlich Erfassung und Auswertung von Messungen ... niemals kann eine Messung genau sein wenn die Messgenauigkeit nicht klar ist bzw. klar definiert ist. Und beim Schach haben wir das Problem, dass die kleinste Einheit zum Messen ein Remis ist. Insofern, so meine Logik, muss ich bei dem Remis selbst ansetzen und beim Computerschach vielleicht noch viel früher ... bei den Zugbewertungen.

Prof. Elo war nicht dumm. Er bediente sich bei seinen Berechnungen an den langen Wettkämpfen der Altmeister und berechnete anhand der Elodifferenzen der Spieler die zu erwartenden Gewinnpunktzahlen des jeweils stärkeren Spielers und mache dann eine einfache Gegenüberstellung etc.. aber was er nicht berücksichtige war die Remisquote im Detail. Musste er auch nicht, weil ausschlaggebend war ja die veränderte Spielstärke bei Menschen ... Schwankungen.

Bei der Spielstärkeberechnung von Programmen, die keine Schwankungen vergleichbar zu Menschen haben, kann und muss die Remisquote viel höher ins Gewicht fallen. Mensch, diese ganzen Aufhänger kotzen mich an ... Standardnormalverteilungsfunktion der statistischen Wahrscheinlichkeitstheorie an der bei dem Wertungssystem der FIDE krampfhaft festgehalten wird. Und da wir nichts anders haben versuchen wir den ganzen Käse aufs Computerschach drüber zu legen.

Ach egal ...

Gruß
Frank

By Frank Quisinsky Date 2014-03-20 21:45

Hi Gerhard,

Gauß ärgert mich am meisten von allen.
Er sagte mal: "Der Mangel an mathematischer Bildung gibt sich durch nichts so auffallend zu erkennen, wie durch maßlose Schärfe im Zahlenrechnen". Er sagte das nicht ohne Grund und wusste um die Quisinsky's dieser Welt

Der war wirklich genial und verstand es zu animieren.
Denn das ist die höhere Kunst der Mathematik ist die Annimation zur Wiederlegung.

Also die Gaußsche Glockenkurve, dass ist etwas was mich begeistert. Die Formel ist nicht schwierig zu verstehen. Fraglich ist ob solche Dinge irgendwie auf kleinere Messeinheiten gelegt werden können um vielleicht eine bessere normale Verteilung zu erreichen. Die Messgenauigkeit muss klar sein.

Und das ist der Punkt ...
Ich sage ja nicht alles was unsere Mathematiker uns mit auf den Weg gegeben haben ist falsch, aber ist das wirklich anzuwenden beim Computerschach. Und das stelle ich in Frage ohne zu wissen wie mache ich es besser. Praktische Erfahrungswerte aufgrund der Berechnungen von unseren Listen und den bekannten Eigenschaften von den Kandidaten die getestet werden sind zwar schön und gut aber es muss ein Genius her der Mathematik und Programmierung gleich gut beherrscht.

Gruß
Frank

By Gerhard Sonnabend Date 2014-03-21 11:02

Hi Frank !

Ich bin zufrieden mit den Auswertungsmöglichkeiten welche wir haben.
Verbesserungsversuche gab es bereits einige, alle sind gescheitert
oder nicht weiter verfolgt worden.
Weshalb wohl ?

Es ist vielmehr so, ich hatte dies vor einigen Wochen einem anderen
User hier geschrieben, dass sich andere Sportarten und andere Leute
des ELO-Systems angenommen haben um ihre Ranglisten besser zu machen !!
Beim Golf zum Beispiel und auch einige Online-Spiele(r)-Listen haben
gefallen an der Auswertung lt. ELO gefunden.
Weshalb wohl ?

Die Auswertungsprogramme halten sich an die ELO-Formel.

Alles im Lot meiner Meinung.

Viele Grüsse,
G.S.

By Circular Date 2014-03-21 11:42

Hi,

Das elo System ist korrekt, da gibt es keinerlei Zweifel.

Jetzt mal angewandt im Fußball. Ich suche diese elo werte für die Bundesliga, werde aber nicht fündig.

Gibt es die nur für den internationen Weltverband?

Circular

By Frank Quisinsky Date 2014-03-21 12:28

Hi Gerhard,

tja, in mir tickt die Uhr der Veränderung wenn ich mit etwas nicht zufrieden bin.
Was ich von meiner Seite machbar machen kann versuche ich natürlich.
Problematisch ist, dass diese Themen Zeit in Anspruch nehmen wenn keine besseren Auswertungstools vorliegen.

Vielleicht werden wir diese erhalten und dann bin ich mir sicher das es auch Gerhard Sonnabend packt

Hab ein schönes WE.

Gruß
Frank

By Gerhard Sonnabend Date 2014-03-20 09:52

Hi Ingo !

Nachfolgend unsere bisherigen Messungen (CEGT 40/4).

Code:


Senpai 1.0 x64 1CPU vs Gegner > 2840
223.0 / 600 = 37.2% = - 91  | Av.Opp. 2932 | 2932 - 91 = 2841

Senpai 1.0 x64 1CPU vs Gegner < 2840
404.0 / 700 = 57.7% = + 54  | Av.Opp. 2781 | 2781 + 54 = 2835

Auch hier ist kein relevanter Unterschied zu erkennen diesbezüglich.

Da der Autor ungefähr Protector 1.5.0 Niveau erwartet hat,
hier der Zwischenstand für die CEGT 40/4:

Code:


Senpai 1.0 x64 1CPU        2838 out of 1300 games  + 15
Protector 1.5.0 x64 1CPU   2823 out of 3700 games

Bei Dir dürften es wohl + 11 bis + 13 im Vergleich zu Protector werden.

Viele Grüsse,
G.S.

By Ingo B. Date 2014-03-20 12:47

Gerhard Sonnabend schrieb:

Code:


Senpai 1.0 x64 1CPU        2838 out of 1300 games  + 15
Protector 1.5.0 x64 1CPU   2823 out of 3700 games

Bei Dir dürften es wohl + 11 bis + 13 im Vergleich zu Protector werden.

Na ja, ich hatte noch die SPiele gegen DF14 am laufen (sah nicht so gut aus für Senpai) Die sind heute Nacht fertig geworden und ich mache heute Abend die Endauswertung. Mal sehen.

Gruß
Ingo

By Ingo B. Date 2014-03-20 22:01

Die Fritz GUI hat's nicht geschafft und ich muß ein paar Partien nachspielen. Endgültiges Ergebniss also erst morgen.

Gruß
Ingo

By Ingo B. Date 2014-03-21 19:12

Jetzt, sorry.

Ingo

By Gerhard Sonnabend Date 2014-03-22 10:01

Vielen Dank !

Bei uns hat sich nach 600 weiteren Spielen
nichts mehr geändert (war zu erwarten),
die +15 gegenüber Protector sind stabil.

Senpai 1.0 @ CEGT 40/4 ---> http://cegt.forumieren.com/t112-testing-senpai-10

Viele Grüsse,
G.S.