Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SPCC: 2ter Testrun von Stockfish 141112 durch
- - By Stefan Pohl Date 2015-01-06 12:03
Testrun of Stockfish 141112 finished (again).

http://spcc.beepworld.de

(Perhaps you have to clear your browsercache or reload the website)
Parent - - By Ralf Mueller Date 2015-01-06 12:20
Vielen Dank für diese Klärung. Eine Schwankung um 11 Elopunkte sieht man ja doch nicht alle Tage. Methodisch wäre es allerdings sinnvoller, nicht das zweite Ergebnis für das "richtige" zu erklären, weil es besser passt, sondern beide Ergebnisse gleich zu behandeln und zusammen zu werten.
Parent - By Stefan Pohl Date 2015-01-06 12:27
Ralf Mueller schrieb:

Vielen Dank für diese Klärung. Eine Schwankung um 11 Elopunkte sieht man ja doch nicht alle Tage. Methodisch wäre es allerdings sinnvoller, nicht das zweite Ergebnis für das "richtige" zu erklären, weil es besser passt, sondern beide Ergebnisse gleich zu behandeln und zusammen zu werten.


Das geht nicht ohne weiteres, weil ich in der neuen Elo-Kalkulation keine Partien der 2 alten Gegner-Engines  (Fire 3 und Rybka 4.1) gegen nicht-Stockfish-Gegner und gegeneinander habe. Daher kann ich die alten Ergebnisse nicht in die neue Kalkulation mit reinnehmen, weil Ordo dann Teile der Datenbasis für eine korrekte Kalkulation fehlen würden. Und diese Partien nur für einen einzigen Stockfish-Testrun zusätzlich auszuspielen, ist mir dann doch zu viel Aufwand...Irgendwo muß auch dem Test-Irrsinn eine Grenze gesetzt sein...  

Stefan
Parent - - By Benno Hartwig Date 2015-01-06 15:32
Thanx, Stefan.
Wir lassen also kein unerkanntes Gold links liegen, wenn wir die spezielle Programmierung der Version vom 12.11. nicht noch einmal eingehend prüfen.
Benno
Parent - - By Stefan Pohl Date 2015-01-06 18:17
Benno Hartwig schrieb:

Thanx, Stefan.
Wir lassen also kein unerkanntes Gold links liegen, wenn wir die spezielle Programmierung der Version vom 12.11. nicht noch einmal eingehend prüfen.
Benno


Nachdem Andreas Strangmüller mit einigen Tausend Partien bei Stockfish 141112 keine Besonderheiten gemessen hat, war das zu erwarten. Schon bemerkenswert, daß selbst bei 5000 Partien doch so unterschiedliche Ergebnisse rauskommen können. Gibt doch zu denken...

In meinem Endless RoundRobin liegt Stockfish 141112 allerdings immer noch überproportional gut. Mal sehen, ob und wie lange das so bleibt.

Stefan
Parent - - By ? Date 2015-01-07 07:38 Upvotes 1
Stefan Pohl schrieb:

Schon bemerkenswert, daß selbst bei 5000 Partien doch so unterschiedliche Ergebnisse rauskommen können. Gibt doch zu denken...
...


Statistisch ist das NICHT bemerkenswert. Im Schnitt muß jeder 20 Test (5%) ein Aussreißer sein. Man könnte natürlich mit einer 97/98/99% Rate fahren, dafür wird dann die Errorbar breiter. Ich jedenfalls mache mir keine Gedanken dass ich, im Vergleich zur CEGT, seit Ewigkeiten einen Aussreißer in meiner Liste herumschleppe (oder die CEGT hat den Ausreißer). Vergegenwärtigen solte man sich noch, dass wir hier von rund 10 Elo sprechen. Das ist nichts! Insbesondere in diesen hohen Spähren ist das für den betrachtenden Menschen völlig unerheblich und (z.B.) in einem Turnierchen wie dem TCEC unmöglich nachzuweisen. Das ist die Natur der Dinge.

Ingo
Parent - - By Stefan Pohl Date 2015-01-07 13:09 Edited 2015-01-07 18:15
Zitat:


Statistisch ist das NICHT bemerkenswert. Im Schnitt muß jeder 20 Test (5%) ein Aussreißer sein. Man könnte natürlich mit einer 97/98/99% Rate fahren, dafür wird dann die Errorbar breiter. Ich jedenfalls mache mir keine Gedanken dass ich, im Vergleich zur CEGT, seit Ewigkeiten einen Aussreißer in meiner Liste herumschleppe (oder die CEGT hat den Ausreißer). Vergegenwärtigen solte man sich noch, dass wir hier von rund 10 Elo sprechen. Das ist nichts! Insbesondere in diesen hohen Spähren ist das für den betrachtenden Menschen völlig unerheblich und (z.B.) in einem Turnierchen wie dem TCEC unmöglich nachzuweisen. Das ist die Natur der Dinge.

Ingo


Alles völlig korrekt. Beim fraglichen Satz habe ich bewußt das Wort "statistisch" weggelassen. Er war eher als Weckruf an alle gedacht, die dem TCEC nennenswerte Aussagekraft bzgl. Rating, Spielstärke etc. zumessen...

Den Testrun habe ich nur (mit 2 anderen Gegnern) neu durchlaufen lassen, weil Andreas Strangmüller bei der fraglichen Stockfishversion gegen Komodo mit ein paar Tausend Partien keine Steigerung gemessen hat. Zur Gewohnheit wird ein solches "Retesting"  bei mir sicher nicht werden. Ich weiß genau, daß es auch mal Außreißer geben kann. Gerade deshalb mache ich ja so viele Testruns von Stockfish-Devs. Entscheidend ist ja der Generalkurs der Spielstärkeentwicklung (daher ja auch die entsprechende Grafik auf meiner Website). Einzelne Kurvenausschläge muß man hinnehmen. Tue ich auch.

Stefan
Parent - - By Ingo B. Date 2015-01-07 15:09 Upvotes 1
Stefan Pohl schrieb:

.... Er war eher als Weckruf an alle gedacht, die dem TCEC nennenswerte Aussagekraft bzgl. Rating, Spielstärke etc. zumessen...


?

Gibts da welche? Nicht ernsthaft, oder? Und wenn doch haben sie sich damit sofort disqualifiziert. Ich kann das sagen, ich muß ja keine Rücksichten nehmen

Ingo
Parent - By Stefan Pohl Date 2015-01-08 05:42
Ingo B. schrieb:

Stefan Pohl schrieb:

.... Er war eher als Weckruf an alle gedacht, die dem TCEC nennenswerte Aussagekraft bzgl. Rating, Spielstärke etc. zumessen...


?

Gibts da welche? Nicht ernsthaft, oder? Und wenn doch haben sie sich damit sofort disqualifiziert. Ich kann das sagen, ich muß ja keine Rücksichten nehmen

Ingo


Leider doch. Ich hatte schon mehrere Anfragen über das Kontaktformular meiner Website, in welcher Beziehung die Elozahlen meiner Stockfish-Dev-Tests zu den Ratingzahlen auf der TCEC Seite stehen...Ganz besonders vor und während des letzten Superfinals bei TCEC, weil ich die dort verwendete Stockfishversion ja zeitgleich bei mir getestet hatte. Allerdings kamen die allermeisten auf English, daher wird ein posten hier meinerseits da auch nicht viel bringen. Aber auch hier im Forum sind doch immer wieder Postings zu lesen, in denen TCEC-Resultate mit einer (statistisch schlicht nicht vorhandenen) Bedeutung belegt werden.
Zitate dazu zu heraussuchen, erspare ich mir. Aber wer danach suchen will, der findet.

Stefan
Parent - - By Benno Hartwig Date 2015-01-08 07:54 Edited 2015-01-08 08:03

> Gibts da welche? Nicht ernsthaft, oder?


Es kommt aber auch immer darauf an, womit man "Aussagekraft" vergleicht, und mir fallen da jetzt die Computerweltmeisterschaften vieler Jahre ein.
Und dann kann man eben doch sagen:
Die Wahrscheinlichkeit dafür, dass das Event von der tatsächlich stärksten Engine gewonnen wird, ist bei TCEC schon und erfreulich höher als bei diesen diversen WMs mit ihren Titeln, die dann jahrelang werbewirksam auf die Verpackungen gedruckt wurden!
OK, die Wahrscheinlichkeit für einen TCEC-Sieg des eigentlich Zweitbesten, ist wohl auch nicht soo klein.

TCEC sehe ich daher als verbesserten(!) Ersatz für diese Events, und zwar durchaus wegen der relativen Ergebnisqualität.
(Und auf die Idee, darin einen "Ersatz" für Ratinglisten zu sehen, sollte sicher tatsächlich auch niemand kommen)

Darum:
Sicherlich sollte man nicht bei den TCEC-Ergebnissen und ihrer Qualität zu sehr "Hui" rufen,
wertende Postings sollten aber auch nicht zu sehr in Richtung "Buh" gehen.

Benno
Parent - - By Ingo B. Date 2015-01-08 11:39
Benno Hartwig schrieb:

... TCEC sehe ich daher als verbesserten(!) Ersatz für diese [WM] Events...


Wer auch immer ein einziges mal bei einem Live-Turnier wie Paderborn, Leiden oder auch jede ICGA WM dabei war, kann ein Online Turnir wie das TCEC keinesfalls auch nur als minderwertigen Ersatz für eine richtige WM sehen. Es fehlt das individuelle Engagement des Programierers das beste aus seiner Engine herauszukitzeln - und diesen Faktor darf man nicht unterschätzen (Bsp: Junior, die Engine, die nicht mal zweit, dritt oder viert (...) beste ist, würde von ihrer Testleistung nie WM werden ... und doch ...)! "Verbesserte" WM? Nein!
Genauso ist ein Kurzturnier wie das TCEC natürlich kein Ersatz für irgeneine halbwegs ordentliche Rangliste.

Anders: Ein Weltmeister muß nicht unbedingt der "Beste" sein. Wenn man das aktzeptiert ist das TCEC nicht geeignet einen WM zu sein, weil der Programmierereinfluß um auch eine "niedere" Engine nach oben zu spühlen fehlt (Bsp oben). Wenn man das nicht aktzeptiert ist das TCEC nicht das Mittel der Wahl um den Besten zu kühren, dafür gibt es raffiniertere Ranglisten.

Was das TCEC also darstellt soll jeder selbst entscheiden. Für mich ein nettes Turnier wegen der HW die er sich leisten kann mit einer herausragenden Webdarstellung (und "Marketing"). Eine WM oder Rangliste ist es jedenfalls nicht.

Gruß
Ingo
Parent - - By Benno Hartwig Date 2015-01-08 13:34

> Wer auch immer ein einziges mal bei einem Live-Turnier wie Paderborn, Leiden oder auch jede ICGA WM dabei war...


Mag ja sein.
Aber wie ist die Wirkung auf die 99,99...%, die bei solch einem Event nie dabei waren? 
Benno
Parent - By Ingo B. Date 2015-01-08 15:56
Benno Hartwig schrieb:

Aber wie ist die Wirkung auf die 99,99...%, die bei solch einem Event nie dabei waren? 


Zum einen werden die meisten die Wirkung einfach hinnehmen - dann kann man sie aufklären, wenn sie fragen. Die die nicht fragen und das nur konsumieren tun mir leid, sie haben nicht nur eine richtige WM verpasst, sondern auch nie reflektiert was sie da erlebt haben. Das letztere ist sogar noch schlimmer.

Gruß
Ingo
Parent - - By Andreas Aicher Date 2015-01-08 13:39
ich sehe das ähnlich, es ist ein privates Turnier, die Bedingungen werden vom Veranstaler vorgegeben, es wird mit festgelegten Vorgabestellungen gespielt, die Partiemenge für diese Art von Computerturnieren ist eindeutig zu gering, um aussagekräftige Resultate erzielen zu können, ich bin überzeugt, dass andere Vogabestellungen ein anderes Ergebnis bringen würde.
Nur eines ist für mich sicher herauszulesen, dass die beiden Topengines  sich durchgesetzt haben, ich schliesse daraus aber eher, dass der Abstand von Komodo und Stockfish inzwischen derart gross ist, dass zumindest unter ähnlichen Bedingungen (Bedenkzeit und Hardware) sich die beiden immer Top Engines immer durchsetzen werden.
Eine WM ist es auch für mich auf keinem Fall, es bleibt ein privates Turnier, sicher kein aussagefähiges Ranglistenturnier

mfG Andreas
Parent - - By Benno Hartwig Date 2015-01-08 15:14

> Ich bin überzeugt, dass andere Vogabestellungen ein anderes Ergebnis bringen würde...


Sicher.
Ich habe aber nicht den Eindruck, dass die bei TCEC verwendeten Vorgabestellungen gewählt wurden, um irgendeine Färbung in das Turnier zu bringen. Eine Färbung, die manchen Engines zum Vorteil und anderen zum Nachteil gereicht.
Auch die zufällig gewählten Endstellungen der Bücher, die in den diversen Ratinglisten zum Einsatz kommen, werden mal der einen und mal der anderen Engine mehr liegen. Und mann hofft einfach, dass der Zufall und die große Zahl der Partien dann doch wieder leidlich Gerechtigkeit herstellen.

Bei den Computer-WMs hatte jeder Teilnehmer sein eigenes Buch mitgebracht.
Klar ist das ein sehr interessanter Ansatz.
Du hast dann aber nicht mehr einen Wettkampf der Engines sondern der Schachsysteme bestehend mindestens eben aus Engine und Buch.
Wobei bei den alten WMs diese Systeme dann vielmehr sogar aus
- Engine
- Buch
- Hardware
- Tablebases
- und ggf. den zwischen den Partien ständig tunenden Betreuern bestanden.
Ein anderer Ansatz halt.

Dieser mag durchaus als noch interessanter empfunden werden, ja,
aber es wurde damals auch z.B. Vas dafür kritisiert, dass er mit einer wahren Rechner-Landschaft angereist kam um teilzunehmen.
Es Recht zu machen jedermann...

Benno
Parent - By Ingo B. Date 2015-01-08 16:04
Benno Hartwig schrieb:


Ich habe aber nicht den Eindruck, dass die bei TCEC verwendeten Vorgabestellungen gewählt wurden, um irgendeine Färbung in das Turnier zu bringen. Eine Färbung, die manchen Engines zum Vorteil und anderen zum Nachteil gereicht.
...


Das sehe ich auch so - zu einer echten Weltmeisterschaft gehört aber doch das der Programmierer das letzte Wort hat was seine Engine spielt! (Ob das wirklich immer das beste ist sein dahingestellt - aber eine Fußball WM wird auch nicht mit Einheitsschuhen gespielt, weil jeder das optimum aus seinen Spielern/Manschaften herausholen möchte!)

Benno Hartwig schrieb:

Bei den Computer-WMs hatte jeder Teilnehmer sein eigenes Buch mitgebracht.
Klar ist das ein sehr interessanter Ansatz.
Du hast dann aber nicht mehr einen Wettkampf der Engines sondern der Schachsysteme bestehend mindestens eben aus Engine und Buch.
Wobei bei den alten WMs diese Systeme dann vielmehr sogar aus
- Engine
- Buch
- Hardware
- Tablebases
- und ggf. den zwischen den Partien ständig tunenden Betreuern bestanden.
Ein anderer Ansatz halt.


Das TCEC ist für mich nicht Fisch noch Fleisch (WM/Rangliste). Nettes Turnier - dank der Hardware, dazu das Marketing welches für deine 99.99% den Unterschied macht. Wer darauf reinfällt ... Der große Unterschied zu einer WM ist, dass ich das mit längerer Zeit auch zu Hause spielen könnte. So etwas ist keine WM für mich.

Gruß
Ingo
Parent - - By Andreas Aicher Date 2015-01-08 16:20
Fakt ist, das TCEC ist ein privates Turnier, keine WM, will es ja auch gar nicht sein.
Natürlich wurden die Vargabestellungen nicht gewählt, um einer Engine einen Vorteil zu verschaffen, das heisst aber nicht, dass eine Engine durch die Auswahl bevorzugt sein könnte oder vielleicht sogar bevorzugt ist.
Es sind einfach zu wenige Partien für eine Rangliste.
Auch die Engineauswahl wäre bei einer WM für mich undenkbar.
Das wäre wie eine Olympiade, bei der alle dopen und niemand kontrolliert, nun gut, vielleicht ein schlechtes Beispiel, was vielleicht daher kommt, dass mich Sport überhaupt nicht interessiert 
Parent - - By Benno Hartwig Date 2015-01-08 17:04

> Es sind einfach zu wenige Partien für eine Rangliste.


Es ist ja auch keine Rangliste, will auch keine sein. Es ist ein aus meiner Sicht nur besonders gutes(!) 'sportliches' Event.

> Auch die Engineauswahl wäre bei einer WM für mich undenkbar.


Ob einem die Teilnehmerschar hier bei TCECoder die des letzten ICGA-Events
https://icga.leidenuniv.nl/?page_id=633
besser gefällt (oder auch die jeweilige Durchführung!), darf dann ja jeder für sich entscheiden.

Mich zumindest beeindruckt TCEC weit mehr als das, was ICGA da stets geboten hat, und das um so mehr in den letzten Jahren!
Hinsichtlich der Durchführung, auch hinsichtlich der Präsentation, und hinsichtlich der Qualität der Ergebnisse (Partienzahl).
Aber ihr habt natürlich Recht: es ist keine Rangliste, es ist ein feines 'Sportereignis'.
Aber eines, bei dem die tatsächliche Spielstärke durchaus schon einigen Einfluss auf die Gewinnwahrscheinlichkeit hat. (Im ziemlichen Gegensatz zu ICGA eben)

Benno
Parent - By Benno Hartwig Date 2015-01-08 21:32 Edited 2015-01-08 21:35
Da der LInk zur 2013-WM irgendwie nicht funktioniert:
http://chessprogramming.wikispaces.com/WCCC+2013
Junior, Jonny, Hiarcs, Pandix, Shredder, Merlin zelebrierten als Repräsentanz des Welt-Computerschachs ein doppelrundiges WM-Jeder-gegen-jeden, (also genau 10 Partien für jeden) wobei Merlin mit 0,0 aus 10 aus dem Rennen ging. Wäre "Lückenfüller" eine zu harte Vokabel?
Benno
Parent - - By Thomas Müller Date 2015-01-08 16:59
TCEC ist ein tolles turnier, wie schon erwähnt.
Eine WM ist es nicht.
Aber für mich sind ICGA WMs auch keine WMs mehr!
Die letzten jahre ist es schon fast ein witz eigentlich, weil die guten programme einfach nicht teilnehmen bzw wollen ?! ....oder eben nicht teilnehmen dürfen

Meiner meinung nach haben wir im bereich computerschach nix vernünftiges!
Ausser aussagekräftigen ranglisten.
Aber für die meisten ist sowas vermutlich ausreichend ?!!

gruß
thomas
Parent - - By Benno Hartwig Date 2015-01-08 21:22

> Meiner meinung nach haben wir im bereich computerschach nix vernünftiges!


Hatten wir denn irgendwann tatsächlich mal 'Vernünftigeres'?
OK, vor etlichen Jahren war die Teilnehmerschar bei den WMs noch die Creme der Schachsysteme.
Aber die paar Runden Schweizer Turnier bei der WM hatten doch eigentlich immer nur ganz sicher "nichts Vernünftiges" hergeben können. Oder siehst du das wirklich anders?

Wir haben heute sehr relevante Ranglisten,
wir haben ein großartiges TCEC-Event
und wir haben sehr spielstarke Software und immer noch erhebliche Dynamik
und wir haben saustarke Open Source Software.
Ich finde wir haben im Bereich Computerschach heute sehr viel Vernünftiges, weit mehr als jemals zuvor.
Nur die ICGA spielt heute eben dabei keine Rolle mehr.

Benno
Parent - By Thomas Müller Date 2015-01-08 21:39
die 90er und bis evtl. 2006/07/08 fand ich es noch ok das als WM zu sehen.
Seither hat sich das für mich erl.

Ja klar, ich bin mit dem was es heute gibt, egal wie es jetzt benannt wird, zufrieden.
Aber die ICGA tut dafür nix, was eigentlich schade ist.
Aber das ist heutzutage evtl. nicht mehr so wichtig, der stellenwert ist nicht mehr notwenig?!

gruß
thomas
Up Topic Hauptforen / CSS-Forum / SPCC: 2ter Testrun von Stockfish 141112 durch

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill