Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 140226
- - By Stefan Pohl Date 2014-03-03 06:52
The result of Stockfish 140226 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
Parent - By Tom Paul Date 2014-03-03 09:23
Wenn jetzt der neue Stockfish in der Praxis die dämlichen 3-Fold Rep vermeidet, dann ist es ein Erfolg.
Parent - - By Jörg Oster Date 2014-03-03 11:28
Hallo Stefan,

vielen Dank für den Testlauf und für die Zusendung der Partien.

Auch hier nochmal der Hinweis, dass ich mit diesem Patch nicht die allgemeine Remisrate senken wollte, sondern einzig und alleine die Anzahl der Frühremisen deutlich senken wollte, ohne die Spielstärke zu beeinflussen. Ich freue mich sagen zu können, dass ich dieses Ziel erreicht habe!

Man sehe:
Engine:
                                SF140222                        SF140226   

Draws within move 20:              59                               2                   

Draws within move 30:             177                              58                  

Draws within move 40:             391                             266       

Overall Draw Rate:               45.9%                            45.5%
Parent - - By Tom Paul Date 2014-03-03 14:02
Gratuliere.
Der Fortschritt ist TOP.

Die Spielstärke ist bestimmt auch gestiegen, da Menschen jetzt nicht mehr in der Lage sein werden sehr viele Partien zu remisieren.
Und auch gegen viel schwächere Engines gibt es einen Spielstärke Gewinn.

Ich hoffe das auch in Zukunft daran gearbeitet wird die Remis Quote zu senken.
Jemand hier im Forum hatte geschrieben, dass Houdini bis zum 30 Zug nur 2 Remis hatte.
Parent - By Jörg Oster Date 2014-03-03 15:18
Tom Paul schrieb:

Gratuliere.
Der Fortschritt ist TOP.

Die Spielstärke ist bestimmt auch gestiegen, da Menschen jetzt nicht mehr in der Lage sein werden sehr viele Partien zu remisieren.
Und auch gegen viel schwächere Engines gibt es einen Spielstärke Gewinn.

Was noch zu beweisen wäre.

Tom Paul schrieb:

Ich hoffe das auch in Zukunft daran gearbeitet wird die Remis Quote zu senken.
Jemand hier im Forum hatte geschrieben, dass Houdini bis zum 30 Zug nur 2 Remis hatte.

Von meiner Seite her lege ich dieses Thema erstmal ad acta.
Parent - - By Stefan Pohl Date 2014-03-03 14:17
Das ist ja schön, daß die frühen Remisen so deutlich zurückgegangen sind, aber Marco scheint das anders zu sehen. Jedenfalls hat er deinen Patch wieder rausgeworfen...
Da mußt du wohl noch mal mit ihm sprechen.

Stefan
Parent - By Thomas Müller Date 2014-03-03 15:31
Parent - - By Hauke Lutz Date 2014-03-04 00:49
Hallo Stefan,

kannst du bitte auf deiner HP oder hier die Kreuztabelle mit Stockfish140226 posten?

Danke
Hauke
Parent - - By Stefan Pohl Date 2014-03-04 06:46
Hauke Lutz schrieb:

Hallo Stefan,

kannst du bitte auf deiner HP oder hier die Kreuztabelle mit Stockfish140226 posten?

Danke
Hauke


Du kannst dir die Ergebnisse aller einzelnen Zweikämpfe direkt auf der Home-Seite meiner Website herunterladen ("download all head-to-head results of all engines here"). Auch die Ergebisse von Stockfish 140226 sind dort natürlich dabei.

Stefan
Parent - - By Hauke Lutz Date 2014-03-04 13:50
Das ist natürlich stark
Parent - - By Stefan Pohl Date 2014-03-05 17:32
Hauke Lutz schrieb:

Das ist natürlich stark


Danke.

Ich bekam einfach so viele Anfragen bzgl. Einzelergebnissen von Engines, die nicht im LS-top10-tournament verzeichnet sind und auch bzgl. der Remisquoten, daß der Arbeitsaufwand mittlerweile geringer ist, wenn ich Elostat die Statistiken erstellen lasse und die Datei zum Download anbiete, anstatt allen Anfragenden per mail Auskunft zu geben...

Gruß - Stefan

PS: Im Moment teste ich übrigens (der Vollständigkeit halber) Houdini 4 mit Contempt=2 (als Setting). Ergebnis voraussichtlich Freitag.
Parent - - By Stefan Pohl Date 2014-03-05 19:48
Stefan Pohl schrieb:


PS: Im Moment teste ich übrigens (der Vollständigkeit halber) Houdini 4 mit Contempt=2 (als Setting). Ergebnis voraussichtlich Freitag.


Danach teste ich dann Stockfish mit festem Contempt=15. Weil Marco nur bereit ist, diesen Wert per default in Stockfish einzubauen, wenn der Nachweis gelingt, daß er gegen andere, schwächere Engines eine Verbesserung bringt. Die Resultate im Selftest haben ihn wohl nicht überzeugt.
Eigentlich wollte ich nicht noch zum Settingtester für Stockfish werden, aber das scheint die einzige Möglichkeit zu sein, daß doch noch irgendein Contempt Faktor per default in Stockfish eingebaut wird...

Stefan
Parent - - By Benno Hartwig Date 2014-03-06 16:22
Klasse.
Du lieferst nicht nur einen sehr kompletten und fundierten Überblick über die aktuelle Engine-Landschaft,
du findest auch immer mal wieder Gelegenheit, speziellen sehr interessanten Fragestellungen nachzugehen.
Finde ich super!
Benno
Parent - - By Stefan Pohl Date 2014-03-06 18:44
Benno Hartwig schrieb:

Klasse.
Du lieferst nicht nur einen sehr kompletten und fundierten Überblick über die aktuelle Engine-Landschaft,
du findest auch immer mal wieder Gelegenheit, speziellen sehr interessanten Fragestellungen nachzugehen.
Finde ich super!
Benno


Ja, danke. Aber das geht auch nur, weil ich mich auf den Top-Bereich der Engines bzgl. Spielstärke konzentriere und mit so kurzen Bedenkzeiten teste. Sonst wäre das nicht möglich. Einen wirklich kompletten Überblick über die Enginelandschaft gibt es daher bei mir genaugenommen nicht. Denn dazu gehören ja auch mittelstarke und schwächere Engines. Aber da gibt es ja die CEGT und CCRL die zwar nicht so sehr genau sind, aber für einen Gesamtüberblick reichen diese allemal.
Ich wollte eben ganz bewußt auch einen Bereich mit meiner Testarbeit abdecken, den andere Tester so nicht anbieten. Daher eben die Konzentration auf den Top-Bereich mit sehr vielen Partien für hohe Genauigkeit und aussagefähige Einzelvergleiche. Und zusätzlich auch Tests von Derivaten. Denn wer testet sonst schon DON oder Fire etc.? Und eben auch Tests interessanter Development-Versionen (Stockfish-Entwicklung zeitnah abbilden) und auch mal ein interessantes Setting seriös testen (wie eben jetzt Houdini mit Contempt=2 oder jetzt Stockfish mit Contempt Factor=15 etc.).
Der Preis den man dafür zahlen muß, ist die sehr kurze Bedenkzeit, ansonsten bräuchte man sehr viel mehr Cores, die ich mir nicht leisten kann (und will), um einen Testlauf in ca. 3 Tagen durchziehen zu können.

Gruß - Stefan
Parent - - By Tom Paul Date 2014-03-07 16:32
Wie läuft der Stockfish Test mit Contempt 15?
Parent - - By Stefan Pohl Date 2014-03-08 08:07
Tom Paul schrieb:

Wie läuft der Stockfish Test mit Contempt 15?


Zur Halbzeit praktisch identisch zum Endergebnis von Stockfish 140222 (auch bzgl der Remisquote). Auch dieser feste Contempt scheint nicht viel zu bringen. Überrascht mich nicht wirklich, ein Wert von 15 ist bei den rel. extremen Bewertungen von Stockfish m.E. viel zu niedrig.
Vielleicht probiere ich es nach Abschluß noch mal mit einem höheren Wert (30?!). Falls sonst nichts zum Testen anliegt.

Stefan
Parent - By Tom Paul Date 2014-03-08 09:17
Wenn die Remisquote und das Endergebnis gegen deine Top Engines gleich bleibt, dann sind wir trotzdem die frühen Remis los und dazu gibt es noch ELO gegen schwächere Engines.
Also hat Contempt 15 gleich zwei Vorteile.
Vielleicht ist der Contempt bei langen Bedenkzeiten mehr von Vorteil.
Ja ein Test mit Contempt 30 wäre sehr interessant zum Testen.
Parent - - By Jörg Oster Date 2014-03-08 10:11
Hallo Stefan,

dieses Zwischenergebnis überrascht mich nicht wirklich.
Ich habe damals, als Marco den Contempt zum ersten Mal in die Sourcen einfügte, einige Tests für ihn gemacht. Das etwas enttäuschende Endergebnis: gegen manche Engines bringt er was, gegen andere schadet er. Insgesamt war SF mit Contempt dann sogar eher etwas schlechter als default, bzw. bestenfalls gleich stark. Und wenn ich mich richtig erinnere, war ein etwas höherer Contempt eher schlechter. 

Mittlerweile gibt es so viele Tests mit Contempt, und keiner hat wirklich was gebracht. Stockfish scheint sich da einfach anders zu verhalten als andere Engines. Genauso wie mit diesen vielen Frühremisen, die sonst meines Wissens in diesem Ausmaße keine andere Engine fabriziert.

Gruß, Jörg.
Parent - - By Tom Paul Date 2014-03-08 10:25
Damals war Stockfish aber nicht die Nr.1, heute schon.
Houdini als Nr. 1 hatte auch Contempt.

Wegen der Frühremisen, da habe ich das Gefühl das kaum einer von den Entwicklern den ganzen Stockfish Code kennt und versteht.
Somit sind 1. Verbesserungen ganz schwierig und 2. neues Wissen/Ideen einfügen auch.
Vielleicht sollte auch mal der ganze Code erklärt werden, dann würde man bestimmt auch die Frühremisen verstehen.
Nur hat man das im Stockfish Forum noch nicht gemacht.
Parent - - By Benno Hartwig Date 2014-03-08 19:08
"Stockfish ist die Nr. 1" hört man immer wieder mal.
Welche der etablierten Listen haben denn einen SF auf Platz 1?
Und wie viele haben ihn nicht dort?

Ich warte mit solchen Formulierungen lieber noch ein wenig!

Benno
Parent - - By Andreas Aicher Date 2014-03-08 20:13
ich denke auch, dass es inzwischen so ist, dass Stockfish wirklich die Nummer 1 ist, dass das in den von Dir angesprochenen etablierten Listen noch nicht so ist, ist für mich einzig der Tatsache geschuldet, dass die biesher nur Stockfish DD aufgelistet haben, seitdem hat sich doch wohl einiges getan.

Man muss, so denke ist nicht mit solchen Formulierungen warten, es sei denn man will es unbedingt 

Andreas
Parent - - By Benno Hartwig Date 2014-03-08 22:25

> Man muss, so denke ist nicht mit solchen Formulierungen warten, es sei denn man will es unbedingt  


Ich vermute, dann warten wir beide mit einigem Interesse auf die nächste etablierte Liste, die einen aktuellen Stockfish mitbetrachtet. (LS zeigt es ja noch nicht)
Im Moment scheint mir die Gefahr noch groß, dass sehnsüchtige Wünsche als Väter mancher Gedanken noch eine große Zeit haben.
Benno
Parent - - By Andreas Aicher Date 2014-03-08 23:57
falsch vermutet 
für mich ist das nicht so wichtig, bei längeren Bedenkzeiten ist es ja ohnehin schon länger recht klar, wer die Nummer 1 ist
Auch das direkte Duell konnte Stockfish gegen Houdini sogar im Bullit der LS Rangliste für sich entscheiden.
Bei langen Bedenkzeiten ist ja auch Komodo an Houdini vorbeigezogen und sorry, nur das ist für mich wirklich interessant
Andreas
Parent - - By Benno Hartwig Date 2014-03-09 06:59

> Bei langen Bedenkzeiten ist ja auch Komodo an Houdini vorbeigezogen


Hast du einen Link auf eine statistisch belastbare Untersuchung?
Benno
Parent - - By Andreas Aicher Date 2014-03-09 12:08
Eine belastbare Untersuchung, damit, was immer das auch sein soll, kann ich nicht dienen.
Aber es spricht doch einiges dafür, dass dem so ist.
Komodo hat das letzte TCEC Turnier gewinnen können, Komodo hat in der 3Champs Turnieren gegen Houdini 4 gewinnen können, Komodo hat, Du brauchst nur selbst, wenn Du es wirklich wissen willst eigentlich jeden Zweikampf gegen Houdini mit längerer Bedenkzeit gewinnen können, zumindest habe ich keines bisher entdecken können, wo Houdini als Sieger hervorgegangen wäre.
Hier auch noch die CETG 40/120 Liste
http://www.husvankempen.de/nunn/40120new/40_120_ratinglist/40_120_AllVersion/rangliste.html
natürlich, wie ich Dich kenne, wirst Du glauben, dass dies noch zuwenige Partien sind, um "belastbar" zu sein.
Da kann ich dann nur erwidern, die Summe der Siege bzw. Niederlagen bei längeren Bedenkzeiten macht es auch.
Das ist mehr als nur eine Tendenz, die bessere Engine verliert nun mal nicht regelmässig gegen die Schwächere, ob man das nur für statistisch belastbar hält oder nicht 

Andreas
Parent - - By Benno Hartwig Date 2014-03-09 13:37

> Hier auch noch die CETG 40/120 Liste
> http://www.husvankempen.de/nunn/40120new/40_120_ratinglist/40_120_AllVersion/rangliste.html
> natürlich, wie ich Dich kenne, wirst Du glauben, dass dies noch zuwenige Partien sind, um "belastbar" zu sein.


Gut, hier hast du ja schon mal eine wirklich namhafte Liste benannt. Thanx.

Und was meinst du nun persönlich:
Geben dir die jeweils 300 Partien ausreicend Sicherheit, um einen 2-ELO-Vorsprung von K diagnostizieren zu können? 
Das K bei langen Zeigen ggü. H besser wird, denke ich natürlich auch. Ob es für ein Vorbeikommen reicht, weiß ich hingegen nicht.

Benno
Parent - By ? Date 2014-03-09 14:38
ich sprach nicht von den 300 Partien, sondern von der Summe, diese Liste ist doch nur ein kleines Puzzle, ein kleines weiteres Indiz, praktisch sämtliche Zweikämpfe mit längeren Partien wurden doch von Komodo gewonnen.
Diese 300 Partien für sich allein betrachtet sagen nichts aus, nur im Zusammenhang erwähnenswert. Du kannst doch die Tatsache nicht einfach übersehen und dich jetzt auf dieses kleine Puzzle stürzen, Du musst schon das Gesamtbild betrachten, so einfach ist es nun doch nicht.
Andreas
Parent - By Stefan Pohl Date 2014-03-09 04:10
Andreas Aicher schrieb:

ich denke auch, dass es inzwischen so ist, dass Stockfish wirklich die Nummer 1 ist, dass das in den von Dir angesprochenen etablierten Listen noch nicht so ist, ist für mich einzig der Tatsache geschuldet, dass die biesher nur Stockfish DD aufgelistet haben, seitdem hat sich doch wohl einiges getan.


So ist es.
Ich würde (fast) jede Wette eingehen, daß die aktuelle Stockfish-Dev-Version bei einem Test in der IPON die Nummer 1 wäre. Wenn auch knapp.

Stefan
Parent - - By Stefan Schiffermüller Date 2014-03-08 11:37
Im Selbsttest gegen Stockfish DD (40 ELO schwächer) waren es +3 ELO zu Gunsten der Stockfish-Version mit Contempt Factor = 15. Die Remisquote sank von 64% auf 62%. Diese +3 ELO sind weit innerhalb deiner Errorbars, sind also nicht nachweisbar. Es sei denn, der Contempt wirkt sich gegen andere Engines stärker aus. Was mich aber verwundert, ist, dass die Remisquote in deinem Test sich nicht verringert hat. Hierfür sehe ich keine vernünftige Erklärung. Ich fände es interessant, wenn du noch mit höherem Contempt testen würdest, damit wir endlich ein paar statistisch relevante Aussagen bezüglich des Contempt von Stockfish haben. Vielleicht wird Houdini 4 dann schon übertroffen.

Gruß Stefan
Parent - By Tom Paul Date 2014-03-08 12:32
Wenn man den Test 3x wiederholt und jedes mal +3 ELO bekommt, dann wären diese für mich glaubhaft genug.
Bezüglich der vernünftigen Erklärung, vielleicht liegt das an den Teststellungen, zu viel +-?
Parent - By Circular Date 2014-03-04 16:22
Das sieht erst einmal nicht schlecht aus. Aber traue keiner Statistik...
Wie sehen denn die Partien im vergleich aus? Außer, dass das Remis später erfolgte?

Parent - - By Tom Paul Date 2014-03-04 21:37
Teste doch mal den neuesten Stockfish mit Contempt 15.
Der soll ~174 ELO stärker sein als Stockfish 3.
3019 +174 = 3193 ELO.
Und damit vor Houdini 4 3185 ELO.
Parent - - By Joe Boden Date 2014-03-08 10:14
Weiss eigentlich jemand wo der neue Protector 1.6b downzuloaden ist?
Parent - By Thomas Müller Date 2014-03-08 10:25
wenn die 1.6 veröffentlicht wird dann vermutlich hier....
http://sourceforge.net/projects/protector/files/
Noch ist sie "privat" oder "beta" bzw eben nicht öffentlich
Up Topic Hauptforen / CSS-Forum / LS-Rangliste: Stockfish 140226

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill