Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Leichtes Stockfish-Chaos
- - By Stefan Pohl Date 2013-10-23 04:03
Hallo,

Im Testframework gibt es einen neuen Regressionstest, der sehr gut läuft (+53 Elo zu Stockfish 4). Diese Version enthält nun doch wieder alle pawn-chain und check Patches, nachdem ja zwischenzeitlich mindestens einer zurückgenommen worden war. Daher - und weil der Erfolgsscore der Version vom 20.10. bei mir nicht gerade berauschend war ( +4 Elo nach knapp 5000 Partien) - habe ich meinen Test abgebrochen und starte neu mit der letzten Version vom 22.10.
Das paßt mir zeitlich sowieso besser, da das Ergebnis dann voraussichtlich Samstag vorliegen wird und ich dann mehr Zeit habe, es in die LS-Liste einzubauen. In dieser Woche bin ich nämlich ziemlich ausgelastet...Aber das Abbruchergebnis von Stockfish 131020 basiert ja immerhin auf knapp 5000 Partien (s.o.), das kann man ja auch mal als Teilergebnis zur Kenntnis nehmen, denke ich.
Für die Verzögerung bitte ich um Verständnis.

Stefan
Parent - - By Stefan Pohl Date 2013-10-23 04:15
Noch was Merkwürdiges zu Stockfish:
http://www.chesscluster.com/magneto.html

Clusterprojekt mit einer auf Stockfish 3 basierenden Engine...
Was soll man davon halten?

Stefan
Parent - By Benno Hartwig Date 2013-10-23 04:55
[quote="Stefan Pohl"]Clusterprojekt mit einer auf Stockfish 3 basierenden Engine...
Was soll man davon halten?[/quote]Faszinierend.
Ich glaubte, die Rybka-Erfahrung hätte ein mangelndes Interesse bewiesen.
Aber ggf. habe ich von den vielen, vielen Cluster-Rybka-Interessierten ja auch nur gar nichts mitbekommen.

Preise sind noch nicht genannt. Aber einen großen Fuhrpark wollen sie schon bieten:
"For example, you can order a single core or 2048 cores."
(BTW: was mache ich mit einem gemieteten single-core-Stockfish3?)

Benno
Parent - - By Stefan Pohl Date 2013-10-23 10:47
Hallo,

Kleiner Live-Report zum Stockfish 131022 LS-Testrun. Zu einem sehr, sehr frühen Zeitpunkt (800 Partien von 10000), daher sind alle Ergebnisse noch sehr, sehr wackelig und es besteht noch kein Grund für Schnappatmung und erhöhten Blutdruck. Aber die Ergebnisse sind so bemerkenswert, daß ich sie einfach mal posten muß...

Zunächst mal hatte ich ja erwähnt, daß die beiden abgebochenen Testruns der beiden Stockfische vom 20.10. sehr mäßig begannen (sogar unter dem Niveau von Stockfish 131008, der ja der letzte von mir getestete ist) und sich dann nur sehr langsam nach oben entwickelten und über +5 Elo nicht hinauskamen - was ja durchaus etwas enttäuschend war, aufgrund der vielen Patches in der Zwischenzeit. Positiv (aus statistischer Sicht) war jedoch, daß beide Testruns sehr ähnlich verliefen (desaströser Start, dann langsame Steigerung auf ca. +5 Elo). Gerade letzteres macht den jetzigen LS-Testrun-Verlauf so bemerkenswert. Nochmal: Erst 800 Partien. Das ist fast nichts! Also sind alle folgenden Daten mit sehr, sehr großer Vorsicht zu genießen...Was das frühe Ergebnis allerdings interessant macht, ist die Tatsache, daß es bisher auf beiden Testrechnern praktisch identische Erfolgsscores gibt. Das ist zu einem so frühen Testzeitpunkt - gerade bei Stockfish - durchaus ungewöhnlich und könnte (betone: könnte!) für eine gewisse statisitsche Sicherheit des Ergebnisses sprechen - es wird spannend für mich, zu sehen, ob dem wirklich so ist, aber das kann ich erst morgen feststellen.

Nun also der Zwischenstand nach 800 Partien von Stockfish 131022 (neueste Version dieses Tages (22.10.)): +22 Elo zu Stockfish 131008 (!!!). Falls das so bleibt (was ich kaum glauben kann) würde Komodo 6 in der LS-Rangliste um fast 20 Elo distanziert und es würden nur noch ca. 25 Elo zu Houdini 3 fehlen...
Spektakulär auch der Zwischenstand gegen Houdini 3. Auf Rechner 1: 22.5 aus 40 und auf Rechner 2: 23.5 aus 40. Also 46 aus 80 in der Addition, was unfaßbaren 57.5% entspricht (auch hier ist das Ergebnis auf beiden Rechnern sehr ähnlich, was auch hier eher ungewöhnlich ist!). Gegen Komodo 6 liegt Stockfish auch über 50%, aber der Score ist schlechter als gegen Houdini 3.
Natürlich ist mir bewußt, das 80 Partien in einem Einzelvergleich gar nix sind, allerdings hatte ich noch niemals die Situation, daß das Bullet-Biest Houdini 3 nach mehr als 50 absolvierten Partien gegen irgendeinen Gegner unter 50% lag, noch dazu so deutlich - bemerkenswert!

Das Problem bei Stockfish sind nach wie vor die zu vielen Remisen durch 3fache Zugwiederholung, auf die sich Stocki einläßt. Das zieht sein Rating gerade gegen die Ippo-Derivate (die ja auch gerne in frühe Remisen durch 3fache Zugwiederholung einschwenken) nach unten. Würde man das endlich in den Griff bekommen, wage ich mir kaum auszumalen, wo Stockfish in der LS-Rangliste stehen könnte...

Ich nehme jetzt ein bißchen Baldrian und warte mal ab, wie es morgen aussieht. Dann sind mehr als 3000 Partien durch und das ist dann schon ein ganz brauchbares Zwischenergebnis. Falls ich morgen Zeit finde, den PC anzuwerfen (weiß ich noch nicht), gibts dann ein "richtiges" Zwischenergebnis.
Stay tuned!

Stefan
Parent - - By Benno Hartwig Date 2013-10-23 10:57
[quote="Stefan Pohl"]... +22 Elo zu Stockfish 131008  ... 22.5 aus 40 ... 23.5 aus 40 ...[/quote]Na, so richtig bemühst du dich aber nicht darum, Schnappatmung zu verhindern!
Mal gucken, was draus wird...
Benno
Parent - - By Stefan Pohl Date 2013-10-23 11:02
[quote="Benno Hartwig"]
[quote="Stefan Pohl"]... +22 Elo zu Stockfish 131008  ... 22.5 aus 40 ... 23.5 aus 40 ...[/quote]Na, so richtig bemühst du dich aber nicht darum, Schnappatmung zu verhindern!
Mal gucken, was draus wird...
Benno
[/quote]

Weiß ich doch, Benno!
Prinzipiell ist das um-sich-werfen mit statistischen Daten ja nicht das Alleraufregenste... Daher versuche ich einfach gelegentlich mal (wenn Zwischenresultate vorliegen, die das erlauben), ein bißchen Spannung in die Sache reinzubringen. Man möge es mir nachsehen - ich bin nunmal Computerschach- und Test-Enthusiast.
Dieser Zwischenstand ist aber auch wirklich einer der spektakulärsten, die ich je hatte. Das mußte ich einfach mal hier loswerden.

Stefan
Parent - - By Tom Paul Date 2013-10-23 11:16
Und dazu kommen noch + 8 ELO bei langen oder + 16 ELO und mehr bei kürzeren Zeitkontrollen durch Syzygybases.
Parent - - By Stefan Pohl Date 2013-10-23 12:40
[quote="Tom Paul"]
Und dazu kommen noch + 8 ELO bei langen oder + 16 ELO und mehr bei kürzeren Zeitkontrollen durch Syzygybases.
[/quote]

Das wage ich zu bezweifeln. Aber selbst wenn dem so wäre, so können ja auch viele andere Engines auf TBs zugreifen, was sie ja in der LS-Rangliste ebenfalls nicht tun (dürfen). Insofern würde Stockfish dann auch kaum profitieren, wenn TBs in einem Testverfahren zugelassen wären.

Nach nun 1000 Partien liegt Stockfish 131022 übrigens immer noch bei +22 Elo. Der Score gegen Houdini 3 liegt allerdings "nur" noch bei ca. 52.5% (nach 100 Partien im Einzelvergleich), aber alles über 50% ist gegen Houdini 3 unter LS-Bedingungen ein Traumergebnis, das eigentlich nicht so bleiben kann...

Stefan
Parent - - By Tom Paul Date 2013-10-23 12:48
Das kannst du ja gerne bezweifeln, nur wurde dies vor einiger Zeit bereits im FishCooking Forum bewiesen.
Der Zugriff auf Syzygybases erfolgt in einer Partie um einiges früher als mit Nalimov usw. und es werden auch deutlich mehr Daten abgerufen, somit erkennt eine Engine mit Nalimov usw. nur Remis oder ihren Untergang;)

Ps. TOP LS:)
Parent - By Stefan Pohl Date 2013-10-23 13:03 Edited 2013-10-23 13:06
[quote="Tom Paul"]
Das kannst du ja gerne bezweifeln, nur wurde dies vor einiger Zeit bereits im FishCooking Forum bewiesen.
Der Zugriff auf Syzygybases erfolgt in einer Partie um einiges früher als mit Nalimov usw. und es werden auch deutlich mehr Daten abgerufen, somit erkennt eine Engine mit Nalimov usw. nur Remis oder ihren Untergang;)

Ps. TOP LS:)
[/quote]

Vergiss dabei nicht, daß in der LS-Rangliste viele Ippo-Derivate als Gegner zum Einsatz kommen, die auf die Robbo-Triplebases zugreifen können, welche auch so klein sind, daß sie komplett ins RAM passen und auf die daher auch sehr früh zugegriffen wird. Ich erinnere mich, daß Ivanhoe oft schon im sehr frühen Mittelspiel die ersten TB-Hits anzeigte. Und Houdini 4 wird auch auf die Syzygy-Bases zugreifen können. Und für die Zukunft kann man erwarten, daß weitere Engines folgen werden. Der Vorteil, sofern er wirklich gegeben ist, wird sich für Stockfish spätestens dann wieder verflüchtigen.

Stefan
Parent - - By Peter Krug Date 2013-10-23 13:11
Hallo Stefan,

ich finde es schon Klasse von Stockfish, dass es weiterhin mit dieser Version bergauf geht. Und derzeit deutet
zählt es zu der WELTSPITZE.

Ich bin selber Anhänger.

...Nur hätte ich gerne, wenn Stockfish auch möglichst eine brauchbare Analyseengine mit möglichst viel Endspielwissen wäre, und
die Bewertungen stimmiger wären.

Denn was hilft uns allen eine über 3000 elo starke Engines, wenn die Bewertungen einer solchen Engine irreführend sind?

Deshalb kehre ich bei Analysen doch zu den seriösen Bewertungen eines Houdini zurück und gebe mich mit dieser Engine nicht zu viel ab.

Gruß Peter
Parent - By Michael Scheidl Date 2013-10-23 13:35
Meine Lösung dafür: Ich sehe Stockfishbewertungen und dividiere sie "im Geiste" einfach durch 2.
Parent - - By Stefan Pohl Date 2013-10-24 11:22
[quote="Stefan Pohl"]
Falls ich morgen Zeit finde, den PC anzuwerfen (weiß ich noch nicht), gibts dann ein "richtiges" Zwischenergebnis.
[/quote]

Ganz kurzes Update: Nach 4100 Partien ist das Rating auf dem Boden der Tatsachen gelandet. +8 Elo zu Stockfish 131008. Das ist natürlich schon etwas enttäuschend nach dem tollen Start, aber ich will mir ja an Benno ein Beispiel nehmen und alles etwas positiver sehen. Und wenn ich das versuche, so sehe ich, daß der Regression-Test des Stockfishteams ca. +4 Elo ergeben hat von Stockfish 131020 zu Stockfish 131022. Und beide (abgebrochenen) Tests von mir von Stockfish 131020 lagen bei ca. +4 Elo zu Stockfish 131008. Ergo würde die Addition des Zuwachses von meinen abgebrochenen Tests und des letzten Regressions-Tests des Stocki-Frameworks ca. +8 Elo ergeben - als Prognose des Gesamt-Zuwachses von Stockfish 131008 zu Stockfish 131022. Und genau diesen Wert sehen wir nun im aktuellen LS-Testrun.
Ergo kein supertolles Schnappatmungs-Ergebnis mehr, aber dafür ein statistisch zu erwartendes. Ist doch auch was. Und wenn es bei +8 Elo bleibt (was ja noch keinesfalls sicher ist, es fehlen ja noch fast 6000 Partien), so würde das auf jeden Fall reichen, um Komodo 6 zu überholen und Stockfish zur Nummer 2 der Welt zu machen. Darüber kann man eigentlich nicht wirklich enttäuscht sein...
Endergebnis voraussichtlich Samstag (Nachmittag).

Stefan
Parent - By Michael Scheidl Date 2013-10-24 12:14
Bei diesem Entwicklungstempo bin ich schon froh, wenn neue Versionen nicht schwächer sind. Ich habe jetzt beide Versionen vom 21.10.(*) und als User reicht mir ab nun höchstens ein Update pro Quartal. Das bisher erreichte hohe Niveau samt den - vielfach hoch gelobten - Syzyzgy-Bases reicht bei weitem.

*) Das Tagesdatum der internen Versionsnummer ist u.U. um +1 größer als das im Dateinamen, offenbar wegen des Unterschiedes GMT und CET(DST).
Up Topic Hauptforen / CSS-Forum / Leichtes Stockfish-Chaos

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill