Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish 2.3 @ CEGT
- - By Wolfgang Battig Date 2012-09-19 16:53
... sieht bisher in allen Bereichen ziemlich mau aus!

Blitz 40/4
w32-1CPU: -7 nach 400 Partien (http://cegt.siteboard.eu/f6t350-testing-stockfish-2-3.html)
x64-1CPU: ca. -30 nach 400 Partien (Ergebnisse noch nicht auf unserem Board, aber in Kürze unter demselben Link, dann mit 800 Partien)

40/20  (http://cegt.siteboard.eu/f5t349-coordination-stockfish-2-3.html)
x64-1CPU: ca. -10 nach 200 Partien

Natürlich noch viel zu wenig Partien überall, aber an eine "signifikante" oder zumindest "ordentliche" Verbesserung glaube ich schon jetzt nicht mehr.
Dies entspräche dann auch dem, was die Autoren geschrieben haben und nicht den Userträumereien...
Parent - - By Wolfgang Battig Date 2012-09-21 15:10
beim Blitz 40/4 nach 800 Partien liegt die Performance bei 2952 Punkten und damit minus 14 zur 2.2.2!

Nach 1000 Partien ist schluss mit dieser Version, weil Stromverschwendung!
Parent - - By Ludwig Bürgin Date 2012-09-21 17:49
Hallo Wolfgang

Spiele mit Stockfish 2.3 seit einigen Tagen im Maschinenraum.Die Schwächen der Engine,die seine Vorgänger vom Mittelspiel an hatten,sind jetzt spürbar gemindert worden.Bei 3 min.Partien ist nicht ganz so stark.Es vergeht manchmal etwas Zeit, bis der beste Zug gefunden wird.Ab 5 min. und länger  macht es schon Spaß damit zu spielen.

Gruß Ludwig
Parent - - By Simon Gros Date 2012-09-21 20:02
Nun, bei der CEGT sind es bisher gerade mal 600 Spiele mit 32Bit und 800 mit 64 und dazu mit nur einem Core. Wohl etwas zu früh um zu urteilen. Auf dem Server wird bestimmt ausschließlich SMP gespielt. Ich hatte auf die IPON gehofft mit einem Test, dort ist aber zur Zeit Crafty dran, danach hoffentlich der neue Stockfish?
Simon_G
Parent - - By Ingo Bauer Date 2012-09-21 21:11 Edited 2012-09-21 21:13
[quote="Simon Gros"]
Nun, bei der CEGT sind es bisher gerade mal 600 Spiele mit 32Bit und 800 mit 64 und dazu mit nur einem Core. Wohl etwas zu früh um zu urteilen. Auf dem Server wird bestimmt ausschließlich SMP gespielt. Ich hatte auf die IPON gehofft mit einem Test, dort ist aber zur Zeit Crafty dran, danach hoffentlich der neue Stockfish?
Simon_G
[/quote]

Nö, ich warte auf das Update und werde sehr vorsichtig antesten ... Basierend auf den Erfahrungen aus den letzten offiziellen Releases von Stockfish scheint es mir ein guter Rat mit dem Stockfish testen zurückhaltend zu sein ...

Aber ich traue der CEGT in diesem Punkt. Eine komplette Enignetestung kostet mich mindestens 10 bis 15EUR an Strom. Wenn dann keine Elos rumkommen, die Autoren nichts erwarten und die CEGT sogar ein Minus hat bremst das meinen Eifer massiv!

Es sieht so aus als wenn die beste open source Engine auf der Stelle tritt, auch Critter als beste Freie kommt nicht mehr vorwärts  ... wie geht es weiter, ist die Zeit der großen Sprünge vorbei, sind die Littos ausgelutscht, geht es weiter vorran und wenn ja wie, wo liegt die Zukunft des Computerschachs, ist eine weitere Elosteigerung nötig, wünschenswert oder liegt die Enginezukunft in Features ... ? Viele Fragen die eine "Print CSS" an viele Autoren stellen, Recherche betreiben und einen tollen Fachartikel machen könnte

Freiwillige vor!

Gruß
Ingo
Parent - - By Michael Scheidl Date 2012-09-21 23:17
Zitat:
(...) oder liegt die Enginezukunft in Features ... ?

Anzunehmen. - Ein weiterer Spielstärkefortschritt bleibt zwar meßbar, aber nur noch auf statistische Weise. Niemand kann benennen worin genau, "schachlich", der Fortschritt besteht. Einige konkrete Ausnahmen wie das ominöse Fortschrittsproblem sind interessant und deren Lösung wäre attraktiv, aber elomäßig sind diese unbedeutend.

Wobei ich befürchte, daß der häufige Engine-Endlosschwachsinn mit den ungleichfarbigen Läufern Dir mindestens 3 der 10...15 Euro pro Test kostet.
Parent - By Ingo Bauer Date 2012-09-22 07:18
[quote="Michael Scheidl"]
... Niemand kann benennen worin genau, "schachlich", der Fortschritt besteht....
[/quote]

Das sehe ich schon länger so. Ich habe mich damals, zusammen mit FQ, für 2800 Elo für S12 entscheiden, weil ich damals das Gefühl hatte das diese Engine auf einem Core mit den Top Menschen mindestens ebenbürtig spielt. Wenn mehrere Cores ins Spiel kommen ist es ganz vorbei. Also alles oberhalb von 2800 der IPON ist jenseits des menschlichen Ermessens im direkten Spiel. Mein Experiment mit einem im Prinzip geschwächten Shredder (Settings: eigene Springerwerte runter. PS runter, KS rauf um Bauernketten aufzureißen - AntiCompSchach verhindern) auf Playchess, der als erstes die komplette Historie, also 400 Spiele ohne einen Verlust und ohne ein Remis gegen Menschen mit mindestens 2600 Punkte dort halten konnte hat mich darin bestärkt.

[quote="Michael Scheidl"]
Wobei ich befürchte, daß der häufige Engine-Endlosschwachsinn mit den ungleichfarbigen Läufern Dir mindestens 3 der 10...15 Euro pro Test kostet.
[/quote]

Ich kann mir natürlich nicht alle Spiele ansehen, aber einen 20% Anteil haben ungleichfarbige Läufer in den Endspielen bestimmt nicht. In echten Spielen ist das statistisch eher irrelevant und für eine Analyse nimmt man natürlich Tbs dazu.

Gruß
Ingo
Parent - - By Peter Martan Date 2012-09-22 07:43 Edited 2012-09-22 07:52
[quote="Michael Scheidl"]
Zitat:
(...) oder liegt die Enginezukunft in Features ... ?

Anzunehmen. - Ein weiterer Spielstärkefortschritt bleibt zwar meßbar, aber nur noch auf statistische Weise. Niemand kann benennen worin genau, "schachlich", der Fortschritt besteht. Einige konkrete Ausnahmen wie das ominöse Fortschrittsproblem sind interessant und deren Lösung wäre attraktiv, aber elomäßig sind diese unbedeutend.

Wobei ich befürchte, daß der häufige Engine-Endlosschwachsinn mit den ungleichfarbigen Läufern Dir mindestens 3 der 10...15 Euro pro Test kostet.


Du weißt, dass "niemand kann benennen, worin genau schachlich der Fortschritt besteht" nicht stimmt, Michael!
Du meinst, niemand kann es so benennen, dass daraus statistisch signifikant für alle Stellungen und für alle Spieler unanzweifelbare objektive Ergebnisse in Elo oder sonst einem Maß für schachliche Selbsbefriedigung ableitbar wären.
Elomäßig unbedeutend heißt aber nicht schachlich unbedeutend, und wenn wir uns endlich ein ganz klein bisschen vom Statistikwahn befreien könnten, wäre für im Umgang mit Schachfiguren und engine output halbwegs Geübte das Beurteilen von stellungsabhängigen Stärken und Schwächen überhaupt kein Problem.
Man müsste dann auch nicht mehr unter auf die Sicht einer Eloröhre Beschränkten darüber diskutieren, ob das gegen das richtige Kollektiv und mit den "richtigen" Stellungen getestet wurde, sondern nur mehr darüber, was für welche Stellung eine richtige oder schlicht und einfach falsche, von mir aus auch noch falschere und falscheste eval wäre, bei richtig würde als Defintion völlig genügen, dass sie trotz noch so guter Abspielvarianten nicht mehr wesentlich zum Springen zu bringen ist und über die relevanten Varianten hinweg im Halbzug- Zeitdiagramm flache Kurvenverläufe behält.

Diese letztere Diskussion hingegen wird, so lange den Programmierern nicht was wirklich besseres zur Beurteilung von, wie du das nennst, offenen Stellungen einfällt, im Computerschach immer bleiben, sie ist längst die einzig sinnvolle und kann halt nur durch Einsatz von ein bisschen menschlichem Hirnschmalz geführt werden, und drum wird die Angst, sich zu blamieren gegen die qualifizierteren Aussagen von einem Mitdiskutanten, immer dabei bleiben, etwas, was es aber nur begründet Unsicheren verleiden sollte, und was beim Schachspielen halt überhaupt auch nach wie vor die Hauptmotivation bleiben wird: irgendwas zu gewinnen, und sei es nur die beste Bewertung einer bestimmten Stellung, wie auch immer du die messen willst, warum nicht einfach so, wie es die engines machen?
Ob es wirklich (zusätzlich?) ein anderes eval- System braucht, kann man dabei auch immer wieder im Auge behalten, (natürlich wären verbale Erläuterungen und oder Aufschlüsselung der in Summe herauskommenden eval nach Bewertungskriterien schön) mir persönlich genügt die Angabe in cp vorläufig zum Testen durchaus, sie ist ein rein numerisches Problem, dafür aber auch das, was am einfachsten umgerechnet und verglichen werden kann, wenn wer ohne Statistik nicht kann, bitte sehr, machen wir eval- Statistiken statt Elostatistiken, die einfach zu große Probandenzahlen braucht bei den kleinen Merkmalsdifferenzen heute im reinen eng-eng-match, in dem nur ganze und halbe Punkte zählen.
Das alles weißt du, und auch die härtesten Hardliner unter den Testern sehen die Stromrechnung in Euro/Elopunkt- Vernunft klarer und klarer, auf der anderen Seite ist nämlich die genau gegenläufige Kurve, Preis für ein Programm, einen Programmfortschritt in Euro/Elopunkt, unter jede Sinnhaftigkeit gefallen, das macht den Strom relativ zu dem, was man in Elo verdienen kann, noch einmal eine Dimension teurer, wenn man StromEuro/VerkaufsEuro für die Arbeit mit dem Testen und erst recht mit dem Programmieren berechnete und da wieder was herausbekommen wollte von irgend einem Kunden.
Die Kunden sind und bleiben die Schachspieler, die kaufen nach wie vor unvernünftig teure Hardware, aber nicht, weil dadurch noch Elo lukrierbar wären, sondern weil sie schneller zu dem output und zu der eval kommen, die sie wollen, da kommt es ihnen auf ein paar Euro mehr für ohnehin total preisverfallene Software nicht an, die muss halt dann auch in irgendwas nachweisbar schneller und besser irgendwas sicht- und messbares bringen, fällt dir hier irgend etwas anderes als output und eval ein?
Ausgelutscht sind vielleicht auch die Littos, ganz sicher aber die Elo, ich will jetzt nicht anfangen, von Elolutschern zu schreiben, aber uups, schon passiert.
Parent - By Peter Martan Date 2012-09-22 08:42 Edited 2012-09-22 08:45
[quote="Peter Martan"]
Ausgelutscht sind vielleicht auch die Littos, ganz sicher aber die Elo, ich will jetzt nicht anfangen, von Elolutschern zu schreiben, aber uups, schon passiert.
[/quote]

Ausdrücklich entschuldigen möchte ich mich für diese verbale Entgleisung bei allen, die sich da redlich bemühen, Fortschritte überhaupt noch zu messen und mache als Zeichen des guten Willens einen Vorschlag, der auch den verträumtesten Elosionisten vielleicht ein paar Tränen der Rührung abringen könnte:
Messen wir doch, ohne den noch nie befriedigbaren Anspruch einer anderen Illusion befriedigen zu wollen, nämlich den der "overall playing strength", die besseren oder schlechteren eval- Verläufe der engines of interest with positions of interest and variants of interest in Elo!

Kein Problem für einen alten Celolitiker, die Differenzen der Anstiegssteilheit pro Halbzug und Zeit von engines' evals in die Eloformel einzutippen oder ins entsprechende Programm einzugeben, damit die auf die Art auf jeden Fall vielfach höheren Ergebnisunterschiede wieder ordentliche Elounterschiede ausmachen.
Dann eichen wir wie bisher völlig willkürlich die engine, die uns besser oder schlechter gefällt mit soundsoviel Elo Ausgangswert, damit's wieder nach Menschenelo aussieht, und schwups, das Verkaufsargument, von dem Manche immer noch träumen, ist auferstanden.


Gut, war Spass, ich geb's zu, aber einfach die Ergebnisse beliebiger Stellungstests von 1 für deutlich besser, 0 für deutlich schlechter und 1/2 für deutlich gleich gut als Grundlage der herkömmlichen Elorechnung zu nehmen, hätte, meinem Vorschlag folgend schon sehr große Vorteile:
Es genügt ein numerisch noch so kleiner Unterschied, den ich für zählend halte oder halt nicht, damit ich nach beliebig kurzer Zeit und beliebig dummen Varianten beliebig sagen kann, gewonnen, verloren, remis, und ich habe für jede Stellung, die mich interessiert, praktisch automatisch beliebig viele Gewinner und Verlierer beliebig schnell ermittelt, der Strom beginnt wieder weniger zu zählen als der manpower- Einsatz, diejenige Relation, die mir die einzig wirtschaftlich relevante scheint.

Nachteil: ich muss mit anderen darüber streiten, wenn ich will, und wenn die wollen, ob die Stellung außer mir noch einer Sau interessant scheint, ob die Unterschiede im Evalverlauf über Zeit und Halbzüge oder in beliebig anderen Kriterien außer mir noch eine Sau  so rechnen würde.
Aber der Streit über die Relevanz und den outcome von Schachstellungen ist nunmal das Thema im Schach, da komm ich nicht drum rum, oder halt nur dadurch, dass ich selber zu Streiten und zu Spielen aufhöre, und es vollends den Maschinen überlasse.
Ich will nicht wieder mit der Kartoffel anbauenden, erntenden, schälenden und aufessenden Maschine kommen, aber uups, schon wieder passiert.
Up Topic Hauptforen / CSS-Forum / Stockfish 2.3 @ CEGT

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill