Verbesserungsvorschlag

By Robert Richter (Mod.) Date 2014-03-12 15:38

Eine Bitte an Dich und noch einige andere Herrschaften: Wenn euch die Posts von gewissen Usern auf den Senkel gehen, dann ignoriert diese doch einfach. Das ist besser als provozierende Posts und Threads zu schreiben...

By Circular Date 2014-03-12 17:59

Hi,

Dann würde ich ja alle lesenswerte Postings dieser User nicht mehr mitbekommen.

Genau das will ich ja nicht! Ich will keinen Poster ignorieren...

By Circular Date 2014-03-14 10:06

Diesen Knopf finde ich bei mir nicht, hatte aber jetzt auch nicht danach gesucht... Brauche den auch nicht!

By Olaf Jenkner Date 2014-03-12 20:25

Ich lese hier nicht so viel und wüßte daher gern, was das bedeutet.
Fehlerbalken scheint mir die falsche Übersetzung zu sein, falls das
Wort aus dem Englischen kommt.

By Robert Richter (Mod.) Date 2014-03-12 20:49

Zitat:

Fehlerbalken werden bei der grafischen Darstellung von numerischen Daten eingesetzt und dienen dazu, die auf systematischen oder statistischen Fehlern beruhenden möglichen Abweichungen der Messwerte vom tatsächlichen Wert der betrachteten Messgröße zu visualisieren.

http://de.wikipedia.org/wiki/Fehlerbalken

By Michael Scheidl Date 2014-03-12 23:34 Upvotes 1

Dieses 21st-Century-Phänomen der krankhaften Sucht nach statistischer Genauigkeit geht mir, ehrlich gesagt, schwerst auf die Nüsse. Wie viele Partien hat Paul Morphy gespielt, oder Capablanca? Sicherlich viel weniger als man heute glaubt benötigen zu müssen, um eine verläßliche Bewertung zu erhalten.

Schluß mit dem Bullshit!!

By Benno Hartwig Date 2014-03-13 00:30

> Dieses 21st-Century-Phänomen der krankhaften Sucht nach statistischer Genauigkeit geht mir, ehrlich gesagt, schwerst auf die Nüsse.

Und würden es deine duldsamen Nüsse eher verkraften können, wenn eifrig aus kleinen Umfängen die faszinierendsten und überraschendsten Erkenntnisse gewonnen würden? Die Bereitschaft dazu ist ja vielfach vorhanden.

Benno

By Peter Martan Date 2014-03-13 06:53 Edited 2014-03-13 06:59

Benno Hartwig schrieb:

Leider sind wir derzeit mit beidem reichlich gesegnet: Überraschendsten Erkenntnissen und Statistik- Moloch, hängt vielleicht auch irgendwie zusammen, ich fürchte, es liegt genau an diesen lustigen Fehlerbalken, die man lieber im eigenen Auge übersieht...

Frank wäre durchaus auf einem guten Weg, die Sache etwas zu relativieren, er sollte halt nur nicht immer an den statistischen Grundgesetzen als solchen rütteln.
Sehr recht hat er aber, dass die Merkmalsdifferenzen zwischen den engines und die übrigen Unwägbarkeiten (z.B die Teststellungen

) die bars definieren, das wäre genau die Frage, mit der ich vor jeder Studie zum Statistiker ginge: Sag mir, Fachmann, was brauche ich für die vorgeschriebene Power für Datenmengen, wenn das übrige Studiendesign genau folgendermaßen aussieht?
Und im Design müssten dann halt eigentlich zunächst alle engines, die irgendwen außer mir auch noch interessieren könnten und alle ebensolchen Eröffnungsstellungen drin sein.
Sagt mir der dann, mit den vorhandenen Mitteln wird das bei der Fragestellung nie und nimmer mehr mit absehbarem Aufwand eine aussagekräftige Statistik, muss ich eben umdesignen, das Teilnehmerfeld selektieren und die Eröffnungen, das ist nicht bias, weil man dem Zufall ins Handwerk pfuscht, das ist Studienplanung.

Dass die Aussagen dann natürlich nur mehr exakt zur Frage passend zählen, muss ich wohl in Kauf nehmen, aus allen vorhandenen engines eine mehr als ein paar Stunden gültige und übertragbare "overall playing strength" auszuspucken, das kann man vergessen. Da dauert das Ausspielen länger als die Entwicklung neuer engines und deren Versionen.

By Peter Martan Date 2014-03-13 07:28

Peter Martan schrieb:

Da dauert das Ausspielen länger als die Entwicklung neuer engines und deren Versionen.

Ich muss mir auch endlich mal wieder selber antworten:
Dass in der Zeit, in der ich meinen momentan gerade aktuellen Eröffnungsmix ausspielen lasse, die Eröffnungstheorie auch in aller Ruhe weiter explodiert, darüber wollen wir ja gar nicht erst reden, wäre aber für mich eigentlich auch schon ein Grund, gleich wieder von vorn anzufangen mit meiner Statistitk.

By Benno Hartwig Date 2014-03-13 08:51

> Sehr recht hat er aber, dass die Merkmalsdifferenzen zwischen den engines und die übrigen Unwägbarkeiten (z.B die Teststellungen ) die bars definieren,

Was das ELO-System berechnet, und wozu die Errorbars eine Info beisteuern, ist ja nur ein vereinfachtes Modell der Wirklichkeit.
Die Wirklichkeit bietet sicher Phänomene wie den 'intransitiven Würfel' in dieser krassen oder weit häufiger in abgemildeteren Formen. Das ELO-System will und kann darauf keinerlei Rücksicht nehmen. Da nützen dann noch so große Umfänge nichts.

Andererseits habe ich aber den Eindruck, dass die Ergebnisse bei weniger als z.B. 1000 Partien pro Engine rein stochastisch so ungenau sind, dass die enginespezifischen Besonderheiten sich weniger auswirken. Insofern macht die Betrachtung dieser Errorbars doch schon noch sehr viel Sinn.

Benno

By Werner Mueller Date 2014-03-13 09:31

Würde einer tausendmal die Entfernung zur Sonne messen, trotz der ErrorBars ihm das Ergebnis seltsam vorkommen, entsetzt feststellen, dass er fälschlicherweise immer die Entfernung zum Mond gemessen hat und DANN klagen, dass die ErrorBars ja doch wohl vollkommen ohne Sinn seien (denn offensichtlich kann man sich nicht auf sie verlassen) ... dann erinnerte mich das an jemanden.

By Frank Quisinsky Date 2014-03-13 10:42 Edited 2014-03-13 10:44

Hi,

jetzt kommt die Diskussion ja endlich dahin wo ich sie gerne hätte.
Mensch Leute ... dachte schon die ganzen Computerschächler halten sich alle auf a1 auf.
Gibt ja doch noch ein paar die auf e4 stehen.

Dachte schon das die Colombo's dieser Welt ausgestorben sind.
Es gibt sie also "Computerschächler" ... nicht ausgestorben und auch nicht als Schnarchnasen getarnt.

Hurra!

Verbleibt aber die Frage die zu klären ist.
Was tun mit der nichtssagenden Blitzeinschlagtheorie die sich wahrscheinlich schon jeder hier x tausend mal angesehen hat ohne auch nur ein einziges ? dabei ins Hirn zu brennen. Nur Ausrufezeichen, keine Fragezeichen. Wir sollten endlich großmeisterlich agieren und ein "unklar" dahinter setzen.

Es lebe das Hobby, es macht uns glücklich gibt uns innerliche Kraft und Zufriedenheit beim plötzlichen +2,48 aus dem Nichts heraus!
Verbleibt nur die Frage was tun mit der Information der ErrBar die keine ist.

Wir sollten uns endlich mal aufraffen und nichts aussagendes den Kampf ansagen.
Weil ...

Wir sind echte Computerschächler und die Fachwelt der Analysanten sollte hochblicken zu uns.
Bor, schau mal die da ... das müssen sie sein ... die Gefürchteten, die Geächteten ... die Computerschächler.

Weitermachen, auch mit dummen Kommentaren wenn denn nichts besseres produziert wird denn mit irgend etwas müssen wir uns ja auszeichnen!
Oder?

Gruß
Frank

By Frank Quisinsky Date 2014-03-13 10:53

Sorry, Zeit zum Editieren ist abgelaufen.
So viel Zeit muss sein ... muss mich korrigieren ...

+2,49 (kleine statistische Ungenauigkeit).

Gruß
Frank

By Werner Mueller Date 2014-03-13 11:32

Hi Frank,

so wie ich mir nicht ganz sicher bin, ob Du verstanden hast, an WEN mich das erinnerte, bin ich mir auch nicht ganz sicher, an wen Deine Bemerkung mit den 'dummen Kommentaren' gerichtet ist.

By Frank Qy. Date 2014-03-13 12:25

Na alle Kommentare von mir sind auch nicht immer die intelligentesten. Also, kein Grund zur Sorge denn ich habe niemanden direkt damit angesprochen.

By Benno Hartwig Date 2014-03-13 20:12

> Wir sollten uns endlich mal aufraffen und nichts aussagendes den Kampf ansagen.

Die Errorbar sagt das aus, was sie aussagt. Und das ist, sofern sie korrekt berechnet wurde, auch etwas sehr interessantes.
Das mancher (zählst du dich eventuell dazu?) ggf. eine andere Bedeutung in diesen Wert hineinprojiziert, ist dann nur ein Problem eben dieser Menschen.

Benno

By Frank Quisinsky Date 2014-03-13 20:47

Hi Benno,

welche Ansatz der ErrBar Berechnung meinst Du?
Den aus ELOstat, den aus den beiden Bayesian Versionen oder den aus Ordo?

Die Ausgaben sind irreführend und spiegeln beim Betrachten nicht die Realität wieder.
Verführen andere zu Unmengen an Partien und unnützen Stromverbrauch.

Es gibt Möglichkeiten Ausgaben interessanter zu gestalten aber das alles wurde ja schon diskutiert.

Mich interessiert jetzt zunächst mal folgendes:
Wie kann ich aus den Mittelwerten von 100ter Partiestatistiken interessantere Ausgaben konstruieren.
Ich meine die Leute die die SWCR2 beobachten finden das wie ich darstelle ja schon sehr gut und schreiben mir ich könnte mir im Grunde nach 400 Partien die aufwendige Statistik auf der Startseite ersparen aber dennoch geht es besser als so wie ich es darstelle.

Ferner will ich dazu animieren das mit einem einzigen Rechner im Grunde jeder selbst schnell etwas überprüfen kann. Er kann sich an den Partien erfreuen, denn zusehen macht Spaß und ganz nebenbei seine eigene "aussagekräftge" Statistik aufbauen. Je mehr Ergebnisse beisteuern und sich nicht nur auf bekannte Listen beruhen, desto interessanter wird das Hobby und mithin auch vergleichen von Ergebnissen.

Im Grunde halte ich die Statistik Fragen auch nicht für so spannend in Computerschachforen aber es sollten nicht Dinge propagiert werden die nachweislich einfach falsch sind. Kann ja jeder die fast 200.000 SWCR Partien herunterladen und eigene Experimente durchführen. Das machen auch einige und auch das führt zu spannenden Diskussionen ... hier jetzt aber leider per eMail. Ob nun zu den Buchfragen, zu den Stats, etc.. Ich hätte das lieber öffentlich als privat.

Versuche also auch Personen zu animieren über diese Themen zu schreiben die profundes Wissen hierzu haben und glaube mir die gibt es

Grüße mal jemanden ganz nett, der hier mitliest.

Also, interessanter gestalten ... ist das Hauptthema ... und nicht was jemand projiziert oder ob statistische Gesetze angegriffen werden. Ich greife gar nichts an ... ich zeige einfach nur anhand von eigenen Daten auf. Das ist ein Unterschied. Die Angriffe können die fahren die meinen die fahren zu müssen. Mein Thema ist eher praxisbezogener ...

Viele Grüße
Frank

By Peter Martan Date 2014-03-13 12:37 Edited 2014-03-13 12:42

Beim Müller Werner muss man immer vorsichtig sein, bevor man einfach lacht oder sagt, recht hat er, weil manchmal meint er's noch eine Nummer gefinkelter, als es zunächst klingt, und manchmal hat er den Vorposter aber doch auch selbst nicht ganz so verstanden, wie's der gemeint hat, glaube ich, weil sonst wäre mein Vorposting einfach wieder unnötig lang gewesen, oder du hättest mir schon auch auf meines antworten können.

So bin ich mir auch z.B. jetzt wieder gar nicht sicher, ob du nicht vielleicht eh wirklich genau das meinst, was ich auch meine:
Wir könnten uns die übertriebene Messgenauigkeit echt schenken, wenn wir hin und wieder ein bisschen genauer überlegten, was es eigentlich ist, was wir messen.

Das ist jezt für diesen Fall (dass du mich eh schon verstanden hattest) eigentlich mehr für Benno, als für dich, lieber Werner:

Ich will gar nix noch wirklichkeitsgetreuer abbilden, als die eigentliche Spielstärke, da kannst du die Vereinfachungen durch das Ratingsystem, die Intransitivität und die Eloformel getrost vergessen, die Spielstärke, die du misst mit eng-eng-eng und 0815 Eröffnungsstellungen, ist eine Welt für sich.
Diese "eigentliche" Spielstärke gibt es immer nur für bestimmte Eröffnungssysteme und Gegner.

Mit einem konkret für bestimmte Fragestellungen zugeschnittenen Eröffnungsmix und einem bestimmten Gegnerkollektiv könnte man so eine eigentliche Spielstärke statistisch mehr als ausreichend abgesichert bestimmen, tut man ja auch, das Kollektiv und die Eröffnungen werden nur immer weniger interessant für menschliche Schachspieler, je mehr die Quantität die Qualität zudeckt, vor allem müsste man sich aber besser im Klaren sein, dass es nicht nur eine solche "eigentliche" Spielstärke gibt, und dass es ein beliebig große Anzahl ganz anderer, meiner Meinung nach für den menschliche Spieler teilweise auch viel interessanterer Modelle zur Spielstärkenbestimmung ebenso gäbe.

Die allgemein gültige, möglichst auch noch auf den Vergleich mit dem Menschen übertragbare overall playing strength, wie das so schön neuhochdeutsch heißt, die gibt's erstens genau genommen ohnehin nur als Elosion, und zweitens hat sie mit dem, was die puristischen Computerschachranglisten ausweisen, erst recht kaum etwas zu tun, je stärker, einander ähnlicher und mehr die engines alle werden, umso weniger.

Sorry, ich musste es mal wieder loswerden, auch wenn's außer mir immer noch niemanden interessiert, bin jetzt dann aber eh schon wieder still.

By ? Date 2014-03-13 13:41

> Diese "eigentliche" Spielstärke gibt es immer nur für bestimmte Eröffnungssysteme und Gegner.

Verstehe ich dich so richtig:
Die "eigentliche Spielstärke" einer Engine wären viele Erfolgsquotienten, ermittelt gegen viele Gegner bei bestimmten Rahmenbedingungen (Zeitvorgaben, Ressourcen, Büchern, Tablebases...)
Und jeder Versuch, daraus eine Zahl ("die Spielstärkekennziffer") zu generieren, sorgt für einen Verlust an Aussagekraft und beinhaltet eine gewisse Portion Willkür.

Im Prinzip sehe zumindest ich das so.

Allerdings habe ich noch nicht erkannt, dass diese Portion Willkür sonderlich groß ist.
Nach meinem Eindruck sind die Fehler aufgrund zu weniger Partien (nur so 1000 pro Engine oder so) noch deutlich größer.

Benno

By Peter Martan Date 2014-03-13 15:06 Edited 2014-03-13 15:16

Zitat:

So verstehst du mich im Wesentlichen schon richtig, glaube ich.
Die "eigentliche" Spielstärke, so wie ich sie rein für mich allein, also ohne jeden Anspruch auf Allgemeingültigkeit meine, ist eben keine komplizierte Rechnung, man müsste sie auch nicht in Elo messen, es würde mir einfach eine Punkteausbeute genügen.
Sie bezieht sich aber immer nur auf ein bestimmtes Eröffnungsbuch (Grundstellung allein ist sicher auch eine interessante Vorgabe) und auf ein bestimmtes Gegnerkollektiv.
Ich kann ja auch nicht einmal von Carlsen sagen, ob er gegen x-beliebige unqualifizierte Gegner eine wieviel höhere oder sogar niedrigere Performance hätte, als gegen die Gegner die alleinberechtigt sind, gegen ihn zu spielen.
Schon gar nicht, wenn er ohne sein Buch in seinem Kopf spielen müsste, und es interessiert mich das unsinnige Konstrukt auch genau keinen Deut, mal abgesehen von einer Ausnahme: was er gegen mich so schaffte, wenn er bestimmte Eröffnungsvorgaben, die ich für ihn auswählen dürfte, erspielte, das würde mich schon irgendwie interessieren, besonders, wenn ich auch eine engine und deren (mein) Buch verwenden dürfte, auf der anderen Seite kann ich mir das eigentlich eh auch alles ziemlich genau selbst ausrechnen, sowohl mit als auch ohne engine- Unterstützung.

Dass hingegen jeder Versuch aus irgendwelchen mit einer gewissen Portion Willkür, wie du sagst, ausgesuchten Rahmenbedingungen (diese Portion hingegen ist einfach die pure unverschämte und unschuldige Willkür, finde ich, das ist nämlich noch dazu schlicht und einfach unveräußerliches Recht und ebensolche Pflicht jedes Testers, das auszusuchen, und ich würde sagen, jeder Versuch, es irgendeiner Art von Zufall zu überlassen ist schlicht und einfach Selbstbetrug, lässt du das GUI aus einem noch so großen Kollektiv etwas auswählen, bist es immer noch du, der das Kollektiv vorgibt)

Zitat:

Allerdings habe ich noch nicht erkannt, dass diese Portion Willkür sonderlich groß ist.
Nach meinem Eindruck sind die Fehler aufgrund zu weniger Partien (nur so 1000 pro Engine oder so) noch deutlich größer.

Daran können wir noch arbeiten, Benno, wenn du magst, und wenn du nicht magst, macht's mir auch nix, weil ich eh zu wissen glaube, wo wir auseinander gehen.
Du siehst die Willkür nur darin, dich auf, wie du meinst, evident aussagekräftige Ausgangsstellungen und ein engines of interest- Kollektiv zu einigen.

Ich sehe als Schachspieler einfach nach wie vor nur Ausgangsstellungen, die von engines in einer bestimmten Eval- Range beurteilt werden und nicht weiter ins Mittel- oder gar Endspiel führen (genau das ist ja heutzutage auch gar nicht selten, dass Eröffnungen bis ins Endspiel durchanalysiert sind) als insgesamt 8 Züge, vielleicht kommen bei Frank mittlerweile dann noch ein paar Züge dazu, das Prinzip der "Ausgewogenheit" muss aber gewahrt bleiben.
Deshalb, weil wir eine willkürliche Grenze von 5-8 Zügen einziehen und gleich die engines selbst aussuchen lassen mit ihren Evals, was sie als ausgewogen sehen, haben wir aber meiner Meinung nach nur so getan, als wäre das die Aussagekraft zum Quadrat schlechthin, ich sage, nehmen wir gleich nur die Grundstellung, das macht Dubletten, ja und?, die sind statistisch völlig wurscht, wenn eine engine aus der Grundstellung immer nur ein und dasselbe Abspiel kennt, ist sie jedenfalls selbst schuld, kann ja durchaus auch der Vorteil schlechthin sein, wenn's das richtige Abspiel ist.
Und dass dabei immer wieder derselbe Sch...achstil gespielt wird, ist auch völlig wurscht, schaut sich eh kein Mensch an die Partien selbst, das würde aber auch keinen großen Unterschied zu unserem geliebten 0815- Eröffnungsmix machen, die Remisschieberei zwischen Houdini, Stockfisch und Komodo mit dem 5- Züge- Buch ohne alle Ecken und Kanten ist ja auch so nicht sooo unterhaltsam.
Jaah, aber die Gerechtigkeit, die Statistik, eyyyh!
Sieht man ja, werden bei TCEC ein bisschen spannendere Partien aus ein bisschen interessanteren Eröffnungsstellungen gespielt, gleich wird gejammert darüber.

Weiter in Eröffnungen hinein, die einfach nur noch keinen spielentscheidenden Vorteil für eine Seite haben, fände ich persönlich halt schachlich viel interessanter, es würde außer der ansonsten einfach 3fach gezählten Eröffnungsstärke (aus ausgeglichenen Stellungen heraus) die Mittelspiel- und Endspielstärke besser zum Tragen kommen lassen. (3fach gezählt wird die Eröffnungsstärke mit den frühen Stellungen einfach so: in der Eröffnung, im Mittelspiel und im Endspiel, weil sich ein Eröffnungsvorteil einfach in der Eröffnung, im Mittelspiel und im Endspiel mindestens jeweils noch einmal auswirkt, wenn's denn zum Endspiel überhaupt noch kommt (oder es auch überhaupt noch zum Mittelspiel kommt, das muss bei der Remisfreudigkeit der modernen einander auch immer mehr ähnelnden win or save draw- Algorithmen ja auch überhaupt nicht sein, insbesonders aus den den engines diesbezüglich besonders geeignet scheinenden Stellungen heraus

).

Die andere für mich eben auch nicht nur kleine Portion Willkür (und das wird aber allen Testern mittlerweile ohnehin ohne jede weiter Erklärung rein praktisch immer klarer vor Augen geführt) ist das Kollektiv der Gegner.
Die Grenzen zwischen Clones und Derivativen verschwimmen immer mehr, die "eigenständigen" Entwicklungen werden immer weniger (wahrscheinlich falsch, ich habe keine Ahnung, sie spielen allerdings meistens nur noch in eigenen "Unterligalisten" oder stinken immer mehr ab, wenn man sie gegen ein beliebig großes Kollektiv von beliebig nah verwandten "Spitzen"- Gegnern antreten lässt, die noch dazu schon rein deshalb immer dominanter werden.
Und sie als reines Kanonenfutter nur zum Elogewinn der Anderen mitspielen zu lassen, wird auch immer auffälliger notwendig. Natürlich sollte das immer schon ganz verständlicher Weise nicht völlig vernachlässigt werden, weil sonst Innzuchtlisten entstehen, pfui, pfui, pfui.
Was für und wieviele engines du unter ferner liefen mitspielen lässt, das macht's aber heutzutage einfach ebenso aus, wie was für und wieviele einander in Programmstruktur und Gewinn(oder besser Remis-)chancen Ähnelnde aus dem auch praktisch beliebig großen weiter oben angesiedelten Elopool.
Findest du nicht auch, dass die Willkür hier schon ganz schön unverfroren sein muss, um sich noch hinter Begriffen wie Randomisierung verstecken zu können?

By Peter Martan Date 2014-03-13 15:30

Peter Martan schrieb:

, bin jetzt dann aber eh schon wieder still.

Uups, einfach noch nicht so ganz gelungen, der Versuch, wie's scheint.

Sorry, ich rede mich jetzt einfach darauf aus, dass ich noch einmal gefragt wurde.
(Bitte das alle Anderen, die unwahrscheinlicher Weise vielleicht gar überlegt haben, eventuell auch noch was nachzufragen, durchaus als Warnung zu verstehen.)

By Gerhard Sonnabend Date 2014-03-13 16:02

Peter Martan schrieb:

[...snip...]
Die "eigentliche" Spielstärke, so wie ich sie rein für mich allein, also ohne jeden
Anspruch auf Allgemeingültigkeit meine, ist eben keine komplizierte Rechnung, man
müsste sie auch nicht in Elo messen, es würde mir einfach eine Punkteausbeute genügen.
Sie bezieht sich aber immer nur auf ein bestimmtes Eröffnungsbuch (Grundstellung
allein ist sicher auch eine interessante Vorgabe) und auf ein bestimmtes Gegnerkollektiv.
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]

Falsch.

Wolfgang Battig und ich führen sehr sehr häufig Matches für ein und diesselbe
Engine für unsere 40/4 Liste durch, um z.B. kurz vor einem Update dieser Engine
genügend Spiele zu verpassen. Dies passiert auch für unsere anderen Listen.

Aktuell für die 40/4 mit Equinox 3.00 und mit Gaviota 1.0.
Ich fast immer mit diversen Vorgabesets, er häufiger auch mit kurzzügigen Büchern.
Und natürlich testen wir gegen unterschiedliche Gegner.

Und trotz dieser 2 angeblich so wichtigen unterschiedlichen Parametern, gleichen
sich letztendlich unsere Endresultate bei so gut wie jeder Engine bis auf den Punkt.
Ich kenne das Gerede von wegen Engine XY kann geschlossene oder halboffene
Eröffnungen besser als Offene etc. etc.. Oder für Engine XY sind Engine A und B
Angstgegner etc. etc.
Einer Engine jedoch ist es vollkommen gleichgültig welche Eröffnung auf das Brett
kommt oder wie der Gegner heisst, sie weis von beidem nicht(s). Sie rechnet und
spielt schliesslich den aus ihrer Sicht besten Zug und erwartet das selbe vom Gegner.

By Peter Martan Date 2014-03-13 17:40

Gerhard Sonnabend schrieb:

Und trotz dieser 2 angeblich so wichtigen unterschiedlichen Parametern, gleichen
sich letztendlich unsere Endresultate bei so gut wie jeder Engine bis auf den Punkt.

>

Und ich behaupte jetzt einfach mal, wahrscheinlich sind Eure Parameter eben doch nicht so unterschiedlich aus meiner Sicht von Unterschied.

<
Einer Engine jedoch ist es vollkommen gleichgültig welche Eröffnung auf das Brett
kommt oder wie der Gegner heisst, sie weis von beidem nicht(s). Sie rechnet und
spielt schliesslich den aus ihrer Sicht besten Zug und erwartet das selbe vom Gegner.

Schon, schon, Gerhard, dass es der engine gleichgültig ist, glaub ich auch.
Dass die Partieverläufe nicht von der Eröffnung abhingen, glaub ich nicht, eben weil die engine den aus ihrer Sicht besten Zug spielt und der wahrscheinlich gar nicht so selten auch der beste sein wird.
Es gibt nur eben einfach Eröffnungsstellungen, die sind bei beidseits annähernd fehlerfreiem Spiel mit sehr viel größerer Wahrscheinlichkeit Remis als andere.
Du siehst die Möglichkeit, engines auch an anderen Stellungen als an ausgeglichenen zu testen, einfach nicht als sinnvoll an, ich schon.
Oder noch genauer: für mich sind auch noch Stellungen des Ausspielens, aber jedenfalls des Testens wert, die für dich schon nur mehr unter Stellungsteststellungen fallen, so wie die immer noch im Allgemeinen gesehen werden.

By Peter Martan Date 2014-03-13 17:58

Gerhard Sonnabend schrieb:

Und trotz dieser 2 angeblich so wichtigen unterschiedlichen Parametern, gleichen
sich letztendlich unsere Endresultate bei so gut wie jeder Engine bis auf den Punkt.

Und ich behaupte jetzt einfach mal, wahrscheinlich sind Eure Parameter eben doch nicht so unterschiedlich aus meiner Sicht von Unterschied.

<
Einer Engine jedoch ist es vollkommen gleichgültig welche Eröffnung auf das Brett
kommt oder wie der Gegner heisst, sie weis von beidem nicht(s). Sie rechnet und
spielt schliesslich den aus ihrer Sicht besten Zug und erwartet das selbe vom Gegner.

Da ist versehentlich ein Satz von mir zwischen 2 von Gerhard ins Zitieren hineingerutscht, wollte es nur richtigstellen, damit man es nicht für Absicht hält, und dass mein Satz nicht am Ende überlesen wird.

By Benno Hartwig Date 2014-03-14 08:22

> Da ist versehentlich ein Satz von mir zwischen 2 von Gerhard ins Zitieren hineingerutscht

Zitate lassen sich sehr deutlich machen mit dem quote-Button.
Und wenn man keinen Platz verschwenden möchte (finde ich auch sehr schön und übersichtlich) kann man auch einfach die Zitate-Zeilen mit einem ">" beginnen lassen (s.o.)
Benno

By Benno Hartwig Date 2014-03-13 20:29

> Die "eigentliche" Spielstärke, so wie ich sie rein für mich allein, also ohne jeden Anspruch auf Allgemeingültigkeit meine, ist eben keine komplizierte Rechnung, man müsste sie auch nicht in Elo messen, es würde mir einfach eine Punkteausbeute genügen.

Eine Spielstärkeberechung, die in einem Wert (oder auch einigen Werten) die Spielstärke einer Engine beschreibt, muss vereinfachen und kann die 'eigentlichen' Fassetten der Spielstärke der Engine nicht abbilden. Solch eine Berechnungsvorschrift enthält immer eine Portion Willkür. "eigentliche Spielstärke" darf so was dann wohl nicht genannt werden.

Trotzdem finde ich vereinfachende Modelle interessant, und das ELO-System ist ein solches Modell.
Aber ich kann mir sehr gut vorstellen, dass es auch bessere geben kann. Für Menschenschach, andere für Computerschach. Und vermutlich unterschiedliche für kurze und für lange Zeiten.
Aber das übliche ELO-System kriegt es immerhin auch ganz anständig hin.

Benno

By Peter Martan Date 2014-03-13 21:02

Benno Hartwig schrieb:

Aber das übliche ELO-System kriegt es immerhin auch ganz anständig hin.

Zweifellos, wenn man damit nur das bewerten will, was einen interessiert, und man sich im Klaren ist, dass es darüber hinaus ganz andere Werte in ganz anderen Relationen auch sein könnten, allein mit anderen den engines gestellten Aufgaben und oder anderen Kollektiven.
Natürlich wäre es z.B. auch reine Willkür, mindestens die Hälfte des Teilnehmerfeldes an engines müsste älter als 5 Jahre sein oder nichtkommerziell oder nichtbitboardbasiert....

Beim Menschenschach z.B. sind sie die Werte ja auch längst ganz andere oder wären es, wenn die Computerschächer nicht das stillschweigende Agreement getroffen hätten, es habe sich weiter ähnlich zu sehen.

By Frank Quisinsky Date 2014-03-13 21:04

Hi Benno, Vorposter ...

müsst mal auf der Schachwelt googlen.
Da gibt es ein spannenden Ansatz mittels Punktausbeute etwas darzustellen.
Halte diesen für sehr interessant aber im Detail nicht für durchführbar hinsichtlich besserer Darstellung von Listen beim Computerschach.

Mein Traum wäre es aus einer Liste mehr lesen zu können.
Wo könnte eine Engine stark sein, wo hat ein Engine unter Umständen Löcher.
Das müssen keine Werte sein die wie eine Spielstärke fest im Raum stehen, sondern Werte die sich aus den Partien selbst ergeben und zum experimentieren einladen.

Das wäre dann die Lösung und Frank Qy. wäre zufrieden und alles wird gut.

Gruß
Frank

By Gerhard Sonnabend Date 2014-03-13 15:04

Natürlich gibt es die "over all" Spielstärke und genau diese wird
in seriösen Listen auch gemessen. Dabei spielt die Anzahl resp. die
Verschiedenheit der gewählten Eröffnungen keine entscheidende Rolle.
Kein GM und auch kein Super-GM hat ein breites Repertoire, sondern
"lediglich" ein tiefes. Genauso wenig ist es zwingend notwendig, dass
Jeder mindestens einmal gegen Jeden spielt oder gespielt hat. Genau
für solche Vergleiche (Fälle) ist das ELO-System einst gebaut worden.
Die Messungen der seriösen Listen sind also genau und auch faktisch
korrekt und somit vertrauenswürdig und umfassend !

By Peter Martan Date 2014-03-13 17:52

Gerhard Sonnabend schrieb:

Oder anders ausgedrückt: was du mit Eröffnungen testest, wie du sie für tauglich hältst, sodass es dann eben tatsächlich keinen Unterschied macht, was für welche genau, (die Unterschiede dürfen einfach nicht so groß werden, dass sie eine Rolle spielten

), das ergibt dann, was du overall Spielstärke nennst.
Kannst du machen, ich nenne es eine von unzähligen Möglichkeiten Spielstärke zu definieren, mache mir aber nix draus, wenn du das so nicht gelten lässt, hoffe hingegen nur, dass es umgekehrt für dich auch kein Problem ist, dass ich das anders sehe.
Ehrlich gesagt glaube ich es aber nicht, ich glaube, dir ist das ganz und gar nicht egal.

Nix für ungut, Gerhard, ich kenne dich als einen der erfahrensten und verdientesten Computerschachtester und wenn dir das alles wirklich egal wäre, wärst du das wahrscheinlich auch nicht geworden.
Ich zweifle ja auch überhaupt nicht an deiner Redlichkeit und an der Durchführung und der Methode deiner Tests, ich lasse mir nur auch schon seit ziemlich langer Zeit nicht so einfach von irgendjemand Anderem für mich persönlich sagen, was ich für Ergebnisse und Ansichten für wie relevant für mich und meine eigene Sicht von Schach, Computerschach und Anderem ansehe.
Und jetzt, wo es "eigenständige" engines, Ergebnisse und Entwicklungskontrollen zwangsläufig immer mehr gibt und geben muss, erst recht nicht mehr.

By Gerhard Sonnabend Date 2014-03-13 19:36

Vorab:
natürlich lasse ich Deine Meinung gelten, habe ich
irgendwann oder irgendwo etwas anderes geschrieben ?
Deine Ansicht der Dinge ist zwar falsch bezügl. der
Spielstärkenbewertung resp. der Genauigkeit und
Aussagekraft der seriösen Ratinglisten, aber nicht
jeder kann immer und überall richtig liegen.

Vor Jahren habe ich Dir schon mitgeteilt, dass meine
Vorgabesets nicht durch Kurzzügigkeit glänzen.
Ich habe in den drei 50er-Sets, welche ich zur Zeit
hauptsächlich für die CEGT 40/4 verwende, auch solche
drin, die bis zu 15 vollen Züge lang sind.

Hier mal die Werte:

Code:


Set           durchsch. Zugzahl   min.  max.
Nummer 1             10.5          6     13
Nummer 2             10.5          7     15
Nummer 3             11.0          5     12
(alle Angaben in vollen Zügen, NICHT in Halbzügen !)

Des weiteren ist das Zugrecht zwischen Weiss und
Schwarz in allen Sets ausgewogen, jeweils 25x ist
der Weisse am Zug, jeweils 25x der Schwarze.
Dies jedoch spielt eh keine grosse Rolle, da all unsere
Matches mit Farbvertauschung gespielt werden.

Was bloss anders soll heraus kommen, wenn man
"Deine" Art von Vorgaben (mit Farbvertauschung)
anstatt der meinen hernehmen würde ?

Vorschlag:
schicke mir mal ein 50er-Set, welches Deinen Vorstellungen
entspricht und ich werde damit einen Test durchführen und
danach Vergleiche ziehen.
Bitte als PGN, CBH geht jedoch auch zur Not.

By Peter Martan Date 2014-03-13 20:42 Edited 2014-03-13 20:50

Gerhard Sonnabend schrieb:

Ich habe in den drei 50er-Sets, welche ich zur Zeit
hauptsächlich für die CEGT 40/4 verwende, auch solche
drin, die bis zu 15 vollen Züge lang sind.

Hier mal die Werte:

Code:


Set           durchsch. Zugzahl   min.  max.
Nummer 1             10.5          6     13
Nummer 2             10.5          7     15
Nummer 3             11.0          5     12
(alle Angaben in vollen Zügen, NICHT in Halbzügen !)

Das gefällt mir schon mal gut.

Gerhard Sonnabend schrieb:

Vorschlag:
schicke mir mal ein 50er-Set, welches Deinen Vorstellungen
entspricht und ich werde damit einen Test durchführen und
danach Vergleiche ziehen.

Hast du schon mal Nunn oder Silver-Testsuite probiert?

Eigentlich müsste ich zuerst deine Stellungen sehen, Gerhard, dann könnte ich dir sicher leichter welche schicken, die andere Ergebnisse erbrächten und dennoch bei mir auch noch irgendwie als Teststellungen durchgingen, die nicht primär zu Stellungstests gedacht sind.
Um der Diskussion willen, damit du endlich verstehst, was ich mit Unterschied meine und mit nicht ausgeglichen Stellungen, könnte ich ja auch gleich einen x- beliebigen Taktikstellungstest nehmen oder eine Sammlung, die für einen positionellen Stellungstest gedacht ist. Da ist nur die Frage, wozu überhaupt bis zum bitteren Ende ausspielen lassen, andererseits, warum nicht auch das, wenn man nur ganze und halbe Punkte zählen will und nicht darüber streiten, ab welcher Bedenkzeit welche Züge in der HV mit welcher Bewertung vorkommen müssen.
Natürlich würde ich damit auch nur die Fähigkeiten testen, die jeweils taktischen oder positionellen Züge zu finden, dafür wüsste ich aber wenigstens, was genau ich mit der jeweiligen zu testenden Spielstärke meine, wenn ich keine Elosionen damit nähren muss, und die Partien wären kürzer und ich würde keine so großen Mengen davon brauchen.
Thementurniere mit gerade in der Literatur umkämpften Theorievarianten nach 5, 10, 15, 20, 25 und 30 Zügen, wie wär's damit?
Such dir einfach was aus, was dich auch interessieren würde oder schick mir deine Testsets.
Dann setz ich interaktiv mit Datenbankunterstützung einfach auf alle noch ein paar Züge drauf in 5er-Schritten.
In ungefähr dieser Reihenfolge sähe ich die Unterschiede in den Ergebnissen von ganz anders über etwas anders bis schon ziemlich ähnlich.

By Gerhard Sonnabend Date 2014-03-13 21:02

Weshalb nur war mir schon vorher klar, dass ich von Dir
nicht etwas anderes bekomme, als was Du immer schlecht
oder zumindest nicht gut findest ?
Ich gebe Dir trotz dem nochmal die Möglichkeit:
schicke mir Dein Eröffnungsset, wenn möglich 50
Stellungen, und ich führe die Vergleiche durch.

By Peter Martan Date 2014-03-13 21:47 Edited 2014-03-13 21:57

Ach, dann nimm doch einfach den STS- Stellungstest und spiel davon beliebig viele aus, wenn du die Themenordnung beibehältst, sehen wir auch gleich, ob die verschiedenen Themen verschiedene Ranglisten erbringen.
Und, krieg ich jetzt dein Testset?
Ich mach dann einen Stellungstest damit, so wie ich mir den vorstelle, daraus eine Rangliste , und wir schauen, ob sie deinen Ergebnissen nicht auch ganz gut entspricht.

Zitat:

Weshalb nur war mir schon vorher klar, dass ich von Dir
nicht etwas anderes bekomme, als was Du immer schlecht
oder zumindest nicht gut findest ?

Das klingt aber schon stark nach self fulfilling prophecy.

By Gerhard Sonnabend Date 2014-03-14 08:55

Peter Martan schrieb:

[...snip...]
Das klingt aber schon stark nach self fulfilling prophecy.

Nein, nein.
Wenn man, so wie Du, immer und immer wieder mitteilt,
dass man längere Vorgaben und zusätzlich auch welche
mit spürbaren Vorteil für die eine oder andere Seite
hernehmen muss um Spielstärkenberechnungen durchzuführen,
dann erwarte ich auch, dass dies bereits wenigstens mal
angetestet wurde. So wie es nun aber aussieht, hast Du
selbst niemals solche Tests durchgeführt. Sonst wäre ja
ein Testset deinerseits sofort verfügbar, nicht wahr ?

Was soll ich mit Nunn- und/oder Noomen-Vorgaben oder
sonstigen bekannten Sammlungen ?
Diese sind jedem Programmautoren zugänglich ! Deshalb
kann und werde ich Dir meine Sets natürlich nicht offenlegen.

Also, sobald Du wirklich etwas zu bieten hast kannst Du
Dich wieder bei mir melden und dann sehen wir weiter.

By Peter Martan Date 2014-03-15 07:08

Gerhard Sonnabend schrieb:

So wie es nun aber aussieht, hast Du
selbst niemals solche Tests durchgeführt. Sonst wäre ja
ein Testset deinerseits sofort verfügbar, nicht wahr ?

´
Gerhard, ich bin mir ziemlich sicher, dass du genau weißt, was ich schon alles zu Teststellungen in diesem und in anderen Foren geschrieben habe, natürlich immer nur zu (in aller Regel) einer ganz bestimmten, dafür werde ich mich wahrscheinlich öffentlich zu Output- Vergleichen, Evalverläufen und Varianten gemeldet haben, als so mancher Andere.
Das ich kein "eigenes" Testset habe, so wie du das deine als dein ganz persönliches siehst, liegt einfach daran, dass für mich jede einzelne Stellung zählt und ich mich so ziemlich jeden Testsets, dass es im Netz gibt, bediene, um bei neuen engines oder Versionen mir genau die paar, die ich für den Anlassfall für die interessantesten halte, hernehme.
Dafür maße ich mir dann aber auch nicht an, irgendeine Schachstellung, nur weil ich sie mir ausgesucht habe, als "meine" zu bezeichnen, Schachstellungen sind nämlich auch nicht patentierbar, weißt du?

Ich brauche keine normierten und statistisch an die 100%-Power herangehenden Automatismen ablaufen zu lassen, um meinen eigenen Eindruck von einer engine schnell zu bekommen und dann, je mehr Zeit ich hinein investiere, um so genauer werdende stellungsabhängige Spielstärkemessungen zu machen.
Andere gibt es übrigens nicht.

Siehe dazu andere Antwort, auf dein anderes posting, ich will mich ja nicht völlig unnötig ständig wiederholen, vielleicht versuchst du ja einfach mal zu verstehen, was ich eigentlich meine?

Gerhard Sonnabend schrieb:

Was soll ich mit Nunn- und/oder Noomen-Vorgaben oder
sonstigen bekannten Sammlungen ?
Diese sind jedem Programmautoren zugänglich ! Deshalb
kann und werde ich Dir meine Sets natürlich nicht offenlegen.

Meinst du nicht auch, (passt wieder ganz gut zum selffulfilling...) wenn du dein Testset so gut hüten musst, dass das deinem hochgelobten Prinzip der stellungsunabhängigen Testung etwas widerspricht?
Wenn die Teststellungen, von denen aus du deine Partien spielst, so egal sind, warum musst du sie dann so geheimhalten?

Und jetzt noch einmal zu deins und meins und wer mehr Anrecht hat, seine Erfahrung für allgemeingültiger zu halten.
Ich behaupte ja nicht, eine stellungsunabhänige Testmethode zu haben, ich sage, es gibt keine, tut mir leid, wenn dir das zu wenig konstruktiv ist.
Wenn du aber weiter darauf beharrst, es käme nicht darauf an, welche Stellungen du für Ranglistenmatches verwendest, dann hör auf, dir selbst mit deiner Geheimniskrämerei zu widersprechen und probier halt endlich aus, beliebige Stellungen eines Stellungstests auszuspielen, dass du das nicht sinnvoll findest, kann ich ja durchaus verstehen, ich mach's ja auch nicht, wozu denn auch, außer um der Diskussion mit dir willen.

Von mir aus können wir's übrigens schon längst gut sein lassen, du darfst dich aber auch gern jederzeit wieder bei mir melden.

By Gerhard Sonnabend Date 2014-03-15 11:18

Nein, kein Widerspruch.
Ich verwende ja 3-5 Stellungssets, damit wird schon ein recht grosser Bereich abgedeckt.
Und, Wolfgang hält es ähnlich, da kommen also nochmal sehr viele weitere Systeme dazu.
Geheimhalten nur deshalb, weil es ja theoretisch sein könnte, dass ein Engineautor sich
verführen lässt und ein wenig nachhilft. Dies kann man übrigens total unauffällig einbauen,
niemand würde es merken. Ich gehe allerdings nicht davon aus.

By Frank Quisinsky Date 2014-03-13 20:51

Peter,

0815 Stellungen ist unser ECO-code.
Bei Ratinglisten ist es nicht wichtig den ECO-Code neu zu erfinden sondern um bei der Masse an Partien Dubletten zu vermeiden, möglich viel einfließen zu lassen.
Das die Eröffnungen keinen Einfluss auf die Ergebnisse haben zeigt doch z. B. der Vergleich CEGT zu SWCR auf.

Da gibt es keine Unterschiede obwohl andere Eröffnungsideen verwendet werden, oder die Liste von Ingo die wieder ein anderes Konzept hat.
Das Thema ist doch schon seit so vielen Jahren abgeschlossen.

Aber wenn Du Material hast um das Gegenteil ... hinsichtlich einer Ratingliste ... zu beweisen ... her damit verdammt nochmal.

Gruß
Frank

By Peter Martan Date 2014-03-13 21:13

Frank Quisinsky schrieb:

Aber wenn Du Material hast um das Gegenteil ... hinsichtlich einer Ratingliste ... zu beweisen ... her damit verdammt nochmal.

Frank, was willst du jetzt eigentlich, den kleinen feinen Unterschied, vorausgesetzt, dass er ganz allein auf deinem Mist gewachsen ist, zur Revolution erheben oder alte Traditionen pflegen?
Im letzteren Fall pflege ich jetzt weiter die uralte Tradition des Stellungstests und mache mir damit meine eigene Rangliste, so wie ich das ohnehin auch schon immer gemacht habe und jetzt verrate ich dir was: meine Ergebnisse, in dem, was mich interessiert, unterscheiden sich auch gar nicht soo von denen der Ranglisten, es sei denn, ich schaue mir, was ich aber ohnehin für das einzig wirklich sinnvolle schachlich halte, jede einzelne Stellung so genau an, dass ich aus den engines, die ich dazu nehme, für jeden einzelnen Halbzug der HV und jede Evalveränderung von HZ zu HZ, eine eigene Rangliste aus der einzelnen Stellung mache.
Das einzig sinnvolle war das für mich immer deshalb schon: was hab ich davon zu wissen, wo eine engine in irgendeiner overall playing strength stünde, wenn es die gäbe, und in der Stellung, die ich gerade spielen will, ist gerade die viel ahnungsloser als eine andere, die overall viel schwächer gereiht ist, mir aber im Anlassfall die besseren Züge liefert?

By Frank Quisinsky Date 2014-03-13 21:22

Hi Peter,

nun die Theorie in der Form wie sie in den Ratinglisten ... egal wo Du hinschaust angewendet wird, sorgt nicht für andere Ergebnisse.
Das wollte ich Dir nochmals schreiben.

Das Thema ist so was von durch, mehr durch geht gar nicht mehr.
Ich mache mir dann lieber Gedanken wie ich nach dem Winterspeck den angehenden Frühlingsrollen weg bekomme.
Wirklich ...

Aber ...
Es ehrt Dich wenn Du die Partien selbst als Aufhänger nimmst. Die sind mir persönlich auch wichtig und erst Recht etwas daraus zu deuten, Engines ein Gesicht zu geben. Stärken herauszufinden und dazu gehört natürlich auch die Eröffnungstheorie anzuwenden. Stark in geschlossenen, schwächer in offenen etc.. Natürlich gibt es das aber es ist wie mit Murphys Gesetze. Durch die Masse an ECO codes fällt das Detail in den Keller, macht keinen Einfluss auf ein Endergebnis es sei denn es werden nur offene oder nur geschlossene gespielt, dann könnte ich mir das schon vorstellen.

Hatte gestern noch bei einer Gaviota Partie zugesehen mit einer neuen eigepickten Eröffnung die gut für schwarz ist auch wenn - 1.2 (was ich bei den bisherigen Eröffnungen nie hatte, da ausselektiert). Und Gaviota konnte wirklich die Idee der Eröffnung umsetzen und erreicht gegen den stärkeren Gegner das Remis. Auch diese Eröffnungen müssen einfach enthalten sein und alle Engines müssen sich auch dort solche Eröffnungen kämpfen.

Gruß
Frank

By Gerhard Sonnabend Date 2014-03-14 09:19

Peter Martan schrieb:

[...snip...]
Im letzteren Fall pflege ich jetzt weiter die uralte Tradition des Stellungstests und
mache mir damit meine eigene Rangliste,

Seit wann haben Stellungstests bezügl. Spielstärkenmessung Tradition ?
Gibt es diesbezüglich etwas (auch gerne im Netz) nachzulesen ?

Peter Martan schrieb:

[...snip...]
...was hab ich davon zu wissen, wo eine engine in irgendeiner overall playing strength
stünde, wenn es die gäbe, und in der Stellung, die ich gerade spielen will, ist gerade
die viel ahnungsloser als eine andere, die overall viel schwächer gereiht ist, mir aber
im Anlassfall die besseren Züge liefert?

Für solche Fälle lassen sich aber immer und ganz einfach Gegenbeispiele finden, und
dies sogar in fast identischen Stellungen. Aus Teststellungen, welche einen oder zwei
Schlüsselzüge fordern, kann man keine zuverlässig Reihung der Programme bezügl.
Spielstärke erstellen, nicht mal unter Verwendung von 200 oder 300 Stellungen. Das
ist alles reiner Zufall was dabei an "Reihung" heraus kommt. Bereits eine einzige Partie
(durchschn. 80 Züge in unseren Listen) beinhaltet i.d.R. 30-40 Stellungen, in welchen
entscheidende Dinge errechnet werden müssen. Bei 100 Games pro Match, für die meisten
unserer Listen Standard, wären das also 3000-4000 "Stellungen". Ein stabiles Einstiegs-
rating veröffentlich wir in unseren Listen i.d.R. beim Erreichen von 1000 Spiele, also
30000- 40000 Stellungen.

By Peter Martan Date 2014-03-15 06:46

Gerhard Sonnabend schrieb:

Doch, die der stellungsabhängigen Spielstärke, Gerhard, und andere gibt es nicht wirklich.

Das, was du gerne als overall sehen würdest, ist immer nur ein Querschnitt, und welche Stellungen du nimmst, ist Willkür.
Warum ist die Aussage bei ausgeglichenen Stellungen prinzipiell eine andere, bessere, aussagekräftigere?
Sie sagt nur was anderes insofern aus, als sie etwas über die stellungsabhängige Spielstärke anderer Stellungen etwas aussagt und aus.

Wenn dir die traditionellen (natürlich gibt's die genau so lang wie alles andere an Testmethoden) Stellungstests nicht passen, spiel die Stellungstesstellungen halt in Unmengen von Partien aus und mach eine Riesenstatistik draus, dass das nichts an den wesentlichen Kernaussagen ändert, das versuche ich dir klarzumachen.
Spielstärkemessungen kannst du nur stellungsabhängig machen und alles andere ist Interpretation.

By Circular Date 2014-03-16 11:05

Spielstärke und Tradition:

Dazu nur zwei Worte: Bratko Kopec

So alt wie das computerschach...

By Gerhard Sonnabend Date 2014-03-16 18:38

Kenne ich natürlich, ebenso BT-2450, BT-2630, Colditz 1+2, LCT,
LCT II, Nolot und wie sie alle heissen.
Bloss, wo ist da etwas greifbares bezügl. Spielstärkenmessung ?
Die Resultate, welche seinerzeit veröffentlicht wurden waren ein Witz.
Das (den Witz) kann man selbstverständlich als Tradition bezeichnen,
wohl wahr.

Da wurden halt Stellungen zusammen gesucht bis das Ergebnis halbwegs
mit den gängigen, damals verfügbaren Listen übereinstimmte. Kam dann
jedoch eine neue Engine auf dem Markt, hat plötzlich (natürlich !)
nichts mehr gepasst. Und schon kurz danach gab es dann den nächsten,
korrigierten Test.
Das haben wir alles schon vor Jahren ausdiskuriert und auch nachgewiesen.

By Peter Martan Date 2014-03-17 09:07

Ja, Gerhard, weiß ich ja auch, und dass damals die Stellungstest ähnlich penetrant überbewertet wurden wie jetzt die Ranglisten, ist mir ja auch noch in Erinnerung.
Aber wer wäre denn damals mit dem Wahnsinnsaufwand an Stellungstests herangegangen, mit dem man jetzt die Ranglisten betreibt und betreiben muss, um die gleichermaßen gestiegenen Anforderungen der Statistik überhaupt noch befriedigen zu können?
Es ist ja nicht so, dass da einzelne Freaks nichts besseres zu tun hätten mit ihrer Zeit, ihrem Strom und ihrer Hardware, es geht einfach nicht mehr, mit 100 Partien engines statistisch signifikant zu unterscheiden, auf keine Art der Welt, nicht mit eng-eng-eng und nicht mit Stellungstests, und schon gar nicht, wenn man den Wust an jetzt schon vorhandenen und ungefähr gleich starken engines rein zahlenmäßig unter einen Hut, sprich unter eine Liste bringen will.

Folgenden Versuch, wenn du ihn nicht ohnehin schon oft genug und auch in letzter Zeit mal gemacht hast, könntest du noch mal kurz andenken, wenn du von mir Gegenvorschläge haben wolltest zu deinem Testset: lass gleich nur von der Grundstellung aus spielen, sch...au auf die Dubletten, aber nur insofern, als du sie als Mahnmal dafür nimmst, dass da halt auch immer wieder derselbe Sch...achstil gespielt wird (Remisschieberei ist bei ein paar Züge später den Anzugsvorteil dann auch noch ausgeglichen habenden Stellungen erst recht noch mehr dabei, sag ich mal) und scher dich ansonten, wie auch normaler Weise immer, wenn's nur um die Ergebnisse geht, nicht um die Partien selbst, sondern nur um die Statistik.
Unterscheidet sich die irgendwie maßgebend von dem, was bei deinem Testset rauskommt?
Eben.

Ich meine, spricht doch schon auch irgendwie dafür, dass die Testsets und Bücher, wollte man mit dem Partiemateral als solchem nicht auch sonst noch irgendwas untersuchen, als Teststellungen der Grundstellung im Ergbnis verdammt ähnlich sind, nein?

Jetzt folge noch einmal bitte meinem Gedankengang, dass Stellungstests auch ausgespielt werden können und man daher genau genommen jedes Testset für eine Liste auch als solchen betrachten könnte, eigentlich müsste, als ausgespielten Stellungstest.
Wäre es dann nicht logisch, die Kritik, die man immer wieder aus dem Jahre Schnee gegen den Pfuipfuiausdruck Stellungstest hervorkramt, wenn's um Teststellungen irgend welcher Art geht, auch an Teststellungen für eng-eng-eng anzuwenden? Nämlich diese hier:
"Stellungstests testen die Teststellungen" war so ein alter Satz, mit dem man da immer gemeint hat, ein Totschlagargument zu haben, ich hab den immer schon geliebt, weil er zum "so what", "ja und?" einfach direkt zwingend herausfordert, ja was soll er denn zunächst mal ansonsten überhaupt testen? Natürlich muss man zunächst die Teststellungen testen, damit man dann mit denen engines testen kann und alles andere an Kritik kann immer nur die Zahl und Auswahl der Stellungen betreffen.
Über die Methodik, einzelne Lösungszüge oder Lösungsvarianten in bestimmter Zeit, auf bestimmter Hardware, SMP oder single core suchen zu lassen, einzelne primary und non primar variants, im single- oder multivariant- mode mit dem Output in Hinblick auf den Evalverlauf pro Tiefe und Halbzug zu vergleichen, oder was auch immer man sich da noch so einfallen lassen könnte, oder ob man lieber gleich die momentan halt einzig gängige Methode des Ausspielenlassens heranzieht, darüber kann man dann immer noch beliebig lang diskutieren.
Warum nicht auch Zwischendinge andenken: je nach Ausgangsstellung lässt man nur eine bestimmte Variantenlänge ausspielen und vergleicht dann Ausgangs- und Endevals. Damit man nicht mit den zwischen den engines nicht direkt vergleichbaren Zahlenwerten unmittelbar arbeiten muss, nimmt man den jeweiligen Quotienten aus Anfangs- und Endeval, ist der über einem bestimmten Maß, zählt man's als ganzen Punkt, sonst als halben.

Zunächst mal sollte man sich jedenfalls einig im Klaren sein, dass man mit bestimmten Teststellungen nur bestimmte engine- Fähigkeiten testet, egal, wie man diese Stellungen dann methodisch auswertet oder auswerten lässt.
Natürlich ist es von mir unfair, wenn ich immer nur einzelne Teststellungen hernehme und mit denen ein jeweils eigenes stellungsabhängiges Rating erstelle für meinen persönlichen Bedarf und den jeweiligen engines of interest, unfair denen gegenüber, die mit ihren Tests ein allgemeingültiges Elomaß erstellen wollen, von dem wird man sich aber über kurz oder lang ohnehin verabschieden müssen.
Irgendwie wird sich die Erkenntnis (dazu muss man die Begriffe nur entsprechen konsequent definieren), Schachspielstärke ist genau genommen nur stellungsabhängig beschreib- und testbar, auch praktisch niederschlagen müssen.

Es verhält sich, würde ich sagen, so wie mit der sogenannten menschlichen Intelligenz, die kann man auch nur in Teilaufgaben testen, verbal, gestaltsorientiert, abstrakt rechnerisch, motorisch, wie auch immer man all die fragwürdigen IQ-Tests zuammenstellen will, Intelligenz muss ebenso wie Schachspielstärke einen konkreten Ausdruck finden, ohne den man sie nicht beurteilen kann, bei der Intelligenz wird subjektiv in der Regel nur der verbale Ausdruck beurteilt und bei Schachprogrammen nur der Umgang mit der Grundstellung und mit grundstellungsnahen, noch ausgeglicheren Stellungen als die Grundstellung selbst ist, das ist aber noch nie das einzig Interessante gewesen, ist es auch heute nicht.

Im Gegenteil, die Schachspieler wollten immer dort Unterstützung und wirklich gute Gegner, wo die Eröffnungstheorie gerade aus war, das ist heutzutage mit den allgemein zugänglichen Datenbanken auch längst ganz wo anders als vor noch wenigen Jahren.
Gebt als Tester diesem schachlich einzig sinnvollen Anwendungsbedarf endlich auch wieder etwas nach, weil kein Mensch mehr öffentlich over the board gegen engines spielt, heißt das ja nicht, dass die engines nur mehr unter sich spielen sollen, dürfen, müssen.
Fernschachspieler wollen gute Datenbanken, die wollen sie mit guten engines ausbauen, dazu wollen sie wissen, welche engine mit welcher frühen oder späten Mittelspielstellung und mit welcher Endspielstellung wie gut zurecht kommt.

Ich sehe es kommen, die over the board Profis für ihr Eröffnungsrepertoire und die Fernschachspieler werden sich Programmierer suchen, die gegen vernünftiges Geld engines eigens für bestimmte Stellungen adaptieren und programmieren und ihnen gleich noch entsprechend angepasste PSTs und aus Datenbanken angefüllte Lerndateien und persistent hashes mitgeben. Das sehe ich jedenfalls immer noch zukunftsträchtiger als die Cluster und die auch schon ziemlich verblassende Hoffnung, aus ein paar einzelnen Geldsäcken noch wirklich teures Geld für Hardware herauszukitzeln, wenn der Preisverfall der Hardware ja auch schon fast so schnell weitergeht, wie er bei der Software schon da ist, da sehe ich für wirklich spezialisierte Software noch mehr Chance, die dann vielleicht auch wieder in Kombination mit hochspezialisierter Hardware.

Mit Buchvarianten und mit Fernschachengines wird man vielleicht noch mit dem Computerschach Geld verdienen können in der Zukunft, mit Elofanten eher nicht mehr.

By Gerhard Sonnabend Date 2014-03-17 10:29

Peter Martan schrieb:

Genau das haben die Stellungstestentwickler jedoch getan. Einen
Riesenaufwand betrieben um der Entwicklung hinterher zu hecheln !
Dabei wollten die lediglich die damals verfügbaren Ranglisten
möglichst gut "abbilden". Da wurden haufenweise Stellungen abgetestet,
verglichen, verworfen, verändert, ..., nur um möglichst nahe an die
Ranglisten heran zu kommen. Sobald dann eine neue Engine kam und diese
sich nicht wie erwartet einrangierte, wurde das ganze wieder von vorne
neu begonnen. Dies machen seriöse Listenbetreiber eben nicht, hier wird
nichts verändert, gestrichen, abgepasst etc. etc. Die Bedingungen
bleiben immer gleich.

Peter Martan schrieb:

Es ist ja nicht so, dass da einzelne Freaks nichts besseres zu tun hätten mit ihrer
Zeit, ihrem Strom und ihrer Hardware, es geht einfach nicht mehr, mit 100 Partien
engines statistisch signifikant zu unterscheiden, auf keine Art der Welt, nicht mit
eng-eng-eng und nicht mit Stellungstests, und schon gar nicht, wenn man den Wust an
jetzt schon vorhandenen und ungefähr gleich starken engines rein zahlenmäßig unter
einen Hut, sprich unter eine Liste bringen will.

Natürlich kann man auch die heutigen Programme (genauso wie die
früheren) unterscheiden. Wir (CEGT) und andere seriöse Listen zeigen
das Tag für Tag.

Peter Martan schrieb:

Folgenden Versuch, wenn du ihn nicht ohnehin schon oft genug und auch in letzter Zeit
mal gemacht hast, könntest du noch mal kurz andenken, wenn du von mir Gegenvorschläge
haben wolltest zu deinem Testset: lass gleich nur von der Grundstellung aus spielen,
sch...au auf die Dubletten, aber nur insofern, als du sie als Mahnmal dafür nimmst,
dass da halt auch immer wieder derselbe Sch...achstil gespielt wird (Remisschieberei
ist bei ein paar Züge später den Anzugsvorteil dann auch noch ausgeglichen habenden
Stellungen erst recht noch mehr dabei, sag ich mal) und scher dich ansonten, wie auch
normaler Weise immer, wenn's nur um die Ergebnisse geht, nicht um die Partien selbst,
sondern nur um die Statistik.
Unterscheidet sich die irgendwie maßgebend von dem, was bei deinem Testset rauskommt?
Eben.

Ich habe schon einige Vergleiche (mit verschiedenen Bedenkzeiten)
mit der Grundstellung und Farbvertauschung gemacht. Heraus kommt
genau das selbe wie in den Listen, allerdings mit einer weit höheren
Unsicherheit. Das ist der geringen Partienanzahl geschuldet. Das
reicht bei weitem nicht aus um nahe beieinander liegende Engines
zuverlässig einzustufen.

[...snip...]

Peter Martan schrieb:

Jetzt folge noch einmal bitte meinem Gedankengang, dass Stellungstests auch ausgespielt
werden können und man daher genau genommen jedes Testset für eine Liste auch als solchen
betrachten könnte, eigentlich müsste, als ausgespielten Stellungstest.

Klar könnte man Stellungstest ausspielen lassen. Allerdings kann
nichts Vernünftiges dabei herauskommen, weil (nur ein Beispiel):
eine Stellung verlangt einen Schlüsselzug, welcher unweigerlich zum
Gewinn führt. Nun spielen 2 Engines diese Stellung gegeneinander aus,
welche im reelen Leben deutlich auseinander liegen. Beide jedoch finden
(die eine vielleicht nur per Zufall) den Schlüsselzug = Ergebnis 1:1 =
gleichstark. Und das ist Unsinn.
Viele Stellungen aus solchen Tests bevorzugen sehr auffällig Settings,
welche jedoch in "normalen" Partien fast immer von Nachteil sind.
Zum Beispiel kann man viele Stellungen in solchen Tests finden, welche
sich durch das Hochsetzen der Selektivität schneller (oder überhaupt
erst) lösen lassen. Andere Beispiele durch welche diese so-called
Teststellungen geknackt werden:
- verändern der Figurenwerte
- verändern diverser Parameter wie Königsicherheit, Mobilität, etc. etc.
All diese Änderungen im Vergleich zu den Defaults jedoch verschlechtern
erwiesenermassen die Spielstärke in reelen Partien, so denn der Autor
bei seinen eigenen Tests nicht geschlampt hat.

[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]
[...snip...]

By Gerhard Sonnabend Date 2014-03-17 13:54

Kleiner Nachtrag, weil vorher "überlesen".

Peter Martan schrieb:

Fernschachspieler wollen gute Datenbanken, die wollen sie mit guten engines ausbauen,
dazu wollen sie wissen, welche engine mit welcher frühen oder späten Mittelspielstellung
und mit welcher Endspielstellung wie gut zurecht kommt.

1.
Wer heute noch Fernschach spielt hat mindestens einen oder
gar 2 wenn nicht sogar 3 Rechner zur Verfügung. Er/Sie kann
sich also diese "Daten" (welche es jedoch in dieser Art gar
nicht gibt resp. geben kann) gefälligst auch selbst errechnen
lassen. Wäre aber Zeiverschwendung. Selbst wenn es diese
Art Daten geben würde:
weshalb sollten wir etwas Derartiges zur Verfügung stellen ?
Bekommen wir etwas dafür ?
Wir bieten doch bereits die wichtigste aller Informationen !

2.
Ja, der alte Irrglaube.
Es gibt keine Engine(s), welche besser oder schlechter mit
irgend einer Art Stellung zurecht kommt. Man kann natürlich
immer wieder einzelne Beispiele finden, welche einem etwas
vorgaukeln. In einer anderen, fast identischen Stellung mit
selbem Motiv sieht es dann plötzlich wieder anders aus.
Es gibt nicht die eine Engine für die Eröffnung, für das frühe,
mittlere und späte Mittelspiel, ebensowenig für das Endspiel.
Auch nicht für Teilbereiche der o.g. Phasen. Es gibt hingegen
immer wieder vermeindliche Beispiele hierfür, zu welchen jedoch
ohne Mühe Gegenbeispiele aufgeführt werden können.
Wie schon mal geschrieben, die Programme rechnen am aktuellen
Zug und spielen dann den ihrer Meinung besten aus und erwarten
vom Gegner das selbe.
Und je höher eine Engine (in den Listen) steht, desto besser
ist sie auch in den einzelnen Phasen einer Partie im Vergleich
zu anderen Engines. Wäre sie nämlich in irgendeinem Bereich
notorisch schwächer als die Tabellennachbarn, würde sich dies
schnell und deutlich in den Listen abbilden !

By Peter Martan Date 2014-03-18 09:26 Edited 2014-03-18 09:28

Gerhard Sonnabend schrieb:

1.
Wer heute noch Fernschach spielt hat mindestens einen oder
gar 2 wenn nicht sogar 3 Rechner zur Verfügung. ...

2.
Ja, der alte Irrglaube.
Es gibt keine Engine(s), welche besser oder schlechter mit
irgend einer Art Stellung zurecht kommt. Man kann natürlich
immer wieder einzelne Beispiele finden, welche einem etwas
vorgaukeln. In einer anderen, fast identischen Stellung mit
selbem Motiv sieht es dann plötzlich wieder anders aus.
Es gibt nicht die eine Engine für die Eröffnung, für das frühe,
mittlere und späte Mittelspiel, ebensowenig für das Endspiel.
Auch nicht für Teilbereiche der o.g. Phasen. Es gibt hingegen
immer wieder vermeindliche Beispiele hierfür, zu welchen jedoch
ohne Mühe Gegenbeispiele aufgeführt werden können.
Wie schon mal geschrieben, die Programme rechnen am aktuellen
Zug und spielen dann den ihrer Meinung besten aus und erwarten
vom Gegner das selbe.
Und je höher eine Engine (in den Listen) steht, desto besser
ist sie auch in den einzelnen Phasen einer Partie im Vergleich
zu anderen Engines. Wäre sie nämlich in irgendeinem Bereich
notorisch schwächer als die Tabellennachbarn, würde sich dies
schnell und deutlich in den Listen abbilden !

Ich wollte es wirklich zunächst wieder lassen, aber Aussagen wie deine obigen gehören einfach noch dahingehend markiert, wie sehr du dir da selber widersprichst.
Wenn ohnehin immer nur die eine in den Ranglisten führende engine für alle Stellungen die besten Züge auswirft, wozu brauchen Fernschachspieler dann mindestens 2, 3 Rechner?
Glaubst du wirklich, Fernschachspieler lassen immer nur eine engine, die sie sich aus den Ranglisten heraussuchen, auf 2, 3 Rechnern dauerrechnen?

Und dann zu dem Posting davor noch das zum Thema Grundstellungsmatch:

Gerhard Sonnabend schrieb:

Wenn genau das selbe herauskommt wie bei deinen Testsets, heißt das doch einfach genau das, was ich sage: du kannst dir deine Testsets schenken, sie bilden genau das Grundstellungsmatch ab.
Geringere Partienanzahl soll wohl heißen, du zählst die Dubletten einfach immer nur wie eine einzelne Partie für die Statistik, kannst du machen.
Natürlich darfst du in jeder Statistik zum Schluss alle Ergebnisse, die dir nicht in den Kram passen, ignorieren, Dubletten werden nicht gezählt, ok, streichen wir sie weg, wie war aber doch gleich die statistische Begründung dafür?
Und weißt du aber auch, wieviele der Partien, die du mit deinen Testsets bekommst, ich dir dann (höchstwahrscheinlich, ich darf dein Testset ja nicht sehen) mit der selben Berechtigung auch einfach wegstreichen könnte, weil sie bei mir auch einfach Dubletten heißen dürften?

Ich sage ja die ganze Zeit, die Teststellungen für die Ranglisten liefern vom Partiengehalt großteils den selben Sch...achschmarrn, dass der die Spielstärke der engines einzig maßgeblich bestimmt, ist reine Abmachung zwischen den Ranglistenbetreibern.
Ich gönn's euch ja, ich hab ja auch kein besseres Testset für eine fiktive overall playing strength, ich sage aber, auf eine solche selbstherrliche Definition, die in Wirklichkeit einfach nur die Spielstärke von der Grundstellung aus wiedergibt, könnte ich persönlich wirklich verzichten, dass du es nicht kannst, ist nicht mein Problem.

By Gerhard Sonnabend Date 2014-03-18 10:51

Peter Martan schrieb:

Lese bitte genauer.
Ich schrieb:
"Ich habe schon einige Vergleiche (mit verschiedenen Bedenkzeiten)
mit der Grundstellung und Farbvertauschung gemacht. Heraus kommt
genau das selbe wie in den Listen, allerdings mit einer weit höheren
Unsicherheit. Das ist der geringen Partienanzahl geschuldet. Das
reicht bei weitem nicht aus um nahe beieinander liegende Engines
zuverlässig einzustufen."

"Das selbe kommt heraus" meint: die Reihung ist identisch.

Und nein, ich habe für diese Tests immer nur genau 1 Partie, mit Farb-
vertauschung also 2 Partien pro Match laufen lassen ! Deshalb ja auch
der Hinweis bezügl. hoher Unsicherheit.

Weshalb Fernschachspieler mehrere Rechner benötigen ?
Ist doch klar, die spielen immer mehrere Partien gleichzeitig.
Und ob sie nun eine oder mehrere Engines verwenden war doch gar nicht das
Thema. Ich persönlich würde mehrere einsetzen. Allerdings hilft das erst
einmal nichts, man weis ja nicht welche Engine den "richtigen" Zug finden
wird. Und dies wird man auch niemals vorher wissen, es sei denn es kommt
die "Überengine" schlechthin auf den Markt.
Es gibt kein einfaches Rezept in der Art:
"für die Eröffnungsphase wähle ich Engine E + F, für das frühe Mittelspiel
Engine U + Z, etc. etc."
Wenn man selbst also keinen eigene Plan in einer Stellung hat, dann muss
man sich halt auf den Engineoutput verlassen resp. versuchen einen Plan
zu entwickeln, welcher durchaus auch auf dem Engineoutput basieren kann.
Dies ist hier jedoch nicht das Thema.

Ich bleibe dabei:
nur die seriösen Listen liefern vernünftige Messungen bezügl. Spielstärke,
alles andere (z.B. so-called Stellungstests) liefert Schrott.

Peter Martan schrieb:

Von solch einer "Abmachung" ist mir nichts bekannt !
Hast Du Belege für diese Behauptung ?

Peter Martan schrieb:

Ich gönn's euch ja, ich hab ja auch kein besseres Testset für eine fiktive
overall playing strength, ich sage aber, auf eine solche selbstherrliche Definition,
die in Wirklichkeit einfach nur die Spielstärke von der Grundstellung aus wiedergibt,
könnte ich persönlich wirklich verzichten, dass du es nicht kannst, ist nicht mein
Problem.

Ich habe überhaupt keine Probleme. Ich kann, wenn ich will von Heute auf
Morgen aufhören mit den Tests. Nur, und das ist das einzig entscheidende,
den Zeitpunkt bestimme ich selbst ! Weshalb kümmert Dich das alles derart ?
Du kannst doch darauf verzichten, mehrmals hast Du das geäussert ...