By Werner Mueller
Date 2013-06-26 12:52
[quote="Peter Martan"]
Ach, ich mach mir manchmal einfach gern ein Spässchen, Benno, du nicht?
Aber wenn deine Frage ernst gemeint ist, mich interessiert an den Elo höchstens ihre Stellungsabhängigkeit und die Abhängigkeit vom Vergleichskollektiv, genau genommen also nicht die Maßzahl selbst, die ist meiner Meinung nach einfach unnötig kompliziert in der Berechnung.
Das hat sich Arpad ja nur für den genau gegenteiligen Fall des Computerschachs ausgedacht, nämlich für Menschen, die nicht ständig alle direkt gegeneinander Unmengen von Partien spielen.
[/quote]
Ja, und u.a. auch deshalb sind die Eloschen Elo-Zahlen für die Ratingzahlen der Listen (nur) in etwa dasselbe wie Deine Nasenlänge für die durchschnittliche Nasenlänge des Deutschen Mannes.
Womit ich weder gegen die Listen noch deren Ratingzahlen etwas gesagt haben will
*) - wunderbar, dass es sie gibt (d.h. dass es Leute gibt, die sich die Arbeit bzw. die Mühe machen): das gilt nicht zuletzt auch für die LS-Rangliste von Stefan (um auch die Kurve zum Thread-Titel hinzukriegen).
*) und gegen Deine Nasenlänge schon gar nicht
By Peter Martan
Date 2013-06-26 19:51
Edited 2013-06-26 19:59
[quote="Benno Hartwig"]
Will denn irgendwer wirklich mehr damit anfangen?
[/quote]
Naja, Benno, was ist viel und was ist wenig.
Ich finde es eben interessanter, Spielstärkenunterschiede stellungsabhängig zu sehen, sowohl bei Menschen als auch bei engines und finde es deshalb zu viel Interpretation, wenn aus immer wieder denselben Partien von denselben Eröffnungsstellungen aus eine allgemeine Spielstärke abgeleitet wird, auch wenn man meint, man könnte sich damit eigenes Beschäftigen mit den Stellungen und den Partien und dem, was sie im Schach bedeuten, ersparen.
Ich finde es hingegen zu wenig genau bewertet, wenn man das, was die Ranglisten natürlich in Wirklichkeit sehr wohl aussagen, nicht dahingehend präzisiert, dass man den Großteil der Spielstärkenmessung der Eröffnungsstärke zuschreiben müsste und außerdem in genau den Eröffnungsstellungen, die da immer wieder aufs Brett kommen.
Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind, die deutlich sichtbareren Dubletten würden es einem deutlicher zeigen, schaut man sich die Partien an, die auf die übliche Art gespielt werden, sieht man es auch, wenn man es sehen will.
Weil man das aber nicht sehen will, tut man so, als wären 5 Züge von der Grundstellung weg, in lauter "ausgeglichenen" Stellungen, die Ergebnisse wirklich vielfältiger, auch wenn es immer noch klar ist, dass bei so ähnlich spielenden und so ähnlich starken engines andere als Stärken in solchen Eröffnungsstellungen, andere wie taktische oder positionelle Mittel- und Endspielstärken, nicht wirklich auch noch quantitativ zum Tragen kommen können, wenn die Partie einmal in der Eröffnung auch nur leicht gekippt ist, und die engines alle darauf programmiert sind, auch im kleinen Vorteil keine Risiken einzugehen, sondern eher in kleinen Schritten den ganzen Punkt heimzuspielen, oder das Remis zu halten, win or save draw, nicht spektakulär auf Angriff, es sei denn, der confidence factor ist hochgeschraubt.
Je näher die verschiedenen engines in genau dieser Weise aufeinander zu entwickelt werden, umso mehr wird das in eine immer größer werdenden Spitzengruppe von immer enger beisammen liegenden engines münden, die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen, egal, ob man das in Elo misst oder sonstwie.
Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.
Auch bei Menschen, besonders in der obersten Liga, zählen Eröffnungswissen und -Können am meisten, dort ist es aber wenigstens das den Menschen eigene Wissen und Können, bei den engines ist es das, das die Tester in der Auswahl der Stellungen für sie vorgeben.
Auch beim Menschen ist es nicht egal, wer gegen wen antreten darf im Kampf um die Elo und auch bei denen ist das eigentlich nicht wirklich gerecht, bei denen werden aber immerhin andere Titel neben den Elo auch vergeben, bei den engines zählen in Wirklichkeit nur die, und es ist längst auch schon mehr eine Frage des Kollektivs an mitspielenden engines als irgend eine andere, wer wieviele Plätze hinter sich oder vor sich hat und wieviel diese Plätze in Elo zählen.
Mag sein, dass das alles nur mir eine Rolle spielt, dass das, was du so alles interessant findest, mich nicht auch interessiert, habe ich nie gesagt.
An der Vorgangsweise bei Partiespieltests, Eröffnungssets zu verwenden, kann ich nichts prinzipiell kritikwürdiges entdecken. Typsischerweise sind diese Sammlungen relativ groß (z.B. 75 bei IPON) und wie ich annehme, immer über die ganze Bandbreite "plausibler" Eröffnungen gestreut. Der Aspekt verschiedener Stärken und Schwächen in diversen Partiephasen und Stellungstypen ist bekannt; Ranglisten erheben nicht den Anspruch hierüber Detailaussagen zu treffen.
Sollten wir froh darüber sein, daß es trotz höchst ausgefeilter und umfangreicher Tests immer noch Grauzonen und Unschärfen gibt, ein Eldorardo für individuelle Eindrücke, seien sie auch statistisch wertlos, um die jeweilige Engine des Vertrauens auszusuchen? Ich glaube ja! Beispielsweise sagt mir der Hausverstand
obwohl noch keinerlei Tests das bewiesen haben, daß ComStock 3 derzeit die beste Endspielengine ist.
Wenn ich das überdenke, komme ich auf zwei alternative Standpunkte:
(1) bezweifeln, solange es nicht statistisch verläßlich bewiesen ist, oder
(2) mich daran halten solange es nicht widerlegt ist.
Ich bin für (2)!
By Peter Martan
Date 2013-06-26 22:41
[quote="Michael Scheidl"]
Der Aspekt verschiedener Stärken und Schwächen in diversen Partiephasen und Stellungstypen ist bekannt; Ranglisten erheben nicht den Anspruch hierüber Detailaussagen zu treffen.
[/quote]
Sie sollten ihn aber erheben, Michael, weil sie tatsächlich die Stärken und Schwächen in genau einer Partiephase weitaus mehr als in den anderen abbilden, der Eröffnung, noch dazu in einer ausgesucht frühen und selektiert ausgeglichenen solchen.
[quote="Michael Scheidl"]
Sollten wir froh darüber sein, daß es trotz höchst ausgefeilter und umfangreicher Tests immer noch Grauzonen und Unschärfen gibt, ein Eldorardo für individuelle Eindrücke, seien sie auch statistisch wertlos,
[/quote]
Seien sie natürlich, wenn niemand eine auch nur ähnlich große Anstrengung unternimmt, sie statistisch zu untermauern, wie das im Fall der ausgeglichenen Eröffnungsstellung gemacht wird, bei der man sich eben nicht auf subjektive Eindrücke allein verlässt, sondern noch und noch ganze Partieserien dazu spielen lässt.
Versteh micht nicht falsch, ich sehe schon ein, warum lieber von der Eröffnung an und nicht nur von späten, scharfen Eröffnungsstellungen aus gespielt wird, nicht nur aus taktischen oder positionellen Mittespielstellungen und nicht nur von Endspielen ganze Ranglisten erstellt werden.
Trotzdem, die eine einzige Stellung, die einen gewissen echten Vorteil vor den anderen hätte, wäre die Grundstellung, wenn's einem nur auf Statistik ankommt, warum nicht gleich nur von der, kein Mensch schaut sich die Partien von Ranglistenmatches an, von manchen Listen darf man sie gar nicht zu Gesicht bekommen, wozu also das verschämte Erröten, weil ganz ohne Buch mehr Dubletten im engeren Sinn vorkämen?
Ich sage einfach noch einmal, zugegeben auch aus einer ähnlich sturen Sicht wie der, Ranglisten- Elo seien unanfechtbar, Dubletten im weiteren Sinn, dass nämlich einfach der völlig fehlende positionelle Vorteil einer Seite und sei es nur der Anzugsvorteil der Grundstellung, wenn der nämlich in den gängigen 5Zügern auch schon großteils ausgeglichen ist, zu einer einvernehmlichen Remisschieberei führt, kommen durchaus oft genug auch von den anerkannten Testsets aus vor, und da stört's einfach niemanden.
Das ist einfach Vereinfachung, um sich keine weiteren Gedanken über eine etwas differenziertere Sicht von Spielstärke machen zu müssen,
Bezüglich spielen aus der Grundstellung treibt das Hobby mitunter bunte Blüten; an ein eindrucksvolles Beispiel erinnere ich mich schemenhaft (die Zahlen könnte ich nicht beweisen, aber ungefähr so sind sie mir in Erinnerung):
1. Typ bringt ein komisches Zweikampfresultat und wundert sich, weil die Stärkedifferenz A-B nicht erkennbar ist
2. Typ hat 3.000 Testpartien A gegen B gespielt
3. Typ hat alles ohne Buch und ohne Eröffnungsvorgaben gespielt (!)
4. Typ versteht das Problem von Doubletten nicht und hat das nie geprüft
Damals habe ich mich der Mühe unterzogen, die Partien anzuschauen um zu sehen, was schief lief. Es waren rund drei Viertel identische kurze Remispartien. Sowohl Engine A gegen B, als auch B gegen A, spielten immer wieder dieselbe kurze Zugfolge mit Stellungswiederholung.
Wer glaubt daß er mehr als zwei Partien A gegen B, B gegen A ohne Buch und ohne jede Eröffungsvorgabe
aussagekräftig spielen kann, läuft meines Erachtens Gefahr nicht ernst genommen und ignoriert zu werden. Die Aufgabe den methodischen Fehler zu erklären, werden wohl nur die heldenhaftesten unter uns übernehmen. Ich bin dessen müde; wer intelligent genug ist begreift das a priori.
By Peter Martan
Date 2013-06-27 05:35
[quote="Michael Scheidl"]
Wer glaubt daß er mehr als zwei Partien A gegen B, B gegen A ohne Buch und ohne jede Eröffungsvorgabe
aussagekräftig spielen kann, läuft meines Erachtens Gefahr nicht ernst genommen und ignoriert zu werden. Die Aufgabe den methodischen Fehler zu erklären, werden wohl nur die heldenhaftesten unter uns übernehmen. Ich bin dessen müde; wer intelligent genug ist begreift das a priori.
[/quote]
Danke, Michael, du sprichst mir aus der Seele.
Während man den methodischen Fehler im reinen Grundstellungsmatch leicht erkennt, der einfach darin besteht, dass er keine Aussage über so etwas wie "allgemeine Spielstärke" macht, erkennt man ihn in im 5ZügeNachDerGrundstellungWiederAusgeglichen- Match offenbar viel schwerer, obwohl er ein rein quantitativer ist.
So, wie das reine Grundstellungsmatch der perfekte Weg wäre, den Umgang der engines mit der Grundstellung zu überprüfen (mal vielleicht vom viel kürzeren Weg abgesehen, nicht alles immer wieder komplett ausspielen zu lassen, sondern nur die ersten paar Züge an Varianten und Evalveränderungen zu betrachten
) ist der 5Züger, bei dem man noch dazu geflissentlich nur solche Eröffnungsstellungen wählt, bei denen der Anzugsvorteil nicht größer sondern eher kleiner wird oder jedenfalls von den engines so gewertet, der perfekte Weg, den Umgang der engines genau damit zu untersuchen: den Umgang der engines mit wenig fortgeschrittenen ausgeglichenen Eröffnungsstellungen.
Während du verständlicher Weise müde wirst, den methodischen Fehler im Grundstellungsmatch zu erklären,
was Aussagen über die allgemeine Spielstärke betrifft, werde ich nicht müde, den nur quantitativ anders zählenden aber qualitativ gleichen Fehler im Ausgeglichener5ZügerMatch zu erklären, auch wenn er natürlich ebenso längst hinlänglich bekannt ist, man ist nur übereingekommen, ihn nicht zu beachten, man meint, er spiele keine Rolle.
Weißt du, wie man herausfände, ob und eine wie große Rolle er spielt?
Indem man auch andere als die üblichen Stellungen testete.
Macht das wirklich niemand?
Natürlich machen das ständig Alle auch hin und wieder, niemand schaut sich nie zu Testzwecken bestimmte andere als kurze ausgeglichene Eröffnungsstellungen an, es wird nur nicht der suchtartige Partiensammelwahn damit abgewickelt, man macht keine Elo draus, wozu auch, es würde nur das eine und einzige Maß in Frage stellen, oGottoGott.
Thanx für deine Ausführungen, Peter.
Zitat:
Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind
Bedarf es dazu Ehrlichkeit? Dass die Züge ein gutes Stück weit ähnlich ablaufen würden, überrascht doch niemanden. Natürlich kann man Engines auch so programmieren, dass sie stets zufällig einen Zug auswählen, wenn dieser z.B. höchstens 5 Zentibauern subobtimal ist. Etwas schwächer würde die Engine dadurch. OK. Wenn sowas denn wirklich gewünscht wäre, könnten Entwickler das in kürzester Zeit anbieten. Das Interesse erscheint mir aber mau.
Dann würde es sich nicht mehr so sehr wiederholen. Wäre damit was gewonnen? Nachahmung menschlicher Ungenauigkeit, oder 'Lust' es heute einfach mal 'so' zu machen?
Zitat:
...auch wenn es immer noch klar ist, dass bei so ähnlich spielenden und so ähnlich starken engines andere als Stärken in solchen Eröffnungsstellungen, andere wie taktische oder positionelle Mittel- und Endspielstärken, nicht wirklich auch noch quantitativ zum Tragen kommen können
Soo schrecklich ähnlich sind die Burschen doch gar nicht. Ähnlichkeit wird ggf. nur deshalb gewähnt, weil die Unterschiede von weniger begabten Schachspielern vielleicht einfach nicht mehr so 'erkannt' werden. Weil der Grund für eine Zugwahl eben oft gar nicht erkannt wird.
Aber gerade SF ist doch immer noch 'anders'. Houdini ist einfach 'stärker', etc.
Zitat:
Je näher die verschiedenen engines in genau dieser Weise aufeinander zu entwickelt werden, umso mehr wird das in eine immer größer werdenden Spitzengruppe von immer enger beisammen liegenden engines münden,
Haben wir denn heute so eine Situation? Liegen die dichter beisammen als 2000 oder 1990. Lag die Spitzengruppe zur Rybka-Zeiten (also gerade mal gestern) nicht oft sogar
besonders weit gespreizt?
Zitat:
die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen
Ich glaube nicht, dass Rybka dank Autotuning so überlegen sein konnte. Houdini hat nicht dank Autotuning seine Position erreicht. Und auch bei Critter und Komodo vermute ich andere Gründe für die Stärke.
Zitat:
Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.
Die SSDF-Liste hatte auch in den 80ern schon größte Aufmerksamkeit. Neu ist nur, dass mancher zuhause sich seinen eigene Liste erspielen kann. Darum wird mehr berichtet und diskutiert.
Benno
By Peter Martan
Date 2013-06-26 23:21
[quote="Benno Hartwig"]
Zitat:
Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind
Bedarf es dazu Ehrlichkeit? Dass die Züge ein gutes Stück weit ähnlich ablaufen würden, überrascht doch niemanden. Natürlich kann man Engines auch so programmieren, dass sie stets zufällig einen Zug auswählen, wenn dieser z.B. höchstens 5 Zentibauern subobtimal ist. Etwas schwächer würde die Engine dadurch. OK. Wenn sowas denn wirklich gewünscht wäre, könnten Entwickler das in kürzester Zeit anbieten. Das Interesse erscheint mir aber mau.
Dann würde es sich nicht mehr so sehr wiederholen. Wäre damit was gewonnen? Nachahmung menschlicher Ungenauigkeit, oder 'Lust' es heute einfach mal 'so' zu machen?
Ich bin mir wieder einmal nicht sicher, Benno, ob du mich wirklich nicht so ganz verstehst, oder du nur das, was dir nicht an meiner Sicht gefällt, nicht ganz so, wie ich das meine, verstehen willst, weil immerhin hast du meinen Gedanken schon ganz richtig aufgenommen.
Dass von der Grundstellung aus Dubletten entstehen, verdanken wir dem Determinismus der Programme, wären sie einander aber nicht auch ähnlich in Suche und Bewertung, gerade auch von Stellungen, in denen sie noch nicht viel Entscheidendes finden können, hätten wir ja auch von der Grundstellung aus kein Problem.
Mehr Zufallsgenerator wäre auch eine Lösung, ich wäre halt dafür, selektivere Stellungen zu nehmen, damit gerade auch die determinierte Suche mehr Merkmalsdifferenz im Ergebnis brächte.
Für mich sind auch Partienserien Dubletten im übertragenen Sinn, in denen das folgende Motiv immer wiederkehrt: Anzugsvorteil der Grundstellung gerade eben nicht vergrößert sondern eher verkleinert, (eine wahrhaft ausgeglichene Stellung, in der noch dazu noch nicht viel passiert ist, sagen wir so ca. 5 Züge weit vorgegebene Eröffnungszüge) keine taktischen Pointen in Sicht und keine berechenbaren Stellungsvorteile innerhalb des Horizonts, also einigen wir uns mit Gegnern, die das ebenso sehen, frühzeitig auf eine save draw Strategie, wie wir das ja auch von Menschen, die sich dazu auch noch selbst die entsprechenden Eröffnungen selbst aussuchen können, kennen.
Zitat:
...auch wenn es immer noch klar ist, dass bei so ähnlich spielenden und so ähnlich starken engines andere als Stärken in solchen Eröffnungsstellungen, andere wie taktische oder positionelle Mittel- und Endspielstärken, nicht wirklich auch noch quantitativ zum Tragen kommen können
[quote="Benno Hartwig"]
Soo schrecklich ähnlich sind die Burschen doch gar nicht. Ähnlichkeit wird ggf. nur deshalb gewähnt, weil die Unterschiede von weniger begabten Schachspielern vielleicht einfach nicht mehr so 'erkannt' werden. Weil der Grund für eine Zugwahl eben oft gar nicht erkannt wird.
Aber gerade SF ist doch immer noch 'anders'. Houdini ist einfach 'stärker', etc.
Wieder einmal kommt es darauf an, was einen wie sehr schreckt oder nicht, Benno, so richtig schrecklich find ich's ja auch nicht, dass es immer noch, in mancher Hinsicht auch mehr denn je, Unterschiede gibt, ich habe nur das Gefühl, das wirklich Unterschiedliche wird nicht von den Ranglisten abgebildet.
Zitat:
Je näher die verschiedenen engines in genau dieser Weise aufeinander zu entwickelt werden, umso mehr wird das in eine immer größer werdenden Spitzengruppe von immer enger beisammen liegenden engines münden,
[quote="Benno Hartwig"]
Haben wir denn heute so eine Situation? Liegen die dichter beisammen als 2000 oder 1990. Lag die Spitzengruppe zur Rybka-Zeiten (also gerade mal gestern) nicht oft sogar
besonders weit gespreizt?
Naja, man kann verschiedene historische Epochen verschiedener Dauer zum Vergleich hernehmen, als Rykba einen Durchbruch brachte, war das natürlich auch in den Ranglisten zu sehen, eigentlich war das, was an Turniergeschehen in der Folge kam, für mich noch spannender als der Elo-Abstand.
Aber dass so viele engines, selbst wenn man nur ganz eheliche Kinder noch irgendwie unterscheidbarer Familien nimmt, in einem so hohen Rating so nah beisammen lagen, gab's für mein Gefühl aus zwei einfachen Gründen noch nie:
Es waren noch nie so viele engines in einem weiteren Spitzenfeld, und es war dieses Feld noch nie so hoch oben an Celo. Letzterer Grund bedeutet ja auch einfach, dass die immer noch messbaren Abstände relativ weniger zählen, ob ein paar engines in einer 100er-Riege bei 2000 zusammenliegen oder bei 3000, ist doch nicht egal, oder?
Zitat:
die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen
[quote="Benno Hartwig"]
Ich glaube nicht, dass Rybka dank Autotuning so überlegen sein konnte. Houdini hat nicht dank Autotuning seine Position erreicht. Und auch bei Critter und Komodo vermute ich andere Gründe für die Stärke.
Was Rybka angeht, von der es ja auch schon vor Längerem hieß, sie sei die Wegbereiterin des automatisierten Parametertunings gewesen, sehen das zumindest Leute wie Anthony Cozzie anders als du.
Dass keines der Programme, die du nennst, durch Autotuning allein das ist, was es ist, ist mir auch klar, dass aber, je mehr Elo- erfolgreiche Sourcen offen liegen, umso geringer der Abstand auf Ideenebene wird, könnte wohl jetzt eine Zeit lang schon auch so gewesen sein, scheint mir halt auch einfach so.
Natürlich heißt das auch absolut nicht, dass niemandem mehr was neues einfallen kann, im Gegenteil, je mehr allgemein ausgetauscht wird, umso mehr sollte sich Originalität durchsetzen, wenn sie die Möglichkeit dazu bekommt, ich habe irgendwie das Gefühl, das allgemeine Klima, um es nicht den Testern allein anzulasten, ist derzeit dazu, vielleicht auch rein ökonomisch betrachtet, eher weniger fruchtbar, vielleicht auch nur so ein subjektiver Eindruck von mir.
Zitat:
Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.
[quote="Benno Hartwig"]
Die SSDF-Liste hatte auch in den 80ern schon größte Aufmerksamkeit. Neu ist nur, dass mancher zuhause sich seinen eigene Liste erspielen kann. Darum wird mehr berichtet und diskutiert.
Da geb ich dir Recht, Benno, nicht nur, dass man vielleicht wieder mehr Eigentests zu Hause baut, auch unter den "offiziellen Listen" ist mehr Vielfalt in der letzten Zeit, scheint mir, und das finde ich durchaus auch positiv.