LS-Rangliste: Komodo 5.1 und Gull 2.1

By anogamer Date 2013-06-25 20:34

Hallo Stefan,

ich mag die Genauigkeit deiner Liste. Sie ist genau so wertvoll wie die IPON.

Die Unterschiede zur IPON sind sicherlich den unterschiedlichen Testbedingungen zuzuschreiben.

Die vielen Ippos sind zwar keine Augenweide .. können in 2013 aber gerne dazugehören.

Grüße
Anogamer

By Stefan Pohl Date 2013-06-26 04:44 Edited 2013-06-26 04:46

[quote="anogamer"]
Hallo Stefan,

ich mag die Genauigkeit deiner Liste. Sie ist genau so wertvoll wie die IPON.

Die Unterschiede zur IPON sind sicherlich den unterschiedlichen Testbedingungen zuzuschreiben.

Die vielen Ippos sind zwar keine Augenweide .. können in 2013 aber gerne dazugehören.

Grüße
Anogamer

[/quote]

Thanx.

Was die Ippos angeht, so ist das nun mal die Realität im Top-Bereich und eine Rangliste, die die Realität nicht abbildet, ist m.E. nicht sinnvoll. Ob man die Realität nun schön findet, oder nicht, steht für mich als Tester dabei nicht zur Debatte (darf gar nicht zur Debatte stehen, sonst verletzt man seine Neutralitätspflicht!). Außerdem entwickeln sich mit der Zeit die Ippo-Derivate zwangsläufig auseinander, da der Ippo-Code ja von 2009 ist und da nichts neues mehr kommt. Schönes Beispiel ist da Gull, der ja die Bewertungsfunktion von Ivanhoe übernommen hat, diese jetzt aber evolutionär weiterentwickelt. Ebenso Bouquet, dort ist auch schon vieles anders als bei Ivanhoe/Ippolit. Und PanChess hat ebenfalls schon gravierende Änderungen erfahren und PeterPan plant weitere einschneidende Änderungen. (Test der Version 00.437 läuft im Moment bei mir).
Außerdem was wäre die Alternative? Alle Derivate rauswerfen? Dann müßte auch Critter 1.6a rausgeworfen werfen, ebenso Strelka, die ja Houdini 1.5-Derivate sind. Dann bleibt im Top-Bereich nicht mehr viel übrig. Das wäre eine sehr groteske Top-Rangliste...
Und wegen dieser Entwicklung/Realität ist ja auch der Ur-Ippo von 2009 mein Elo-Bezugs- und Fixpunkt in der LS-Rangliste.
Aufgrund der hier (und auch früher) dargelegten Überlegungen halte ich meinen Weg für den einzig gangbaren Weg als Ranglistenbetreiber, insbesondere bei einer Rangliste, die sich auf den Top-Bereich konzentriert. Was meine Bedenkzeitwahl und die Anzahl der gespielten Partien angeht, da kann man sicher auch andere Wege einschlagen, aber ich finde halt eine hohe Genauigkeit in einer Top-Rangliste wichtig, weil dort die Abstände eben nicht so groß sind und aufgrund meiner Hardware-Situation muß ich dann mit kurzen Bedenkzeiten arbeiten, wenn ich so viele Partien spielen lassen will...

Stefan

By Peter Martan Date 2013-06-26 08:34

Kann man alles so sehen, Stefan, und irgendwie würde ich ja auch sagen, wenn schon, denn schon.
Wenn man schon die Spitzenreiter gegeneinander testen will, denn schon muss man halt die, die mit mehr Abstand rangieren, weglassen, sonst hat man wieder ein völlig anderes Kollektiv und kriegt keine Partienzahlen mehr zusammen, die so eine kleine Errorbar haben, dass man die an der Spitze überhaupt noch unterscheiden kann, und ich finde eigentlich auch, dass wenn einen schon Elo überhaupt über alles andere hinaus interessieren, so wie sie allgemein verstanden werden, denn schon an der Spitze, dort, wo die einzelnen heutzutage auch noch zählen, auch wenn das halt dort ist, wo man eigentlich nur wissen will, wie weit ist der Erste von mir aus noch vom Zehnten weg.
Gerade dort unterscheiden sie sich halt heutzutage nur noch in einigen einzelnen Elo, und alle andere Unterscheidungskriterien, die sich überhaupt nicht in Elo messen lassen, treten dann eben in den Hintergrund.
Ich bin beileibe kein Elosionist, aber wenn schon, denn schon.
Eeloo, Eloo, Eloo, Eloo...

By Stefan Pohl Date 2013-06-26 08:45

[quote="Peter Martan"]
Kann man alles so sehen, Stefan, und irgendwie würde ich ja auch sagen, wenn schon, denn schon.
[/quote]

So isses. Wenn schon Elo-(irr)sinn und unmenschlich starkes Computerschach, dann richtig und mit Konsequenz. Oder man läßts ganz bleiben.

Stefan

By Benno Hartwig Date 2013-06-26 08:51

[quote="Stefan Pohl"]...Elo-(irr)sinn...[/quote]
Wieso 'Irrsinn'?
Zu verfolgen, wie das Computerschach die maschinelle Spielstärke steigert, finde ich interessant.
Und manch anderer wohl auch.
Ist das in größerem Maße 'irre' als andere Hobbys?

Benno

By Stefan Pohl Date 2013-06-26 08:58

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]...Elo-(irr)sinn...[/quote]
Wieso 'Irrsinn'?
Zu verfolgen, wie das Computerschach die maschinelle Spielstärke steigert, finde ich interessant.
Und manch anderer wohl auch.

Benno
[/quote]

Sicher. Ich finde es ja auch interessant, sonst würde ich ja auch keine eigene Rangliste betreiben. Aber eben von unserem Standpunkt aus (als Computerschachfreaks). Versuch das mal einem Außenstehenden klarzumachen (worin der Sinn in einer Computerschach-Elo-Rangliste liegt)...Also ich habe das bisher noch nie geschafft und ernte immer nur mitleidsvolle Psychaterblicke.
Aber ich kann meinerseits auch nicht nachvollziehen, warum jemand Modelleisenbahnen toll findet oder alte Emailleschilder sammelt oder so.

Stefan

By Peter Martan Date 2013-06-26 09:02

[quote="Benno Hartwig"]
Zu verfolgen, wie das Computerschach die maschinelle Spielstärke steigert, finde ich interessant.
[/quote]

Ich find's noch interessanter, wie das Computerschach die menschliche Spielstärke steigert, wenn die Celo weiter in schwindelnde Höhe steigen, bin ich doch im Besitz einer starken Maschine auch automatisch um das stärker, zumindest im Fernschach, oder?
Oder auch nur, wenn ich im Verein auf die Elo meines Lieblingsprogrammes mit einer gewissen statistischen Untermauerung verweisen kann, zählen dann meine eigenen Elo doch auch automatisch mehr, nein?
Oder zumindest muss ich mir doch weniger drausmachen, wenn ich einen Sch...marrn, den so ein Eloriese zusammenspielt, nicht als solchen erkenne, weil ich schachlich zu dumm dazu bin, dann bin ich doch automatisch weniger dumm, wenn der Sch...marrn auf dem M...onsterkönnen eines Blechis gewachsen ist, nein?
Eeloo, Eloo, Eloo, Eloo...

By Benno Hartwig Date 2013-06-26 10:07

Zitat:

Eeloo, Eloo, Eloo, Eloo...

Du bist doch nun schon seit Jahren dabei. Aber mir ist jetzt immer noch unklar, was konkret dich an diesem Thema eigentlich interessiert.

Interessiert dich da was?
Benno

By Peter Martan Date 2013-06-26 10:51 Edited 2013-06-26 10:55

Ach, ich mach mir manchmal einfach gern ein Spässchen, Benno, du nicht?

Aber wenn deine Frage ernst gemeint ist, mich interessiert an den Elo höchstens ihre Stellungsabhängigkeit und die Abhängigkeit vom Vergleichskollektiv, genau genommen also nicht die Maßzahl selbst, die ist meiner Meinung nach einfach unnötig kompliziert in der Berechnung.
Das hat sich Arpad ja nur für den genau gegenteiligen Fall des Computerschachs ausgedacht, nämlich für Menschen, die nicht ständig alle direkt gegeneinander Unmengen von Partien spielen.

By Werner Mueller Date 2013-06-26 12:52

[quote="Peter Martan"]
Ach, ich mach mir manchmal einfach gern ein Spässchen, Benno, du nicht?

[/quote]
Ja, und u.a. auch deshalb sind die Eloschen Elo-Zahlen für die Ratingzahlen der Listen (nur) in etwa dasselbe wie Deine Nasenlänge für die durchschnittliche Nasenlänge des Deutschen Mannes.

Womit ich weder gegen die Listen noch deren Ratingzahlen etwas gesagt haben will ^*) - wunderbar, dass es sie gibt (d.h. dass es Leute gibt, die sich die Arbeit bzw. die Mühe machen): das gilt nicht zuletzt auch für die LS-Rangliste von Stefan (um auch die Kurve zum Thread-Titel hinzukriegen).

*) und gegen Deine Nasenlänge schon gar nicht

By Peter Martan Date 2013-06-26 17:46

Ach Werner, recht hast du ja so sehr, vielleicht mehr als du selbst weißt.
Die Eloschen Elo- Zahlen sind für menschliche und für Computer-Schachspieler vielleicht auch oft ähnlich wichtig, wie das, was du vermutlich mit Nasenlänge meinst, irgendetwas sagt mir nämlich, dass du die Nase dabei nur indirekt, sozusagen ihrerseits als Vergleichswert, ansprichst.
Dass du meiner Nasenlänge zu der der durchschnittlichen deutschen Mannesnase dabei aber ein Verhältinis wie das der Elo zu den Celo andichtest, finde ich schon irgendwie unbefugt, du kennst mich noch viel weniger, als ich dachte.

Was die Listen angeht, will ich auch nichts anderes gesagt haben, als dass es sehr darauf ankommt, wie man sie erstellt, was übrigens auch sehr für deine Vergeichsstatistik gilt, auch hier gibt es ja bekanntlich keine verlässliche Datenlage, weil der Input immer wieder sehr fragwürdig ist in der Glaubhaftigkeit.

By Werner Mueller Date 2013-06-26 20:37

[quote="Peter Martan"]... Dass du meiner Nasenlänge zu der der durchschnittlichen deutschen Mannesnase dabei aber ein Verhältinis wie das der Elo zu den Celo andichtest, finde ich schon irgendwie unbefugt, du kennst mich noch viel weniger, als ich dachte.

...
[/quote]
Neiiin

, ich wollte lediglich auf das analoge Verhältnis von Datenmaterial einerseits und Ergebnissen einer Mittelwertstatistik andererseits hinaus.

By Peter Martan Date 2013-06-27 07:42

Ach so, dabei hatte ich schon überlegt, ob du nicht auch in diesem Zusammenhang die Stellungsabhängigkeit der Ergebnisse hinterfragen hättest wollen, habe mir diese Zote aber zumnächst noch verkniffen, jetzt hält mich wieder nichts mehr, pruhaha.
Ich meine, wie einem eine Nase zu Gesicht steht, hängt schon auch von ihrer Stellung und vom Gesicht ab.

By Benno Hartwig Date 2013-06-26 18:45

[quote="Peter Martan"]...mich interessiert an den Elo höchstens ihre Stellungsabhängigkeit und die Abhängigkeit vom Vergleichskollektiv, genau genommen also nicht die Maßzahl selbst...[/quote]Ich wäre nicht überrascht, wenn du damit auch im Einklang mit den meisten anderen Computerschachinteressierten bist.
Etwas über die Spielstärkereihenfolge der Engines wissen.
Eine Ahnung von den größeren und kleineren Spielstärkeunterschieden haben. (Wer ist wem dicht auf den Fersen, wer hat Distanz geschaffen)
und am liebsten noch so eine ganz grobe Vorstellung davon haben, wie diese Spielstärken dastehen im Vergleich zu der von sehr starken Menschen.
Und die berechneten Computer-ELO-Werte sind nur ein Werkzeug, um diese Infos einigermaßen handhabbar präsentieren zu können.
Will denn irgendwer wirklich mehr damit anfangen?

Benno

By Peter Martan Date 2013-06-26 19:51 Edited 2013-06-26 19:59

[quote="Benno Hartwig"]
Will denn irgendwer wirklich mehr damit anfangen?
[/quote]

Naja, Benno, was ist viel und was ist wenig.
Ich finde es eben interessanter, Spielstärkenunterschiede stellungsabhängig zu sehen, sowohl bei Menschen als auch bei engines und finde es deshalb zu viel Interpretation, wenn aus immer wieder denselben Partien von denselben Eröffnungsstellungen aus eine allgemeine Spielstärke abgeleitet wird, auch wenn man meint, man könnte sich damit eigenes Beschäftigen mit den Stellungen und den Partien und dem, was sie im Schach bedeuten, ersparen.

Ich finde es hingegen zu wenig genau bewertet, wenn man das, was die Ranglisten natürlich in Wirklichkeit sehr wohl aussagen, nicht dahingehend präzisiert, dass man den Großteil der Spielstärkenmessung der Eröffnungsstärke zuschreiben müsste und außerdem in genau den Eröffnungsstellungen, die da immer wieder aufs Brett kommen.

Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind, die deutlich sichtbareren Dubletten würden es einem deutlicher zeigen, schaut man sich die Partien an, die auf die übliche Art gespielt werden, sieht man es auch, wenn man es sehen will.

Weil man das aber nicht sehen will, tut man so, als wären 5 Züge von der Grundstellung weg, in lauter "ausgeglichenen" Stellungen, die Ergebnisse wirklich vielfältiger, auch wenn es immer noch klar ist, dass bei so ähnlich spielenden und so ähnlich starken engines andere als Stärken in solchen Eröffnungsstellungen, andere wie taktische oder positionelle Mittel- und Endspielstärken, nicht wirklich auch noch quantitativ zum Tragen kommen können, wenn die Partie einmal in der Eröffnung auch nur leicht gekippt ist, und die engines alle darauf programmiert sind, auch im kleinen Vorteil keine Risiken einzugehen, sondern eher in kleinen Schritten den ganzen Punkt heimzuspielen, oder das Remis zu halten, win or save draw, nicht spektakulär auf Angriff, es sei denn, der confidence factor ist hochgeschraubt.

Je näher die verschiedenen engines in genau dieser Weise aufeinander zu entwickelt werden, umso mehr wird das in eine immer größer werdenden Spitzengruppe von immer enger beisammen liegenden engines münden, die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen, egal, ob man das in Elo misst oder sonstwie.
Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.

Auch bei Menschen, besonders in der obersten Liga, zählen Eröffnungswissen und -Können am meisten, dort ist es aber wenigstens das den Menschen eigene Wissen und Können, bei den engines ist es das, das die Tester in der Auswahl der Stellungen für sie vorgeben.
Auch beim Menschen ist es nicht egal, wer gegen wen antreten darf im Kampf um die Elo und auch bei denen ist das eigentlich nicht wirklich gerecht, bei denen werden aber immerhin andere Titel neben den Elo auch vergeben, bei den engines zählen in Wirklichkeit nur die, und es ist längst auch schon mehr eine Frage des Kollektivs an mitspielenden engines als irgend eine andere, wer wieviele Plätze hinter sich oder vor sich hat und wieviel diese Plätze in Elo zählen.

Mag sein, dass das alles nur mir eine Rolle spielt, dass das, was du so alles interessant findest, mich nicht auch interessiert, habe ich nie gesagt.

By Michael Scheidl Date 2013-06-26 21:44

An der Vorgangsweise bei Partiespieltests, Eröffnungssets zu verwenden, kann ich nichts prinzipiell kritikwürdiges entdecken. Typsischerweise sind diese Sammlungen relativ groß (z.B. 75 bei IPON) und wie ich annehme, immer über die ganze Bandbreite "plausibler" Eröffnungen gestreut. Der Aspekt verschiedener Stärken und Schwächen in diversen Partiephasen und Stellungstypen ist bekannt; Ranglisten erheben nicht den Anspruch hierüber Detailaussagen zu treffen.

Sollten wir froh darüber sein, daß es trotz höchst ausgefeilter und umfangreicher Tests immer noch Grauzonen und Unschärfen gibt, ein Eldorardo für individuelle Eindrücke, seien sie auch statistisch wertlos, um die jeweilige Engine des Vertrauens auszusuchen? Ich glaube ja! Beispielsweise sagt mir der Hausverstand

obwohl noch keinerlei Tests das bewiesen haben, daß ComStock 3 derzeit die beste Endspielengine ist.

Wenn ich das überdenke, komme ich auf zwei alternative Standpunkte:

(1) bezweifeln, solange es nicht statistisch verläßlich bewiesen ist, oder
(2) mich daran halten solange es nicht widerlegt ist.

Ich bin für (2)!

By Peter Martan Date 2013-06-26 22:41

[quote="Michael Scheidl"]
Der Aspekt verschiedener Stärken und Schwächen in diversen Partiephasen und Stellungstypen ist bekannt; Ranglisten erheben nicht den Anspruch hierüber Detailaussagen zu treffen.
[/quote]
Sie sollten ihn aber erheben, Michael, weil sie tatsächlich die Stärken und Schwächen in genau einer Partiephase weitaus mehr als in den anderen abbilden, der Eröffnung, noch dazu in einer ausgesucht frühen und selektiert ausgeglichenen solchen.

[quote="Michael Scheidl"]
Sollten wir froh darüber sein, daß es trotz höchst ausgefeilter und umfangreicher Tests immer noch Grauzonen und Unschärfen gibt, ein Eldorardo für individuelle Eindrücke, seien sie auch statistisch wertlos,
[/quote]

Seien sie natürlich, wenn niemand eine auch nur ähnlich große Anstrengung unternimmt, sie statistisch zu untermauern, wie das im Fall der ausgeglichenen Eröffnungsstellung gemacht wird, bei der man sich eben nicht auf subjektive Eindrücke allein verlässt, sondern noch und noch ganze Partieserien dazu spielen lässt.

Versteh micht nicht falsch, ich sehe schon ein, warum lieber von der Eröffnung an und nicht nur von späten, scharfen Eröffnungsstellungen aus gespielt wird, nicht nur aus taktischen oder positionellen Mittespielstellungen und nicht nur von Endspielen ganze Ranglisten erstellt werden.
Trotzdem, die eine einzige Stellung, die einen gewissen echten Vorteil vor den anderen hätte, wäre die Grundstellung, wenn's einem nur auf Statistik ankommt, warum nicht gleich nur von der, kein Mensch schaut sich die Partien von Ranglistenmatches an, von manchen Listen darf man sie gar nicht zu Gesicht bekommen, wozu also das verschämte Erröten, weil ganz ohne Buch mehr Dubletten im engeren Sinn vorkämen?
Ich sage einfach noch einmal, zugegeben auch aus einer ähnlich sturen Sicht wie der, Ranglisten- Elo seien unanfechtbar, Dubletten im weiteren Sinn, dass nämlich einfach der völlig fehlende positionelle Vorteil einer Seite und sei es nur der Anzugsvorteil der Grundstellung, wenn der nämlich in den gängigen 5Zügern auch schon großteils ausgeglichen ist, zu einer einvernehmlichen Remisschieberei führt, kommen durchaus oft genug auch von den anerkannten Testsets aus vor, und da stört's einfach niemanden.

Das ist einfach Vereinfachung, um sich keine weiteren Gedanken über eine etwas differenziertere Sicht von Spielstärke machen zu müssen,

By Michael Scheidl Date 2013-06-26 23:34

Bezüglich spielen aus der Grundstellung treibt das Hobby mitunter bunte Blüten; an ein eindrucksvolles Beispiel erinnere ich mich schemenhaft (die Zahlen könnte ich nicht beweisen, aber ungefähr so sind sie mir in Erinnerung):

1. Typ bringt ein komisches Zweikampfresultat und wundert sich, weil die Stärkedifferenz A-B nicht erkennbar ist
2. Typ hat 3.000 Testpartien A gegen B gespielt
3. Typ hat alles ohne Buch und ohne Eröffnungsvorgaben gespielt (!)

4. Typ versteht das Problem von Doubletten nicht und hat das nie geprüft

Damals habe ich mich der Mühe unterzogen, die Partien anzuschauen um zu sehen, was schief lief. Es waren rund drei Viertel identische kurze Remispartien. Sowohl Engine A gegen B, als auch B gegen A, spielten immer wieder dieselbe kurze Zugfolge mit Stellungswiederholung.

Wer glaubt daß er mehr als zwei Partien A gegen B, B gegen A ohne Buch und ohne jede Eröffungsvorgabe aussagekräftig spielen kann, läuft meines Erachtens Gefahr nicht ernst genommen und ignoriert zu werden. Die Aufgabe den methodischen Fehler zu erklären, werden wohl nur die heldenhaftesten unter uns übernehmen. Ich bin dessen müde; wer intelligent genug ist begreift das a priori.

By Peter Martan Date 2013-06-27 05:35

[quote="Michael Scheidl"]
Wer glaubt daß er mehr als zwei Partien A gegen B, B gegen A ohne Buch und ohne jede Eröffungsvorgabe aussagekräftig spielen kann, läuft meines Erachtens Gefahr nicht ernst genommen und ignoriert zu werden. Die Aufgabe den methodischen Fehler zu erklären, werden wohl nur die heldenhaftesten unter uns übernehmen. Ich bin dessen müde; wer intelligent genug ist begreift das a priori.
[/quote]

Danke, Michael, du sprichst mir aus der Seele.
Während man den methodischen Fehler im reinen Grundstellungsmatch leicht erkennt, der einfach darin besteht, dass er keine Aussage über so etwas wie "allgemeine Spielstärke" macht, erkennt man ihn in im 5ZügeNachDerGrundstellungWiederAusgeglichen- Match offenbar viel schwerer, obwohl er ein rein quantitativer ist.
So, wie das reine Grundstellungsmatch der perfekte Weg wäre, den Umgang der engines mit der Grundstellung zu überprüfen (mal vielleicht vom viel kürzeren Weg abgesehen, nicht alles immer wieder komplett ausspielen zu lassen, sondern nur die ersten paar Züge an Varianten und Evalveränderungen zu betrachten

) ist der 5Züger, bei dem man noch dazu geflissentlich nur solche Eröffnungsstellungen wählt, bei denen der Anzugsvorteil nicht größer sondern eher kleiner wird oder jedenfalls von den engines so gewertet, der perfekte Weg, den Umgang der engines genau damit zu untersuchen: den Umgang der engines mit wenig fortgeschrittenen ausgeglichenen Eröffnungsstellungen.

Während du verständlicher Weise müde wirst, den methodischen Fehler im Grundstellungsmatch zu erklären, was Aussagen über die allgemeine Spielstärke betrifft, werde ich nicht müde, den nur quantitativ anders zählenden aber qualitativ gleichen Fehler im Ausgeglichener5ZügerMatch zu erklären, auch wenn er natürlich ebenso längst hinlänglich bekannt ist, man ist nur übereingekommen, ihn nicht zu beachten, man meint, er spiele keine Rolle.
Weißt du, wie man herausfände, ob und eine wie große Rolle er spielt?
Indem man auch andere als die üblichen Stellungen testete.

Macht das wirklich niemand?
Natürlich machen das ständig Alle auch hin und wieder, niemand schaut sich nie zu Testzwecken bestimmte andere als kurze ausgeglichene Eröffnungsstellungen an, es wird nur nicht der suchtartige Partiensammelwahn damit abgewickelt, man macht keine Elo draus, wozu auch, es würde nur das eine und einzige Maß in Frage stellen, oGottoGott.

By Benno Hartwig Date 2013-06-26 21:55

Thanx für deine Ausführungen, Peter.

Zitat:

Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind

Bedarf es dazu Ehrlichkeit? Dass die Züge ein gutes Stück weit ähnlich ablaufen würden, überrascht doch niemanden. Natürlich kann man Engines auch so programmieren, dass sie stets zufällig einen Zug auswählen, wenn dieser z.B. höchstens 5 Zentibauern subobtimal ist. Etwas schwächer würde die Engine dadurch. OK. Wenn sowas denn wirklich gewünscht wäre, könnten Entwickler das in kürzester Zeit anbieten. Das Interesse erscheint mir aber mau.
Dann würde es sich nicht mehr so sehr wiederholen. Wäre damit was gewonnen? Nachahmung menschlicher Ungenauigkeit, oder 'Lust' es heute einfach mal 'so' zu machen?

Zitat:

...auch wenn es immer noch klar ist, dass bei so ähnlich spielenden und so ähnlich starken engines andere als Stärken in solchen Eröffnungsstellungen, andere wie taktische oder positionelle Mittel- und Endspielstärken, nicht wirklich auch noch quantitativ zum Tragen kommen können

Soo schrecklich ähnlich sind die Burschen doch gar nicht. Ähnlichkeit wird ggf. nur deshalb gewähnt, weil die Unterschiede von weniger begabten Schachspielern vielleicht einfach nicht mehr so 'erkannt' werden. Weil der Grund für eine Zugwahl eben oft gar nicht erkannt wird.
Aber gerade SF ist doch immer noch 'anders'. Houdini ist einfach 'stärker', etc.

Zitat:

Je näher die verschiedenen engines in genau dieser Weise aufeinander zu entwickelt werden, umso mehr wird das in eine immer größer werdenden Spitzengruppe von immer enger beisammen liegenden engines münden,

Haben wir denn heute so eine Situation? Liegen die dichter beisammen als 2000 oder 1990. Lag die Spitzengruppe zur Rybka-Zeiten (also gerade mal gestern) nicht oft sogar besonders weit gespreizt?

Zitat:

die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen

Ich glaube nicht, dass Rybka dank Autotuning so überlegen sein konnte. Houdini hat nicht dank Autotuning seine Position erreicht. Und auch bei Critter und Komodo vermute ich andere Gründe für die Stärke.

Zitat:

Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.

Die SSDF-Liste hatte auch in den 80ern schon größte Aufmerksamkeit. Neu ist nur, dass mancher zuhause sich seinen eigene Liste erspielen kann. Darum wird mehr berichtet und diskutiert.

Benno

By Peter Martan Date 2013-06-26 23:21

[quote="Benno Hartwig"]

Zitat:

Würde man wenigstens die Ehrlichkeit haben, da immer gleich nur von der Grundstellung aus zu spielen, würde man deutlich sehen, dass das immer wieder dieselben Partien sind

Ich bin mir wieder einmal nicht sicher, Benno, ob du mich wirklich nicht so ganz verstehst, oder du nur das, was dir nicht an meiner Sicht gefällt, nicht ganz so, wie ich das meine, verstehen willst, weil immerhin hast du meinen Gedanken schon ganz richtig aufgenommen.

Dass von der Grundstellung aus Dubletten entstehen, verdanken wir dem Determinismus der Programme, wären sie einander aber nicht auch ähnlich in Suche und Bewertung, gerade auch von Stellungen, in denen sie noch nicht viel Entscheidendes finden können, hätten wir ja auch von der Grundstellung aus kein Problem.
Mehr Zufallsgenerator wäre auch eine Lösung, ich wäre halt dafür, selektivere Stellungen zu nehmen, damit gerade auch die determinierte Suche mehr Merkmalsdifferenz im Ergebnis brächte.

Für mich sind auch Partienserien Dubletten im übertragenen Sinn, in denen das folgende Motiv immer wiederkehrt: Anzugsvorteil der Grundstellung gerade eben nicht vergrößert sondern eher verkleinert, (eine wahrhaft ausgeglichene Stellung, in der noch dazu noch nicht viel passiert ist, sagen wir so ca. 5 Züge weit vorgegebene Eröffnungszüge) keine taktischen Pointen in Sicht und keine berechenbaren Stellungsvorteile innerhalb des Horizonts, also einigen wir uns mit Gegnern, die das ebenso sehen, frühzeitig auf eine save draw Strategie, wie wir das ja auch von Menschen, die sich dazu auch noch selbst die entsprechenden Eröffnungen selbst aussuchen können, kennen.

Zitat:

[quote="Benno Hartwig"]
Soo schrecklich ähnlich sind die Burschen doch gar nicht. Ähnlichkeit wird ggf. nur deshalb gewähnt, weil die Unterschiede von weniger begabten Schachspielern vielleicht einfach nicht mehr so 'erkannt' werden. Weil der Grund für eine Zugwahl eben oft gar nicht erkannt wird.
Aber gerade SF ist doch immer noch 'anders'. Houdini ist einfach 'stärker', etc.

Wieder einmal kommt es darauf an, was einen wie sehr schreckt oder nicht, Benno, so richtig schrecklich find ich's ja auch nicht, dass es immer noch, in mancher Hinsicht auch mehr denn je, Unterschiede gibt, ich habe nur das Gefühl, das wirklich Unterschiedliche wird nicht von den Ranglisten abgebildet.

Zitat:

[quote="Benno Hartwig"]
Haben wir denn heute so eine Situation? Liegen die dichter beisammen als 2000 oder 1990. Lag die Spitzengruppe zur Rybka-Zeiten (also gerade mal gestern) nicht oft sogar besonders weit gespreizt?

Naja, man kann verschiedene historische Epochen verschiedener Dauer zum Vergleich hernehmen, als Rykba einen Durchbruch brachte, war das natürlich auch in den Ranglisten zu sehen, eigentlich war das, was an Turniergeschehen in der Folge kam, für mich noch spannender als der Elo-Abstand.

Aber dass so viele engines, selbst wenn man nur ganz eheliche Kinder noch irgendwie unterscheidbarer Familien nimmt, in einem so hohen Rating so nah beisammen lagen, gab's für mein Gefühl aus zwei einfachen Gründen noch nie:
Es waren noch nie so viele engines in einem weiteren Spitzenfeld, und es war dieses Feld noch nie so hoch oben an Celo. Letzterer Grund bedeutet ja auch einfach, dass die immer noch messbaren Abstände relativ weniger zählen, ob ein paar engines in einer 100er-Riege bei 2000 zusammenliegen oder bei 3000, ist doch nicht egal, oder?

Zitat:

die Entwickler, die da nicht mitmachen und nicht nach genau diesem Autotuningprinzip arbeiten (lassen), werden immer weiter in den Ranglisten zurück liegen

[quote="Benno Hartwig"]
Ich glaube nicht, dass Rybka dank Autotuning so überlegen sein konnte. Houdini hat nicht dank Autotuning seine Position erreicht. Und auch bei Critter und Komodo vermute ich andere Gründe für die Stärke.

Was Rybka angeht, von der es ja auch schon vor Längerem hieß, sie sei die Wegbereiterin des automatisierten Parametertunings gewesen, sehen das zumindest Leute wie Anthony Cozzie anders als du.
Dass keines der Programme, die du nennst, durch Autotuning allein das ist, was es ist, ist mir auch klar, dass aber, je mehr Elo- erfolgreiche Sourcen offen liegen, umso geringer der Abstand auf Ideenebene wird, könnte wohl jetzt eine Zeit lang schon auch so gewesen sein, scheint mir halt auch einfach so.
Natürlich heißt das auch absolut nicht, dass niemandem mehr was neues einfallen kann, im Gegenteil, je mehr allgemein ausgetauscht wird, umso mehr sollte sich Originalität durchsetzen, wenn sie die Möglichkeit dazu bekommt, ich habe irgendwie das Gefühl, das allgemeine Klima, um es nicht den Testern allein anzulasten, ist derzeit dazu, vielleicht auch rein ökonomisch betrachtet, eher weniger fruchtbar, vielleicht auch nur so ein subjektiver Eindruck von mir.

Zitat:

Daher gilt meine Kritik, ich sage es noch einmal, nicht dieser Maßzahl, sondern dem Kult, der damit getrieben wird, an der wirklichen Aussage der Listen vorbei.

[quote="Benno Hartwig"]
Die SSDF-Liste hatte auch in den 80ern schon größte Aufmerksamkeit. Neu ist nur, dass mancher zuhause sich seinen eigene Liste erspielen kann. Darum wird mehr berichtet und diskutiert.

Da geb ich dir Recht, Benno, nicht nur, dass man vielleicht wieder mehr Eigentests zu Hause baut, auch unter den "offiziellen Listen" ist mehr Vielfalt in der letzten Zeit, scheint mir, und das finde ich durchaus auch positiv.

By Stefan Pohl Date 2013-06-27 05:15

[quote="Peter Martan"]

Auch beim Menschen ist es nicht egal, wer gegen wen antreten darf im Kampf um die Elo und auch bei denen ist das eigentlich nicht wirklich gerecht, bei denen werden aber immerhin andere Titel neben den Elo auch vergeben, bei den engines zählen in Wirklichkeit nur die, und es ist längst auch schon mehr eine Frage des Kollektivs an mitspielenden engines als irgend eine andere, wer wieviele Plätze hinter sich oder vor sich hat und wieviel diese Plätze in Elo zählen.

[/quote]

Also ganz so ist es ja nicht. Ich hatte vor kurzem zum Thema Medaillen-System hier folgendes gepostet:

"Außerdem habe ich bei den Engines immer ein Medaillen-System im Kopf, nämlich:
Gold: beste Engine überhaupt (z.Zt. Houdini 3)
Silber: beste Freeware-mp-Engine (z.Zt. Houdini 1.5a)(singlecore-Engines sind m.E. heutzutage nur noch bessere Betaversionen, denn selbst Smartphones haben heutzutage schon 4 Cores)
Bronze: beste OpenSource-Engine (z.Zt. Stockfish 130519)

Aber das ist natürlich nur meine private Anschauung. Aber in meiner Rangliste will ich schon auf diese 3 Engines explizit hinweisen."
(Zitatende)

Daher weise ich in meiner LS-Rangliste immer die Engines aus, die eben "best mp-freeware" und "best open source" sind. Die "best overall" kann ich mir schenken, das ist halt die Nr.1 an der Spitze.
Diese drei "Medaillen" sind für mich schon so etwas wie ein Titel. Natürlich kein GM-Titel, sondern eher so etwas wie ein Titel in einem großen, unbegrenzt andauernden Turnier (welches eben die LS-Rangliste ist).

Stefan

By Peter Martan Date 2013-06-27 07:50 Edited 2013-06-27 07:52

Ja, Stefan, eigene Titel und Medaillen, wie du das so hübsch nennst, das find ich auch gut.
Eine Pohlmedaille als beste frreware- MP- engine find ich schon einen namhaften Titel in unserer ja nach wie vor kleinen und halt leider auch immer noch ein bisschen abgeschotteten Gruppe von Computerschachfreaks, ich hoffe zu denen darf ich mich wenigstens doch auch immer noch zählen.

Bei der Gelegenheit ist überhaupt mal wieder höchste Zeit, dankeschön zu sagen, für die Arbeit, die du dir mit deiner Liste machst, ich hatte das mit dem wenn schon denn schon wirklich ernst gemeint.
So wie du das machst, hat das einen ganz eigenen Stellenwert für mich, gerade auch deshalb, weil ich eben auch absolut keinen Grund sehe, engines, die irgend etwas anders spielen als andere und ansonsten ein einfach sehr knappes Rating zeigen, auszuklammern und andere, nur wiel sie noch ein paar Elo mehr haben, zu testen.
Testet man nur, was einem zu Gesicht steht, weiß man halt nie, ob man nicht doch mal was verpasst in dieser großen bunten engine- Welt und entweder es interessiert einen die Spitze genauer, oder man will ohnehin nur grobe Züge.
Und dann ist es halt einfach mittlerweile so, dass man um Houdini, Critter, Stockfish, Komodo und Rybka ohnehin nicht herum kommt, warum man dann die ganze große übrige Familie der Ippos, zu denen man den einen oder anderen der Aufgezählten ja durchaus auch zählen könnte, unbedingt ignorieren muss, weiß kein Mensch mehr, na, Gull ist ja auch immerhin gesellschaftsfähig mittlerweile.

By Stefan Pohl Date 2013-06-27 08:52 Edited 2013-06-27 08:54

[quote="Peter Martan"]
Ja, Stefan, eigene Titel und Medaillen, wie du das so hübsch nennst, das find ich auch gut.
Eine Pohlmedaille als beste frreware- MP- engine find ich schon einen namhaften Titel in unserer ja nach wie vor kleinen und halt leider auch immer noch ein bisschen abgeschotteten Gruppe von Computerschachfreaks, ich hoffe zu denen darf ich mich wenigstens doch auch immer noch zählen.

Bei der Gelegenheit ist überhaupt mal wieder höchste Zeit, dankeschön zu sagen, für die Arbeit, die du dir mit deiner Liste machst, ich hatte das mit dem wenn schon denn schon wirklich ernst gemeint.
So wie du das machst, hat das einen ganz eigenen Stellenwert für mich, gerade auch deshalb, weil ich eben auch absolut keinen Grund sehe, engines, die irgend etwas anders spielen als andere und ansonsten ein einfach sehr knappes Rating zeigen, auszuklammern und andere, nur wiel sie noch ein paar Elo mehr haben, zu testen.
Testet man nur, was einem zu Gesicht steht, weiß man halt nie, ob man nicht doch mal was verpasst in dieser großen bunten engine- Welt und entweder es interessiert einen die Spitze genauer, oder man will ohnehin nur grobe Züge.
Und dann ist es halt einfach mittlerweile so, dass man um Houdini, Critter, Stockfish, Komodo und Rybka ohnehin nicht herum kommt, warum man dann die ganze große übrige Familie der Ippos, zu denen man den einen oder anderen der Aufgezählten ja durchaus auch zählen könnte, unbedingt ignorieren muss, weiß kein Mensch mehr, na, Gull ist ja auch immerhin gesellschaftsfähig mittlerweile.

[/quote]

Sehr freundlich und auch sehr treffend ausgeführt...
Und die Zugriffszahlen auf meiner kleinen Website sprechen dafür, daß auch viele andere das (mittlerweile) ähnlich sehen. Gerade wurde die 20000er Marke bei den Besucherzahlen überschritten, nach nicht mal 7 Monaten! Bei unsrer kleinen Community weltweit
ist das weit mehr als ich mir erhofft hatte.

Stefan

PS: z.Zt laufen die Tests von PanChess 00.437, da sieht es allerdings nicht nach einer Verbesserung zu Version 00.400 aus (eher minimal schwächer, allerdings war ja Version 00.400 ein beträchtlicher Fortschritt) und auf meinem anderen Rechner läuft Stockfish in der Entwicklungsversion vom 23.06.. Da sieht es bisher nach einer meßbaren Steigerung zur letzten getesteten Entwicklungsversion aus (die vom 01.06.), allerdings kommt ja bei Stockfish oft noch ein Erfolgsquoteneinbruch zwischen Partie 4000-6000. Und so weit ist der Test noch nicht. Also abwarten. Ergebnisse voraussichtlich Anfang nächster Woche.