Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Der ERET-Stellungstest im Ranglisten-Vergleich
- - By Walter Eigenmann Date 2017-03-20 02:32
Ich hab mir mal fünf häufig zitierte Engine-Ranglisten vorgenommen, in ihnen nach fast 50 gemeinsamen Programmen gefahndet
und deren neue Rankings mit ausgiebigem Copy/Paste einander gegenübergestellt. Anschliessend habe ich die gleichen Engines,
sofern nicht schon getestet, den ERET-Stellungstest absolvieren lassen und damit ebenfalls eine entsprechende Rangliste erstellt.

Nachstehend sieht man also sechs Ranking-Auszüge - einer davon wurde mit dem ERET generiert:


http://www.glarean-verlag.ch/schach/Eigenmann%20Rapid%20Engine%20Test/Ranglisten-Vergleich/Ranglisten-Vergleich%20-%20M%C3%A4rz%202017.pdf

Die Quizfrage lautet nun: Welches ist die ERET-Rangliste - und weshalb?

All jenen, die hier unermüdlich ihr Mantra "Stellungstests-taugen-nicht-zum-Feststellen-der-Spielstärke!" runterbeten,
dürfte die richtige Antwort natürlich kinderleicht fallen, oder? 

Auflösung demnächst - inklusive alle ERET-Outputs zum Nachprüfen/Reproduzieren.

Gruss: Walter

.
Parent - - By Peter Schneider Date 2017-03-20 03:52
Die Ranglisten sind ja nun sehr ähnlich.

Ich tippe mal auf die dritte Rangliste von links.

Warum?
a) Ist der Taktiker Fizbo 1.8 und 1.7 dort jeweils am weitesten vorn, und Stellungstest haben viel mit Taktik zu tun.
b) Ist unwahrscheinlich, dass in den ausgespielten Ranglisten Komodo 9.42 vor Kommodo 10 rangiert.

Hab ich jetzt was gewonnen?

Lg
Peter
Parent - By Walter Eigenmann Date 2017-03-20 09:20
Peter Schneider schrieb:

Die Ranglisten sind ja nun sehr ähnlich. Ich tippe mal auf die dritte Rangliste von links.
Warum?
a) Ist der Taktiker Fizbo 1.8 und 1.7 dort jeweils am weitesten vorn, und Stellungstest haben viel mit Taktik zu tun.
b) Ist unwahrscheinlich, dass in den ausgespielten Ranglisten Komodo 9.42 vor Kommodo 10 rangiert.

Hm... Fizbo ist doch auch in der Liste 1  sehr hoch (??)
Und Komodo 9.42 sei, wenn ich die damalige Diskussion noch richtig im Kopf habe, praktisch gleichauf mit K10 (??)
Ausserdem: Ja, frühere Stellungstests waren tatsächlich Taktik-lastig - das ist mit dem ERET jetzt vorbei. Denn wie man
noch sehen wird, verzeichnet der ERET hochtaktische Engines, die unter "ferner liefen" rangieren - wie im regulären
Engine-Betrieb auch.

Peter Schneider schrieb:
Hab ich jetzt was gewonnen?

Ja - nämlich die Erkenntnis, dass alle Ranglisten keine Referenz-Rangierungen bieten, sondern "nur" Momentaufnahmen,
die unter ganz bestimmten Test-Bedingungen mit ganz bestimmten Engines bei ganz bestimmten Konstellationen
zu einer ganz bestimmten Zeit entstanden sind.
Parent - - By Benno Hartwig Date 2017-03-20 06:11
interessanter Test. 
mein spontaner Tip:
die 3. von links,
weil: K10 hinter K9 und hinter SF7 erscheint seltsam.
Benno
Parent - - By Walter Eigenmann Date 2017-03-20 08:17
Benno Hartwig schrieb:
interessanter Test. 
mein spontaner Tip: die 3. von links, weil: K10 hinter K9 und hinter SF7 erscheint seltsam.
Benno


Hm... Sf7 liegt doch in zwei Listen vor K10...
Bei der Auflösung wird man aber sehen bzw. man weiss es ja, wie eng die Programme
in allen Rankings beisammen sind, da ist ein "Verdreher" schnell "passiert".
"Seltsame" Dinge sind in diesem Vergleich zuhauf feststellbar:
- Beispielsweise, dass Junior Yokohama in der 1. Liste die Nr. 37 ist, aber in Liste 4
gleich zehn  Rankings tiefer auf dem zweitletzten Platz (??)
- Oder dass die Listen 2 und 3 den Smarthink gleich 7 Ränge weiter oben haben
als in der Liste 5 (??)
- u.va.
Parent - By Walter Eigenmann Date 2017-03-20 09:27
Walter Eigenmann schrieb:
- Beispielsweise, dass Junior Yokohama in der 1. Liste die Nr. 37 ist, aber in Liste 4 gleich zehn  Rankings tiefer auf dem zweitletzten Platz (??)

Nein, meinte in Liste 5 auf dem zweitletzten Platz. (Und auch in der sechsten!!)

.
Parent - - By Frank Quisinsky Date 2017-03-20 06:50 Edited 2017-03-20 06:52
Hallo Walter,

das spiegelt aber auch nur ein Gesamtbild wieder.
Welche Engine nun tatsächlich welche spezielle Stärken hat ist wie bei den Ratinglisten auch nicht zu sehen.
Bei meiner Aufteilung in Eröffnung / Mittelspiel und Endspiel ja auch nur grob aber wie ich finde brauchbar.

Das ist das Salz in der Suppe!
Alles andere interessiert mich heute ehrlich gesagt auch weniger.

Und da beim Gesamtbild große Übereinstimmung herrscht ist im Grunde auch klar, das bei speziellen Test-Sets zu unterschiedlichen Themen auch sehr genaue Ergebnisse dabei herauskommen. Nach wie vor, ein solcher Test wäre eine echte Hilfe und von daher muss das ganze Spektrum an möglichen Szenarien während einer Partie auseinandergenommen werde (Buch vom Polgar Vater der auf dem richtigem Weg war / ist). Also Step 1 die Klassifikation nach Stellungstypen und im Step 2 die Stellungen sammeln und im Step 3 den Test erschaffen.

Vielen Dank für die Arbeit
Gut gemacht!
Wird die Kritiker vom Stellungstest ein wenig alt aussehen lassen!

Frank
Parent - - By Walter Eigenmann Date 2017-03-20 09:57
Frank Quisinsky schrieb:
Und da beim Gesamtbild große Übereinstimmung herrscht ist im Grunde auch klar, das bei speziellen Test-Sets zu unterschiedlichen Themen auch sehr genaue Ergebnisse dabei herauskommen. Nach wie vor, ein solcher Test wäre eine echte Hilfe und von daher muss das ganze Spektrum an möglichen Szenarien während einer Partie auseinandergenommen werde (Buch vom Polgar Vater der auf dem richtigem Weg war / ist). Also Step 1 die Klassifikation nach Stellungstypen und im Step 2 die Stellungen sammeln und im Step 3 den Test erschaffen.

Ich möchte aber richtig verstanden werden: Keineswegs ist das Ausspielen von 1000en Engine-Partien einfach obsolet geworden -
auch wenn das Produzieren "auf Halde" zu rein statistischen Zwecken natürlich ein bisschen nach dem Motto "Leerlauf auf höchsten Touren" geht...
Die interessantesten Schachstellungen finde ich persönlich zugegebenermassen mehr und mehr in den Engine-Engine-Partien
(und ggf. noch in den modernen FS-Games).
Und ich werde mich in der Einschätzung von Spielstärken auch inskünftig natürlich nicht allein auf meinen ERET verlassen. Aber ich werde ihn
bei neuen Versionen immer zuerst benützen - wenn dann mein Gefühl Unebenheiten meldet, werden auch die anderen Rankings konsultiert.

Dein Step-by-Step kann sicher ein Vorgehen sein für neue Test-Arbeiten.
Den ultimativen Stellungstest wird es allerdings nie geben - man kann die ungeheure Vielfalt unseres Spiel nicht auf ein paar hundert Stellungen runterbrechen.
Aber man kann extreme Annäherungswerte erreichen - und nix anderes will der neue ERET. Er ist eine (schnelle!!)  Ergänzung zum "klassischen" Turnierbetrieb,
keinesfalls ein Ersatz.

Frank Quisinsky schrieb:
Vielen Dank für die Arbeit. Gut gemacht! Wird die Kritiker vom Stellungstest ein wenig alt aussehen lassen!

Ich glaube, die erfahrenen Ranglisten-Betreiber wissen genau, dass "ihre" jeweilige Liste eben auch nur Momentaufnahmen sind,
die nicht verabsolutiert werden dürfen, sondern ggf. sogar mit nur 111 Schachaufgaben relativiert werden können...
Ich sehe keine prinzipiellen Gegensätze, sondern nur Koexistenz.

.
Parent - By Frank Quisinsky Date 2017-03-20 10:50 Edited 2017-03-20 10:54
Hallo Walter,

klar sind das nur Momentaufnahmen.
Eine Wahnsinnsarbeit die im Grunde nur für einen kleinen Zeitraum interessant ist.

Ich glaube das Schach mit einem Dschungel zu vergleichen ist.
Oder, stehst vor einer Wüste im Wissen ... jetzt muss ich da durch ... Dir werden sicherlich tausend Ausreden einfallen den Weg gar nicht erst zu gehen.

So ist es im Grunde auch beim Schach.
Beim Dschungel Eröffnung könnten wir den Durchblick mit sehr viel Fleißarbeit schaffen.
Fürs Endspiel haben wir die Datenbanken.

Aber alles zwischen Eröffnungstheorie und Endspiel wird sehr komplex und immer komplexer je mehr Figuren noch auf dem Brett sind.

Die vielen Möglichkeiten zu Themenbereichen zu klassifizieren ist eine Wahnsinnsarbeit ... wird wahrscheinlich mehr Zeit kosten als Stellungen zu den Themen zu finden.
Eine Arbeit die sich zunächst mal niemand machen will weil der Reiz etwas anders zu tun ... was interessanter ist ... größer ist.

Alles ist möglich!
Nur der Wille muss da sein!

Egal, bleiben wir bei Deinem Test.
Das Resultat ist für mich nicht überraschend.

Je stärker die Engines werden, desto höher wird der Reiz an Test-Positionen im Vergleich zu ganzen Partien.
Wir können besser folgen ...

Partien selbst werden schon aufgrund dessen immer weniger Reiz haben ... weil sich vermehrt zwischen Zug 60-80 bzw. im Übergang zum Endspiel Entscheidungen fallen.
Diese Partiephase ist für Menschen aber nicht die, die uns entzückt, eher die ... die für uns langweilig ist.

Gruß
Frank
Parent - - By GS Date 2017-03-20 07:20
Ich habs mal kurz überflogen und würde sagen, die "Listung" Nummer 4,
da hier u.a. Quazar 0.4 vor Komodo 8 liegt.
Allerdings wäre gut zu wissen wieviel Spiele die jeweiligen Engines für
die richtigen Ranglisten gespielt haben.
Und weshalb fehlen so viele Engines ?
Ich hätte mir z.B. Wasp und Chiron 3+4 und und  ...auch gewünscht bei
den Gegenüberstellungen ! Desweiteren viel mehr Engines aus dem
"mittleren" und "unteren" Bereichen.
Parent - - By Walter Eigenmann Date 2017-03-20 08:40
GS schrieb:

Ich habs mal kurz überflogen und würde sagen, die "Listung" Nummer 4, da hier u.a. Quazar 0.4 vor Komodo 8 liegt.

Sorry, da ist mir in der Hitze des ganzen Zahlen-Rumgeschiebes ein Fehler passiert,
in dieser Liste 4  liegt Quazar genaugenommen zwischen Rodent und Spike auf dem 38. Rang.
Bitte korrigieren - aber gut gesehen, hast einen zweiten Versuch frei
(Werde die Liste nächstens austauschen).

GS schrieb:
Allerdings wäre gut zu wissen wieviel Spiele die jeweiligen Engines für die richtigen Ranglisten gespielt haben.

Dass je unterschiedliche Listen-Settings je unterschiedliche Listen generieren ist klar.

GS schrieb:
Und weshalb fehlen so viele Engines ? Ich hätte mir z.B. Wasp und Chiron 3+4 und und  ...auch gewünscht bei
den Gegenüberstellungen ! Desweiteren viel mehr Engines aus dem "mittleren" und "unteren" Bereichen.

Man hätte sicher noch zehn weitere Programme nehmen können - aber ich hatte mit diesen fast 50 schon genug zu tun...
Ausserdem mussten es ja Programme sein, die in allen sechs Listen aufgeführt werden.
Im Laufe der nächsten Wochen und Monate werden sicher noch dutzende weiterer Engines durch den ERET laufen.

.
Parent - - By GS Date 2017-03-20 10:54
Walter Eigenmann schrieb:

G.S.:
Ich habs mal kurz überflogen und würde sagen, die "Listung" Nummer 4, da hier u.a. Quazar 0.4 vor Komodo 8 liegt.

Walter Eigenmann schrieb:

Sorry, da ist mir in der Hitze des ganzen Zahlen-Rumgeschiebes ein Fehler passiert,
in dieser Liste 4  liegt Quazar genaugenommen zwischen Rodent und Spike auf dem 38. Rang.
Bitte korrigieren - aber gut gesehen, hast einen zweiten Versuch frei
(Werde die Liste nächstens austauschen).
[...snip...]


Aaah, o.k., kann vorkommen.

Ich bleibe bei Nummer 4, obwohl dort einige Engines andere
Reihungen produzieren als es bei meinen ERET-Messungen der
Fall war ?!

Jedoch:
Senpai 1.0 hinter Hakka 3.0, Spark 1.0, Vajolet2 2.2
und Arasan 19.1 ? Oder Murka 1.3 hinter Laser 1.2 ?
Kann ich mir nicht vorstellen bei einer seriösen Rangliste.
Allerdings, deswegen mein Einwand vorher, es sollten schon
ausreichend Partien gespielt worden sein. Alles unter 1000
Spiele ist heikel. Mal sehen welche Listen sie für ihren
Vergleich hergenommen haben ...

Was mir auch aufgefallen ist:
Gull 3 wird gar nicht gelistet. Eine Engine, welche sicherlich
in jeder Rangliste vertreten ist und dazu auch noch relativ
weit oben ! Und auch dieser Gull 3 war eine der vielen Engines,
welche bei meinen ERET-Messungen total daneben lagen.
Haben sie den absichtlich herausgelassen ?
Parent - By Frank Quisinsky Date 2017-03-20 11:01 Edited 2017-03-20 11:06
Hi Gerhard,

GullChess hin oder her ...

Nehmen wir einfach die Engines die wirkliche Stärken und Schwächen haben.
Spark ... ein Angreifer aber sehr schwach im Endspiel.

Bleibt in der Liste auf Ratinglisten Level.

Hannibal und Equinox ... alles andere als Angreifer ... bleiben da wo sie in den Ratinglisten stehen.

Letztendlich kann aus einem solchen Test zwar sehr schnell eine ungefähre Spielstärke bestimmt werden aber es ist und bleibt eine Einordnung nach Spielstärke aus der kein einziges Detail hervorgeht. Nach wie vor sind Ratinglisten interessant aber ich finde es schade das wir mit dem ganzen produzierten Material nicht mehr tun. Es fehlt uns an Spielstärke, an Zeit und maßgebend eher am Willen. Liegt aber mal irgend etwas vor was gut ist ... werden sich wieder alle drauf stürzen und plötzlich kommen auch Leute mit guten Ideen um die Ecke. Wie das so ist ...

Ich finde das ist die Aufgabe der wir uns stellen sollten.
Mit Testmethoden feststellen: Wo kann ich Engines "für Menschen gewinnbringend" am Besten einsetzen.

Solange wir das nicht haben, werden Schachspieler einfach die stärkste Engine nehmen in der Annahme ... und diese Annahme ist oftmals falsch.
Oder werden sich starke Hardware kaufen weil sie denken größere Tiefe bedeutet klar höhere Spielstärke.

Die Realität ist ...
Durch die Vielfalt der Ideen und deren fabrizierten Zugfolgen wird die Spielstärke gesteigert.
Das Geheimnis ist also die Ideen vernünftig zusammen zu setzen.
Und das geht nur wenn wir die guten Ideen herauspicken bzw. Besonders in der Lage sind mit einfachen und schnellen Testmethoden zu finden.

Und dafür eignet sich der Stellungstest besser als alles andere.
Partiefragmente sind zwar auch möglich aber glaube mir sehr viel Arbeit und viel zu kompliziert.

Gruß
Frank
Parent - - By Walter Eigenmann Date 2017-03-20 11:15
GS schrieb:

Gull 3 wird gar nicht gelistet. Eine Engine, welche sicherlich in jeder Rangliste vertreten ist und dazu auch noch relativ weit oben !

Wie gesagt, da wären sicher noch 20-30 weitere Engines/Versionen möglich gewesen. Und selbstverständlich ist Gull auch
in der aktuellen ERET-Liste vertreten.

GS schrieb:
Und auch dieser Gull 3 war eine der vielen Engines, welche bei meinen ERET-Messungen total daneben lagen.

Dass unterschiedliche ERET-Test-Umgebungen unterschiedliche Ergebnisse produzieren, erstaunt wohl nicht wirklich, oder?
Und überhaupt: "total daneben" im Vergleich zu wo/was?
Auf jeden gilt: Mit "Ausreissern" muss jeder Listen-Betreiber leben - siehe nur mal deine CEGT mit den anderen fünf Ranglisten...

GS schrieb:
Haben sie den absichtlich herausgelassen ?

Diese freche Manipulations-Unterstellung will ich mal nicht gelesen haben.

.
Parent - - By GS Date 2017-03-20 11:27
Walter Eigenmann schrieb:

[...snip...]
Und selbstverständlich ist Gull auch in der aktuellen ERET-Liste vertreten.
[...snip...]


Darf man fragen mit welchem "Resultat" ?

Bei meinen Messungen lag Gull 3 z.B. hinter:
Shredder Classic 5, Ginkgo 1.8, Andscacs 0.89, Critter 1.6,
Equinox 3.30, Hannibal 1.7, Stockfish 2.2.1 !
Und Gull 3 lag auch lediglich einen einzigen Punkt vor:
Hiarcs 14 und Hakka 3.0 !
Parent - By Roland Riener Date 2017-03-20 11:40 Upvotes 2
"Die Statistik ist wie eine Laterne im Hafen. Sie dient dem betrunkenen Seemann mehr zum Halt als zur Erleuchtung.

Hermann Josef Abs (1901-94), dt. Bankier"
Parent - - By GS Date 2017-03-20 14:09
Walter Eigenmann schrieb:

[...snip...]
Diese freche Manipulations-Unterstellung will ich mal nicht gelesen haben.


Mir wurde gerade von einem aufmerksamen Mitleser mitgeteilt, dass im
PDF-Link des Ausgangspostings auch die einzelnen Listen (Versehen ?)
mit enthalten sind (auf den Seiten 2-6). Ich habe das PDF gerade auch
mal angeklickt. Es stimmt, da sind alle Listen drin zu finden, welche für
diesen "Vergleich" herangezogen wurden.

Dieser aufmerksame Mitleser hat auch schnell entdeckt, dass:
a.) einige Engines, obwohl in allen Listen vorhanden, herausgenommen wurden
b.) Engineplatzierungen (bei Gleichstand) einfach willkürlich getauscht wurden

Das Thema hat sich hiermit erledigt !

Und von wegen: (Zitat)
"Diese freche Manipulations-Unterstellung will ich mal nicht gelesen haben."

siehe:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107223#pid107223

Eine einzige Enttäuschung ist das alles.
Ich hätte niemals vermutet, dass der Autor zu solch unsauberen Mitteln
greift, nur um seinen "Test" zu verteidigen.

Und zur Ergänzung noch eine Meinungsäusserung des aufmerksamen Mitlesers
(er hat keinen Account hier, seine Erlaubnis zur Veröffentlichung habe ich):

"Außerdem wird eine Liste IMMER erst vollständig wenn man WENIGSTENS
den Abstand der Engines mit postet, eben um praktisch gleiche Engines
unterscheiden zu können, und mit seinen paar Lösungen wird der ERET noch
seltsamer! Ich würde mich auch wehren wenn jemand meine Liste auf die Reihung
reduziert, also Abstand und Error bars weg läßt. Das ist a) unseriös und b)
wissenschaftlich einfach falsch. Listen sind nun mal kompliziert, aber das
interessiert Populisten mit einfachen Antworten nicht."
Parent - - By Frank Rahde (Mod.) Date 2017-03-20 17:47 Upvotes 1
GS schrieb:


Und zur Ergänzung noch eine Meinungsäusserung des aufmerksamen Mitlesers
(er hat keinen Account hier, seine Erlaubnis zur Veröffentlichung habe ich):

"Außerdem wird eine Liste IMMER erst vollständig wenn man WENIGSTENS
den Abstand der Engines mit postet, eben um praktisch gleiche Engines
unterscheiden zu können, und mit seinen paar Lösungen wird der ERET noch
seltsamer! Ich würde mich auch wehren wenn jemand meine Liste auf die Reihung
reduziert, also Abstand und Error bars weg läßt. Das ist a) unseriös und b)
wissenschaftlich einfach falsch. Listen sind nun mal kompliziert, aber das
interessiert Populisten mit einfachen Antworten nicht."



Das hat Ihnen bestimmt gefallen: eine anonyme Meinungsäußerung als echt zu deklarieren und hier ins Feld zu werfen, um so leichterhand eine Beleidigung ("Populist") unterbringen zu können, ohne selbst angreifbar zu sein. Leider muss ich als Moderator Ihre teilweise unerträglichen Beiträge hier lesen. Ich hoffe doch, dass Sie sich wirklich als Diskutant aus diesem Thread verabschiedet haben. In meinen Augen sind Sie nicht fähig, sachlich zu argumentieren.

Es ging nur um einen neuen Stellungstest eines bekannten Schachenthusiasten, dem ich nicht im Reflex Manipulation unterstellen würde. Nachfragen hilft meist, bevor "unsaubere Mittel" angeprangert werden. Die Quellen (Originalranglisten) wurden von Walter verlinkt, also kann er auch die Listen für seine Zwecke aufbereiten, um etwas zu demonstrieren. Ehrlich: Etwas Lockerheit, Wohlwollen, Offenheit täte Ihnen in dieser Debatte ganz gut.
Parent - - By GS Date 2017-03-20 19:45
Danke für ihre Meinung und ihren Beitrag !

Diese Frage hier meinerseits:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107147#pid107147

wollten sie nicht beantworten, mir ist klar weshalb.

Es ist ihnen freigestellt, sie haben Heim- ähhh Hausrecht hier,
meinen Accout zu löschen. Dann müsste auch der Herr Eigenmann
nicht mehr mit Kritik rechnen, und alle sind zufrieden.
Mir ist klar, dass ich hier unerwünscht bin, deshalb mache
ich in der Regel auch sehr viele Lese-/Schreibpausen. Diesmal
war das nicht möglich, da viel auf meine Postings reagiert wurde.

Das Thema ist ohnehin durch, siehe:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107230#pid107230

Es ist nachgewiesen, dass der Autor des ERET geschummelt hat, und
dies ist noch sehr sehr milde ausgedrückt. Nochmals einen Dank an
den "stillen Mitleser", welcher mir diese Info hat zukommen lassen.
Ich hätte mir das PDF niemals angesehen.

Ich muss übrigens zum Teil auch "unerträglichen Beiträge" hier lesen,
einige auch von ihnen. Dies jedoch stört, zumindest mich, nicht.
Wenn sie damit nicht umgehen können - who cares ?
Aber dann zu schreiben (Zitat):
"Etwas Lockerheit, Wohlwollen, Offenheit täte Ihnen in dieser Debatte ganz gut."

wirkt auf mich schon sehr befremdlich.

h.a.n.d.
Parent - - By Robert Richter (Mod.) Date 2017-03-20 21:51
GS schrieb:


Es ist ihnen freigestellt, sie haben Heim- ähhh Hausrecht hier,
meinen Accout zu löschen.


Frank wollte mit dem Satz "Leider muss ich als Moderator Ihre teilweise unerträglichen Beiträge hier lesen" niemandem hier mit der Moderatorenkeule drohen. Er hat lediglich auf die Tatsache hinweisen, dass wir alles, aber auch wirklich jeden Schwachsinn lesen müssen... was nicht immer angenehm ist.

GS schrieb:

Dann müsste auch der Herr Eigenmann
nicht mehr mit Kritik rechnen, und alle sind zufrieden.


Kritik gehört aber besonders bei solchen Fällen unbedingt dazu.

GS schrieb:

Mir ist klar, dass ich hier unerwünscht bin, deshalb mache
ich in der Regel auch sehr viele Lese-/Schreibpausen. Diesmal
war das nicht möglich, da viel auf meine Postings reagiert wurde.


Falsch! Du (und deine Expertiese) bist hier sehr wohl erwünscht, nur deine Art manchmal mit Meinungen anderer umzugehen nicht.

GS schrieb:

Nochmals einen Dank an
den "stillen Mitleser", welcher mir diese Info hat zukommen lassen.
Ich hätte mir das PDF niemals angesehen.


Der "stille Mitleser" kann hier gerne einen Account eröffnen, dann muss er dich in Zukunft auch nicht mit seinen investigativen Handlungen behelligen.

Im Übrigen, und das ist nur meine persönliche Meinung als Computerschächer, halte ich nichts von diesem Stellungstest...und schon gar nicht um damit die Spielstärke von Engines zu vergleichen. Maximal als eine Art rudimentärer Benchmark könnte es taugen.

R.R.
Parent - - By GS Date 2017-03-21 09:52
Robert Richter (Mod.) schrieb:

[...snip...]
Der "stille Mitleser" kann hier gerne einen Account eröffnen, dann muss er dich in Zukunft auch nicht mit seinen investigativen Handlungen behelligen.
[...snip...]


Vielen Dank für ihre Stellungnahme und die Erläuterungen.

Ich denke da liegt ein Missverständnis vor, nur deshalb
noch diese eine Rückmeldung von mir.
Wie ich geschrieben hatte bin ich dem stillen Mitleser
sehr dankbar, und selbstredend fühlte ich mich zu
keinem Zeitpunkt vom ihm behelligt. Ganz im Gegenteil,
er hat mir die Augen geöffnet in Bezug auf den ERET-Autoren !
Ich selbst wäre niemals auf die Idee gekommen, dass dieser
sich seine Resultate so hinbiegt wie es ihm gefällt und
wie es für seinen "Test" zuträglich ist, um die Vergleiche
mit seriösen Ranglisten besser aussehen zu lassen.

Es ist mir daher egal was zukünftig veröffentlicht wird.
Jeder kann es ja, so er denn will, selbst zu Hause auf dem
PC überprüfen, um sich ein Urteil zu bilden. Meines steht
fest und die Beweise hierfür sind öffentlich, zumindest so
lange diese Beiträge hier stehen bleiben.

h.a.n.d.
Parent - By Walter Eigenmann Date 2017-03-21 11:46
GS schrieb:
Ganz im Gegenteil,er hat mir die Augen geöffnet in Bezug auf den ERET-Autoren ! Ich selbst wäre niemals auf die Idee gekommen,
dass dieser sich seine Resultate so hinbiegt wie es ihm gefällt und wie es für seinen "Test" zuträglich ist, um die Vergleiche
mit seriösen Ranglisten besser aussehen zu lassen.


Der "ERET-Autor" hat keineswegs "Resultate hingebogen", sondern Engine-Resultate
wieder aus der ERET-Rangliste genommen, bei denen sich nachträglich herausstellte,
dass sie durch fehlerhaftes Test-Setting zustande kamen. Weitere Erläuterungen zu
deinen Unterstellungen hier: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107249#pid107249
Inzwischen wurden alle fraglichen Engines ja eh im ERET getestet - hier kann jeder
alle Zeiten aller Engines im Detail prüfen, da ist gar nix zu entdecken, "um Vergleiche mit
seriösen Ranglisten besser aussehen zu lassen":
https://glarean-magazin.ch/2017/03/05/computerschach-testaufgaben-engines-eigenmann-rapid-engine-test-eret/
Verunglimpfungen können auch zu regelrechten Mantra's mutieren, und wenn man sie
nur lange genug wiederholt, glaubt man am Schluss noch selber daran, gell...

GS schrieb:
Jeder kann es ja, so er denn will, selbst zu Hause auf dem PC überprüfen, um sich ein Urteil zu bilden.

Das ist jetzt mal ein vernünftiges Wort, das lasse ich jetzt gerne so stehen.

h.a.n.d.t.

.
Parent - By Walter Eigenmann Date 2017-03-21 12:19
Robert Richter (Mod.) schrieb:
Im Übrigen, und das ist nur meine persönliche Meinung als Computerschächer, halte ich nichts von diesem Stellungstest...
und schon gar nicht um damit die Spielstärke von Engines zu vergleichen.

Ich habe - im Gegensatz zu anderen, die mich deswegen angemailt haben - kein Problem damit, wenn sich ein Forums-Moderator
in einen Streit einklinkt und sich dabei dezidiert auf eine ganz bestimmte Seite schlägt, aber...
Robert Richter (Mod.) schrieb:
Maximal als eine Art rudimentärer Benchmark könnte es taugen.

das "rudimentär" gefällt mir trotzdem nicht
Hingegen "Benchmark", das kommt der Intention des ERET wieder recht nahe. Und deshalb trete ich hier
auch keine Meta-Diskussion los über parteiische Wortmeldungen von Moderatoren bei Forum-Streitigkeiten

Gruss: Walter
Parent - By Walter Eigenmann Date 2017-03-21 10:54
GS schrieb:
Es ist ihnen freigestellt, sie haben Heim- ähhh Hausrecht hier, meinen Accout zu löschen. Dann müsste auch der Herr Eigenmann nicht mehr mit Kritik rechnen, und alle sind zufrieden.

Also für mich hätte dieses Forum definitiv einen Spassfaktor weniger, wenn man deinen Account löschte, denn dem Herrn Eigenmann gefallen Leute wie du,
die derart kreativ von unangenehmen Tatsachen ablenken können...

GS schrieb:
Das Thema ist ohnehin durch, siehe: <a class='ura' href='http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107230#pid107230'>http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=107230#pid107230</a>
Es ist nachgewiesen, dass der Autor des ERET geschummelt hat, und dies ist noch sehr sehr milde ausgedrückt.

Du hast gar nix "bewiesen", sondern ich hab dich und deinen anonymen GS-Flüsterer - wenn's ihn denn überhaupt gibt... -
mit meinem versehentlichen PDF teihaben lassen an meiner Qualitätssicherung, die jedem Publizieren von Test-Resultaten
selbstverständlich vorausgehen muss. (Sei doch dankbar für so viel Transparenz

Konkret: Es ist absolut sinnlos, die Öffentlichkeit über Engine-Resultate (z.B. im ERET) zu informieren, die weitab von jeder
vernünftigen Rangierung sind, weil sie mit ganz falschen Engine-Einstellungen zustande kamen und nachher eh wieder korrigiert
werden müssen. Wenn ich als Test-Autor also Vorab-Untersuchungen durchführe und dabei im Vergleich mit z.B. den fünf
erwähnten Listen  feststelle, dass ein Programm "total abschmiert" im Ranking, so wird die Engine sofort aus der ERET-Liste genommen,
um erst mal die Korrektheit des Settings zu untersuchen. Was du mit  "Schummelei" und "Betrug" verunglimpfst, ist also
niichts weiter als selbstverständliche Qualitätssicherung! Beispielsweise hatte ich einen Test-Durchlauf mit Chiron 3 (4CPU),
wo das Programm sehr viele Ränge weiter oben als Chiron 4(4CPU) landete. Das macht einen Test-Autor natürlich stutzig, und bei
einem weiteren Durchlauf stellte sich dann heraus, dass F15 die Einstellung "4Cores" nicht übernommen, sondern den Test
mit 8CPU absolviert hatte. (Es gibt tatsächlich Engines, wo Fritz15 Einstellungsänderungen nicht sofort, sondern erst nach
weiteren Versuchen übernimmt - bei F11 war das noch schlimmer. Diese Erfahrung können evtl. noch andere Anwender hier bestätigen?)
Und selbstverständlich nahm ich dann Chiron wieder raus, bevor ich den Ranking-Vergleich im CSS publizierte, um der Sache nachzugehen.
Inzwischen ist die Engine aber wieder im ERET korrekt gelistet - und ihre Ergebnisse sind Stellung für Stellung auf die 100stel Sekunde
genau dokumentiert, "für alle Ewigkeit". Das kann jeder nachlesen, untersuchen, vergleichen, reproduzieren. Mehr Transparenz geht nicht:
http://wp.me/p5dsl-7ur
GS schrieb:
Nochmals einen Dank an den "stillen Mitleser", welcher mir diese Info hat zukommen lassen.

Ist es nicht schön, dass man im Leben immer wieder Menschen findet, die einem übers Gröbste hinweghelfen?
Parent - - By Walter Eigenmann Date 2017-03-20 19:29
...
Ohlala, da ist aber einer heftig in den Nebelkerzen-Modus gefallen... Vielleicht um unseren Blick zu trüben
auf die unübersehbaren Defizite von CEGT & Co., und um elegant von den "Ausreissern" der "regulären"
Ranglisten abzulenken?

Aber im Ernst:

GS schrieb:
Mir wurde gerade von einem aufmerksamen Mitleser mitgeteilt, dass im PDF-Link des Ausgangspostings auch die einzelnen Listen (Versehen ?) mit enthalten sind (auf den Seiten 2-6). Ich habe das PDF gerade auch mal angeklickt. Es stimmt, da sind alle Listen drin zu finden, welche für diesen "Vergleich" herangezogen wurden.
Dieser aufmerksame Mitleser hat auch schnell entdeckt, dass:
a.) einige Engines, obwohl in allen Listen vorhanden, herausgenommen wurden
b.) Engineplatzierungen (bei Gleichstand) einfach willkürlich getauscht wurden


Ich kann dir gerne noch mehr von meinen vielen PDF-Notizen mailen, in denen zuhauf die
verschiedensten Ranglisten mit meinem ERET-Test verglichen werden - und sei's nur
um zu demonstrieren, dass hinter der Genesis eines grossen Stellungstestes ein bisschen
mehr Arbeit steckt als einfach ein paar Nächte neue Engines aufeinander zu hetzen...

Denn selbstverständlich ziehe ich die unterschiedlichsten Vergleiche mit bestehenden Listen;
natürlich teste ich mit dem ERET div. Engines und nehme sie wieder heraus, wenn sie
sogar für mein Gefühl zu weit "daneben" liegen, um nicht nachher zu merken, dass die
"falsche" Engine getestet wurde und sie dann doch aus der Liste genommen werden muss;
selbstverständlich mache ich Voraus-Tests und erstelle -Listen, um Differenzen auszumachen.

Zwar pflege ich meine "Test-Küche" normalerweise nicht durch versehentliche PDF zu demonstrieren
Aber sage noch einer, ich sei nicht transparent Ich bin ja nicht nur Test-Autor,
sondern auch Anwender, und auch meine Ranglisten sind diskutabel. Beispielsweise hat es
in der aktuellen ERET schon ein paar seltsame Rangierungen, die mir nicht gefallen.
Aber sie bleiben drin - und weitere werden hinzukommen...
Dann gibt es aber Engines, deren ERET-Performing ist so völlig outstanding, dass ein
genauer Blick auf die Version dringend angeraten ist. Solche Engines fliegen wieder
aus der Rangliste. Wenn sich dann doch herausstellt, dass es am ERET liegt, habe ich halt Pech...
Ich habe meine ERET-Zwischenresultate mit noch ein paar weiteren Rankings verglichen -
vielleicht möchtest du davon auch ein paar PDF-Notizen?

Fact ist jedenfalls:

a) Die 111 Aufgaben sind jedermann zugänglich "für alle "Ewigkeit", und jeder kann sie
testen nach Lust und Laune, und wenn er dabei zu völlig anderen Ergebnissen kommt, kann man
die Gründe dafür gerne diskutieren.

b) Alle meine bisherigen Test-Ergebnisse sind auf die hundertstel Sekunde dokumentiert
und bleiben das "in alle Ewigkeit".

GS schrieb:
Das Thema hat sich hiermit erledigt !


Nö, so billig kommst du uns nicht davon

Zuerst musst du uns noch die zahlreichen "Ausreisser" in diesen sechs Ranglisten "erklären".
Und komm uns jetzt nicht mit "Ausser der CTEG haben alle viel zu wenig Partien"...

GS schrieb:
Und zur Ergänzung noch eine Meinungsäusserung des aufmerksamen Mitlesers
(er hat keinen Account hier, seine Erlaubnis zur Veröffentlichung habe ich):
"Außerdem wird eine Liste IMMER erst vollständig wenn man WENIGSTENS
den Abstand der Engines mit postet, eben um praktisch gleiche Engines
unterscheiden zu können, und mit seinen paar Lösungen wird der ERET noch
seltsamer! Ich würde mich auch wehren wenn jemand meine Liste auf die Reihung
reduziert, also Abstand und Error bars weg läßt. Das ist a) unseriös und b)
wissenschaftlich einfach falsch. Listen sind nun mal kompliziert, aber das
interessiert Populisten mit einfachen Antworten nicht."



Hehe, Tonfall und Wortwahl deines grossen Unbekannten bringen mich auf eine Idee,
welcher gute alte Bekannte hier dem GS mit Argumenten aushalf...
Grüsse ihn mir und melde, dass es hier rein um Reihungen ging und zuallerletzt
um Wissenschaft...  Jede der Listen habe ich hier verlinkt - dort lässt sich alles
nachlesen...
Parent - - By GS Date 2017-03-20 19:49 Edited 2017-03-20 19:54
Walter Eigenmann schrieb:

[...snip...]
Nö, so billig kommst du uns nicht davon
[...snip...]


Doch, komme ich !
Die Schummelei (Betr.g darf ich hier nicht sagen) ist aufgeflogen,
mehr braucht es nicht.

h.a.n.d.
Parent - By Walter Eigenmann Date 2017-03-21 08:16
GS schrieb:
Walter Eigenmann schrieb:
[...snip...]Nö, so billig kommst du uns nicht davon [...snip...]

Doch, komme ich !Die Schummelei (Betr.g darf ich hier nicht sagen) ist aufgeflogen, mehr braucht es nicht.
h.a.n.d.

Yeah, so ein kleines "Betrug"-Etikettchen käme dir gerade recht, dann müsstest du dich nicht mehr mit Inhalten beschäftigen, gelle
Zum Beispiel, warum bei deinen CEGT-&Co.-Rankings die Engine Fizbo 1.7  mal auf dem 27. Rang und mal fast 10 Ränge höher (!) angesiedelt sein kann...
Oder Junior 13.8 Yokohama bei 2 Listen auf dem zweitletzten Platz, bei CEGT aber auf dem 40. landet...
Oder in der CCRL die Engine Andscacs 0.86 nur 15 Elo "stärker" ist als Nirvanachess 2.2, in deiner CEGT aber 43 Elo (!)...
Oder...
Wenn also die regulären Rankings mit ihren unterschiedlichen Settings auch unterschiedliche Ergebnisse erzielen, ist das "wissenschaftlich",
wie dein anonymer GS-Flüsterer sagt; wenn aber bei dir die Gull-Engine im ERET anders abschneidet als bei mir, machst du ein Geschrei.
So kann man die Realität natürlich auch ertragbar machen...
h.a.n.d.t.
Parent - By Walter Eigenmann Date 2017-03-20 13:18
.

Der ERET im Vergleich mit anderen Ranglisten - Here we go:



Die Links zu den einzelnen Ranglisten:
Liste 1: FCP-Rangliste
https://tinyurl.com/hoosds9

Liste 2: CEGT-Rangliste
https://tinyurl.com/hlglzms

Liste 3: CCRL-Rangliste
https://tinyurl.com/z77n3ky

Liste 4: ERET-Rangliste
https://tinyurl.com/gttv23y

Liste 5: FastGM-Rangliste
https://tinyurl.com/jx7buue

Liste 6: OWL-Rangliste
https://tinyurl.com/hofbotn

Also:
Das fröhliche Vor-Ostern-Eiersuchen sei eröffnet: Welche Rangliste hat welche "Ausreisser"? 

Und wer bringt hier eine neue, siebte Rangliste ins Spiel, die alle diese sechs Rankings als "untauglich für eine Bestimmung der Spielstärke" erklärt?

Gruss: Walter

Walter Eigenmann schrieb:

Ich hab mir mal fünf häufig zitierte Engine-Ranglisten vorgenommen, in ihnen nach fast 50 gemeinsamen Programmen gefahndet
und deren neue Rankings mit ausgiebigem Copy/Paste einander gegenübergestellt. Anschliessend habe ich die gleichen Engines,
sofern nicht schon getestet, den ERET-Stellungstest absolvieren lassen und damit ebenfalls eine entsprechende Rangliste erstellt.

Nachstehend sieht man also sechs Ranking-Auszüge - einer davon wurde mit dem ERET generiert:


<a class='urs' href='http://www.glarean-verlag.ch/schach/Eigenmann%20Rapid%20Engine%20Test/Ranglisten-Vergleich/Ranglisten-Vergleich%20-%20M%C3%A4rz%202017.pdf'>http://www.glarean-verlag.ch/schach/Eigenmann%20Rapid%20Engine%20Test/Ranglisten-Vergleich/Ranglisten-Vergleich%20-%20M%C3%A4rz%202017.pdf</a>

Die Quizfrage lautet nun: Welches ist die ERET-Rangliste - und weshalb?

All jenen, die hier unermüdlich ihr Mantra "Stellungstests-taugen-nicht-zum-Feststellen-der-Spielstärke!" runterbeten,
dürfte die richtige Antwort natürlich kinderleicht fallen, oder? 

Auflösung demnächst - inklusive alle ERET-Outputs zum Nachprüfen/Reproduzieren.

Gruss: Walter

.
Parent - - By Benno Hartwig Date 2017-03-21 10:45 Edited 2017-03-21 11:01
Mal so ganz grundsätzlich:
Ich finde sehr gut(!), dass du mit deinem Test eine ganz eigene Sicht auf die Engines und ihre Leistungen bietest,
und dass du dies hier auch so ausführlich beschreibst.

Ein Computerschach-Gegenstand zum Betrachten und drüber Nachdenken,
zum Bestätigen alter Überzeugungen
oder auch zum Erschüttern von Vorurteilen.

Natürlich gibt es zustimmende und kritische Stimmen, die sich dann ja auch beide gern hier zu Wort melden sollen.
Und es kann eben jeder (ohne oder mit einer Stellungnahme, und in aller Friedfertigkeit!) den Test ignorieren oder sich genauer mit ihm beschäftigen wollen.
Eigentlich ganz einfach.

Benno
Thanx!
Parent - By Walter Eigenmann Date 2017-03-21 11:17
Benno Hartwig schrieb:
Natürlich gibt es zustimmende und kritische Stimmen, die sich dann ja auch beide gern hier zu Wort melden sollen.
Und es kann eben jeder (ohne oder mit einer Stellungnahme und in aller Friedfertigkeit!) den Test ignorieren oder sich genauer mit ihm beschäftigen wollen.
Eigentlich ganz einfach.


Absolut - wobei mir klar ist, dass die Thematik hier polarisiert; Das war vor 15 Jahren schon so,
und gewisse Dinge (und Personen...) ändern sich ja nie.

Ich denke auch nicht, dass die Computerschach-Community ohne Stellungstests ärmer dran wäre -
aber vielleicht wär's ein bisschen weniger unterhaltsam?

Und ja, man kann das ganze ERET-Zeugs auch aussen vor lassen: Einfach "ignorieren"-Knopf drücken,
wo "Eigenmann" drauf steht, und schon hat man Ruhe..

Dank und Gruss: Walter
- - By Guenter Stertenbrink Date 2017-03-20 16:44 Edited 2017-03-20 17:15
hier die Korrelationskoeffizienten (*1000)

1 , 1000  994  990  939  979  993
2 , 994  1000  996  934  989  997
3 , 990  996  1000  934  988  995
4 , 939  934  934  1000  926  936
5 , 979  989  988  926  999  992
6 , 993  997  995  936  992  1000

also ganz klar Nummer 4  (dann Nummer 5)
Parent - By Guenter Stertenbrink Date 2017-03-20 18:46 Edited 2017-03-20 19:18
nimmt man nur die ersten 30 ohne den Ausreisser Quazar 0.4, so ergibt sich :

      1    2    3    4    5    6    sum
------------------------------------------------
1 , 999  992  977  966  978  994  5.90  1 FCP
2 , 992  999  990  984  991  998  5.95  2 CEGT
3 , 977  990  999  977  984  989  5.92  3 CCRL
4 , 966  984  977  999  979  982  5.89  4 ERET
5 , 978  991  984  979  999  990  5.92  5 FastGM
6 , 994  998  989  982  990  999  5.95  6 OWL
------------------------------------------------
      1    2    3    4    5    6    sum

Bildchen :  http://magictour.free.fr/ERETP2.GIF

ahh, Quazar Elo in Liste 4 ist falsch, mit verbessertem Wert alle 47 :

1 , 1000  995  990  975  979  993  5.934308
2 , 995  1000  996  972  989  997  5.951628
3 , 990  996  1000  972  988  995  5.944253
4 , 975  972  972  1000  962  973  5.857369
5 , 979  989  988  962  999  992  5.912512
6 , 993  997  995  973  992  1000  5.952127

===========================================

und hier die 47 engines mit Durchschnitts-normierten Elos:



1.957559 : Stockfish 8
1.882873 : Houdini 5
1.588978 : Komodo 10
1.571578 : Stockfish 7
1.543519 : Komodo 9.42
1.416911 : Komodo 9.2
1.322012 : Stockfish 6
1.246330 : Komodo 9
1.017573 : Stockfish 5
1.015574 : Shredder 13
0.972659 : Komodo 8
0.830549 : Houdini 4
0.430845 : Critter 1.6
0.413320 : Equinox 3.30
0.379283 : Fizbo 1.8
0.348101 : Fritz 15
0.301845 : Andscacs 0.87
0.163401 : Rybka 4.1
0.142509 : Andscacs 0.86
0.130789 : Hannibal 1.7
0.109728 : Nirvanachess 2.3
0.041862 : Fizbo 1.7
0.024684 : Protector 1.9
-0.004333 : Booot 6.1
-0.039733 : Texel 1.06
-0.04.352 : iCE 3.0
-0.054909 : Protector 1.8
-0.075118 : Nirvanachess 2.2
-0.253984 : Texel 1.05
-0.262616 : Chiron 2
-0.310378 : Naum 4.6
-0.525007 : Senpai 1.0
-0.619843 : Hakkapeliitta 3.0
-0.753182 : Vajolet2 2.2
-0.854128 : Arasan 19.1
-0.904273 : Spark 1.0
-0.969422 : Spike 1.4
-1.063715 : Rodent II 0.9.64
-1.073531 : Quazar 0.4
-1.219396 : Junior 13.8 Yokohama
-1.230542 : Deuterium 14.3.34.130
-1.249748 : SmarThink 1.7
-1.306352 : Gaviota 1.0
-1.324076 : Murka 3
-1.380123 : Laser 1.2
-1.413527 : Minko 1.3
-1.920587 : Octochess r5190

- - By Peter Schneider Date 2017-03-20 23:22
Also, - ich finde den Streit hier über den Wert oder Unwert von Stellungstests zur Ermittelung einer Rangliste völlig unnötig.
Ich finde so eine Stellungstestsammlung gut, - ein weitere interessante Teststellungsammlung ist z.B. die von Arasan (200 Stellungen).
Es ist doch völlig klar, dass eine Teststellungssammlung zumindest zwei Dinge nicht abbildet:
a) Die Zeiteinteilung von Programmen
b) Die Art des Zugriffs auf tablesbases
Falls es z.B. beim Eret-Test oder meinetwegen auch beim Arasan-Test Abweichungen zu Turnierpartie-Ranglisten gibt, sollte man
sich doch eher fragen: Warum ist das so?
Was können Programme, die z.B. im Eret-Test besser abschneiden als in Turnierpartieranglisten gut, - was können Programme die
in Turnierpartie-Ranglisten besser abschneiden als in Stellungstests gut.
Des weiteren eignet sich vielleicht ein Eret-Test - ähnlich wie Turnierpartieranglisten - möglicherweise dazu die Frage zu beantworten,
welche Programme bei Verlängerung der Bedenkzeit überproportional profitieren.
Was passiert, wenn man den Eret-Test nicht mit 5s, sondern 50 Sekunden pro Zug, also mit 10facher Bedenkzeit durchführt. 
Ich selbst habe ja in Sachen Computerschach wenige Gewissheiten, - aber zu diesen Gewissheiten gehört, dass auch heute noch,
die Analysequalität bei 50 Sekunden eindeutig!! besser ist als bei 5 Sekunden.
Lg
Peter
Parent - By Guenter Stertenbrink Date 2017-03-21 04:11 Upvotes 1
prinzipiell sollte es besser (schneller) sein die Spielstaerke der engines mit Tests zu bewerten,
als diese Partien gegeneinander spielen zu lassen.
Eine Partie kann als Test der darin vorkommenden Stellungen gesehen werden, wo die
Eval-Differenzen gemessen werden. Diese Stellungen sind ziemlich zufaellig. Es kann also
verglichen werden mit einem Test, der zufaellig die entsprechende Anzahl von Stellungen
aus anderen gespielten Partien herausfiltert.
Aber die meisten dieser Stellungen sind nicht besonders interessant, nicht sehr geeignet
Unterschiede bei den engines festzustellen. Die koennte man ja weglassen ?!

Hier z.B. sieht man, wie die engine Bewertung mit Eval-Differenzen vor und nach
dem eigenen Zug aussieht : http://magictour.free.fr/ipma4a.GIF
man koennte die Evalberechnung des Gegners nehmen oder eine eigene Berechnung
auf hoeherer Stufe.
Jetzt koennte man hier die Zuege rausfiltern, wo die Eval-Schwankungen von Stufe zu Stufe
gering sind. Und jeweils Korrelationskoeffizienten berechnen und so die besten Stellungen
fuer Tests finden.

Wir brauchen eine Rangliste der Tests und Leute die Tests testen ...
Parent - By Walter Eigenmann Date 2017-03-21 09:01
Peter Schneider schrieb:
Es ist doch völlig klar, dass eine Teststellungssammlung zumindest zwei Dinge nicht abbildet:
a) Die Zeiteinteilung von Programmen b) Die Art des Zugriffs auf tablesbases

Einverstanden. Dafür kann er den Blick freigeben auf spezifische schachliche Komponenten der Engine-Spielstärken.
Insbesondere wenn man beispielsweise alle Endspiel- und Endspiel-nahe Stellungen des ERET rausfiltern und testen
bzw. bisherige Tests vergleichen würde. Oder wenn man die Taktik-lastigen den eher positionell geprägten Aufgaben
gegenüberstellte. Gäbe natürlich alles keine Ranglisten, aber inhaltliche Indizien.

Peter Schneider schrieb:
Was passiert, wenn man den Eret-Test nicht mit 5s, sondern 50 Sekunden pro Zug, also mit 10facher Bedenkzeit durchführt.

Interessante Frage, habe ich mir noch gar nicht gestellt... Wäre natürlich nicht gerade im Sinne des Erfinders,
weil dann der ERET wohl einfach zu leicht wäre bzw. die Spreu nicht mehr richtig vom Weizen trennte.
Andererseits gebe ich zu, dass meine 5 Sekunden haarscharf am Engine-Stress vorbeischrammen... Vielleicht sind 10 Sekunden
vorläufig noch eine ebenso gute Wahl. Aber andererseits wird das evtl. schon die nächste Engine-Generation lockerer sehen.
Und zweitens generieren die Programme doch schon heute innert Sekunden teilweise ihre 16-22 Halbzüge...

Peter Schneider schrieb:
Ich selbst habe ja in Sachen Computerschach wenige Gewissheiten, - aber zu diesen Gewissheiten gehört,
dass auch heute noch,  die Analysequalität bei 50 Sekunden eindeutig!! besser ist als bei 5 Sekunden.

Dieses "Analysequalität" erinnert mich an uralte Zeiten, als Schachfreund M. Gurevich - ein ums Computerschach durchaus verdienter
und sehr starker Turnier-Schachspieler - in diesem Forum seine umstrittene "Analysefähigkeit" in die Test-Diskussion einführte...
BTW: Damals waren die Diskussionen um das Pro/Kontra Stellungstests noch sehr viel heftiger als heute
Ich altmodischer verbinde allerdings mit dem Begriff "Analyse" u.a. immer eine menschlich-interaktive Komponente und überlasse ihn ungern
der rein maschinellen Abarbeitung - so ausgefeilt inzwischen die Software auch ist (siehe z.B. das neue CB14 oder auch Aquarium).

Gruss: Walter

.
Up Topic Hauptforen / CSS-Forum / Der ERET-Stellungstest im Ranglisten-Vergleich

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill