Drawkiller V2.1 (alle Linien 4 Züge kürzer)

By dkappe Date 2019-03-12 22:25

Vielen Dank, Stefan. Sehr nützlich.

By Guenter Stertenbrink Date 2019-03-13 07:24

man kann auch einfach die Rochadeflags in der Ausgangsstellung
aendern , z.B. Schwarz kann nicht kurz rochieren, weiss kann nicht
lang rochieren , das wuerde zudem den weissen Anzugsvorteil
vergroessern (und manche Kiebitze merken's erst gar nicht

(1.Nc3,Nf6,2.Rb1,Rg8,3.Ra1,Rh8,4.Nb1,Ng8)

ich schaetze mal, das waere in Punkto Remisquote und 1-1-Paare
etwa auf dem Niveau der alten SALC Eroeffnungen

Oder Weiss darf am Anfang 2,3,4 mal ziehen

Im Gegensatz zum drawkiller Projekt seh ich kein Problem in der Vergroesserung
des weissen Anfangsvorteils - in Partien von etwa gleich starken engines

By Peter Martan Date 2019-03-13 07:29

Guenter Stertenbrink schrieb:

Im Gegensatz zum drawkiller Projekt seh ich kein Problem in der Vergroesserung
des weissen Anfangsvorteils - in Partien von etwa gleich starken engines

Außer dass du halt doch mit mehr 1:1- Paaren rechnen wirst müssen, vorausgesetzt, du spielst mit zwingendem Farbwechsel jeder einzelnen Stellung x2.

By Guenter Stertenbrink Date 2019-03-13 07:37

Ziel ist, den Vorteil so zu kalibrieren, dass bei gleichstarken engines
weiss 50% gewinnt und 50% remisen

das sollte eigentlich immer moeglich sein - auch noch in 100 Jahren

By Peter Martan Date 2019-03-13 07:41 Edited 2019-03-13 07:45

Guenter Stertenbrink schrieb:

Ziel ist, den Vorteil so zu kalibrieren, dass bei gleichstarken engines
weiss 50% gewinnt und 50% remisen

Stefans Absicht ist das nicht, so wie ich sie verstehe. Wenn du die Remisquote nur dadurch senkst, dass du sie durch 1:1- Paare mit jeweils weißem Gewinn ersetzt, musst du genausoviel Partien spielen, wie bei 100% Remis, also eigentlich unendlich viele, es sei denn, du brichst immer genau vor einem Rückspiel ab, dann würde ich überhaupt zu nur 3 Partien raten, es sei dennn, es war noch kein ganzer weißer Punkt dabei. Um so etwas wie Errorbar müsste man sich bei Elo ja eigentlich gar nicht kümmern, dazu hat der Arpad die Formel erdacht, damit auch schon eine einzelne Partie eine Berechnung möglich macht.

By Guenter Stertenbrink Date 2019-03-13 08:33

50% Wahrscheinlichkeit fuer Gewinn, 50% fuer Remis ,
fuer jede Einzelne Eroeffnung, mein ich natuerlich.

Nicht fuer das gesamte Set.

Das macht dann 50% Remisquote und 50% 1-1-Paare

By Peter Martan Date 2019-03-13 08:35

Guenter Stertenbrink schrieb:

50% Wahrscheinlichkeit fuer Gewinn, 50% fuer Remis ,
fuer jede Einzelne Eroeffnung, mein ich natuerlich.

Nicht fuer das gesamte Set.

Wenn die für jede einzelne Stellung so ist, wie soll sie dann fürs gesamte Set anders sein?

By Guenter Stertenbrink Date 2019-03-13 08:58

ich dachte, du haettest evtl. gedacht, ich haette die 50% nur fuer's gesamte set gemeint.

> Wenn du die Remisquote nur dadurch senkst, dass du sie durch 1:1- Paare mit jeweils weißem Gewinn ersetzt,
> musst du genausoviel Partien spielen, wie bei 100% Remis, also eigentlich unendlich viele, es sei denn,
> du brichst immer genau vor einem Rückspiel ab, dann würde ich überhaupt zu nur 3 Partien raten,
> es sei dennn, es war noch kein ganzer weißer Punkt dabei.

By Florian Wieting Date 2019-03-13 14:02

Guenter Stertenbrink schrieb:

ich dachte, du haettest evtl. gedacht, ich haette die 50% nur fuer's gesamte set gemeint.

Das hätte ich jetzt nicht gedacht, dass du gedacht hättest, er hätte eventuell gedacht, du hättest die 50% nur für's gesamte Set gemeint.

By Stefan Pohl Date 2019-03-13 12:49 Edited 2019-03-13 12:55 Upvotes 1

Peter Martan schrieb:

Guenter Stertenbrink schrieb:

Ziel ist, den Vorteil so zu kalibrieren, dass bei gleichstarken engines
weiss 50% gewinnt und 50% remisen

Das ist genau der Punkt. Deshalb ist es ja die große Kunst, Remisen zu minimieren, ohne großen Anzugsvorteil für eine Farbe dafür zu nutzen (der einfachste Weg, man könnte ja einfach einen Turm vorgeben, schon hat man 0% Remisen), weil ein großer Anzugsvorteil dann eben die Remisen durch 1:1-Paare ersetzt, was für die Ergebnisqualität genauso schlecht ist, wie es Remisen sind. Auch klassische Eröffnungsvorgabesets (FEOBOS z.B.) basieren darum immer darauf, daß die Endstellungen der Eröffnungsvorgabelinien eben keiner Farbe einen zu großen Vorteil aufs Brett stellen. Das wäre ja auch völliger Quatsch (eben weil man dann (fast) nur noch 1:1-Paare bekommt und sich die Elo-Spreizung völlig zerquetscht). Nur schaffen es klassische Eröffnungssets dann eben nicht, die Remisqoute auf ein für die Zukunft des Computerschachs erträgliches Maß zu drücken. Das schafft nur Drawkiller!

By Guenter Stertenbrink Date 2019-03-13 15:15 Upvotes 1

versteh ich nicht, dass das keiner hier versteht.
Turmvorgabe gibt doch nicht 50% Weisssiege sondern fast 100%.
Man muss doch auch bei dem Konzept nicht mehr Partien spielen fuer
gleiche errorbars.

By Stefan Pohl Date 2019-03-13 17:25

Guenter Stertenbrink schrieb:

versteh ich nicht, dass das keiner hier versteht.
Turmvorgabe gibt doch nicht 50% Weisssiege sondern fast 100%.
Man muss doch auch bei dem Konzept nicht mehr Partien spielen fuer
gleiche errorbars.

Naja, wenn du meinst. Dann schlag ich vor du, machst mal ein Eröffnungsset, anstatt immer nur darüber zu reden, was du so alles machen würdest bzw. für gut hältst. Dann mache ich sehr gerne einen Testrun mit meinen Testbedingungen, unter denen ich auch schon Stockfish-Framework Eröffnungen, FEOBOS, Noomen, SALC, Drawkiller getestet habe. Dann sehen wir mal, wie gut die Statistiken bzgl. Remisqoute und Elospreizung, die dein Set erzeugt, so sind... für ein valides Testergebnis, also 1000 Partien, bräuchte ich wenigstens 500 Linien.

By Peter Martan Date 2019-03-13 18:09 Edited 2019-03-13 18:27

Stefan Pohl schrieb:

... für ein valides Testergebnis, also 1000 Partien, bräuchte ich wenigstens 500 Linien.

Naja, siehst du, Stefan, das glaube nun wieder ich nicht wirklich.
Wenn du eh so eine schöne Elospreizung schaffst, wozu musst du dann noch 1000 Partien zwischen je 2 Engines spielen?
Sollten da nicht 200 auch reichen, um in die Errorbar zu kommen?
Ich meine jetzt zwischen z.B. SF und Leela, weil das das Beispiel of interest ist momentan.

Dann brauchst du 100 Stellungen, die wären mit den 5 häufigsten ersten weißen und deren je 5 häufigsten schwarzen Antworten und dem kreuzweisen Rochaderecht- Wegnehmen (je 4 Kombinationen pro Stellung, wenn du immer nur eine Rochadeseite pro Farbe kappst) leicht zu haben.

Ich habe ein Output- Beispiel gebracht oben (zeitlich, räumlich auf der Site mittlerweile eigentlich unten), von 1.e4 e5 mit weißer langer und schwarzer kurzer Rochade gestrichen, da schaut die Eval doch nicht soo schlecht aus?

Aber ok, sagt natürlich noch gar nichts, vielleicht tu ich mir mal selber einen Testrun an, muss ja nicht Leela sein (GPU immer noch nicht erneuert, CPU wär' unfair). Ich könnte z.B. SF und komodo nehmen.

By Stefan Pohl Date 2019-03-13 20:14 Edited 2019-03-13 20:17

Peter Martan schrieb:

Stefan Pohl schrieb:

... für ein valides Testergebnis, also 1000 Partien, bräuchte ich wenigstens 500 Linien.

Weil es bei diesen Eröffnungstestruns nicht darum geht aus einer Errorbar herauszukommen, weil ich hier keine Rangfolge von Engines erstellen will. Sondern ich will messen, wie groß die Remisqoute und die Elospreizung sind. Und bei 1000 Partien geht das mit einer Genauigkeit von etwas über +/-2%, weil man bei 1000 Partien eben eine Errorbar von ca. +/-15 hat (1 Prozent = ca. 7 Elo, also enstprechen +/-15 Elo Errorbar gut 2% Unsicherheit). Bei nur 200 Partien wären es schon ca. +/-5.5%. Das ist viel zu ungenau. Wenn ich nicht weiß, ob eine gemessene Remisqoute nicht auch 5% höher sein könnte, dann brauche ich so einen Test erst gar nicht zu machen.

By Guenter Stertenbrink Date 2019-03-13 18:38 Edited 2019-03-13 18:40

eigentlich sollte eine Eroeffnung reichen. Etwa 1.e4 Nc6 2.d4 Nb8 oder so.

Aber ich hab mal aus meinen (ca 11000) Zufallspartien 714 rausgesucht, die nach 10 Zuegen
evals zwischen 0.8 und 1.2 oder -1.2 und -0.8 haben. (tablet, 5sec)

Um gleichzeitig zu testen bei etwa wieviel eval in Zufallseroeffnungen die 50-50 liegen.

http://magictour.free.fr/ZUF77.PGN

By Guenter Stertenbrink Date 2019-03-14 03:59 Edited 2019-03-14 04:38

mit diesem 714 gefilterten Zufalls-Eroeffnungen auf dem Tablet
mit CfA im Super-Bullet mit 10+0 Sekunden asmfish gegen asmfish :

in den 426 Doppel-Partien mit weissem Vorteil
war der Weissscore 75.8%
und die Remisquote war 32.3%
und es gab 87=20.4% 1-1 Paare

in den 288 Doppel-Partien mit schwarzem Vorteil
war der Weisscore 21.4%
und die Remisquote war 29.5%
und es gab 47=16.3% 1-1 Paare

es gab 5=0.7% Doppelsiege und 40=5.6% mal Sieg+Remis trotz grossem Eroeffnungsnachteil.

Zum Vergleich drawkiller (dk1f) : 39% Remisquote , 37% 1-1 Paare
unter diesen Bedingungen

[ich haette nur die 426 Eroeffnungen mit weissem Vorteil nehmen sollen,
das haette die Auswertung einfacher gemacht . Das wird hiermit nachgeholt :]
http://magictour.free.fr/zuf78.pgn

===================edit=========================
ahhh, ich muss das am Morgen noch mal ueberpruefen
jetzt bekomme ich 51.2% 1-1 Paare und 31% Remisen
btw. asmfish 2018/09/24 gewann mit 4 Elo gegen asmfish 2018/06/16

By Guenter Stertenbrink Date 2019-03-14 07:51

hier die korrigierte Version, Post 119821 jetzt loeschen

mit diesem 714 gefilterten Zufalls-Eroeffnungen (zuf77) auf dem Tablet
mit CfA im Super-Bullet mit 10+0 Sekunden asmfish gegen asmfish :

in den 426 Doppel-Partien mit weissem Vorteil
war der Weissscore 75.8%
und die Remisquote war 32.3%
und es gab 220=51.6% 1-1 Paare

in den 288 Doppel-Partien mit schwarzem Vorteil
war der Weisscore 21.4%
und die Remisquote war 29.5%
und es gab 220=76.4% 1-1 Paare

es gab 5=0.7% Doppelsiege und 40=5.6% mal Sieg+Remis trotz grossem Eroeffnungsnachteil.
asmfish 2018/09/24 gewann mit 4 Elo gegen asmfish 2018/06/16
Ziel ist 50% Remisquote und 50% 1-1 Paare und 75%/25% Weissscore,
also war der Vorteil etwas zu gross bei diesen Bedingungen.
Idealerweise wuerde man die evals ersetzen durch Gewinnprozente, wie bei Lc0.

Zum Vergleich drawkiller (dk1f) : 39% Remisquote , 37% 1-1 Paare
unter diesen Bedingungen

hier ein Set mit 500 Eroeffnungen, evals 0.75-1.21
http://magictour.free.fr/zuf79.pgn

By Stefan Pohl Date 2019-03-14 10:51 Upvotes 1

Hauke und ich haben was am köcheln, daher hab ich momentan keinen Rechner frei. Aber ich mache einen 1000er Testrun, sobald möglich. Aber frühestens ab Mitte kommender Woche. Wenn du das 500er Set bis dahin noch überarbeiten willst, kannst du das also noch gerne machen.

By Guenter Stertenbrink Date 2019-03-14 11:18

OK, ich lasse ein Tablet mit meinen standard 120+1 laufen,
dauert ca. 1 Woche.
Hab' ich bisher nie gemacht, da mir klar war, dass das im
Prinzip eigentlich immer klappen muss mit 50% Remisen
und 50% 1-1 Paare.

Aber eben grosser weisser Vorteil.
Noomen und Pohl und Nickel hatten mehrfach betont, dass sie das nicht wollen...

By Stefan Pohl Date 2019-03-14 12:48

Das bedeutet ja nicht, daß man das nicht mal testen sollte. Mit identischen Testbedingungen zu Drawkiller, SALC, FEOBOS etc. Testruns. Interessant ist das auf jeden Fall.

By Guenter Stertenbrink Date 2019-03-15 13:25 Edited 2019-03-15 13:36

ahh, wieder falsch. Kam mir gleich komisch vor , beide Male 220 1-1-Paare
mit so viel hoeherer Quote bei Schwarz-Vorteil-Eroeffnungen.
(ich dachte schon contempt waer schuld)

Tatsaechlich waren es nur 146 1-1-Paare bei den 288 Schwarz-Vorteil-Eroeffnungen
fuer eine passable Quote von 50.7% (Ziel=50%) , aehnich wie bei den
Weiss-Vorteil-Eroeffnungen.

hier das Bildchen dazu :

http://magictour.free.fr/1-1ER1.GIF

das werd ich dann spaeter vorr. unter gleichem Link mit groesserer Sample ersetzten
ohne diese Post editieren zu muessen

By Peter Martan Date 2019-03-14 08:13 Edited 2019-03-14 08:28

Danke auch dafür, Günter.
Ich bin inzwischen deiner Anregung gefolgt, einfach bei den Fenstrings Rochaderechte zu kappen, außer, dass man solche Partien nur mehr "indirekt verschmelzen kann" (eine in Fritz kopieren und in die andere der selben Ausgangsstellung einfügen), hat das, glaube ich, keinen Nachteil, wenn man die TC- Unterschiede auch ausgleichen will, besonders bei solchen mit Inkrement, muss man halt auch den Zugzähler verstellen.

Ich finde nach wie vor besonders bemerkenswert, dass die Partien trotz des Evalunterschiedes der beiden Seiten im Bereich von bis zu einem ganzen Bauern (bei manchen), die 1:1- Paare dafür erstaunlich niedrig bleiben.

Ich hatte bei einem ganz kurzen Run von 32 Partien aus 16 Stellungen (e4+e5, e4+c5, d4+d5, d4+Sf6) nur 3 solche 1:1- Paare zwischen CFish und komodo, eines davon lustiger Weise für die schwarze Seite.

Aus 1.e4 c5 mit gekapptem kurzem weißem und ebensolchem langem schwarzem Rochaderecht (also dem Springer- Turm- Tanz für Weiß auf der Königssseite und vize versa auf der schwarzen Damenseite) hat sowohl CFish als auch komodo einen ganzen schwarzen Punkt gemacht aus 4'+2".

Im Vergleich zu dem, was du in deinen Zufallspartien hast, spreizt das die Elo halt schon (wie bereits mehrfach erwähnt) noch einmal ebenso deutlich wie die Senkung der Remisquote an sich. Man muss ja auch bedenken, dass diese 1:1-Paare zwar in die Senkung der Remisquote eingehen, aber eben nur scheinbar. Man muss sie einfach wieder zu den Remis dazurechnen, um die reale Remisquote zu bekommen.

Dass das ein enormer Vorteil der Drawkiller ist (wenn's denn bei den entsprechenden Engines auch wirklich so ist, wenn der Abstand in der Spielstärke zu groß wird, klappt's wahrscheinlich nicht mehr so gut), glaube ich schon.

Also zum Vergleich von eng beisammen liegenden Engines (elo-wise) ein besonderes Testset.

Nicht kann ich umhin, neuerlich anzumerken, dass gerade diese Besonderheit halt auch besondere Elo produziert. Sie zu spreizen kann nur heißen, die absolute Höhe der ermittelten Elo ist nicht übertragbar und die Abstände zwischen den Engines infolgedessen natürlich auch nicht, umso weniger vermutlich, je mehr Engines mit umso mehr Unterschieden (nicht nur aber wieder auch einfach elo-wise) mitspielen.

Just my two cents.
Ich hoffe, Hauke Lutz ist mit meiner Expertise wieder zufrieden.

By Guenter Stertenbrink Date 2019-03-14 08:41

jaja, die Elo ist irgendwie anders, spezielle Bedingungen. Aber wieviel anders, wie gross ist der Effekt ?
Ich bin der Meinung es passt trotzdem noch ganz gut.

Bzgl. der Rochaderechte - sowit ich erinnere hab ich nur versucht entweder alle Rochaderechte zu kappen
(nocas) oder weiss-kurz und schwarz-lang zu kappen in der Ausgangsstellung (opcas).
Der Effekt war zwar merkbar, aber geringer als bei SARS.

Das jetzt zu kombinieren mit bestimmten anderen Anfangszuegen -wie Sizilianisch -
konnte eine neue gute Idee sein ... aber an die neuen drawkillers kommt man
wohl kaum heran.

By Stefan Pohl Date 2019-03-13 17:32 Edited 2019-03-13 17:41 Upvotes 1

Guenter Stertenbrink schrieb:

Ziel ist, den Vorteil so zu kalibrieren, dass bei gleichstarken engines
weiss 50% gewinnt und 50% remisen

das sollte eigentlich immer moeglich sein - auch noch in 100 Jahren

Ein Hoch auf den Konjunktiv - dann muß man es nicht selbst machen, sondern kann immer nur drüber reden. Bequem.

Davon abgesehen, halte ich dieses Konzept für nicht praktikabel, weil Remisqouten nicht konstant bleiben. Sie werden immer mit mehr Bedenkzeit und/oder schnellerer Hardware und/oder stärkeren Engines weiter ansteigen. Das passiert auch bei Drawkiller (nur eben auf niedrigerem Start-Niveau). Das passiert IMMER. Insofern könnte man ein solches Eröffnungs-Set immer nur am Ist-Zustand des Computerschachs und der Hardware, die der Ersteller daheim hat, kalibirieren. Schon mit der nächsten Rechnergeneration, der nächsten Enginegeneration oder deutlich längeren Bedenkzeiten (TCEC zum Beispiel), ginge diese Balance von 50% Weißsiegen und 50%-Remisen schon nicht mehr auf.

By Guenter Stertenbrink Date 2019-03-13 18:33

das passiert doch nicht bei Stellungen wo weiss einen grossen Vorteil hat.

Mehr Rechenpower kann dann hoechstens dazu fuehren dass aus 50%:50% 40% zu 60%
werden oder 60%:40% oder so.
Dann passt man eben an und waehlt mit der groesseren Rechenpower
neue Anfangspositionen die wieder bei etwa 50:50 liegen

By Peter Martan Date 2019-03-13 08:06 Edited 2019-03-13 08:37

Guenter Stertenbrink schrieb:

Mal von den sophisticated Überlegungen weiter unten abgesehen, glaube ich allerdings eigentlich nicht, dass das Rochaderecht einfach abzuwählen im Fenstring, den Anzugsvorteil schon prinzipiell zu stark verringern müsste, wenn man einfach die 3-6 häufigsten ersten weißen Züge (e4, d4, c4, vielleicht noch Sf3, g3, b3) mit den jeweils 3-6 häufigsten Antworten und den jeweils kreuzweise gekappten Rochaderechten kombinierte, käme man so auf ca. 50-100 Ausgangsstellungen (9-36 x4, oder?) also mir würde das für ein Testset, mit dem ich nicht abertausende Partien spielen will pro Engine, reichen.
Muss mal ein bisschen mit den Evals rumprobieren.

Edit: Naja, gleich mal die naheliegendste erste Stellung nach 1.e4 e5, wenn Weiß nicht lang und Schwarz nicht kurz rochieren darf,

Analysis by Cfish 110319 64 POP N:

2.Sc3 Sf6 3.Lc4 Sc6 4.d3 h6 5.Sf3 d6 6.0-0 Sa5 7.b3 g5 8.Le3 Le7 9.d4 Sxc4 10.bxc4 Sg4 11.Sd5 c6 12.Sxe7 Dxe7 13.Ld2 Sf6 14.Te1 Lg4 15.Lc3 Tg8 16.h3 Lxf3 17.Dxf3 g4 18.De3 gxh3 19.Dxh3 exd4 20.Lxd4
+/- (0.88) Tiefe: 35/50 00:06:08 6860MN

Mit leerem Hash gestartet, 24 Threads von 12x3GHz, 16G Hash, keine Syzygys:

Aber es ist immerhin wirklich grundstellungsnah, ob Weiß das schon gewonnen hat, scheint eher zweifelhaft, LC0 müsste von seinem internen Eröffnungsbuch, genannt NN, fast soviel profitieren wie bei 1.e4 e5 regulärer Rochaderechte (das ist natürlich die Frage

), aber gerade wenn das so wäre, hätte man natürlich dadurch beim Testen wieder das momentane Hauptproblem: es kommt umso mehr auf den Engine- Pool an, ob mehr A-Bs oder mehr NNs mitspielen.

By Guenter Stertenbrink Date 2019-03-13 08:21 Edited 2019-03-13 08:38

Rochaden voellig abwaehlen - das gab bei mie eine erhoehte Remisquote und mehr 1-1 Paare
nocas-1
whitescore = 53.4%
drawrate = 80.8%
1-1 pairs = 332/500 = 66.4%
tablet,120+1,asmfish Oct.2017
-------------------------------------

...
opcas-1 (weiss lang,schwarz kurz) war auch nicht viel besser, seh ich gerade
weiss kurz,schwarz lang sollte jedoch besser sein --- eval >0.80 hattest du oben

By Peter Martan Date 2019-03-13 08:33

Guenter Stertenbrink schrieb:

Rochaden voellig abwaehlen - das gab bei mie eine erhoehte Remisquote und mehr 1-1 Paare

Du hörst nicht zu, das ist der schlimmste Fall, was die Partiezahlen angeht, um "die Errorbar zu quetschen" = "die Elo zu spreizen".

Die Anführungszeichen sollen bedeuten, dass das höchstens für den nach wie vor hartnäckig postulierten Fall, dass die Performance in Elo umzurechnen sei, und man dann, mit der linken Hand ins rechte Knie, eine Elo- Errorbar zu berücksichtigen habe. (Du Statistiker du: wäre es nicht statistisch korrekter, eine Formel zu verwenden, die der Computerschach- Merkmalsdifferenz entspräche? Genau den Variablen, auf die es dabei ankommt? Mach doch bitte endlich eine ordentliche Varianzanalyse, damit wir wenigstens mal wissen, was für eine Formel besser wäre als die doofe nach Elo, die für Menschen und wenig Partien gedacht war und ist!)

By Guenter Stertenbrink Date 2019-03-13 08:41

ich weiss nicht was du immer gegen Elo hast. Funktioniert doch ganz gut ?!
Siehe die Ratinglisten. Naja, NNs sind etwas anders, da haengt es stark von der Bedenkzeit ab.
Aber sonst ?! hast du ein konkretes Beispiel, wo Elo nicht klappt ?

By Peter Martan Date 2019-03-13 09:03 Edited 2019-03-13 09:13

Guenter Stertenbrink schrieb:

Naja, NNs sind etwas anders, da haengt es stark von der Bedenkzeit ab.
Aber sonst ?! hast du ein konkretes Beispiel, wo Elo nicht klappt ?

Du meinst das rhetorisch, nachdem du dir zuerst selbst die momentan aktuellste Antwort gegeben hast, ok., ich rede dann mit dir einfach so weiter wie mit Benno in solchen Fällen, der für mich der Meister in rhetorischen Fragen schlechthin ist.

Elo klappt, jede andere Maßzahl hätte im grundlegenden Problem der Intransitivität dasselbe zu leisten, wenn's ums Design der Statistik geht. Wieviele Partien du aber für genau welchen Testfall (Engine- Pool, vor allem in der Stärke- Range der Teilnehmer, jetzt zusätzlich in der Programm- Art "AI" und "A-B") wirklich für eine definierte Power, für ein Konfidenz- Intervall brauchst, hängt davon ab, wie du die Statistik berechnest.
Ob du von einer Normverteilung überhaupt ausgehen kannst, ob die Standardabweichung überhaupt in allen betrachteten Gruppen gleich ist, ob die Variablen voneinander abhängig oder unabhängig sind, usw., usf.)

Elo wird deshalb verwendet, weil man hartnäckig immer weiter so tun will, als ob das mit dem Maß, das an menschliche Schachspieler angelegt wird (natürlich auch bei denen je nachdem, ob's Fern- oder Nahschach ist, und in welcher Spielstärkegruppe untereinander überhaupt direkt gegeneinander angetreten werden darf...) noch irgendwas zu tun hätte.

Hat es nicht, weiß man längst, wie auch immer du im Computerschach weiter messen und zählen willst, dass die Elo, die du im Blitzschach von der Grundstellung aus LC0 gegen SF allein ausspielen lässt, nichts mehr mit den Elo, die du einen bunten Engine- Pool einer definierten Stärkerange mit einem bestimmten Eröffnungstestset deiner Wahl mit 20 NN- Engines und 20 SF- artigen Engines mit langen TCS ausspielen lässt, weißt du und ich und die meisten Anderen, die sich damit beschäftigen.
Was aber keiner weiß, ohne es zuerst mal wieder einfach auszuprobieren mit Unmengen von Partien, ist, wieviele Partien werde ich vermutlich brauchen, um 95% Konfidenz zu haben.

Wusste ich bei anderen Fragen mit mehr Relevanz, die man nicht einfach mal eine Weile ausprobieren kann, um dann drauf zu kommen, das Design ist einfach Sch...lecht, fangen wir von vorne an. Und dann ging man eben doch wieder lieber vorher zum Statistiker, der einem das dann ausgerechnet hat und auch noch gleich die richtige Formel dazu gesagt.

Nun könnte man dann wieder mal, um den unnötig viel strapazierten Vergleich mit dem halbleeren Glas neuerlich zu strapazieren, natürlich sagen, so what, klappt ja trotzdem, man könnte aber auch sagen, man gibt sich einer Elosion hin.

Illusionen müssen nicht schaden, in unserem Fall machen sie aber die Berechnung einer Errorbar für eine bestimmte Partienzahl unnötig kompliziert, weil immer wieder Viele glauben, man müsste die nach Elo einschätzen, die von anderen Anwendungsfällen 1:1 übernommen werden und wundert sich dann, dass man bei entsprechend weit auseinander liegenden Engines in ihrer Spielstärke und mit entsprechend stark eine Seite bevorteilenden Teststellungen, viel weniger bis gar keine Partien braucht, weil man schon am Output sieht, die eine Engine findet einen "Lösungszug", die andere nicht. Oder auch nur, die eine Engine hat die korrekte +- Eval, die andere hält es fälschlich für Remis.
Sowas brauchst du nicht ausspielen zu lassen, oder, wenn du's tust, brauchst du dich nicht zu wundern, dass die Ergebnisse genau so falsch sein können wie die Evals.

By Guenter Stertenbrink Date 2019-03-13 09:50

bisher wunder ich mich hoechstens, wie _gut_ z.B. die Noomen und drawkiller
Eroeffnungsergebnisse mit den Elos uebereinstimmen
----------------------------
nicht rhetorisch , nenne eine AB engine , deren Elo deiner Meinung nach nicht stimmt

By Peter Martan Date 2019-03-13 12:04 Edited 2019-03-13 12:08

Ok, du siehst das Glas gerne halbvoll.

Der Witz für mich ist, dass es mathematisch absolut keine Rolle spielt, ob halbvoll oder halbleer, die Info ist, was das Maß angeht, einfach nur "halb".

Alles andere ist sinnloses Aneinandervorbeireden, es sei denn, man will tatsächlich emotionale Inhalte übermitteln und nicht einfach überprüfbare Information, dann wäre aber Versmaß und Reim vielleicht noch die bessere Methode, sich verständlich zu machen, über Meßwerte bräuchte man dann hingegen weniger zu diskutieren.

Jede Elo einer A-B-Engine stimmt, wenn du sie gegen eine NN- Engine spielen lässt, nur so gut, wie die NN-Elo stimmt.
Diese und jene ist und bleibt daher relativ.
"Stimmt" ist relativ richtig oder relativ falsch. Der Wetterbericht stimmt auch, wenn der Wind aus der vorhergesagten Richtung bläst, will man dann noch Temperatur, Niederschlagswahrscheinlichkeit und Windstärke in einem bestimmten räumlichen und zeitlichen Rahmen, wird's mit "stimmt" schwierig. Beim Wetterbericht und bei den Elo.

By Stefan Pohl Date 2019-03-13 12:32

Das haben Hauke und ich vor Drawkiller schon mal probiert. Indem wir mit (z.B.( 1.Sh3, 2.Tg1, 3.Th1, 4.Sg1)) Rochaderechte gezielt gesperrt haben, sodaß nur noch SALC-Rochaden möglich (eine Farbe konnt nur noch kurz, die andere dann nur noch lang rochieren) waren. Das hat aber nicht gut funktioniert. Zwar sanken die Remisqouten schon, aber bei weitem nicht so stark, wie jetzt mit Drawkiller und viele Engines (auch Top-Engines!) haben lieber gar nicht rochiert, als lang zu rochieren, wenn man ihnen die kurze Rochade gesperrt hatte.

By Stefan Pohl Date 2019-03-13 12:44

Guenter Stertenbrink schrieb:

Im Gegensatz zum drawkiller Projekt seh ich kein Problem in der Vergroesserung
des weissen Anfangsvorteils - in Partien von etwa gleich starken engines

Wenn die Vergrösserung des weißen Anzugsvorteils für dich kein Problem ist, dann gib doch einfach Weiß in deinen Eröffnungsstellungen einen Turm vor. Schon hast du 0% Remisen...das ist doch sooo einfach...

By Hauke Lutz Date 2019-03-13 18:39

Es scheint, als hätten wir uns in den letzten Jahren sehr viel überflüssige Arbeit gemacht.
Wir hätten einfach nur Peter Martan um eine Expertise bitten müssen

By Peter Martan Date 2019-03-13 19:22

☺️

By Hauke Lutz Date 2019-03-13 19:32

ohne Worte...