Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Fishtest-Einzelergebnisse
- - By Benno Hartwig Date 2015-10-19 17:23 Edited 2015-10-19 17:35
Ich habe die Angaben beim Fishtest irgendwie immer noch nicht richtig verstanden.

Ich finde dort z.B.:
LLR: 2.95 (-2.94,2.94) [0.00,4.00]
Total: 21577 W: 3507 L: 3289 D: 14781

und denke "Ja, dass passt!"
es gab einige Siege mehr als Niederlagen. Und dann kann man schon mal schätzen, dass das wahrscheinlich eine Verbesserung ist.


Aber kurz darunter finde ich
LLR: 2.95 (-2.94,2.94) [-3.00,1.00]
Total: 53079 W: 10230 L: 10166 D: 32683

Mehr als 50000 Partien mit nur einem recht kleinen Vorsprung.
Ist das gleichermaßen ein Hinweis auf Verbesserung?? Ne, da muss noch was anderes sein.

Es muss wohl was mit den Zahlen in den eckigen Klammern zu tun haben.
Aber wie hängt das konkret zusammen? Kann es jemand erklären/skizzieren?


Benno
Parent - - By Tom Paul Date 2015-10-19 17:33
Du brauchst bei ~30000 Total bei W etwas mehr als +100 im Vergleich zu L.

Der Test ist z.B. gelb unterscheidet sich aber von anderen gelben Tests dadurch, dass er nicht W = L hat sondern eben viel mehr W als L.
Deshalb sollte so ein Test eigentlich auch akzeptiert werden.
Oder als Combo mit einem anderen guten gelben Test zusammen grün werden.
Seite 12:
http://tests.stockfishchess.org/tests?page=12

28-08-15  sg  flanking_storm  diff 
LLR: -3.90 (-2.94,2.94) [0.00,5.00]
Total: 181510 W: 28519 L: 27993 D: 124998
sprt @ 60+0.05 th 1  LTC: Bonus for a flanking storming pawns pair like e4/h4 against a white king on g1. Base on an old suggestion from the forum.
Parent - - By Anonymous Date 2015-10-19 21:14
Nö.
Auf https://github.com/glinscott/fishtest/wiki/Creating-my-first-test ist doch alles schön erklärt.
Du hast in Deinem Beispiel ein [0.00,5.00], also "Standard test", was bedeutet,
nur wenn es eine echte (Elo-)Verbesserung (mit großer Wahrscheinlichkeit) gibt, wird der Test als bestanden anerkannt.

Im Beispiel von Bennos [-3.00,1.00] handelt es sich um einen sog. No-regression test:
Der Test ist bereits bestanden, wenn es sich nur um eine (wahrscheinlich) unwesentlicher (ELO-)Verschlechterung handelt.

Und dazu darf man halt nicht nur die Differenz W - L sehen, sondern auch die D-Anzahl.
Parent - - By Benno Hartwig Date 2015-10-20 11:44

> Und dazu darf man halt nicht nur die Differenz W - L sehen, sondern auch die D-Anzahl.


und wohl noch mehr die Spieleanzahl insgesamt.
ein "W=30 L=10 D=100" hat vermutlich eine andere Aussagekraft als ein "W=130 L=110 D=100"

Da laufen also verschiedenartige Tests.
Solche, mit denen man echte Verbesserungen erkennen möchte (ggf. neue Ideen, die in die Source wollen)
und solche, mit denen man nur Verschlechterung verhinden möchte (z.B. bei Codebereinigungen)
Irgendwie ausgedrückt durch die Zahlen in den eckigen Klammern.
Thanx (sofern ich es richtig verstand. Nein, auch sonst!)

Benno
Parent - - By Joachim Müller Date 2015-10-22 03:51
Eine knappe Einführung ins Thema gibt

      https://de.m.wikipedia.org/wiki/Sequential_Probability_Ratio_Test.

Bei den Literaturangaben findet sich auch der Klassiker von Abraham Wald, der das Verfahren 1942 begründet hat.
Parent - By Joachim Müller Date 2015-10-22 19:20
Jaja – richtige Mathematik!
Sowas schreckt natürlich ab.
Up Topic Hauptforen / CSS-Forum / Fishtest-Einzelergebnisse

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill