Neuer Stockfish +5 Elo Patch

By Benno Hartwig Date 2013-08-26 07:35

[quote="Patrick Götz"]Ein starker neuer Stockfish Patch ist in der Pipeline, nach 11.349 Partien liegt er bei +5.79 Elo:[/quote]Super!!

Benno
Ich erinnere mich gerad an alte Physikexperimente, bei denen ich mit dem Lineal eine Größe ausgemessen habe ("Aha: 3,7 cm"), um dann nach etwas Rechnung zu verkünden, dass die eigentlich gesuchte Größe genau "2,75523preriode3" ist.

By Roland Riener Date 2013-08-26 09:01

Benno Hartwig schrieb:

Zitat:

Ich erinnere mich gerad an alte Physikexperimente, bei denen ich mit dem Lineal eine Größe ausgemessen habe ("Aha: 3,7 cm"), um dann nach etwas Rechnung zu verkünden, dass die eigentlich gesuchte Größe genau "2,75523preriode3" ist.

Mein Schwiegervater war Bautechniker aus der Rechenschieberzeit. Gelegentlich erzählte er die Anekdote, wie ein Kollege 2 x 2 (oder so ähnlich) auf dem Rechenschieber ermittelte und auf 3,99 kam.

Bei der Gelegenheit: Ich lese hier immer wieder, wie viele zig-tausende Partien notwendig seien, um auf ein exaktes Rating zu kommen. Exakt aber nur bezogen auf die jeweilige Parametereinstellung.

Bei den menschlichen Spielern ist man da nicht so zimperlich, da genügen auch 10 - 20. Und Schwankungen von Turnier zu Turnier oder von einem Stichtag zum andern sind normal, Ivanchuk hüpft problemlos 50 Punkte auf und ab.

Roland

By Benno Hartwig Date 2013-08-26 13:05

[quote="Roland Riener"]Bei den menschlichen Spielern ist man da nicht so zimperlich...[/quote]Da versucht man dann aber auch nicht zu der Aussage zu kommen "Er hat die Spielstärke xyz" sondern sieht die ELO-Zahl eher einfach als Zusammenfassung seiner letzten tatsächlichen sportlichen Erfolge. Was soll man auch sonst machen.
Benno

By Klaus Meier Date 2013-08-26 08:43

[quote="Patrick Götz"]
Ein starker neuer Stockfish Patch ist in der Pipeline, nach 11.349 Partien liegt er bei +5.79 Elo:

ELO: 5.79 +-3.7 (95%) LOS: 99.9%
Total: 11349 W: 1995 L: 1806 D: 7548
[/quote]

Die Steigerung von 5.79 ist doch noch unter der 2sigma-Grenze (Erkennungsgrenze) . Also ist keine Verbesserung erkennbar !

Hinweis:
Aus der Messtechnik gibt es die Begriffe:
Erkennungsgrenze = 2*Standardabweichung
Nachweisgrenze=3*Standardabweichung

Hier wird die Standardabweichung mit +-3.7 angegeben
2*3.7=7.4 ==> 5.79 keine Verbesserung erkennbar !
3*3.7=11.1 ==> 5.79 demnach ist erst recht keine Verbesserung nachgewiesen !
Einen brauchbaren Messwert erhält man jedoch erst dann, wenn der Messwert größer ist als 9*Standardabweichung.

Um eine Verbesserung mit dieser Methode wenigstens als nachgewiesen anführen zu können, ohne einen brauchbaren Messwert schonnennen zu können, sollte also die ELO-Steigerung mind. 11.1 Punkte sein.

5.79

Ebenso gut kannst du NULL schreiben das sagt in diesem Falle das gleiche aus.
Klaus

By Benno Hartwig Date 2013-08-26 22:10

[quote="Klaus Meier"]Hier wird die Standardabweichung mit +-3.7 angegeben[/quote]Ist das so?
Woher weißt du das?
Benno

By Klaus Meier Date 2013-08-27 02:01

[quote="Benno Hartwig"]
[quote="Klaus Meier"]Hier wird die Standardabweichung mit +-3.7 angegeben[/quote]Ist das so?
Woher weißt du das?
Benno
[/quote]

Das kenne ich so, wenn geschrieben wird +-3.7 , dann ist mit +-3.7 die Standardabweichung (1σ = 3.7) gemeint.
Klaus

Ps.:
In dem LeitBeitrag ganz oben ist allerdings ein Zusatz (95%) angebracht (ELO: 5.79 +-3.7 (95%)) was möglicherweise andeuten soll,
das nicht 1σ, sondern 2σ gemeint ist. Was der weitere Zusatz (LOS:99.9%) bedeuten soll, erschliesst sich mir dann selbst nach 2X Hingucken nicht mehr.
Falls etwas übersehen oder falsch interpretiert wurde, dann bitte erklären, was diese ganzen (mir recht unüblich erscheinenden) Zusätze zu den statistischen Angaben bedeuten sollen.

By Benno Hartwig Date 2013-08-27 05:04

[quote="Klaus Meier"]Das kenne ich so, wenn geschrieben wird +-3.7 , dann ist mit +-3.7 die Standardabweichung (1σ = 3.7) gemeint.[/quote]Ich (dass ich Statistik hörte ist Jahrzehnte her) meinte, so wird bei Ratinglisten ausgedrückt, dass das 95%-Intervall die Breite 2*3.7 hat (was sollte sonst auch eine Standardabweichung mit einem '+-' davor sein?).
Soweit ich mich erinnere, ist 3,7 dann ungefähr 2* die Standardabweichung. Richtig?
Und damit wäre 5,79 größer als 2*Standardabweichung und auch größer als 3*Standardabweichung.

Benno

By Klaus Meier Date 2013-08-27 06:41

[quote="Benno Hartwig"]
[quote="Klaus Meier"]Das kenne ich so, wenn geschrieben wird +-3.7 , dann ist mit +-3.7 die Standardabweichung (1σ = 3.7) gemeint.[/quote]Ich (dass ich Statistik hörte ist Jahrzehnte her) meinte, so wird bei Ratinglisten ausgedrückt, dass das 95%-Intervall die Breite 2*3.7 hat (was sollte sonst auch eine Standardabweichung mit einem '+-' davor sein?).
Soweit ich mich erinnere, ist 3,7 dann ungefähr 2* die Standardabweichung. Richtig?
Und damit wäre 5,79 größer als 2*Standardabweichung und auch größer als 3*Standardabweichung.

Benno
[/quote]

Geht mir ebenso. Seit meiner letzten Statistik Vorlesung sind ebenfalls schon einige Jahrzehnte vergangen. Allerdings war ich eher recht weit gekommen mit solchen Sachen.
So das ich das sicher noch Stimmig in Erinnerung habe. Also wenn nichts weiter angegeben ist, dann bedeutet z.b. +-3.7 eine Standardabweichung von 1sigma.
+-1sigma hat eine Intervalbreite von recht genau 68% (es fallen 68% aller Fälle inerhalb dieses Intervall) Ein solches Testergebnis wird in der Regel nicht als signifikant angesehen (nicht genug aussagekräftig angesehen). Allerdings würde sich eine Intervallbreite von ca. 95% tatsächlich auf 2sigma beziehen, sofern es denn richtig errechnet und auch stimmig angegeben wurde.
Meine Vermutung inzwischen, es wurde tatsächlich die Standardaweichung 1sigma bestimmt und einfach 95% dahinter geschrieben. Was dann allerdings wirklich falsch wäre.
Klaus

By Benno Hartwig Date 2013-08-27 07:46 Edited 2013-08-27 07:54

[quote="Klaus Meier"]Meine Vermutung inzwischen, es wurde tatsächlich die Standardaweichung 1sigma bestimmt und einfach 95% dahinter geschrieben. Was dann allerdings wirklich falsch wäre.[/quote]Ich hatte solch eine Angabe +-3,7 immer verstanden als: Das 95%-Intervall hat die Breite 7,4 !
Dann wäre die Standardabweichung ungefähr 1,85,
und die hier so selbstbewusst formulierten Anforderungen für Erkennung und Nachweis wären von Anfang an erfüllt.

BTW: '+-' für die Angabe einer Standardabweichung, kann doch eigentlich nur Quark sein, oder?
BTW: Dass nur 95% und 99% als relavante Schwellwerte für die Wahrscheinlichkeiten anzusehen sind, ist auch nicht in Stein gemeißelt.

Benno

By Klaus Meier Date 2013-08-27 08:52

[quote="Benno Hartwig"]
[quote="Klaus Meier"]Meine Vermutung inzwischen, es wurde tatsächlich die Standardaweichung 1sigma bestimmt und einfach 95% dahinter geschrieben. Was dann allerdings wirklich falsch wäre.[/quote]Ich hatte solch eine Angabe +-3,7 immer verstanden als: Das 95%-Intervall hat die Breite 7,4 !
Dann wäre die Standardabweichung ungefähr 1,85,
und die hier so selbstbewusst formulierten Anforderungen für Erkennung und Nachweis wären von Anfang an erfüllt.

BTW: '+-' für die Angabe einer Standardabweichung, kann doch eigentlich nur Quark sein, oder?
BTW: Dass nur 95% und 99% als relavante Schwellwerte für die Wahrscheinlichkeiten anzusehen sind, ist auch nicht in Stein gemeißelt.

Benno
[/quote]

Lies einfach mal auf WIKIPEDIA nach, da steht es richtig.
Das ist kein Quark.
Ein Messwert (Mittelwert) wird üblicherweise so angegeben mit z.b. : M +-sigma
wobei 68,3% der Realisierungen (Fälle) in diesem Intervall um den Mittelwert liegen.

Das ist dort auf WIKIPEDIA auch so richtig erklärt, wie ich es dir hier mitgeteilt hatte.
==> http://de.wikipedia.org/wiki/Standardabweichung

In Stein ist natürlich nix gemeisselt..
Natürlich kannst du auch was völlig unübliches hier für deine Ergebnisse aus Schachcomputerspielen definieren, aber die Ergebnisse deiner Tests werden dann wohl kaum von einem größeren Kreiss (auch ausserhalb des kleinen Kreises der Schachcomputerentusiasten) ernst genommen werden können. Du siehst das ja auch schon an den vielen belustigten Kommentaren der Leser hier im Forum, das dein Ergebnis offenbar nicht besonders ernst genommen wird.

Guck dir das mal genauer noch an :
Zitat aus WIKIPEDIA:
Aus der Tabelle der Standardnormalverteilung ist ersichtlich, dass für normalverteilte Zufallsgrößen

68,3 % der Realisierungen im Intervall µ ± sigma,
95,4 % im Intervall µ ± 2sigma und
99,7 % im Intervall µ ± 3sigma

liegen. Da in der Praxis viele Zufallsgrößen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So lässt sich beispielsweise sigma als die halbe Breite des Intervalls schätzen, ... etc...
ZITAT ENDE

@Frank Rahde : Stammposterantrag dauert noch etwas. Wede wohl doch lieber nicht mehr allzuviel hier lesen und kommentieren, andernfalls könnte ich vermutlich 24 Stunden am Tag mit Korrekturlesen und Richtigstellung statistischer Rechenfehler der Schreiber hier opfern. Das mag ich mir wirklich nicht antun.

Grüße
Klaus

By Michael Scheidl Date 2013-08-27 12:17

Zitat:

Wede wohl doch lieber nicht mehr allzuviel hier lesen und kommentieren, andernfalls könnte ich vermutlich 24 Stunden am Tag mit Korrekturlesen und Richtigstellung statistischer Rechenfehler der Schreiber hier opfern.

Schade; ich und mehrere andere könnten sicher damit leben wenn diese Statistikfehler nicht korrigiert sondern ignoriert werden, denn sie fallen uns eh nicht auf.

Aber Beiträge von jemandem der auch mehr schachbezogen so Interessantes einbringen kann wie Du, werden bestimmt gerne gelesen.

By Klaus Meier Date 2013-08-27 13:41

[quote="Michael Scheidl"]

Zitat:

Schade; ich und mehrere andere könnten sicher damit leben wenn diese Statistikfehler nicht korrigiert sondern ignoriert werden, denn sie fallen uns eh nicht auf.

Aber Beiträge von jemandem der auch mehr schachbezogen so Interessantes einbringen kann wie Du, werden bestimmt gerne gelesen.

Hi Michael,
Hab einen Stammposter Antrag schon gestellt. Wird von Frank wohl noch begutachtet.
Aus der Computerschachstatistik halte ich mich dann wohl besser raus und ignoriere möglich Fehler die mir auffallen dann einfach, so wie du es anrätst.
Direkt auf das Schachspiel bezogene Beträge sind mir auch viel lieber, als an einer Statistik herumzukauen. Diesen enormen Aufwand anhand tausender virtueller Spiele einen ELO Zuwachs eines bestimmten Programms auf +-3.7 Punkte nachweisen zu wollen, erscheint mir doch sehr überzogen. Ignorieren solcher fragwürdigen Ergebnisse erscheint mir eher produktiv.
Klaus

By Frank Rahde Date 2013-08-27 14:25

Super, Klaus. Ich kann dich eh erst heute abend als Stammposter einrichten, bis dahin Verhalten wie bisher

By Benno Hartwig Date 2013-08-27 12:57

[quote="Klaus Meier"]Ein Messwert (Mittelwert) wird üblicherweise so angegeben mit z.b. : M +-sigma[/quote]Wenn Sigma als Teil in einer Rechnung eingeht, wird das (die beiden Operatoren) so beschrieben, ja.
Wenn der Zahlenwert von Sigma benannt wird, wird sich er nicht +-3,7 geschrieben. Sigma ist immer eine nichtnegative Zahl. Aber das weißt du ja genau so genau wie ich.

Ansonsten können wir hier aufhören, denn unsere Meinungsverschiedenheit beruht nur auf der Interpretation solcher Werte wie hier +-3,7.
Ist das die halbe Intervalbreite (meine Meinung nach jahrelanger Verfolgung der Szene) oder ist 3,7 die Standardabweichung (wohl deine Meinung, vermutlich durch Analogiebildung zu ggf. gängigen Schreibweisen in Stochastik und Statistik.)
Und das können uns letztlich nur die Leute sagen, die die Zahl zur Verfügung stellen, die Ratinglistenbetreiber.

Benno

By Klaus Meier Date 2013-08-27 16:40

[quote="Benno Hartwig"]
[quote="Klaus Meier"]Ein Messwert (Mittelwert) wird üblicherweise so angegeben mit z.b. : M +-sigma[/quote]Wenn Sigma als Teil in einer Rechnung eingeht, wird das (die beiden Operatoren) so beschrieben, ja.
Wenn der Zahlenwert von Sigma benannt wird, wird sich er nicht +-3,7 geschrieben. Sigma ist immer eine nichtnegative Zahl. Aber das weißt du ja genau so genau wie ich.

Ansonsten können wir hier aufhören, denn unsere Meinungsverschiedenheit beruht nur auf der Interpretation solcher Werte wie hier +-3,7.
Ist das die halbe Intervalbreite (meine Meinung nach jahrelanger Verfolgung der Szene) oder ist 3,7 die Standardabweichung (wohl deine Meinung, vermutlich durch Analogiebildung zu ggf. gängigen Schreibweisen in Stochastik und Statistik.)
Und das können uns letztlich nur die Leute sagen, die die Zahl zur Verfügung stellen, die Ratinglistenbetreiber.

Benno
[/quote]

Ursprünglich hatte doch Patrick Götz diese erklärungsbedürftigen Zahlen hier im Forum zur Verfügung gestellt. Patrick kann oder will wohl nichts eigenes zur Klärung beitragen ? Ist schon merkwürdig. Klaus

By Klaus Meier Date 2013-08-27 07:04

[quote="Benno Hartwig"]
Ich (dass ich Statistik hörte ist Jahrzehnte her) meinte, so wird bei Ratinglisten ausgedrückt, dass das 95%-Intervall die Breite 2*3.7 hat (was sollte sonst auch eine Standardabweichung mit einem '+-' davor sein?).
Soweit ich mich erinnere, ist 3,7 dann ungefähr 2* die Standardabweichung. Richtig?
Und damit wäre 5,79 größer als 2*Standardabweichung und auch größer als 3*Standardabweichung.

Benno
[/quote]

Nein ! Ein 95% Intervall bezieht sich auf die Breite +-2*3.7 (beachte das +- !) und hat die Breite 4sigma.
Klaus

By Frank Rahde Date 2013-08-27 07:22

@Klaus Meier: Bitte stelle einen Stammposterantrag, das aufwändige Freischalten deiner vielen Gastpostings durch uns erübrigt sich dann. Danke + Gruß, Frank (Admin)

By Benno Hartwig Date 2013-08-27 10:47

[quote="Klaus Meier"]
[quote="Benno Hartwig"]
Ich (dass ich Statistik hörte ist Jahrzehnte her) meinte, so wird bei Ratinglisten ausgedrückt, dass das 95%-Intervall die Breite 2*3.7 hat (was sollte sonst auch eine Standardabweichung mit einem '+-' davor sein?).
Soweit ich mich erinnere, ist 3,7 dann ungefähr 2* die Standardabweichung. Richtig?
Und damit wäre 5,79 größer als 2*Standardabweichung und auch größer als 3*Standardabweichung.
[/quote]Nein ! Ein 95% Intervall bezieht sich auf die Breite +-2*3.7 (beachte das +- !) und hat die Breite 4sigma.[/quote]
Was soll denn eine Breite mit einer '+-'-Angabe sein, Klaus?
Du vermutest, wenn ich dich recht verstehe, ein Intervall der Breite 4*3,7 (richtig?).
Ich denke, es ist hier ein Intervall der Breite 2*3,7 gemeint gewesen.
Durch Weiterdiskutieren und ultimatives "Nein!"-Schreiben werden wir das nicht klären können, wir werden ggf. nachfragen müssen bei denjenigen, die diese Zahl bereitstellten, was diese Zahl beschreiben soll.
Da diese Schreibweise bei allen Ratinglistenbetreibern gängig ist, wäre solch eine Klärung sehr wichtig, sonst missverstehen wir die Tabellen.
Mein Tip (nein: meine Überzeugung seit Jahren. Wirklich falsch?): dieser Wert 3,7 beschreibt die halbe Intervallbreite und ist damit 2*sigma.

Benno

By Klaus Meier Date 2013-08-27 11:38

[quote="Benno Hartwig"]
dieser Wert 3,7 beschreibt die halbe Intervallbreite und ist damit 2*sigma.

Benno
[/quote]

Mit dem Wert 3.7 ist doch sicher wie üblich die einfache Standardabweichung gemeint und damit 1*sigma das entspricht der halben Intervallbreite einer Standard Normalverteilung
(z.B. die rechte Seite der Glockenkurve.) soweit ist das doch wohl klar. Wie kommst du auf 2*sigma ?
guck dir das mal genau an. Hier ist ein korrektes Bildchen dazu auf WIKIPEDIA zu finden:

Klaus

By Benno Hartwig Date 2013-08-27 12:20

[quote="Klaus Meier"]Mit dem Wert 3.7 ist doch sicher wie üblich die einfache Standardabweichung gemeint...

Das sagst du so frei und unbekümmert.
Eine 'amtliche' Erklärung direkt bei den Ratinglistenbetreibern, die diese Zahlen zur Verfügung stellen fand ich nicht.
Aus den jahrelangen Diskussionen nahm ich aber heraus, dass damit mit diesen angegebenen Werten (z.B. +-3,7) die halbe Intervallbreite solch eines 95%-Intervalls gemeint ist. Mit '3000 +- 10' wird dann beschrieben, dass das Intervall mit den Grenzen 2990 und 3010 geeint ist. (Nicht wirklich unmöglich dass ich mich irre. Aber ich wäre schon sehr überrascht!)
Dann wäre Sigma die Hälfte davon.
Für die Angabe der Standardabweichung wäre das vorangestellte +- ja auch unsinnig.

Zitat:

(z.B. die rechte Seite der Glockenkurve.) soweit ist das doch wohl klar. Wie kommst du auf 2*sigma ?

Bei Ratinglisten hantiert man gern mit 95%-Intervallen.
Die haben gem. der von dir erwähnten Glockenkurve recht genau eine Breite von 4* Sigma.
Die halbe Intervallbreite (eben meiner Meinung nach der in den Ratinglisten regelmäßig direkt angegebene Wert, hier eben 3,7) ist damit 2*Sigma.
Sigma wäre dann in diesem Fall 3,7/2=1,85.

Benno

By Klaus Meier Date 2013-08-27 13:15

[quote="Benno Hartwig"]

Bei Ratinglisten hantiert man gern mit 95%-Intervallen.
Die haben gem. der von dir erwähnten Glockenkurve recht genau eine Breite von 4* Sigma.
Die halbe Intervallbreite (eben meiner Meinung nach der in den Ratinglisten regelmäßig direkt angegebene Wert, hier eben 3,7) ist damit 2*Sigma.
Sigma wäre dann in diesem Fall 3,7/2=1,85.

Benno
[/quote]

Na also : Jetzt passt du deine Aussagen plötzlich der Realität an , dadurch kommen wir uns in den Kernaussagen immerhin näher.
Für den unvoreingenommenen Leser sieht es jedenfalls so aus als sei - wie zu solchen statistischen Angaben üblich - mit 3,7 der 1*sigma Wert gemeint und angegeben worden. Der im Weiteren angebrachte Hinweis (95%) wird doch bestenfalls noch von eingefleischten Computerschachentusiasten als ein Hinweis auf einen 2*sigma Wert gelesen und verstanden. Welchen Wert (1*sigma oder 2*Sigma) Patrik Götz tatsächlich ausgerechnet hat, ist mir selbst nach aller dieser Korrespondenz leider immer noch nicht klar geworden. Computerschachstatistik ist wohl eher ein Ding, was sich für mich nicht lohnt zu vertiefen.

Klaus

By Benno Hartwig Date 2013-08-27 14:49 Edited 2013-08-27 14:57

Zitat:

Jetzt passt du deine Aussagen plötzlich der Realität an ...
Für den unvoreingenommenen Leser sieht es jedenfalls so aus als sei - wie zu solchen statistischen Angaben üblich - mit 3,7 der 1*sigma Wert gemeint und angegeben worden.

Der Lesern in Ratinglisten hat ggf. eine ganz andere Sicht als der von dir angenommene 'unvoreingenommene Leser', wer auch immer das sein mag. Aber sie es drum.
Außerdem bin ich unbedingt der Meinung, dass jede(!) der Aussagen, die ich hier schrieb, zur Realität passten (sage bitte, welche ganz konkret das ggf. tatsächlich nicht leistete), und dass es überhaupt keine Änderung oder gar Anpassung in meiner Sicht gab. Ich habe konsequent und durchgängig diese Sicht beschrieben.
Etwas unverschämt und am Inhalt unseres Gesprächs vorbei empfinde ich das jetzt schon, was du hier so nassforsch bemerken zu können glaubst.

Zitat:

Computerschachstatistik ist wohl eher ein Ding, was sich für mich nicht lohnt zu vertiefen.

Vielleicht bist du dann auch doch etwas zu mutig mit deinen Aussagen über Computerschachstatistiken.
Dein "die Standardabweichung ist 3,7" war zumindest blank und frei aus der Luft gegriffen.

Benno

By Klaus Meier Date 2013-08-27 16:10

[quote="Benno Hartwig"]

Zitat:

Computerschachstatistik ist wohl eher ein Ding, was sich für mich nicht lohnt zu vertiefen.

Vielleicht bist du dann auch doch etwas zu mutig mit deinen Aussagen über Computerschachstatistiken.
Dein "die Standardabweichung ist 3,7" war zumindest blank und frei aus der Luft gegriffen.

Benno

Irgendwo hattest du mal folgendes angemerkt :
ZITAT
"Aus den jahrelangen Diskussionen nahm ich aber heraus, dass damit mit diesen angegebenen Werten (z.B. +-3,7) die halbe Intervallbreite solch eines 95%-Intervalls gemeint ist. Mit '3000 +- 10' wird dann beschrieben, dass das Intervall mit den Grenzen 2990 und 3010 geeint ist. "
ZITAT ENDE

Mit der Schreibweise +-3.7 dürfte jedoch die gesamte Intervallbreite gemeint sein. 3.7 meint die halbe Breite.Für mich sieht es so aus, als kommst du mit diesen +- Vorzeichen immer wieder mal durcheinander und unterscheidest nicht konsequent zwischen +-sigma und sigma. So das es aussieht, du passt deine Aussagen geschickt den Bedürfnissen an. Also kein Grund deinerseits gleich Patzig zu werden. Also nochmal : mit (z.B. +-3.7) ist die ganze Intervallbreite gemeint, egal ob ein 95% Intervall gemeint ist, oder ein 68% Intervall. nun schreibst du jedoch weiter : Mit '3000 +-10' wird dann beschrieben , dass das Intervall mit den Grenzen 2990 und 3010 gemeint ist. Ok der letzte satz stimmt dann mit dem was ich dir mitteile plötzlich wieder überein. Mit der Schreibweise 3000+-10 ist die gesamte Intervallbreite (2990...3010) gemeint. Nun streiten wir uns hier über die Bedeutung einer Schreibweise. Die Schreibweise +-3.7 steht in der Regel in allen statistischen Literaturstellen, die mir bisher bekannt geworden sind für +-1*sigma und für ein 68% Intervall (Bedeutung : sigma=3.7) Die Schreibweise steht also in der Regel nicht für +-2*sigma. Nun erklärst du mir brettelbreit, das allein die Schachcomputerstatistik hier eine Ausnahme macht und +-3.7 für ein 95% Intervall mit +-2*sigma steht. Das mag ja so sein, da lasse ich mich durchaus dann belehren, jedoch kann ich den Sinn einer solchen Schreibweise, die sich doch ganz offensichtlich von von der in der Literatur üblichen Schreibweise entfernt hat, nicht so recht nachvollziehen. Missverständnisse sind dabei wohl unausbleiblich. Aber egal, die Schachcomputeentusiasten und Ihre Statistik soll wohl ein eitwas abgehobener kleiner Zirkel Leute bleiben mit Ihrer eigenen Fachsprache, welche von Normalsterblichen möglichst nicht so leicht verstanden werden kann. Dabei fällt mir eine kleine Anekdote ein: Ein Mann kommt zum Arzt und klagt über merkwürdige Beschwerden und möchte krank geschrieben werden. Nach der Untersuchung macht der Arzt ein ernstes Gesicht. Der Mann bittet den Arzt :"Bitte sagen Sie mir die Wahrheit!" Der Arzt sagt daraufhin : "Sie sind nicht krank, Sie sind einfach nur stinkfaul!" Daraufhin sagt der Mann zum Arzt: "Na OK, Aber bitte schreiben Sie mir das auf Latein auf, damit ich es meiner Familie zeigen kann!"

Klaus

By Klaus Meier Date 2013-08-27 20:17

[quote="Benno Hartwig"]
Dein "die Standardabweichung ist 3,7" war zumindest blank und frei aus der Luft gegriffen.

Benno
[/quote]

Frei aus der Luft gegriffen war es nicht.
schliesslich steht das ganz oben im ersten Beitrag von Patrick so geschrieben: ELO: 5.79 +-3.7
die nachfolgenden Angaben : (95%) LOS: 99.9%
hab ich erst garnicht weiter gelesen. Wer weiss denn damit ohne ausführliche Erklärungen schon etwas anzufangen ?
Erst nach Seiten langen Debatten wird mir inzwischen etwas klarer, was damit gemeint sein könnte. Gute Nacht !
Klaus

By Simon Gros Date 2013-08-27 15:12

ELO-Stat 1.3, von Dr. Schubert, liefert immer folgenden Output (Beispiel):
Wins = 7250
Draws = 5500
Losses = 6890
Av.Op. Elo = 2325

Result : 10000.0/19640 (+7250,=5500,-6890)
Perf. : 50.9 %
Margins :
68 % : (+ 0.3,- 0.3 %) -> [ 50.6, 51.2 %]
95 % : (+ 0.6,- 0.6 %) -> [ 50.3, 51.5 %]
99.7 % : (+ 0.9,- 0.9 %) -> [ 50.0, 51.8 %]

Elo : 2331
Margins :
68 % : (+ 2,- 2) -> [2329,2333]
95 % : (+ 4,- 4) -> [2327,2335]
99.7 % : (+ 6,- 6) -> [2325,2338]
---
Also sowohl 68, 95 als auch 99.7% Margins werden angegeben. Für die Listen werden meines Wissens (??) immer die 95%-Margins verwendet.
Simon Gros

By Tom Paul Date 2013-08-26 18:47

Diese Version scheint stärker als Stockfish 4 zu spielen.
Was sagen die anderen?

By Hauke Lutz Date 2013-08-26 19:45

Die Version spielt besser als Stockfish 4, aber das scheint aus dem Test, wie schon mal geschrieben worden ist, nicht klar genug hervor zu gehen.

By Benno Hartwig Date 2013-08-26 20:23

[quote="Hauke Lutz"]Die Version spielt besser als Stockfish 4, aber das scheint aus dem Test, wie schon mal geschrieben worden ist, nicht klar genug hervor zu gehen.[/quote]Klar genug wofür? Ich finde, auch dieses Testergebnis ist schon 'klar' genug, um aus dieser Engine-Version etwas sehr Interessantes zu machen.
Aber jeder mag seine eigenen Kriterien für 'interessant' setzen wollen.
Benno

By Hauke Lutz Date 2013-08-26 20:31

[quote="Benno Hartwig"]
Klar genug wofür? Ich finde, auch dieses Testergebnis ist schon 'klar' genug, um aus dieser Engine-Version etwas sehr Interessantes zu machen.
Aber jeder mag seine eigenen Kriterien für 'interessant' setzen wollen.
Benno
[/quote]

Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen.

By Frank Quisinsky Date 2013-08-27 03:51 Edited 2013-08-27 03:59

Hi,

im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.

Gründe:
1. ELO Formel ist ungenau. Die Spielstärkeleistung beim Schach bleibt mathematisch so lange ungenau bis das Spiel wirklich ausgerechnet ist. Je mehr wir uns dessen nähern desto genauer könnte die Berechnung werden.
2. Sind wir ehrlich, im Grunde ist in einer Ratingliste jedes Einzelergebnis einer Engine gegen eine andere Engine vergleichbar mit nur einer Partie. Unabhängig davon wie viele Partien wirklich gespielt wurden. Es ist und bleibt ein einziges Einzelergebnis. Ob nun ein 0:1 oder ein 2:8 oder ein 200 : 800.

Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.

Genauer wird die "!ungenaue ELO!" erst dann, wenn z. B. ...
Programm A 1.000 Partien gegen 999 unterschiedliche Gegner gespielt hat, als im Vergleich Programm A 1.000 Partien gegen nur 10 Gegner.
Im Detail wird es erst genauer wenn 10 Partien gegen 999 Gegner vorliegen anstatt nur diese eine Partie. Wobei letztendlich sich die Rating stabilisieren wird aber nicht so stark verändern wird als wenn im Vergleich 100.000 Partien gegen nur 10 Gegner vorliegen. Sprich, eine Rating basierend auf 100.000 Partien gegen nur 10 Gegner ist im Grunde sehr ungenau weil nur 10 Gegner also nur ein = 10. Dieses Rating wird sich stark verändern wenn Gegner 11 hinzukommt, ob nun 100.000 oder 1.000.000.000.000 Partien vorliegen oder vielleicht auch nur 1.000 ... egal !! Gegner 11 wirbelt alles neu auf ... so auch Gegner 12, Gegner 13! So ein Mist denken sich jetzt die fleißigen Ersteller der Listen und werden sicherlich kontern

Vergisst es ...

im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.

Gründe:
1. ELO Formel ist ungenau. Ob die Leistung beim Schach überhaupt mathematisch zu berechnen ist bleibt so lange ungeklärt bis das Spiel wirklich ausgerechnet ist.
2. Sind wir ehrlich, im Grunde ist in einer Ratingliste jedes Einzelergebnis einer Engine gegen eine andere Engine vergleichbar mit nur einer Partie. Unabhängig davon wie viele Partien wirklich gespielt wurden. Es ist und bleibt ein einziges Einzelergebnis. Ob nun ein 0:1 oder ein 2:8 oder ein 200 : 800.

Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.

Genauer wird die "!ungenaue ELO!" erst dann, wenn z. B. ...
Programm A 1.000 Partien gegen 999 unterschiedliche Gegner gespielt hat, als im Vergleich Programm A 1.000 Partien gegen nur 10 Gegner.
Im Detail wird es erst genauer wenn 10 Partien gegen 999 Gegner vorliegen anstatt nur diese eine Partie. Wobei letztendlich sich die Rating stabilisieren wird aber nicht so stark verändern wird als wenn im Vergleich 100.000 Partien gegen nur 10 Gegner vorliegen. Sprich die Rating von 100.000 gegen nur 10 Gegner ist im Grunde sehr ungenau weil nur 10 Gegner also nur ein = 10.

Deine Aussage:
Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen trifft also auf jedes mir bekannte Testverfahren zu, weil wir nicht so viele Engines haben die im TOP-Bereich zum Testen eingesetzt werden können. Insofern können wir natürlich Aussagen treffen, aber immer nur mit den Möglichkeiten die uns vorliegen.

Finde folgendes Experiment interessant.
Ich nehme die SWCR Datenbank und hier dann eine Engine die z. B. 4.000 Partien gespielt hat. Nun ziehe ich alle Ergebnisse raus von Engines die z. B. vergleichbar spielen. Z. B. aus den Naum 4.2 Partien. Hier lösche ich alles raus was Naum gegen Fire, Ivanhoe, Rybka, Houdini unterschiedliche Versionen gespielt hat.

Ergebnis:
Ich eine ziemliche Abweichung und wundere mich weil mir die immer noch große Anzahl an Partien vorgaukelt das dies doch eigentlich nicht sein kann. Letztendlich müssen wir also gar nicht so viele Partien spielen lassen um zu erreichen das wir vielleicht nur eine korrekte Reihenfolge verfügbarer Engines zu erhalten. Interessant ist ... wer ist die Nummer 1, die Nummer 2, die Nummer 3 ... hierbei uninteressant ist ... liegt die Nummer 2 nun 20, 30 oder 40 ELO hinter der Nummer 1. Noch interessanter ist, Aussagen zum Spielverhalten der Engines zu treffen, die Stärken herauszupicken um die Engines dann vernünftig in einer Analyse einzusetzen.

Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.

Hat Stockfish also 6 ELO nach 1.000 Partien gegen Houdini zugelegt, könnte die Engine auch 6 ELO gegen Protector verloren haben. Durchaus möglich, passiert selten, passiert aber.

Finde die Ratinglisten sind eine schöne Spielerei und für Statistik Freaks. Die Erstellung macht ja auch Spaß. Gibt viele Möglichkeiten Ergebnisse auszuwerten um Rückschlüsse zu ziehen. Alle Ersteller machen sich die größte Mühe um etwas festzustellen und alle Ersteller sind von ihrem Testverfahren überzeugt. Hoffe das bleibt auch so, sonst liegen bald gar keine Ergebnisse mehr vor

Letztendlich produziert z. B. die IPON bei einem Test mit 20 Gegner 20 Ergebnisse, vergleichbar zu 20 Partien. Würde die IPON nun 2.500 Partien gegen 2.500 Gegner erzeugen wäre, die an sich zweifelhafte ELO-Berechnung unzweifelhaft genauer. Spielt aber keine Rolle denn entscheidend hier ist, was an Gegnerschaft vorliegt um überhaupt einen Test zu starten. Und je genauer vorgegangen wird um zu vermeiden das gleiche Programme unter den 20 sind, desto genauer wird die Liste mit den Möglichkeiten die vorliegen. Ob es nun zu stark anderen Ergebnisse kommt bei anderen Bedenkzeiten oder sonstigen Beeinflussungsfaktoren die verändert werden ist gewiss.

Aussage daher:
Kein vorliegendes Testverfahren zwecks Ermittlung einer ELO ist derzeit klar genug um eine statistisch abgesicherte Verbesserung festzustellen. Allerdings können wir davon ausgehen, dass bei einem gleichen Test unterschiedlicher Versionen die Wahrscheinlichkeit hoch ist, dass wirklich eine Verbesserung vorliegt. Ob diese jetzt 5 oder 10 ELO ist bleibt auch noch in 100 Jahren fraglich.

Viele Grüße
Frank

Deine Aussage:
Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen trifft also auf jedes mir bekannte Testverfahren zu, weil wir nicht so viele Engines haben die im TOP-Bereich zum Testen eingesetzt werden können. Insofern können wir natürlich Aussagen treffen, aber immer nur mit den Möglichkeiten die uns vorliegen.

Finde folgendes Experiment interessant.
Ich nehme die SWCR Datenbank und hier dann eine Engine die z. B. 4.000 Partien gespielt hat. Nun ziehe ich alle Ergebnisse raus von Engines die z. B. vergleichbar spielen. Z. B. aus den Naum 4.2 Partien. Hier lösche ich alles raus was Naum gegen Fire, Ivanhoe, Rybka, Houdini unterschiedliche Versionen gespielt hat.

Ergebnis:
Ich eine ziemliche Abweichung und wundere mich weil mir die immer noch große Anzahl an Partien vorgaukelt das dies doch eigentlich nicht sein kann. Letztendlich müssen wir also gar nicht so viele Partien spielen lassen um zu erreichen das wir vielleicht nur eine korrekte Reihenfolge verfügbarer Engines zu erhalten. Interessant ist ... wer ist die Nummer 1, die Nummer 2, die Nummer 3 ... hierbei uninteressant ist ... liegt die Nummer 2 nun 20, 30 oder 40 ELO hinter der Nummer 1. Noch interessanter ist, Aussagen zum Spielverhalten der Engines zu treffen, die Stärken herauszupicken um die Engines dann vernünftig in einer Analyse einzusetzen.

Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.

Hat Stockfish also 6 ELO nach 1.000 Partien gegen Houdini zugelegt, könnte die Engine auch 6 ELO gegen Protector verloren haben. Durchaus möglich, passiert selten, passiert aber.

Finde die Ratinglisten sind eine schöne Spielerei und für Statistik Freaks. Die Erstellung macht ja auch Spaß. Gibt viele Möglichkeiten Ergebnisse auszuwerten um Rückschlüsse zu ziehen. Alle Ersteller machen sich die größte Mühe um etwas festzustellen und alle Ersteller sind von ihrem Testverfahren überzeugt. Hoffe das bleibt auch so, sonst liegen bald gar keine Ergebnisse mehr vor

By Frank Quisinsky Date 2013-08-27 04:06 Edited 2013-08-27 04:12

Hm, ich habe mich mal wieder selbst übertroffen mit dem Wirrwarr in der Nachricht beim Editieren.
Doppelt gemoppelt hält besser um es ein wenig schön zu reden.

Um diese Uhrzeit sollte ein solcher Beitrag nicht geschrieben werden.
Zumal ich mir damit eh keine Freunde mache

Ich weiß das ja.
Aber hin- und wieder mal ein wenig realitätsnäher wenn die für Computerschächler magischen Buchstaben "ELO" auftauchen kann ja nicht schaden.
Der eine glaubt, wir sprechen von Gläubigern, der andere zweifelt an ... wir sprechen von Zweiflern ... der nächste plappert nach ... wir sprechen von Nachplapperern und der andere versucht zu verstehen (der Gescheiterte weil einfach derzeit so richtig gar nicht möglich). Also ich bin eher der Gescheiterte, zumindest wenn es um die magischen Buchstaben geht. Und dann haben wir ja noch die Götter ... die glauben die ultimative Lösung gefunden zu haben. Hier sind viele, wie soll ich sagen, Halbgötter unterwegs. Also ich bin auch so einer ... ein gescheiterter Halbgott, oder anders ... ein Ratinglistenersteller.

By Frank Quisinsky Date 2013-08-27 04:22

so sollte der Kauderwelsch Eintrag eigentlich aussehen:

Hi,

im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.

Gründe:
1. ELO Formel ist ungenau. Die Spielstärkeleistung beim Schach bleibt mathematisch so lange ungenau bis das Spiel wirklich ausgerechnet ist. Je mehr wir uns dessen nähern desto genauer könnte die Berechnung werden.
2. Sind wir ehrlich, im Grunde ist in einer Ratingliste jedes Einzelergebnis einer Engine gegen eine andere Engine vergleichbar mit nur einer Partie. Unabhängig davon wie viele Partien wirklich gespielt wurden. Es ist und bleibt ein einziges Einzelergebnis. Ob nun ein 0:1 oder ein 2:8 oder ein 200 : 800.

Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.

Genauer wird die "!ungenaue ELO!" erst dann, wenn z. B. ...
Programm A 1.000 Partien gegen 999 unterschiedliche Gegner gespielt hat, als im Vergleich Programm A 1.000 Partien gegen nur 10 Gegner.
Im Detail wird es erst genauer wenn 10 Partien gegen 999 Gegner vorliegen anstatt nur diese eine Partie. Wobei letztendlich sich die Rating stabilisieren wird aber nicht so stark verändern wird als wenn im Vergleich 100.000 Partien gegen nur 10 Gegner vorliegen. Sprich, eine Rating basierend auf 100.000 Partien gegen nur 10 Gegner ist im Grunde sehr ungenau weil nur 10 Gegner also nur ein = 10. Dieses Rating wird sich stark verändern wenn Gegner 11 hinzukommt, ob nun 100.000 oder 1.000.000.000.000 Partien vorliegen oder vielleicht auch nur 1.000 ... egal !! Gegner 11 wirbelt alles neu auf ... so auch Gegner 12, Gegner 13! So ein Mist denken sich jetzt die fleißigen Ersteller der Listen und werden sicherlich kontern Vergisst es ...

im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.

Deine Aussage:
Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen trifft also auf jedes mir bekannte Testverfahren zu, weil wir nicht so viele Engines haben die im TOP-Bereich zum Testen eingesetzt werden können. Insofern können wir natürlich Aussagen treffen, aber immer nur mit den Möglichkeiten die uns vorliegen.

Finde folgendes Experiment interessant.
Ich nehme die SWCR Datenbank und hier dann eine Engine die z. B. 4.000 Partien gespielt hat. Nun ziehe ich alle Ergebnisse raus von Engines die z. B. vergleichbar spielen. Z. B. aus den Naum 4.2 Partien. Hier lösche ich alles raus was Naum gegen Fire, Ivanhoe, Rybka, Houdini unterschiedliche Versionen gespielt hat.

Ergebnis:
Ich eine ziemliche Abweichung und wundere mich weil mir die immer noch große Anzahl an Partien vorgaukelt das dies doch eigentlich nicht sein kann. Letztendlich müssen wir also gar nicht so viele Partien spielen lassen um zu erreichen das wir vielleicht nur eine korrekte Reihenfolge verfügbarer Engines zu erhalten. Interessant ist ... wer ist die Nummer 1, die Nummer 2, die Nummer 3 ... hierbei uninteressant ist ... liegt die Nummer 2 nun 20, 30 oder 40 ELO hinter der Nummer 1. Noch interessanter ist, Aussagen zum Spielverhalten der Engines zu treffen, die Stärken herauszupicken um die Engines dann vernünftig in einer Analyse einzusetzen.

Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.

Hat Stockfish also 6 ELO nach 1.000 Partien gegen Houdini zugelegt, könnte die Engine auch 6 ELO gegen Protector verloren haben. Durchaus möglich, passiert selten, passiert aber.

Finde die Ratinglisten sind eine schöne Spielerei und für Statistik Freaks. Die Erstellung macht ja auch Spaß. Gibt viele Möglichkeiten Ergebnisse auszuwerten um Rückschlüsse zu ziehen. Alle Ersteller machen sich die größte Mühe um etwas festzustellen und alle Ersteller sind von ihrem Testverfahren überzeugt. Hoffe das bleibt auch so, sonst liegen bald gar keine Ergebnisse mehr vor

Letztendlich produziert z. B. die IPON bei einem Test mit 20 Gegner 20 Ergebnisse, vergleichbar zu 20 Partien. Würde die IPON nun 2.500 Partien gegen 2.500 Gegner erzeugen wäre, die an sich zweifelhafte ELO-Berechnung unzweifelhaft genauer. Spielt aber keine Rolle denn entscheidend hier ist, was an Gegnerschaft vorliegt um überhaupt einen Test zu starten. Und je genauer vorgegangen wird um zu vermeiden das gleiche Programme unter den 20 sind, desto genauer wird die Liste mit den Möglichkeiten die vorliegen. Ob es nun zu stark anderen Ergebnisse kommt bei anderen Bedenkzeiten oder sonstigen Beeinflussungsfaktoren die verändert werden ist gewiss.

Aussage daher:
Kein vorliegendes Testverfahren zwecks Ermittlung einer ELO ist derzeit klar genug um eine statistisch abgesicherte Verbesserung festzustellen. Allerdings können wir davon ausgehen, dass bei einem gleichen Test unterschiedlicher Versionen die Wahrscheinlichkeit hoch ist, dass wirklich eine Verbesserung vorliegt. Ob diese jetzt 5 oder 10 ELO ist bleibt auch noch in 100 Jahren fraglich.

Viele Grüße
Frank

Deine Aussagen hier kann auch in 100 Jahren niemand widerlegen, Du selbst wirst diese aber auch niemals vernünftig begründen können. Könntest Du das, wärst Du das Genie schlechthin ... denn jede Statistik zu den komplexen Thema Computerschach und Spielstärkeberechnung ist im Grunde nach dem derzeitigen Stand sämtlicher zusammengefundener Gehirnmassen ein "netter Versuch" der aber in den letzten Jahren immer netter geworden ist.

By Stefan Pohl Date 2013-08-27 06:11

[quote="Frank Quisinsky"]
Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines....
Letztendlich produziert z. B. die IPON bei einem Test mit 20 Gegner 20 Ergebnisse, vergleichbar zu 20 Partien. Würde die IPON nun 2.500 Partien gegen 2.500 Gegner erzeugen wäre, die an sich zweifelhafte ELO-Berechnung unzweifelhaft genauer. Spielt aber keine Rolle denn entscheidend hier ist, was an Gegnerschaft vorliegt um überhaupt einen Test zu starten.
[/quote]

Das ist statistisch einfach falsch. Wie du ja einen Absatz weiter selber zugibst, indem du das genaue Gegenteil schreibst (was dann auch korrekt ist), indem du dich auf die Stockfish-Tests beziehst, die primär so aussehen, daß die neue Stockfish-Version gegen nur einen Gegner spielt (nämlich den eigenen Vorgänger) (nach der obigen kruden These hätte dann jeder dieser Tests die Aussagekraft nur einer Partie - interessant wäre dann deine Erklärung, wie mit einer solchen Testmethodik die Fortschritte der letzten Monate erzielt werden konnten):

[quote="Frank Quisinsky"]
Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.
[/quote]

[quote="Frank Quisinsky"]
Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.
[/quote]

Auch das ist schlicht falsch. Beides ist maßgeblich für eine genaue Elo, Zahl der Gegner und Zahl der Partien. Und darüberhinaus auch noch der Spielstärkeintervall der Gegner (welcher nicht zu groß sein darf, aber auch nicht zu klein - beides kann das Ergebnis verzerren).

Stefan

By Frank Quisinsky Date 2013-08-27 10:23

Hallo Stefan,

natürlich auch die Anzahl der Partien, klar.
Aber ich bleibe dabei was ich seinerzeit auch schon oft schrieb.
Der Beeinflussungsfaktor für eine Ratingliste schlechthin ist die Anzahl der Gegner.

Und mit meiner Aussage zu Stockfish:
Schrieb ja, wenn die unterschiedlichen Entwicklungsversionen immer den gleichen Test (gleiche Gegnerschaft, gleiche Voraussetzungen) absolvieren, z. B. (keine Ahnung ob es so ist) 1.000 Partien gegen Houdini und die ELO steigert sich um 5 ist es in der Regel wirklich so das eine Steigerung vorliegt. Aber es muss nicht so sein.

Viele Grüße
Frank

By Benno Hartwig Date 2013-08-27 07:15

[quote="Frank Quisinsky"]Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.[/quote]'Der ELO-Wert' beschreibt doch den Erfolg, den man ganz real gegen eine ganz konkrete Generschaft erspielt hat. Insofern kann doch nur genau diese Gegnerschaft relevant sein.
Dass einen darüber hinaus ggf. interessiert, welchen Erfolg die Engine gegen ganz andere Gegner erspielen würde, mag ja sein. Das wird aber durch den ermittelten Wert prinzipiell nicht ausgedrückt. Der ermittelte Wert taugt dafür allenfalls als mehr oder weniger guter Schätzwert. Und dass dieser Schätzwert besser sein könnte, wenn er durch Spiele gegen viele verschieden Gegnerengines ermittelt wurde, kann natürlich gut sein.

Benno

By Frank Quisinsky Date 2013-08-27 10:28

Hätte besser geschrieben ...
Maßgeblicher für eine "genaue ELO" ist eher die Anzahl an Gegner als die Anzahl von x Partien gegen wenige Gegner.

Oder irgendwie so ...
Oder ganz einfach, Deine Formulierung ist besser gelungen

Gruß
Frank

By Bert Rinzel Date 2013-08-27 05:11

Hi Frank,

ich hoffe es war wenigstens ein guter Riesling, der dich an der Mosel so beflügelt hat..

Bert

By Frank Quisinsky Date 2013-08-27 05:28

Hallo Bert,

runzel gerade die Stirn.
Rinzel kommt mir irgendwie bekannt vor.

Sei gegrüßt lieber Bert. Ich hoffe Du entwickelst dich nicht als Miesling, sondern genießt mit mir den Riesling mal zusammen.
Problem ist, ich bin laufend ausgebucht.

Gruß
Frank

By Klaus Meier Date 2013-08-26 20:46

[quote="Tom Paul"]
Diese Version scheint stärker als Stockfish 4 zu spielen.
Was sagen die anderen?
[/quote]

Möglich.
Jedenfalls dann so minimal,das es anhand des Testergebnis nicht wirklich erkennbar ist.

By Stefan Pohl Date 2013-08-27 02:39

[quote="Tom Paul"]
Diese Version scheint stärker als Stockfish 4 zu spielen.
Was sagen die anderen?
[/quote]

Ich sage: Ich starte einen Testlauf für die LS-Rangliste. Dann wissen wir, ob die Version stärker ist. Allerdings läuft der Test nur auf einem PC, da auf dem anderen noch Gull 2.2 Trap AVX getestet wird. Wird also 5-6 Tage dauern.

Stefan

By Stefan Pohl Date 2013-08-28 05:38

[quote="Stefan Pohl"]
[quote="Tom Paul"]
Diese Version scheint stärker als Stockfish 4 zu spielen.
Was sagen die anderen?
[/quote]

Ich sage: Ich starte einen Testlauf für die LS-Rangliste. Dann wissen wir, ob die Version stärker ist. Allerdings läuft der Test nur auf einem PC, da auf dem anderen noch Gull 2.2 Trap AVX getestet wird. Wird also 5-6 Tage dauern.

Stefan
[/quote]

Ein einziges frühes Zwischenergebnis (Endergebnis voraussichtlich am Sonntag) von Stockfish 130826: Nach 2500 Partien ca. 3077 LS-Elo (also +7 Elo zu Stockfish 4 und +4 Elo zur bisher stärksten (älteren) development-Version vom 9.August). Sollte allerdings auch diese Version in der zweiten Testhälfte leicht abbauen (wie die allermeisten Stockfische es bisher in meinen Testruns taten), dann könnte das Plus wegschmelzen oder sogar noch ein kleines Minus rauskommen...
Stay tuned!

Stefan

By Benno Hartwig Date 2013-08-28 07:27

[quote="Stefan Pohl"]Sollte allerdings auch diese Version in der zweiten Testhälfte leicht abbauen (wie die allermeisten Stockfische es bisher in meinen Testruns taten...[/quote]Hast du dir mal Gedanken gemacht, woran das liegen könnte?
Wir dürfen ja davon ausgehen, dass Stockfish im Verlauf nicht müde und darum schwächer wird.
Gibt es da eine Besonderheit in deinem Ablauf, der das bedingt?
Gilt das auch für andere Engines?

Eigentlich ist ja nebesächlich, was sich so während des Ablaufs ablesen lässt. Klar.
Wenn hier aber regelmäßig ein 'unerklärliches Phänomen' zu beobachten wäre, dann müsste wohl auch die Frage gestellt werden,ob dieses Phänomen auch ungewollten Einfluss hat auf das Endergebnis, oder?

Benno

By Michael Scheidl Date 2013-08-28 07:38

Es wird wohl an den Eröffnungsvorgaben liegen.

Das hieße, würde man die Reihenfolge der Varianten umdrehen, müßte nach dieser Logik dann Stockfish am Ende der Testläufe besser performen als am Anfang.

In Summe ist es immer wurscht.

By Stefan Pohl Date 2013-08-28 12:27

[quote="Michael Scheidl"]
Es wird wohl an den Eröffnungsvorgaben liegen.

Das hieße, würde man die Reihenfolge der Varianten umdrehen, müßte nach dieser Logik dann Stockfish am Ende der Testläufe besser performen als am Anfang.

In Summe ist es immer wurscht.

[/quote]

So isses. Gull 2.2 wurde zum Beispiel genau gegenteilig in der zweiten Testrunhälfte deutlich besser. Das zeigt aber eben auch eindrücklich, wie wichtig es ist, sehr viele verschiedene Eröffnungsvorgabestellungen durchzuspielen. Nur so lassen sich solche Effekte durch die schiere Masse an Stellungen und Partien halbwegs sicher ausschließen.

Stefan

By Benno Hartwig Date 2013-08-28 12:34

[quote="Stefan Pohl"]Das zeigt aber eben auch eindrücklich, wie wichtig es ist, sehr viele verschiedene Eröffnungsvorgabestellungen durchzuspielen.[/quote]'Darf' jede Engine jede Vorgabe, die sie mit einer Farbe spielen 'muss', auch mit der anderen Farbe spielen?
Mit anderen Worten: Wird dieser Effekt tatsächlich wirksam, obwohl jede Engine immer beide Seiten einer Vorgabe spielt?
Oder spielen die Engines erst immer die eine Seite der Vorgabe,und in der zweiten Hälfte dann die andere Seite?
Benno

By Klaus Meier Date 2013-08-26 20:31

[quote="Ludwig Scheidl"]
Gerade hat Marco den Code committed
und ist nun in der Entwicklerversion von http://abrok.eu/stockfish/ runterladbar.

And at fixed game number, longer TC 120+0.05

ELO: 5.17 +-2.8 (95%) LOS: 100.0%

Total: 19306 W: 3378 L: 3091 D: 1283
[/quote]

Die Anzahl der Draws kommt mir komisch vor
soll wohl heissen:
ELO: 5.17 +-2.8 (95%) LOS: 100.0%
Total: 19306 W: 3378 L: 3091 D: 12837

demnach etwa 5 ELO +-3 Verbesserung...
na ja von mir aus. Weiss nicht was das bringen soll,
sich darüber einen Kopf zu machen, ob anhand dieses Ergebnisses eine
ELO Steigerung von 5 Punkten wirklich klar erkennbar ist oder nicht.
Klaus

By Ludwig Scheidl Date 2013-08-27 16:59

Ja, sorry, ein Cut'n'Paste-Fehler, die letzte Ziffer ('7') wurde leider nicht mitgenommen.

Bin mir jetzt nicht sicher

aber das "LLR" bei der anderen Variante dürfte für Log-Likelihood-Ratio(-Test) stehen ( http://de.wikipedia.org/wiki/Likelihood-Quotienten-Test ).