Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Frage an Statistiker
- - By Jens Hartmann Date 2021-04-29 10:26
Hallo,
habe eine Frage zur Statistik.
Gehen wir mal davon aus, dass eine Schachpartie nicht unentschieden enden kann, sondern dass es immer einen Gewinner gibt.

Programm A gewinnt in 10 Partien gegen Programm B 7 mal.

Programm A gewinnt gegen Programm C in 100 Partien 70 mal. Die Gewinnwahrscheinlichkeit beträgt in beiden Fällen 70%. Ohne Zweifel ist das zweite Ergebnis zuverlässiger.

Mit welchem Test berechnet man die Fehlerwahrscheinlichkeit, z.B. für einen Konfidenzintervall von 5%? Also dass das Ergebnis zB 70% +- x% lautet?
Danke!
Jens
Parent - - By Volker Pittlik Date 2021-04-29 13:22 Upvotes 1
Das ist nicht so ganz einfach. Eine knappe Einführung ist bei Wikipedia:

https://de.wikipedia.org/wiki/Konfidenzintervall

Unten in dem Artikel sind Links zu ausführlicheren und einfacheren Ausführungen.

Für rein praktische Anwendungen (wie viele Spiele brauche ich, um signifikante Ergebnisse zu erhalten?), ist es auch möglich, mit den vorhandene Auswerteprogrammen (z. B. BayesElo) und seinen pgns zu testen.

Gruss

Volker
Parent - By Jens Hartmann Date 2021-04-29 14:56
Danke Volker!
Das hat mir weiter geholfen.
Über Deinen Link bin ich zur Clopper-Pearson Verteilung bzw. auf die Funktion "Betainv" in Excel gekommen.

Daraus errechne ich zu meinem genannten Beispiel für ein Konfidenzintervall von 95%:

Für 7 von 10 gewonnene Spiele: 34,8 bis 93,3 %
Für 70 von 100 gewonnene Spiele: 60,0 bis 78,8 %
Für 700 von 1000 gewonnene Spiele: 67,1 bis 72,8 %

LG
Jens
Parent - - By Frank Brenner Date 2021-04-29 15:00 Upvotes 2
Das geht ganz einfach . Bei Begegnungen von 2 Engines ist die Ergebnisstreuung Binominalverteilt.
Diese kann man mit der Normalverteilung approximieren.

Beispiel

n = 100 Partien

Gewinnquote = 0,7, Verlustquote 0,3

Erwartete Anzahl an Gewinnen: 70

Und die Formel für die Streuung um 70 lautet:

In 95 % der Fälle liegt das Ergebnis im Bereich   70 +/- 9  , wobei sich die 9 wie folgt berechnet:    1,96*wurzel(100 * 0,7 * 0,3)

Die konstante 1,96 sind aus der Tabelle der Normalverteilung phi entnommen: phi(1,96) = 0,975
0,975 ist 1-alpha/2, wobei alpha Deinen 5% entsprechen.
Du kannst die 5% auch durch eine andere Prozentzahl ersetzen und dann in der Tabelle den neuen Faktor nachgucken.

Die universelle Formel  zum Niveau von 95% die Du dir merken mußt lautet: 1,96 * wurzel(n* p * (1-p))

Wobei n die Anzahl der Spiele und  p die Gewinnwahrscheinlichkeit beträgt.

Wenn Du also n= 1000 Spiele spielen würdest, so läge das Ergebnis in 95% der Fälle im Bereich 700 +- 28,4   , wobei 28,4 = 1,96 * wurzel(1000 * 0,7  * 0,3)

Und wenn du genau hinsiehst, dann siehst du, daß n mal so viele Spiele die Streuung um wurzel(n) vergrößert, weil 1,96*wurzel(0,7*0,3) konstant ist und nur der Faktor wurzel(n) übrig bleibt.

Die relative Streuung  lautet dann:  n/wurzel(n)  = wurzel(n), d.h.  bei n mal so vielen Spielen ist die Relative Abweichung zum Erwartungswert (0,7) nur noch wurzel (n) so klein.

Ein Beispiel mit beispielhaften fixierten Zahlen um die wurzel(n) Konvergenz zu illustrieren:

Bei 563 Partien erzielst du eine Gewinnquote von sagen wirt 0,71
Bei 56300 Partien  wäre die Gewinnquote ca. 0,701
Bei 5630000 Partien wäre die Gewinnquote ca. 0,7001

Du must also 100 mal so viele Spiele spielen um im Endergebnis eine Nachkommastelle an Genauigkeit dazu zu bekommen.
Parent - By Jens Hartmann Date 2021-04-29 17:02 Upvotes 1
Danke Frank, perfekt erklärt!
Habe mit Deinen Zahlen in Excel herumgespielt und bin auf folgendes draufgekommen: bei sehr hoher Gewinnwahrscheinlichkeit kommt ein oberer Wert von über 100% heraus.
Also zB bei 254 Punkten aus 256 Spielen ergibt sich 254+-2,76.
Das ist wohl der Tatsache geschuldet, dass es mit der Normalverteilung (wie Du ja schreibst) "nur" approximiert wird.
Aber danke, das hat mir weitergeholfen und war lehrreich.

P.S.:
Hintergrund meiner Frage ist eigentlich ein anderer, aber ich war mir sicher, in diesem Forum eine Antwort zu erhalten, wenn ich die Frage umformuliere. Und ich lag richtig. Ich konnte nämlich auf die Schnelle weder im Netz noch in Statistikbüchern dazu etwas finden - vermutlich habe ich die falschen Suchbegriffe verwendet.
Ich prüfe nämlich gerade die Angaben in unterschiedlichen Manuals von Covid-19 Schnelltests zu Sensitivität und Selektivität. Mit der von mir oben genannten Clopper-Pearson Verteilung (MS Excel: Betainv-Funktion) habe ich eine Punktlandung, mit der approximierten Normalverteilung stimmt es "so einigermaßen". Eine konkrete Angabe zu einem Testkit war nämlich "254 von 256 negativen Proben wurden richtig als negativ erkannt, 2 falsch positiv", und dazu waren entsprechende Streubreiten mit KI=0,95 genannt: 99,22% (97,21-99,91%) Spezifität. Analog zur Sensitivität (Erkennungsrate von Covid-19 positiven). Interessant am Rande: die asymmetrische Streuung.

Statistik kann durchaus spannend sein!
Jens
Up Topic Hauptforen / CSS-Forum / Frage an Statistiker

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill