Spieglein, Spieglein an der Wand

By Thorsten Czub Date 2011-09-22 21:20

[quote="Benno Hartwig"]
[quote="Thorsten Czub"]sag ich ja. jeder gegen jeden.[/quote]Wer ist 'jeder'? Auch Fritz 6 oder Fritz 1
Auch der Superconny, die Lang-Mephistos oder Mephisto2? oder der erste ChessChallenger?
Die Hobby-Engines, die kaum die Regeln beherrschen in den diversen Schubladen?
Wer ist denn blos 'jeder'?
Mir scheint es dann annähernd ohne Einfluss zu bleiben, wie eine gute Engine gegen die ungefähr gleich starke Konkurrenz punktet.

Findest du das wirklich passend?

Benno
[/quote]

naja verwandschaften sollten wegen inzest ausgeschlossen werden.
fritz 6 gegen 5 oder 4 oder 3 oder 2 oder 1 macht m.E. wenig sinn weil morsch ist morsch.

damit fallen schon mal viele raus (z.B. roma32 gegen roma 16 und die gegen dallas 32 und die gegen dallas 16 und die gegen amsterdam und und und). kennt man ja diese inzestketten.

programme sollten unterschiedlich sein.

also es muss ein shredder drin sein, ein tiger, ein hiarcs, quasi von jedem wichtigen etwas.
aber es reicht wenn von jedem programmierer die letzte engine drin ist. oder bei erscheinen einer neuen, die alte und die ganz neue.

aber nicht die ganze vorserie.

ich packe in so ein turnier dann auch noch schwächere, also nicht nur die top gruppe rein.
engines die mich interessieren weil ich potential sehe, auch hier unterschiedlichste engines.

wenn die top gruppe 10 programme sind, nehmen 30 teil oder 40.
und dann jeder gegen jeden.

ist doch einfach, oder ?
dort wo ponder an dank anzahl der cores möglich ist macht man ponder an.

und je nach geschwindigkeit des rechners dann 40/10 oder 40/20. besser wäre 40/120.
aber das dauert.

hier muss man einen kompromiss machen.

By Benno Hartwig Date 2011-09-22 21:47

TThanx, Thorsten, für deine Beschreibung.
Ich habe aber andere Vorstellungen.

[quote="Thorsten Czub"]naja verwandschaften sollten wegen inzest ausgeschlossen werden.[/quote]Und warum? Statt 300 Partien gegen Rybka 4.1 macht es doch ggf. mehr Sinn und mehr Spaß, gegen 3, 4 und 4.1 spielen zu lassen.
Wenn zwei Versionen einer Engine gegeneinander spielen mag man das 'Inzest ' nennen wollen (obwohl ich nicht kapiere, was man sich bei diesem Begriff wirklich denkt. Aber solche Begegnungen sind schon fragwürdig.).
Aber Houdini z.B. kann ich doch wirklich gern gegen diverse Rybkas, diverse Stockfische und Komodos antreten lassen.
Das macht die Sache doch nur noch interessanter, und mir fällt überhaupt kein Grund dagegen ein.

Ich würde gern ungefähr die Hälfte der Partien gegen Engines spielen lassen, die ungefähr vergleichbare Stärke haben.
Hier gern auch gegen verschiedenen Versionsstände dieser Engines.
Die andere Hälfte verteilt sich Engines, die ein moderates Stück schwächer oder stärker sind. (vielleicht weniger als 200 oder 300 ELO)
Und Engines die weit unterlegen sind, würde ich gar nicht gegen den Kandidaten antreten lassen.
Und es ist dabei nicht notwendig, dass gegen jeden Gegner gleich oft gespielt wird.

Benno

By Thorsten Czub Date 2011-09-22 22:46

wenn engines ZU ähnlich sind dann haben sie ähnliche suchbäume.
wenn engines unterschiedlich sind, haben sie unterschiedliche suchbäume.

ist es spannend einen vw golf mit 100 PS gegen einen vw golf mit 150 ps fahren zu sehen ?
ich meine nicht. ich finde es muss eine varianz der teilnehmer vorhanden sein.

viele unterschiedliche ansichten zur stellung auf dem brett.
thesen werden aufgestellt. und man wird dann in der partie sehen welche these aufgeht.

wenn du nun aber 2 sehr ähnliche programme hast, machen die sich zur stellung doch einen vor.
weil der eine das erwartet was der andere auch denkt.

By Benno Hartwig Date 2011-09-23 13:33

[quote="Thorsten Czub"]wenn engines Zu ähnlich sind dann haben sie ähnliche suchbäume. wenn engines unterschiedlich sind, haben sie unterschiedliche suchbäume.[/quote]Und hältst due die Suchbäume von Rybka3 und Rybka 4 und selbst Rybka4.1 für sonderlich ähnlich?

[quote="Thorsten Czub"]ist es spannend einen vw golf mit 100 PS gegen einen vw golf mit 150 ps fahren zu sehen ?[/quote]Im Grunde ist es wohl nicht uninteressanter als einen Opel 100PS gegen den 150PS-Golf fahren zu sehen. Aber darum geht es mir nicht.
Ich will schließlich meinen Opel-150PS nicht nur gegen einen Golf sondern gegen mehrere verschiedene fahren lassen, Und das finde ich sehr spannend.
Zumindest eben wesentlich spannender, als ihn elendig oft immer nur noch mal wieder gegen einen bestimmten ins Rennen zu schicken!

Schönes Auto-Bild von dir. Man kann damit gut darlegen, was gemeint ist.

Benno

By Peter Martan Date 2011-09-23 16:08 Edited 2011-09-23 16:12

Hi Benno!
[quote="Benno Hartwig"]
Im Grunde ist es wohl nicht uninteressanter als einen Opel 100PS gegen den 150PS-Golf fahren zu sehen. Aber darum geht es mir nicht.
[/quote]
Da bin ich jetzt aber schon beruhigt, ich dachte schon, du willst Crash- Car in seiner unschönsten Form veranstalten und die Autos überhaupt nur dazu ins Rennen schicken, dass sie gegeneinander fahren, damit ist das Rennen ja dann immer schon gleich wieder aus, einmal bumms und das war's, geht vielleicht schnell, ist aber doch auch recht teuer, findest du nicht?

[quote="Benno Hartwig"]
Ich will schließlich meinen Opel-150PS nicht nur gegen einen Golf sondern gegen mehrere verschiedene fahren lassen, Und das finde ich sehr spannend.
Zumindest eben wesentlich spannender, als ihn elendig oft immer nur noch mal wieder gegen einen bestimmten ins Rennen zu schicken!
Schönes Auto-Bild von dir. Man kann damit gut darlegen, was gemeint ist.

[/quote]

Schon, das mit dem fahrenlassen ist ein schönes Bild, aber sag, warum fährst du eigentlich mit den vielen Autos, die du hast, nicht auch ein bisschen selber?
Ich meine nur, da lässt man einen fahren und dann stinkt's eine Weile aber zurück kommen tun die oft genug auch nicht, und dann ist auch schon wieder einer weg und wenn man selber fährt, hat man doch auch viel Spass, findest du nicht auch?

By Benno Hartwig Date 2011-09-23 17:15

[quote="Peter Martan"]Schon, das mit dem fahrenlassen ist ein schönes Bild...[/quote]Ich finde zumindest nett, dass du uns einen Blick auf den Schatz der dir zugänglichen Erkenntniswelt spendierst.

Benno

By Peter Martan Date 2011-09-23 17:19 Edited 2011-09-23 17:23

Naja, man hat so seine Erfahrungen, Fahren und Fahrenlassen haben ja die meisten Anderen auch schon mal probiert, und bevor man einen lässt sollte man sich das schon auch mal überlegen...
Aber wie gesagt, so als Bild...
Multimedia geht ja glücklicherweise über 2 Medien selten hinaus, Geruchsfernsehen ist noch nicht erfunden, bis dahin non olet.

By Benno Hartwig Date 2011-09-21 21:38

[quote="Werner Mueller"]darstellen sollte, dann ist ein Matt irgendwann so gut wie ein Matt in 2.[/quote]Dann sollten wir zunächst auch sagen: E+ und E- sind im direkten Vergleich gleichstark.
Und es wird gegen andere Gegner E+ sehr erfolgreich sein und E- weit weniger. Gut passend eben zum Phänomen der intransitiven Würfel.

[quote="Werner Mueller"]... sondern darauf, dass Du auf die Frage "Wie stark spielt denn dieses Konstrukt E-?" hättest nur mit einer Gegenfrage antworten können, etwa: "Kommt darauf an - gegen wen soll es denn spielen?".[/quote]Stimmt, und dies schrieb ich diverse Male: ohne die konkrete Gegnerschaft anzugeben werden wir keine echte Definition der Spielstärke hinbekommen.
Insofern scheint mir auch stets nur eine Definition des Spielstärke-Begriffes in Bezug auf die aktuell existierende oder ausgewählte Gegnerschaft möglich.

Benno

By Werner Mueller Date 2011-09-21 22:36

[quote="Benno Hartwig"]
[quote="Werner Mueller"]darstellen sollte, dann ist ein Matt irgendwann so gut wie ein Matt in 2.[/quote]Dann sollten wir zunächst auch sagen: E+ und E- sind im direkten Vergleich gleichstark.
Und es wird gegen andere Gegner E+ sehr erfolgreich sein und E- weit weniger. Gut passend eben zum Phänomen der intransitiven Würfel.

[quote="Werner Mueller"]... sondern darauf, dass Du auf die Frage "Wie stark spielt denn dieses Konstrukt E-?" hättest nur mit einer Gegenfrage antworten können, etwa: "Kommt darauf an - gegen wen soll es denn spielen?".[/quote]Stimmt, und dies schrieb ich diverse Male: ohne die konkrete Gegnerschaft anzugeben werden wir keine echte Definition der Spielstärke hinbekommen.
Insofern scheint mir auch stets nur eine Definition des Spielstärke-Begriffes in Bezug auf die aktuell existierende oder ausgewählte Gegnerschaft möglich.

Benno
[/quote]
Das ist nun schon das zweite Posting von Dir, dem ich in vollem Umfang zustimmen muss. Fast schon ärgerlich!

Grüße, Werner

By Frank Quisinsky Date 2011-09-13 22:15

Fakten, Fakten, Fakten ... Focus.
170 Engines wurden getestet und geben diese und jene Statistiken aus.
Widerspricht die Datenmenge Programmen deren Programmierung auf deutlich kleine Datenmengen beruhen müssen wir uns nicht wundern und mit Wahrscheinlichkeiten argumentieren. Die Fakten zählen und das Wissen geht in den großen Topf damit dann wieder andere Programme dieses Wissen nutzen etc. die Kausalkette wächst uns über den Kopf und erreicht Dimensionen die mit Logik kaum noch zu erklären sind.

Wenn ich Dir eine Frage stellen dürfte würde mich eine interessieren:
Aus rein wissenschaftlicher Sicht.

Aufgebautes mathematisches Wissen entspricht derzeit ca. ...% dessen was möglich sein könnte!

Wie würdest Du die ... definieren!
1% oder 0.1% oder 0.01% oder würdest Du sagen heute sind wir soweit 90% einzutragen.

Viele Grüße
Frank

PS: Ich glaube das selbst eine Person die auf eine solche Frage antworten könnte, sicherlich gehörst Du dazu, sehr viele Nullen vor dem Komma setzen würde.

By Frank Quisinsky Date 2011-09-13 22:39

Natürlich Nullen nach dem Komma

By Benno Hartwig Date 2011-09-14 14:37

[quote="Werner Mueller"]Vor allem findet keine Jagd nach einer nicht vorhandenen 'wahren' Zahl statt...[/quote]Nicht? Ich verstehe die immerwiederkehrenden Diskussionen "Meine Methode zur ELO-Zahl-Bestimmung ist richtig, und deine Methode ist falsch!" eigentlich anders. Ich vermute, jeder Ratinglistenbetreiber hat da eine diffuse Vorstellung davon, was er ermitteln möchte (was die 'wahre ELO-Zahl' ist) und versucht eine Methodik, sie möglichst gut zu schätzen. "Wir brauchen möglichst viele Gegner, auch reichlich schwache" bis "Es interessieren vor allem die Ergebnisse gegen gleichgute und ggf. die Elite". oder von "jeder Gegner ist gleichwichtig" bis "es gibt wichtigere, gegen die wird dann auch mehr gespielt".
Jede reale Gegnerauswahl hat notgedrungen was Willkürliches. Wenn man aber andere kritisiert, dann sollte dies mit Blick auf das Schätzziel (eben doch sowas wie 'wahre ELO Zahl', die man für vernünftig hält) begründet werden.

Benno

By Werner Mueller Date 2011-09-14 15:38

[quote="Benno Hartwig"]
[quote="Werner Mueller"]Vor allem findet keine Jagd nach einer nicht vorhandenen 'wahren' Zahl statt...[/quote]Nicht? Ich verstehe die immerwiederkehrenden Diskussionen "Meine Methode zur ELO-Zahl-Bestimmung ist richtig, und deine Methode ist falsch!" eigentlich anders. Ich vermute, jeder Ratinglistenbetreiber hat da eine diffuse Vorstellung davon, was er ermitteln möchte (was die 'wahre ELO-Zahl' ist) und versucht eine Methodik, sie möglichst gut zu schätzen. "Wir brauchen möglichst viele Gegner, auch reichlich schwache" bis "Es interessieren vor allem die Ergebnisse gegen gleichgute und ggf. die Elite". oder von "jeder Gegner ist gleichwichtig" bis "es gibt wichtigere, gegen die wird dann auch mehr gespielt".
Jede reale Gegnerauswahl hat notgedrungen was Willkürliches. Wenn man aber andere kritisiert, dann sollte dies mit Blick auf das Schätzziel (eben doch sowas wie 'wahre ELO Zahl', die man für vernünftig hält) begründet werden.

Benno
[/quote]
Klar, schon richtig.
NUR: ich schrieb von den eigentlichen ELO-Zahlen, also z.B. den ELO-Zahlen der FIDE ... mathematisch etwas völlig anderes.

By Frank Quisinsky Date 2011-09-14 16:18

Hi,

die Frage ist nur sind diese Zahlen (FIDE) auch genauer!
Nur weil es die FIDE anders berechnet, heißt das nicht das ...

Wurde auch schon zu Zeiten der ELOstat Veröffentlichung diskutiert.
Wurde viel vergleichen mit ChessBase Ausgaben, später mit Shredder Ausgaben.

Viele Grüße
Frank

By Werner Mueller Date 2011-09-14 17:00

[quote="Frank Quisinsky"]
Hi,

die Frage ist nur sind diese Zahlen (FIDE) auch genauer!
Nur weil es die FIDE anders berechnet, heißt das nicht das ...

Wurde auch schon zu Zeiten der ELOstat Veröffentlichung diskutiert.
Wurde viel vergleichen mit ChessBase Ausgaben, später mit Shredder Ausgaben.

Viele Grüße
Frank
[/quote]
Sie sind weder genauer noch ungenauer. Sie haben eine andere Bedeutung.

By Benno Hartwig Date 2011-09-14 17:08

[quote="Frank Quisinsky"]die Frage ist nur sind diese Zahlen (FIDE) auch genauer![/quote]Für die ELO-Werte der Menschen gilt eine ähnliche Frage:
Wie genau an was dran sind diese Zahlen?
Wie ist ggf. dieses Ideal im menschlichen Schach definiert? Ich denke: gar nicht.

Man hatte den verständlichen Wunsch, sowas Diffuses wie die Schachspielstärke der Menschen durch eine Zahl irgendwie einigermaßen vernünftig auszudrücken.
Dann erfand Arpad Elo sein System, welches wirklich ganz vernünftige Werte liefert und praktikabel ist. Das ist eben das ELO-System, welches ELO-Zahlen ausspuckt. Konkrete ELO-Zahlen als Ergebnis konkreter Partien und anschließender Berechnungen. Kein Ideal, welches 'wahr' ist.

Was aber ist eigentlich 'Schachspielstärke' der Menschen?
Welche Berechnungsvorschrift basierend auf welchen (ggf. real nie verfügbaren) Daten gestattet es, sie auszudrücken?

Benno

By Werner Mueller Date 2011-09-14 17:16

[quote="Benno Hartwig"]
Für die ELO-Werte der Menschen gilt eine ähnliche Frage:
Wie genau an was dran sind diese Zahlen?
Wie ist ggf. dieses Ideal im menschlichen Schach definiert? Ich denke: gar nicht.

Jaaaaaa!!!

By Benno Hartwig Date 2011-09-14 16:18

[quote="Werner Mueller"]NUR: ich schrieb von den eigentlichen ELO-Zahlen, also z.B. den ELO-Zahlen der FIDE ... mathematisch etwas völlig anderes.[/quote]Gibt es da eigentlich Statistiken:
Wenn ein guter menschlicher Schachspieler antritt:
- gegen eine Gruppe überlegener Spieler mit mehr ELO
- gegen eine Gruppe ungefähr gleichguter Spieler mit ca. gleichviel ELO
- gegen eine Gruppe unterlegener Spieler mit weniger ELO
wo hat er dann im Durchschnitt ggf. die besten Chancen, seine persönliche ELO-Zahl zu verbessern? Wo die schlechteste?
Oder ist die Festlegung der ELO-Berechnung so gut, wirklichkeitsnah gemacht worden, dass dieses tatsächlich keine Rolle spielt?

Benno

By Werner Mueller Date 2011-09-14 17:11

[quote="Benno Hartwig"]
[quote="Werner Mueller"]NUR: ich schrieb von den eigentlichen ELO-Zahlen, also z.B. den ELO-Zahlen der FIDE ... mathematisch etwas völlig anderes.[/quote]Gibt es da eigentlich Statistiken:
Wenn ein guter menschlicher Schachspieler antritt:
- gegen eine Gruppe überlegener Spieler mit mehr ELO
- gegen eine Gruppe ungefähr gleichguter Spieler mit ca. gleichviel ELO
- gegen eine Gruppe unterlegener Spieler mit weniger ELO
wo hat er dann im Durchschnitt ggf. die besten Chancen, seine persönliche ELO-Zahl zu verbessern? Wo die schlechteste?
Oder ist die Festlegung der ELO-Berechnung so gut, wirklichkeitsnah gemacht worden, dass dieses tatsächlich keine Rolle spielt?

Benno
[/quote]
Das spielt alles ganz sicher eine Rolle. Ob sie wirklichkeitsnah sind hängt irgendwie auch von der Wirklichkeit ab.

Und 'wirklich' sind letzten Endes nur die konkreten praktischen Erfolge oder Misserfolge aus der Vergangenheit.

By Benno Hartwig Date 2011-09-14 19:22

[quote="Werner Mueller"]Und 'wirklich' sind letzten Endes nur die konkreten praktischen Erfolge oder Misserfolge aus der Vergangenheit.[/quote]Und hat mal jemand tatsächlich diese Menschen-Vergangenheit dahingehend untersucht, ob eher das Spiel gegen stärkere, gleichstarke oder schwächere Gegner taugt, die eigene ELO-Leistung zu pushen?
Benno

By Werner Mueller Date 2011-09-14 19:47

[quote="Benno Hartwig"]
[quote="Werner Mueller"]Und 'wirklich' sind letzten Endes nur die konkreten praktischen Erfolge oder Misserfolge aus der Vergangenheit.[/quote]Und hat mal jemand tatsächlich diese Menschen-Vergangenheit dahingehend untersucht, ob eher das Spiel gegen stärkere, gleichstarke oder schwächere Gegner taugt, die eigene ELO-Leistung zu pushen?
Benno
[/quote]
Untersucht glaube ich nicht, aber unter Schachspielern ist ziemlich eindeutig die Meinung vorherrschend: das Spiel gegen eine stärkere Gegnerschaft tut der ELO gut, das Spiel gegen eine schwächere Gegnerschaft entsprechend nicht.

By Simon Gros Date 2011-09-14 20:30

Bei Engine vs. Engine hingegen spielt dies keine Rolle. Ich habe mir sehr viele Vergleiche der CEGT angesehen und auch die Datenbanken heruntergeladen. Nichts deutet darauf hin, daß Programme gegen stärkere/schwächere Spielpartner besser/schlechter abschneiden. Unter Umständen ist dies beim Computerschach auch vollkommen anders zu bewerten als beim "Menschenschach"? Ein Grund könnte durchaus sein, daß Programme eben keine Angst haben irgendwelche Punkte zu verlieren, auch, weil sie es gar nicht wissen (können)?
Simon_G

By Frank Quisinsky Date 2011-09-17 16:58

Hallo Simon,

also bei mir nehmen die Schwächeren den Stärkeren 3 Punkte durchschnittlich ab. Aber das kann auch an der Verteilung der Spielstärke in der SWCR liegen. Grundsätzlich ist der Gedanke sicherlich richtig. Früher gingen wir davon aus, dass Engines innerhalb einer Ratingliste oder eines Turniers nicht mehr als 300 ELO entfernt sein sollten. Es deutete auch vieles darauf hin, dass es so ist. Z. B. meine ehemalige ATL-4 Ratingliste oder die Liste von Klaus Wlotzka. Vielleicht war es auch so und durch den enormen ELO-Zuwachs kommen solche neuen Erkenntnisse zu Stande. Vielleicht auch einfach nur weil heute mehr Partien erzeugt werden können. Allerdings haben wir damals schon mit Simulationen gearbeitet und Ergebnisse besser zu deuten.

Es könnte auch sein, dass zu krasse Spieleigenschaften verantwortlich sind. Wenn eine Engine von 2.400 ELO einfach grundlegendes "falsch" macht und dann überrechnet wird, kaum Remis-Chancen hat ist das eher schlecht. Wenn von dieser Engine dann die Stärken nicht mehr Tragen kommen ist das gravierend. Gewissse Remis-Chancen aufgrund eigener Stärken sollte es immer geben und diverse Siegchancen aufgrund von Patzer des deutlich stärkeren Programmes sind durch die enorm hohen Ratings von heute immer ausgeschlossener.

Also zumindest die Statistiken deuten darauf hin ... es ist egal. Wahrscheinlich aber dürfen die Sprünge nicht zu krass sein, z. B. 2.000 ELO spielt gegen 3.000 ELO.

Schönes Beispiel:
Gaviota konnte in der SWCR bei ca. 650 ELO unterschied immerhin 1x Rykba bezwingen!
Also ein 1:39 Ergebnis!

Gruß
Frank

By Werner Mueller Date 2011-09-13 15:28

[quote="Benno Hartwig"]
...
Nur diese Liste mit "Houdini hinter Critter und Kommodo" lässt mich kritisch gucken, wobei ich aber leider keine Erklärung für diese Reihenfolge in speziell dieser einen Liste habe.
Benno
[/quote]
Na, so wie Thorsten spielen lässt, müsste man wohl eher nach einer Erklärung suchen, falls die Reihenfolge mit den gängigen Listen übereinstimmen würde.

By Frank Quisinsky Date 2011-09-13 16:58

Hallo,

Personen die wirklich Wissen über Statistik haben gehen solche Themen wie die Spielstärke einer Engine anders an. Rein aus wissenschaftlicher Sichtweise wird erklärt oder argumentiert, wie hier im Beitrag von Prof. Ingo Althöfer, den ich selbst wirklich sehr schätze (er schreibt nur zu wenig, muss mehr tun weil es einfach schön und interessant zu lesen ist).

Aber ...
Du selbst packst Die Sache eher mit normaler Logik an und kommst zu einem genauso einfachen und logischen Ergebnis. Die Ratinglistenbetreiber stellen im Grunde gleiches fest. Die wenigen Abweichungen sind leicht zu erklären, meist sind es mehrere kleine Beeinflussungsfaktoren die zusammen spielen.

Vor kurzer Zeit schrieb ich einen Beitrag zu ChessTiger. Über 3.000 Partien spielte die CEGT und auch die SWCR gegen komplett andere Gegner. Das Ergebnis nach so vielen Partien geht 20 ELO auseinander. Egal wie viele Partien vorliegen, wie viele Gegner für diese Partien eingesetzt wurden, so genau kann eine Spielstärke nicht gemessen werden. Wahrscheinlicher ist es eher, dass wir mit einfachen Mitteln wie es die Ratinglistenbetreiber tun zu erstaunlich genauen Ergebnissen kommen, die eine Spielstärke mit der eigentlichen sehr schwachen ELO-Berechnungsformel auf vielleicht 25 Punkte genau messen.

Prima!
ob nun eine Engine in Liste A 3.000 ELO, der Vorgänger 2.950 hat oder in Liste B 2.900 ELO, der Vorgänger 2.850 hat. Wir wissen, diese Engine hat sich verbessert. Selbst spüren können wir das nicht mehr (zu hoher ELO-Wert) aber wir können es messen mit den Möglichkeiten die uns zur Verfügung stehen.

Es gibt keine anderen Möglichkeiten als die, die wir heute einsetzen. Von Jahr zu Jahr stellen wir immer etwas neues fest, oftmals Kleinigkeiten die nicht direkt die Zustimmung der breiten Masse finden. Das Puzzle um Engines und deren Spielstärke ist zu ca. 90% erledigt. Die letzten Puzzleteile sind leicht einzusetzen aber benötigen auch etwas Zeit.

In 10 Jahren wissen wir mehr als heute.

Wie Ingo so schön schrieb.
Die Listen stellen Gleiches fest, die Listenbetreiber sind sich zu diversen Punkten nicht ganz einig bzw. vertreten hier und dort unterschiedliche Auffassungen zu Testmethoden. Leider führt das oft dazu das sich Personen auch angegriffen fühlen und dann blockieren anstatt sich auszutauschen (gel Ingo). Ich finde das ist gut so, auch bei dem Punkt Ratings und Spielstärke sollte es niemals dazu kommen, das alles zu 100% gesichert festgestellt werden kann, das würde mit Einsicht den Reiz an diesem Hobby nach unten schrauben. Es muss nicht alles immer erklärbar sein und Theorien zu diesen oder anderen Punkten versüßen den Umstand sich mit dem Thema zu beschäftigen.

Ist ein Thema ausgereizt bedeutet dies letztendlich Stillstand.
Forscherdrang ist gefragt und wenn das im Vordergrund steht, ja dann darf auch mal ein verdienter Professor in einer Äußerung angegriffen werden. Wahrscheinlich, ist es ein guter Prof., ist es genau das was er beabsichtigt.

Animation ist Fortschritt.
Fortschritt ist Entwicklung.

Animation steht an erster Stelle um das Interesse der Leute zu wecken um ein Thema nach vorne zu treiben.
Ein Punkt der mir sehr wichtig ist, denn ich profitiere selbst daraus in dem ich mich dann selbst von Erkenntnissen anderer bereichern kann.

Gruß
Frank

By Frank Quisinsky Date 2011-09-13 18:56

Nochmal kurz zu Deinem Posting:
Die Anzahl der Spiele ist genauso wichtig wie die Anzahl der Gegner.

Viele Partien alleine machen ein Rating nicht besser.

Hier noch eine Statistik erzeugt aus meiner SWCR Datenbank:

400 Partien, durchschnittliche Abweichung = 11 ELO
800 Partien, = 6 ELO
1.000 Partien, = 4 ELO
8.000 Partien, = 2 ELO (festgestellt mittels Datenbanksimulation ... die 130.000 SWCR Partien per Zufallsgenerator neuen Engines zugewiesen und mehrfach ineinander kopiert).
Sehr interessant, kommt das gleiche raus als wenn ich die 130.000 mehrfach verkleinere und dann mittels dieser Simulation überprüfe ob ich ein änliches Ergebnis nach den tatsächlich vorliegenden Ergebnissen habe.
Egal, vielleicht zu kryptisch!

Eine ELO Ergebnis von Partienummer 800 auf 8.000 weicht durchschnittlich um 4 ELO voneinander ab.
Es macht keinen Sinn sich an große Anzahl von Partien aufzuhängen, es macht mehr Sinn darauf zu achten ob auch reichlich Gegner zur Verfügung gestanden haben.

By Benno Hartwig Date 2011-09-14 08:40 Edited 2011-09-14 08:43

[quote="Frank Quisinsky"]Eine ELO Ergebnis von Partienummer 800 auf 8.000 weicht durchschnittlich um 4 ELO voneinander ab.
Es macht keinen Sinn sich an große Anzahl von Partien aufzuhängen, es macht mehr Sinn darauf zu achten ob auch reichlich Gegner zur Verfügung gestanden haben.[/quote]Diese große Zahl der Gegner, deren relative Stärke häufig nur sehr wenige interessieren, stellt aber auch einen möglichen Kritikpunkt dar. Wenn einer ruft "Ich will 'ne starke Engine!" dann interessiert ihn häufig halt besonders ihre Gewinnaussichten gegen die top-10-Engines.
Dass du in solchen Fällen besser testest mit Spielen gegen sehr viel weit schwächere Gegner (und dabei recht wenigen Spielen gegen die starken) statt besonders intensiv gegen eben diese top-10, nehme ich dir nicht ab.
Man sollte sich zuerst überlegen "Was will ich denn herauskriegen?" oder "Was soll die ELO-Zahl denn ausdrücken, die ich herausbekomme?"
und dann sollte man sich überlegen und bewerten, mit welcher Methode man dies versucht.
Was ganz konkret soll die von dir angegebene ELO-Zahl der Engines eigentlich ausdrücken? "Die Stärke innerhalb meines Turniers!" wäre als Erklärung vielleicht nicht wirklich befriedigend.

Übrigens:
Bei manchen "Guck mal, die ELO-Zahl hat sich die letzten 400 Partien nur noch um XXX geändert "-Momenten sollte man sich übrigens darüber klar sein, dass die Abweichung vom Erwartungswert, der bereits in den bisherigen Partien erspielt wurde, auch mitwirkt, wenn die Partienzahl vergrößert wird. Habe ich nach 500 Partien eine ELO-Schätzung, die 20 ELO über dem richtigen Wert (besser: den Erwartungswert) liegt, dann ist direkt zu erwarten, dass nach 1000 Partien ein Wert geschätzt wird, der so ungefähr 10 ELO zu hoch liegt. Der dann zu erwartende Wert ist also deutlich nicht der eigentlich zu schätzende Erwartungswert.
Benno

By Frank Quisinsky Date 2011-09-14 11:09

Code:

Diese große Zahl der Gegner, deren relative Stärke häufig nur sehr wenige interessieren, stellt aber auch einen möglichen Kritikpunkt dar. Wenn einer ruft "Ich will 'ne starke Engine!" dann interessiert ihn häufig halt besonders ihre Gewinnaussichten gegen die top-10-Engines.

Ja, aber damit kannst Du keine genaue ELO messen, weil zu wenige Gegner spielen. Wir haben heit das Problem, dass zwischen den Gruppen der TOP-30 die Lücken zu weit auseinanderklaffen. Wir haben die TOP-7 und ab Nummer 8 Naum dann wieder eine Gruppe. Und dann ab 2.675 runter wieder eine Gruppe. Starkes oberes Feld, starkes Mittelfeld und starkes untere Feld mit großen Lücken dazwischen.

Nochmals, ob gegen schwächere oder stärkere Engines getestet wird macht laut meinen Analysen 3 ELO durchschnittlich zu Gunsten der Schwächeren aus. Du kannst das wie gesagt alles anhand der SWCR Datenbank nachvollziehen. Das heißt, die schwächeren nehmen durchschnittlich den stärkeren eher Punkte ab. Zu groben Verschiebungen in einer Ratingliste kommt es dadurch nicht.

ELO ist ELO
Gestestet wird gegen das was getestet werden kann und was technisch möglich ist. Es kommt hierbei eine Wertungszahl heraus, die das Ergebnis von einem möglichen Test widerspiegelt. Diese Ergebnisse sind bei den großen Listen +- fast identisch. Die Frage von Dir erübrigt sich, zumal wir davon ausgehen können, dass somit in etwa ein richtiger Wert herauskommt. Jetzt mal unabhängig davon auf welche Engine mit welcher ELO eine Liste geeicht wird. Für wichtiger halte ich es danach zu schauen, wie die Differenzen zwischen den Engines sind oder ob sich neue Versionen verbessert haben oder nicht. Das macht Sinn zu vergleichen und ist eigentlich das Ziel einer größeren Gegenüberstellung mittels einer Tabelle bzw. Ratingliste.

Zu Deinem "Übrigens":
Bei der SWCR ja 40 Partien pro Match, mehr oder weniger immer 40 Runden.

Nun spielt Engine A in Runde 1 sehr gut und in Runde 2 sehr gut. In den folgenden Runden 3-38 normal und in den Runden 39 und 40 eher schlecht. Damit will ich sagen, es gibt öfters mal gute und schlechte Runden. Überwiegend sind es aber Runden mit gleichmäßigen Resultaten.

Vergleichbar mit:
Engine A - Engine B, 14 : 6
Engine A - Engine B, 12 : 8
Engine A - Engine B, 13 : 7
plötzlich
Engine A - Engine B, 18 : 2 ... das passiert ultra- selten schon bei 20 Partien und erst Recht bei 40 Partien.

Der Durchschnittswert aller Partien bildet dann ein Endergebnis.
Schauen wir auf die einzelnen Endergebnisse nach 40 Partien, und vergleichen mit dem Gesamtergebnis nach z. B. 1.200 Partien gegen 30 Gegner fällt auf, dass es nur sehr sehr selten Ergebnisse nach 40 Partien gibt, die dem Gesamtergebnis nicht entsprechen.

Die Frage ist dann ...
Zufall oder Erklärung, meist gibt es eher die Erklärung (Angstgegner).
Das wiederum fällt auf wenn z. B. eine Nachfolgeversion gegen den gleichen Gegner wieder Angstgegner Resultate erzielt.

Lange Rede ...
Suchen nach Schwachstellen von einem Ratinglistensystem ist schwierig. Wäre dankbar wenn herausgefunden wird das es welche gibt denn das dient der zukünftigen Verbesserung. Zu begründen mit Zufallsergebnissen ist aufgrund der Wahrscheinlichkeitsberechnungen dumm, zu selten sind wirkliche Ergebnisse Zufallsergebnisse. Jedes Ergebnis was aus der Reihe tanzt mit ErrorBar als Zufall zu begründen macht nicht nur keinen Sinn, sondern entspricht meist nicht den Tatsachen (andere Gründe).

Gruß
Frank

By Benno Hartwig Date 2011-09-14 13:14 Edited 2011-09-14 13:18

[quote="Frank Quisinsky"]Ja, aber damit kannst Du keine genaue ELO messen, weil zu wenige Gegner spielen.[/quote]Derjeneige, der sich für die Erfolgsaussichten gegen jene Engines interessiert, der wird naturgemäß gern eine gegen jene Engines ermittelte Spielstärkeeinschätzung sehen wollen.

oder bezweifelst du das?

[quote="Frank Quisinsky"]ELO ist ELO[/quote]Nachdem ich nun in mehreren Postings darlegte, man solle sich zunächst darüber verständigen, was den der 'richtige ELO-Wert' denn überhaupt sein soll, bevor man sich über die Methoden streitet, bin ich gespannt, wie du die Sinnhaftigkeit dieses Kurzsatzes darlegen möchtest.

Gerade du bricht doch immer wieder Lanze für bestimmte Testdurchführungen. Dann musst du doch auch sagen können, was genau du damit ermitteln möchtest. Und warum genau dies das Ermittlungsziel und nichts anderes, welches durch konkurrierende Tests abgeschätzt wird, sein sollte.

[quote="Frank Quisinsky"]Nun spielt Engine A in Runde 1 sehr gut und in Runde 2 sehr gut.::[/quote]kann und wird manchmal passieren. Zu beachten ist dann, dass A in den folgenden Runden keinerlei Neigung hat, dies wieder auszugleichen. Zu erwarten ist nur, dass die dann folgenden Spiele durchschnittlich ungefähr den Erwartungswert ergeben. Der Fehler vom Anfang hat dann zwar immer weniger Gewicht, er wird sich aber immer so auswirken, dass er das erwartungstreue Schätzergebnis des folgenden Teils nur nach oben drückt.

Es gibt kein Gedächtnis "Oh, eben hat A viel verloren, dann muss A jetzt aber mehr gewinnen, schließlich ist sie ja gleichstark!"

[quote="Frank Quisinsky"]Jedes Ergebnis was aus der Reihe tanzt mit ErrorBar als Zufall zu begründen macht nicht nur keinen Sinn, sondern entspricht meist nicht den Tatsachen (andere Gründe).[/quote]Das kann man ja auch gar nicht. Alles was du hast, ist für jede Engine ein Schätzwert und eine 95%-Intervall. Und alles was du weißt ist, dass dein Schätzverfahren für diese Engine ein Ergbnis lieferte, welches mit 95% höchstens um diese ErrorBar-Werte vom echten (dir letztlich immer noch unbekannten) Wert abweicht. Ob dein einzelner Schätzwert solch einer ist, der außerhalb liegt, weißt du ja nicht.

Du hast 170 ELO-Werte in deiner Liste. Der Erwartungswert für die Anzahl der Schätzungen in deiner Liste, die mehr als die jeweilige ErrorBar von dem wahren, dir unbekannten ELO-Wert abweicht ist: 170/20 = 8,5
Ungefähr jeder 20te deiner Schätzwerte wird im mindestens den ErrorBar-Wert falsch sein. (Vielleicht 6, oder 8 oder auch 10)
(Deshalb ist deine Liste ja sicher trotzdem sehr gut !!!

Dies sind aber die Schwächen, mit denen man leben muss und die es einzuschätzen gilt, wenn man den Aufwand nicht noch einmal irsinnig steigern will.)

Benno

By Frank Quisinsky Date 2011-09-14 15:46

Hallo Benno,

ich hatte aber schon mehrfach geschrieben welche Ziele die SWCR hat. Das geht auch gut und gerne aus 260 News hervor aus der Datei "Beeinflussungsfaktoren" etc.. Solltest Deine Erläuterungen zu meinen Postings vielleicht nochmal überdenken?

Die Frage ist was ist denn überhaupt Willkür.
Wenn ich eine Engine gegen alle die für mich verfügbar sind in einem Spießroutenlauf teste hat das sich nichts mit Willkür zu tun. Wenn z. B. einige fehlen würden, dann hätte das vielleicht etwas mit Willkür zu tun. Ist das Testfeld komplett passt der Begriff nicht. Verstehe nicht was Du meinst?

Richtig, ich setze sehr viele Informationen auf meine Seiten, in dieses Forum und ich schreibe genau was ich mir dabei denke und warum ich das schreibe. Das nenne ich Weitergabe von Informationen. Was stellst Du jetzt in Frage? Worauf möchtest Du hinaus?

Natürlich kann eine Engine keine Neigung dazu haben etwas wieder auszugleichen. Das habe ich natürlich auch nicht geschrieben. In der Regel ist es aber so, dass wenn 40 Runden und es sind schlechte dabei auch gute dabei sind. Nur schlechte oder nur gute würden ja eine Art Zufallsergebnis produzieren. Es gab insgesamt 4 mal den Fall das bei 170 Engines ein Ergebnis bis zu später durchgeführten deutlich mehr Partien um knapp 20 ELO abgewichen ist. Auch das habe ich schon so oft geschrieben.

Die 95% von denen Du spricht interessieren mich nicht. Ich werte meine Ergebnisse mittels Excel selbst aus ohne darauf zu achten was mir Programme vorgeben. Ich halte davon nichts sondern möchte etwas erforschen und selbst feststellen. Das ist interessanter als sich auf irgendwelchen Erkenntnissen von Programmen auszuruhen die vor 10 Jahren entwickelt wurden (ELOstat).

Es gibt in der SWCR derzeit nicht einen einzigen Fall wo ich vermute, dass ein derzeitiges Ergebnis nach mindestens 1.000 Partien um mehr als 20 ELO zu dem tatsächlichen Ergebnis abweicht. Die SWCR überprüft sich selbst mittels 32bit und 64bit bzw. der unterschiedlichen Versionen und erwarteten Steigerungen unter Berücksichtigung anderer Betreiber. Zumindest sehe ich nichts !!

Ob nun die SWCR gut oder schlecht ist bzw. wie andere darüber denken ist nicht entscheidend für mich. Entscheidend ist etwas festzustellen, etwas zu erforschen und diese Erkenntnisse aus Zwecken der "Animation" weiter zu geben. Ob das immer ankommt oder nicht, das ist mir nicht wichtig. Wenn sich Personen an dieser Arbeit erfreuen sehr gut, wenn nicht auch gut. Vielleicht erhalte ich von diesen Personen dann wertvolle, vernünftige Hinweise etwas zu verbessern.

Soweit zum Thema:
Was will ich erreichen, was möchte ich bewirken und wo liegen die Probleme (Datei Beeinflussungsfaktoren).

Viele Grüße
Frank

By Benno Hartwig Date 2011-09-14 19:19

[quote="Frank Quisinsky"]Wenn ich eine Engine gegen alle die für mich verfügbar sind in einem Spießroutenlauf teste hat das sich nichts mit Willkür zu tun. [/quote]Bitte fasse mein 'Willkür' nicht als Kritik auf. Ich will dir letztlich ja auch gar keine andere Gegnerschaft vorschlagen. Mitunter lese ich Postings mit dem Tenor "meine Liste kommt dem 'richtigen ELO' gut nahe und deine nicht!" Und hier will ich darauf aufmerksam machen, dass solch ein Anspruch mit 'richtige ELO' schon deshalb nicht hinhaut, weil die Auswahl der Gegnerschaft eben doch ein Stück Willkür darstellt, ganz egal wie du es machst.

Bitte fühle dich dadurch nicht angegriffen, mir gefällt deine Liste ja und ich schrieb es ja auch mitunter!
Wahrscheinlich habe ich zu diesem Thema schon viel zu viel geschrieben. Aber wenn das nächste "meine Liste kommt dem 'richtigen ELO' gut nahe und deine nicht!"-Posting kommt, wird es Kraft kosten, mich nicht noch einmal zu äußern.
Benno

By Frank Quisinsky Date 2011-09-14 19:26 Edited 2011-09-14 19:29

Hi Benno,

meine Liste und Deine Liste ...
Das wirst Du niemals von mir lesen, weil völliger Quatsch.
Interpretieren eher User, weil sie denken es herrscht eine Konkurrenz (von meiner Seite aus herrscht keine).

Willkür ist der falsche Ausdruck:
Sage mal so, passend zu dem Konzept der Ratingliste wird entsprechend getestet.

Ingo hat Gründe warum er keinen Fire oder IvanHoe, Winboard Engines, fehlerhafte Engines wie Ktulu etc. testet.
Das ist OK, so wie ich kein Bock mehr darauf habe Fritz zu testen und hier eine andere GUI einzusetzen, viel zu aufwendig oder auch keine Lust darauf habe Houdini 2.0 zu zahlen um dann zu testen weil mich das einfach nicht interessiert.

Solltest das alles auch nicht so eng sehen.
Oftmals stolpere ich über die eigenen Statistiken und denke: Kann nicht sein.
Ich habe derzeit noch 38 Excel Files, 17 der Statistiken sind absolut unklar bzw. wird etwas dargestellt was dann wirklich Vermutung ist und nicht klar genug für eine Veröffentlichung.
Es gibt aber auch Statistiken die sind eindeutig.

Versuche die so nach und nach ins Forum zu stellen, muss diese dicken Files aber immer überarbeiten weil laufend Partien hinzukommen. Viel Arbeit und derzeit auch nicht so viel Lust mich auch noch privat mit Excel rumzuschlagen.

Viele Grüße
Frank

By Frank Quisinsky Date 2011-09-13 17:08

Werner,

ich weiß ganz genau was Du meinst.
Wartete ja förmlich auf diesen versteckten Kommentar.

ErrorBar wird von Usern komplett falsch ausgelegt. Ist etwas nicht zu erklären ist es die ErrorBar. Dabei trifft die ErrorBar wirklich nur in absoluten Ausnahmefällen. Das passiert so selten dass vielleicht 1% von Abweichungen damit zu begründen sind. Egal wer nun was in eine ErrorBar interpretiert. Es steht fest, dass diese nicht die Anzahl der Gegner berücksichtigt. Insofern ist die ganze Berechnung eigentlich komplett für den Ar... da 50% wirklich wichtiger Momente einer zu berücksichtigenden Berechnung den Weg ins mathematische Chaos finden.

Stelle Dir eine riesige Tafel mit Formeln zu einer mathematischen Berechnung vor.
Plötzlich taucht Gudellinde auf und wischt 10% der Mitte mit dem frisch gewässerten Schwamm weg.

Das ist die ErrorBar!

Stelle Dir die linke Seite der Tafel vor und lasse Gudellinde 5% wegwischen, anschließend auf der rechten Seite 5%.
Das ist die derzeitige ELO-Berechnung.

Verbleiben Ansätze eines richtigen Lösungsweges ohne ein wirklich gutes Ergebnis, geflickt damit es funktioniert.

Gruß
Frank

By Frank Quisinsky Date 2011-09-13 18:38

Heit mehr Error wie verwert"bar"es.
Wie der Name schon sagt!

By Benno Hartwig Date 2011-09-13 21:56 Edited 2011-09-13 21:58

[quote="Frank Quisinsky"]ErrorBar wird von Usern komplett falsch ausgelegt. Ist etwas nicht zu erklären ist es die ErrorBar. Dabei trifft die ErrorBar wirklich nur in absoluten Ausnahmefällen. Das passiert so selten dass vielleicht 1% von Abweichungen damit zu begründen sind.[/quote]?
Arbeitest du nicht mit 95%-Errorbars? Dann darfst du doch erwarten, dass ungefähr 5 Prozent deiner Ergebnisse außerhalb der Errorbar sind, dass hier also die 'wahren Werte' weiter von deinem Schätzwert entfernt liegen, als es die Errorbar vermuten lässt.
Benno

By Frank Quisinsky Date 2011-09-13 22:25

Benno,

ehrlich.
Wenn das editieren von ausgegebenen Listen nicht so viel Arbeit machen würde, würde ich die unsinnige Ausgabe der ErrorBar entfernen.
Ich kann mit diesem Wert nichts anfangen und sehe darin in der gewollten Form keinen Sinn.

Unsinn:
09   50 Shredder 12 w32 2800 8 8 7007   60% 2725   36%
10   52 Sjeng c't 2010 w32    2790 9 9 4887   57% 2739   38% ... 2.120 Partien weiter, einen dazu!

Unsinn:
32 Critter 1.01 w32    2885   42   41   213   71% 2726   37%

Tatsächlich sind es nach 225 Partien 54, 52
Die ganze Gewichtigung stimmt nicht, rest Recht bei kleinerer Anzahl von Partien.

Muss einfach mal gründlich überarbeitet werden.
Frank Schubert hatte seinerzeit nur die Winboard Ratingliste von mir für die Stichproben. Das ist schon so lange her. Die Ideen sind sicherlich gut und richtig aber die Gewichtungen stimmen nicht wie wir heute mit größeren Datenmengen leicht feststellen können. Auch sollte ein paar neue Erkenntnisse einfließen. Dennoch eine super Arbeit was Frank Schubert mit ELOstat geleistet hat. Ein wichtiges Werkzeug! Anzahl an unterschiedlichen Gegnern mal außen vor.

Viele Grüße
Frank

By Benno Hartwig Date 2011-09-14 07:19

[quote="Frank Quisinsky"]Wenn das editieren von ausgegebenen Listen nicht so viel Arbeit machen würde, würde ich die unsinnige Ausgabe der ErrorBar entfernen.[/quote]Ob deine Tools die Errorbar richtig angeben, weiß ich nicht.
Ich finde diese Angabe aber schon sehr sinnvoll und man sollte drauf schauen.
Und man sollte sich bewusst sein, dass bei einer 95%-Errorbar ungefähr eine von 20 Engines so krass falsch eingeschätzt wurde, dass der wahre Wert eben nicht innerhalb der Bar liegt.
Und man weiß nicht, welche Engine...
Benno

By Frank Quisinsky Date 2011-09-14 11:12

Benno,

ja, man weiß nicht welche Engine!
Das ist in der Tat so wenn es wirklich um ein Zufallsergebnis geht.

Ist dem so, schaue ich mir oft andere Listen an.
Schön das es so viele gibt.

Fast immer bestätigt sich aber dann "kein Zufall", andere Liste hat gleiches Ergebnis!

z. B. zur Zeit:
Junior bei mir höher als in anderen Listen, nicht viel aber sichtbar höher.
Siehe z. B. CEGT zu SWCR Vergleich!

Also Beweis genug ... ein "wir wissen nicht wann Zufall" fällt weg durch den Blick auf eine andere Liste.
Das mehrere Listen dann gleiche Ergebnisse haben, schaltet "Zufall" einfach aus.

Gruß
Frank

Im Fall von Junior muss es eher Gründe geben.
Auch wenn meine Ergebnisse aus der Reihe tanzen.
Meine Ergebnisse ziehen sich aber durch alle Junior Versionen durch.
Bei allen Junior Versionen besser bei mir als bei anderen Listen.
Insofern muss es Gründe geben, weil intern durch die vielen Versionen schon bestätigt ist "Kein Zufall".

By Werner Mueller Date 2011-09-14 14:18

[quote="Benno Hartwig"]
...
Und man sollte sich bewusst sein, dass bei einer 95%-Errorbar ungefähr eine von 20 Engines so krass falsch eingeschätzt wurde, dass der wahre Wert eben nicht innerhalb der Bar liegt.
Und man weiß nicht, welche Engine...
Benno
[/quote]
Man sollte sich auch bewusst sein, dass im Extremfall (wenn die Testumgebung krass falsch ist) nicht nur ungefähr eine, sondern ungefähr alle

Engines krass falsch eingeschätzt worden sein können.

Denn:
Selbstverständlich können die ErrorBars die Güte der Testumgebung nicht irgendwie berücksichtigen.
Sie sagen lediglich aus: das nach Stand der Dinge oder in eventl. späteren Phasen des Testes wird das zu erwartende Ergebnis mit z.B. 95%-Wahrscheinlichkeit innerhalb der ErrorBars liegen. Darüber, ob das zu erwartende Ergebnis Schrott oder nicht Schrott ist wird keine Aussage gemacht.

(btw.: ErrorBars werden i.d.R. mit steigender Partienzahl kleiner, allerdings nicht zwingend, z.B. nach 'Serien')

Ob 'die User' die ErrorBars falsch auslegen, weiß ich nicht.
Frank auf jeden Fall, sonst würde er nicht (seit gefühlten Jahrzehnten) obige Selbstverständlichkeit gebetsmühlenartig, immer und immer wieder als einen von ihm entdeckten und geradzu skandalösen mathematischen Missstand verkaufen wollen und in der Konsequenz die ErrorBars mehr oder weniger als Quatsch bezeichnen.