Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Spielstärkeberechnung bei Schachprogrammen ...
- - By Frank Quisinsky Date 2013-09-09 21:45
Hallo zusammen,

stelle mir schon lange die Frage, ob die ELO überhaupt eine Spielstärke "angemessen" wiedergeben kann.

Eine Spielstärke in einer Zahl mit 4 Stellen auszurücken halte ich mathematisch für vermessen, gerade bei einem so komplexen Thema wie Computerschach.
Eine Zahl mit vier Stellen bewirkt eher das Gegenteil des gewollten Zieles. Die Zahl wird nicht genauer, sondern ungenauer. Dann wenn die Berechnungen auch noch abhängig von Beeinflussungsfaktoren, wie Zeit, Ponder etc. werden wird eine Zahl mit vier Stellen zu komplex. Zwecks Optimierung der Darstellung also ein Kürzung von 4 Stellen auf 3 Stellen.

Ein Anfänger beginnt ca. mit 1.000 ELO.
Bringen wir das nun auf eine dreistellige Zahl wird es wesentlich einfacher.

Ein Anfänger beginnt von mir aus mit einer Zahl von 100.
Warum eigentlich 100 und nicht 0!!

Also, ein Anfänger beginnt bei 0!

Nehmen wir das Schachprogramm X mit einer Spielstärke in ELO von 2.500
Also 2.500 - 1.000 = 1.500  = 150 (dreistellig reicht aus) - 100 (wir starten bei 0) = 50

Die Spielstärke von dem Schachprogramm wäre 50 und nicht 2.500.
Ein Schachprogramm mit 2.550 hätte demnach eine Spielstärke von 55 und Houdini mit ca. 3.075 hätte demnach 108 aufgerundet.

Um jetzt eine Spielstärke bei einer dreistelligen Zahl genau zu messen benötigen wir nach meinen SWCR Berechnungen (ohne ELO Auswertungsprogramme zu Rate zu ziehen, sondern einfach nur Ergebnisse die ermittelt wurden zu Rate zu ziehen) ca. 1.000 Partien. In ca. 2% der Fälle würde es bei 1.000 Partien zu einer Abweichung von einem Punkt (bei dreistelliger ELO) kommen. Um diesen einen Punkt genauer auszudrücken (bzw. die 2% einzuschränken) werden ca. 2.000 Partien benötigt (ELOstat oder Bayes würden konnten ... 4.000 Partien).

Könnten wir uns eine Ratingliste vorstellen die ca. so aussieht:

01. 108 Houdini
02. 103 Komodo
03. 102 Stockfish
72.   52 AnMon

???

Wäre die hinsichtlich Genauigkeit nicht auch völlig ausreichend.

Oder muss es wirklich eine Ratingliste sein die so ausschaut ...

01. 3074 Houdini
02. 3032 Komodo
03. 3024 Stockfish
72. 2520 AnMon

Um dann tausende Partien spielen zu lassen um bei einer vierstelligen Zahl die 4 bei Houdini letzte Zahl also die 3.074 so genau zu treffen?
Um dann wieder zu diskutieren dass bei anderen Bedingungen die Zahl ganz anders wäre.

Das leuchtet mir nach den Ratinglistenerfahrungen nicht so wirklich ein.

Vielleicht findet sich jemand der uns mal ein neues Berechnungskonzept vorstellt und ein nettes Programm für eine wesentlich einfacherer Berechnung offenbart.

Viele Grüße
Frank

Mal so in den Raum gestellt ...
Vier Stellen für die Berechnung einer Spielstärke halte ich zumindest beim Computerschach für unsinnig.
Parent - - By Frank Quisinsky Date 2013-09-09 22:01
Unsinnig ist falsch ...
Irrsinnig ist richtig!
Parent - - By Frank Quisinsky Date 2013-09-09 22:28
Hi,

vergessen ...
Warum ich das mal zur Diskussion stelle ...

Nehmen wir mal AnMon!

Wenn AnMon im Blitz 2.520 erreicht und im Schnellschach dann 2.540 bzw. im Turnierschach 2.560 wären dann bei diesem Beispiel:

Spielstärke: 52, 54, 55

Werfen wir alle AnMon Partien in einem Topf kommt dabei heraus 54
Ob es dann nun 53 oder 55 sind interessiert auch niemanden.

Um mal über das Thema nachzudenken ...
30 oder 40 ELO mehr oder weniger bei längeren oder kürzeren Bedenkzeiten ... wie wenig das eigentlich wirklich ist wenn eine Spielstärke dem Computerschach angemessener gestaltet wird.

Viele Fragen wären dann gar nicht mehr diskussionswürdig.
Tausende von Partien zur Feststellung einer Spielstärke wären unnötig bzw. ehrlich gesagt ... sind unnötig.

Das Problem wird aber sein ...
Etwas neues so krass einzuführen ist vergleichbar als zu versuchen die Oma von einem iPad zu überzeugen.
Das gelingt nur in wenigen Fällen

Einfach mal wirken lassen und drüber nachdenken wie irrsinnig Dinge sein können die so tief verankert sind ... weil es immer so war und nie wirklich in Frage gestellt wurde.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2013-09-09 22:52
Zu spät, zu viele Fehler ...

AnMon = 2.500
Bei 1.000 ELO geht es beim Anfänger los ... unsinnig, warum bei 1.000?

Zunächst kürzen wir auf drei Stellen.
AnMon = 250

Beginnen nicht bei 1.000 sondern 0

AnMon = 150

Houdini hätte demnach
Houdini = 3.080
= 308 - 100
= 208

Vereinsspieler mit 1.600
= 160 - 100
= 60

01. Houdini 208
02. AnMon 150
03. Vereinsspieler 60

Zwei Stellen wie jetzt AnMon = 55 oder 56 wäre zu wenig.

Würde sich AnMon in einer neuen Version um 50 ELO verbessern hätte die Engine also anstatt 150 im Grunde 155.

Finde eine solche Darstellung reicht aus und ist wesentlich einfacher.

Interessant ist z. B. dann auch die Aussage ...
Houdini mit rund 200 ist doppelt so stark wie ein Spieler mit 100.
Also Houdini mit 3000 ELO ist doppelt so stark wie ein Spieler mit 2.000 ELO.
Bei der ELO-Berechnung anhand der Zahlen geht das so auch gar nicht richtig hervor.

Aber das ist nur ein Beispiel und mathematisch auch nicht vom feinsten

Fest steht, ich finde eine Spielstärke beim Computerschach sollte in eine dreistellige Zahl ausgedrückt werden, logischer Weise beginnt ein Anfänger bei 0.

Gruß
Frank
Parent - - By Tom Paul Date 2013-09-10 06:12
Warum ELO XXXX und nicht XXXXX ?
Wäre doch viel genauer, da hätten z.B. die 5 Spieler aus einem Club die jetzt alle 1600 haben alle eine unterschiedliche Spielstärke und man wüsste genau wer an welchem Brett spielen wird.

Die XXXX ELO war ja nur (für eine Hand voll Spieler gedacht), weil es damals sehr wenige Schachspieler im Vergleich zu heute gab.
Parent - By Klaus Meier Date 2013-09-10 06:46 Edited 2013-09-10 06:52
[quote="Tom Paul"]
Warum ELO XXXX und nicht XXXXX ?
Wäre doch viel genauer, da hätten z.B. die 5 Spieler aus einem Club die jetzt alle 1600 haben alle eine unterschiedliche Spielstärke und man wüsste genau wer an welchem Brett spielen wird.

Die XXXX ELO war ja nur (für eine Hand voll Spieler gedacht), weil es damals sehr wenige Schachspieler im Vergleich zu heute gab.
[/quote]

So etwas intressiert wohl nur jene, die mit Engines verkaufen ihre Geschäfte machen möchten. Je enger die Spielstärken verschiedener Engines zusammen fallen, desto schwieriger wird es in der Werbung seriös sagen zu können, unser HAU(drauf)DINI ist die stärkste Engine.
1000000 verschieden ENGNES benötigen dann wohl bald wirklich 7 stellige Bewertungszahlen. Nur wie ist der Aufwand für eine dazu nötige  Statistik mit einem glaubhaften Ergebnis dann noch zu bewältigen ? Das Stockfish Team hat doch schon einen Ansatz dazu gefunden mittels  GastPCs per Netzwerkanschluss. Das erspart den KAuf eines eigenen StromKraftwerks sowie den Erwerb tausender eigener Rechner, die nötig sind um Milliarden Partien in kurzer Zeit für den aus wissenschaftlicher Sicht dann nötige Statistik bewältigen zu können. Wir Menschen haben das doch garnicht nötig diesen Beweis zu erbringen uns würde wirklich auch eine 3 stellige INGO-Zahl reichen für eine ungefähre Voreinschätzung unserer Spielstärken. Korrekt sollte es dann wohl heissen :  Die XXXX ELO war ja nur (für eine Hand voll ENGINES gedacht), weil es damals sehr wenige ENGINES im Vergleich zu heute gab.  Grüße K.
Parent - - By Peter Martan Date 2013-09-10 06:56 Edited 2013-09-10 07:06
[quote="Frank Quisinsky"]
Fest steht, ich finde eine Spielstärke beim Computerschach sollte in eine dreistellige Zahl ausgedrückt werden, logischer Weise beginnt ein Anfänger bei 0.
[/quote]

Frank, ich glaube, du grübelst zu viel über Nebensächlichkeiten.
Die Maßzahl spielt keine Rolle gegenüber den im momentanen System viel unlösbareren Anforderungen an ein Ranking, als da wären: vergleichbare Werte zu bekommen bei verschiedenen und verschieden großen Teilnehmerfeldern, verschiedenen Teststellungen und verschiedenen Zeit- Hardware- Bedingungen.
Vorweg würde ich auch vor Allem nicht das bestehende System in Frage stellen, um durch Experimentieren mit Alternativen überhaupt einmal neue Wege zu finden, so lange wir nichts besseres haben, muss das, was an Elo nach wie vor Geltung hat bei den Entwicklern, eher unterstützt werden in der Machbarkeit und Relevanz, als unterminiert.

Lass uns, wenn du in Grübel- und Experimentierlaune bist, doch völlig unabhängig von den guten alten Elo (ich komme mir schon ein bisschen komisch vor, wenn ich das schreibe ), die von der Maßzahl unabhängigen Imponderabilien angehen, wenn wir schon was Neues ausprobieren wollen.
Weil, wenn wir nicht mehr wissen, wen wir noch mitspielen lassen und von was für Eröffnungen aus wir spielen sollen, um überhaupt noch ausreichendes Datenmaterial sammeln zu können, ist es egal, ob wir die Ergebnisse in Elo, PS oder mm angeben, die Werte sind sowieso auch untereinander dann nicht mehr wirklich vergleichbar, wenn im zugrunde liegenden Testverfahren zu ähnliche Teststellungen und zu viele zu ähnliche Teilnehmer die statistische Signifikanz runinieren, das musste ich jetzt doch noch wieder mal loswerden, auch wenn ich dabei vielleicht  wieder etwas subversiv bin gegen die bestehende Celolitis.

Die engines geben (mittlerweile doch so ziemlich alle, deren Autoren überhaupt mitspielen wollen) Evals im Spiel und in der Analyse aus.
Was spricht wirklich dagegen, diese von allen irgendwie nach schachlichen Kriterien aneinander angeglichenen Bewertungen als Vergleichszahlen für ein Ranking herzunehmen?
Ich weiß schon, die Evals von Houdini und die von Stockfish sind nicht direkt numerisch vergleichbar, was aber allen Evals gemeinsam ist, oder zumindest sein sollte, ist, eine Relation zwischen einer Remis- und einer Gewinnstellung anzuzeigen.
Seit Jahr und Tag propagiere ich daher, bei taktischen Stellungen mit eindeutigen best moves ("Lösungszügen") aber auch bei positionellen Stellungen ohne solche und ohne forcierte Abspiele, aus den Absolutwerten der Evals Relationen zwischen einer vor und einer nach dem best move oder den in Frage kommenden Abspielen beliebiger Variantenlänge am Anfang und am Ende der Testvarianten herzustellen, eine Relation zwischen Ausgangs- und Endbewertung bei jeder einzelnen getesteten engine für sich, diese Relationen sollte man dann wieder zwischen den engines vergleichen können.
Beispiel: Nein, bringe ich jetzt keines, wird nur unnötig lang, kann sich mal jeder selber was zurechtbasteln, ist eine Übereinkommensfrage, wie man das konkret berechnet und die Ergebniszahl dann nennt.
Bevor ich jetzt gleich wieder so in Rage komme in einem Einzelposting wie du oder mir auch gleich ein paar mal selber antworte, lass ich das jetzt fürs Erste mal wieder so stehen und schaue, ob sich vielleicht doch auch dafür mal wieder jemand interessiert, wie ich mir das genauer vorstelle, hin und wieder sind schon Leute wie Michael Scheidl kurzfristig ein bisschen neugierig darauf gewesen, schien mir mal, ich neige allerdings dazu, mein P.T. Publikum dann gleich wieder zu verlieren, weil ich ins Schwafeln kommen, gestellte Detailfragen möglichst kurz und verständlich zu beantworten, wäre der bessere Weg, wenn's denn wirklich mal jemanden außer mir interessieren sollte...

P.S. Die Maßzahl, die mir dann einfachster Weise vorschwebte, wäre übrigens von mir aus ruhig auch 3stellig, Frank, wenngleich vielleicht 2 Stellen hinter dem Komma wären, das wäre aber dann praktisch Zufall und auch nicht immer so, es spielt wirklich die kleinste Rolle, aber wenn es funktioniert, wie ich es mir vorstelle, sollte es keine große solche (Rolle) spielen, welche und wieviele engines wir gegeneinander testen und welche Ausgangsstellungen wir nehmen, wenn wir uns dabei über eines klar sind: die Spielstärken, die wir messen, sind immer von den einzelnen Teststellungen abhängig (wie bisher ), wollen wir so etwas wie overall playing strength messen (was vielleicht schon ein vermessenes Unternehmen an und für sich ist, bei Menschen will das in Wirklichkeit kein Mensch ), und wir werden es natürlich wollen, weil wir natürlich weiter so werden tun wollen, als gäbe es das (bei den menschlichen Spielern gibt man sich ja erst recht nach wie vor gern dieser Elosion hin), dann und nur dann brauchen wir ein große Zahl von Teststellungen, in jedem Fall aber müssen wir von allen wirklich wasserdichte Abspiele kennen. Das gibt's schon in positionellen Stellungen auch, die Eröffnungstheorie und die Datenbanken bieten da genug, und wer sagt, dass es von einer einzelnen Teststellung aus nur eine einzelne Testvariante geben muss, im Gegenteil im Sinne meiner Testmethode, möglichst viel Ergebnis aus möglichst wenigen Stellungen wäre das am besten Erreichbare.
Parent - - By Frank Quisinsky Date 2013-09-10 11:21
Hi Peter,

kann sein das ich über Nebensächlichkeiten am grübeln bin.
Aber das sind wir alle

Die Spielstärkeermittlung gefällt mir halt nicht und es ist wie mit einer Schachentwicklung.
Sind Fehler im Programm müssen die raus und die Programmierer beginnen zu denken.

Nur weil etwas gegeben ist "ELO" heißt das nicht wir müssen diese Jahr für Jahr feiern. Auch solche Dinge sind aufgrund neuer Erkenntnisse zu verbessern. Und die derzeitige Berechnung hat meines Erachtens nicht wirklich etwas besonders eher etwas irrsinniges und kompliziertes mit dem wir aufgrund der vielen unterschiedlichen Fallgestaltungen heute weniger anfangen können als noch in Zeiten in denen wir nicht die Möglichkeiten hatten festzustellen.

Sage mal so, ich stelle ELO nur bedingt in Frage ...
Richtiger ausgedrückt wäre eher ... halte ELO für nicht mehr zeitgemäß!

Evals zu bewerten macht keinen Sinn.
Weil diese zu unterschiedliche erzeugt werden, die Messmethoden sind nicht gleich.
Gleich ist aber der Partieausgang in 1:0, 0:1 und Remis.

Wobei ein 1:0 oder ein 0:1 bzw. auch Remis anders bewertet werden könnte.
Wir kennen das aus der 3 Punkte Regelung beim Fußball.

Gewinn in 30 Zügen vielleicht ein 1.2 : 0
Gewinn in 40 Zügen vielleicht ein 1.1 : 0
Remis unter 25 Zügen vielleicht ein 0.4 : 0.4 anstatt ein 0.5 : 0.5
Wir wollen ja schnelle Remispartien auch bei den GMs vermeiden und im Computerschach bringen die auch keine klarere Bewertung.

Spielen können wir mit dem Partieausgang, nicht mit den Evals.

Denke mal drüber nach ...
Die Schraube einer genaueren Aussage kann gedreht werden aber niemand macht es.

Eine Engine die durch einen schönen Sieg schnell gewinnt muss belohnt werden.
Eine Engien die durch einen Fehler schnell verliert muss bestraft werden.

Insofern
Gewinn unter 30 Zügen wäre das Ergebnis 1.2 : -0.2

Es gibt so viele Schrauben, glaube mir und wie gesagt ... die Spielstärke einer Engine kann mit geringeren Mitteln (weniger Partien) genauer berechnet werden.

Gruß
Frank
Parent - By Frank Quisinsky Date 2013-09-10 11:29
deswegen ist z. B. auch der Aufgabefaktor wichtig.
Eine Partie endet mit Matt zumindest im Computerschach.
Bis dahin ist vieles möglich.
Spark kann nicht mit Dame gegen Turm matt setzen etc..
Eine genaue Berechnung setzt daher immer ein genaues Testen voraus.
Auch wenn das jetzt kleinkariert klingen mag.

Ein Grund warum ich lieber ohne Aufgabefaktor spielen lassen.
Es sind genauere Analysen möglich.

Computerschach Bewertungen und Bewertungen von menschlichen Leistungen sind unterschiedlich.
Kann nicht gleich gemessen werden. Für Computerschach muss ein eigener Standard her ... nicht ELO !!

Gruß
Frank
Parent - By Peter Martan Date 2013-09-10 12:20 Edited 2013-09-10 12:24
[quote="Frank Quisinsky"]
Evals zu bewerten macht keinen Sinn.
Weil diese zu unterschiedliche erzeugt werden, die Messmethoden sind nicht gleich.
[/quote]

Frank, ich will nicht die Evals der einzelnen engines miteinander vergleichen, sondern die Relationen von Evals zueinander bei ein und derselben engine vor und nach Testzügen und Testvarianten, Relationen von Evals ein und derselben engine am Anfang und am Ende einer Testvariante.
Diese Relationen, die den Fortschritt einer Stellung durch den Output einer einzelne engine beschreiben sollen und es ja auch tun, sind für jede einzelne engine so richtig oder so falsch, wie sie Stellungen und Varianten über beliebig kurze (einzelne Züge) oder lange (ganze Partien) Strecken richtig oder falsch im Verlauf interpretieren.
Hast du jetzt diese Relationen der Evals ein und derselben engine für eine bestimmte Stellung oder Variante bestimmt, dann kannst du die wieder mit genau derselben Verlaufskurve, genau denselben Relationen bei denselben Stellungen und Varianten zwischen verschiedenen engines vergleichen.
Wie auch immer du daraus jetzt Maßzahlen errechnest, ein Ranking für die einzelne Stellung, die einzelne Variante ist damit so genau definiert, wie nur möglich.

Einziger Nachteil, (wenn's denn einer wäre, es ist in Wirklichkeit nur das zur Kenntnis nehmen, dass das allen Tests eine gemeinsame immanente Voraussetzung ist, man kann sie nur mehr oder weniger beachten), dein Ergebnis ist jeweils nur für einzelne Teststellungen oder -Varianten aussagekräftig, du muss dir selbst überlegen, welche Stellungen wie interessant für dich sind, und wenn du allgemeinere Aussagen treffen willst, brauchst du einen größeren und bunteren Pool an Varianten.

Natürlich kannst und musst du auch noch zwischen verschiedenen Hardware- Zeit- Bedingungen unterscheiden, single core von wegen Reproduzierbarkeit (hast du über weitere Zugfolgen ohnehin auch dann nie) ist aber absolut kein Muss mehr.
Es könnten so sogar endlich auch mal Cluster in ihrer Leistung beurteilt werden, die absolute Voraussetzung dafür, das so etwas überhaupt auch jemals lohnend zu programmieren würde, wenn du's nicht testen kannst, macht es auch keinen Sinn, es zu entwickeln.

[quote="Frank Quisinsky"]
Gleich ist aber der Partieausgang in 1:0, 0:1 und Remis
[/quote].
Richtig, dafür hast du aber pro Partie immer nur 3 Möglichkeiten, Aussagen gewonnen zu haben, bei meinen Variantentests hast du sehr viel mehr als diese 3x0,5 Punkte an Datenergebnis schon bei jedem einzelnen Zug.

[quote="Frank Quisinsky"]
Wobei ein 1:0 oder ein 0:1 bzw. auch Remis anders bewertet werden könnte.
Wir kennen das aus der 3 Punkte Regelung beim Fußball.

Gewinn in 30 Zügen vielleicht ein 1.2 : 0
Gewinn in 40 Zügen vielleicht ein 1.1 : 0
Remis unter 25 Zügen vielleicht ein 0.4 : 0.4 anstatt ein 0.5 : 0.5
Wir wollen ja schnelle Remispartien auch bei den GMs vermeiden und im Computerschach bringen die auch keine klarere Bewertung.
[/quote]

Warum nicht, das eine schließt das andere nicht aus, ich glaube halt, dass du auf alle diese Arten nur die Ergebnisse numerisch veränderst, an der Menge an Information pro Zeit- und Hardware- Aufwand ändert es nichts.

[quote="Frank Quisinsky"]
Spielen können wir mit dem Partieausgang, nicht mit den Evals.

Denke mal drüber nach ...
[/quote]

Wir können spielen womit auch immer wir wollen, Frank, darüber nachzudenken, was man außer dem, was man schon ewig lang spielt und was vielleicht auch schon ein bisschen langweilig wird, noch so alles spielen könnte, kann nie schaden, die Freude an dem, was wir weiterhin gern so spielen wollen wie bisher, muss uns das nicht verderben.
Ich finde halt, was ich da spielen will mit den Evals hat mehr mit Schach zu tun als das bloße Punktezählen allein, übrigens, glaubst du nicht auch, dass das ohnehin mehr oder weniger Alle immer schon gemacht haben und weiter machen werden?
Auf die Evals schauen beim Output und bei der Analyse und wie sie sich mit welchen Zügen verändern?
So lange wir uns weiter gegenseitig versichern, das habe überhaupt nichts zu sagen, uns aber trotzdem ständig daran orientieren, könnten wir der Subjektivitätsvernebelung dabei schön langsam etwas entsagen und uns Gedanken machen, was wir von den Entwicklern diesbezüglich erwarten können, wenn wir's weiter nur als okkulte Wissenschaft unter vorgehaltener Hand betreiben.
Parent - - By Michael Scheidl Date 2013-09-10 14:09 Edited 2013-09-10 14:14
Zitat:
hin und wieder sind schon Leute wie Michael Scheidl kurzfristig ein bisschen neugierig darauf gewesen

Mich interessieren immer Bewertungsansätze über die relativ primitive "Massenpartien-Idee" hinaus. Doch für eine Gesamtbewertung wird es keine allgemein akzeptierte Alternative mehr geben. Falls mir das früher nicht klar war, wurde ich spätestens dann überzeugt als jemand sinngemäß festhielt:

"Praktische Testpartien sind nichts anderes als eine Reihe von Stellungstests in einer Vielfalt von Positionen."

Stellungstests können punktuelle Einblicke liefern, z.B. welche Engine versteht "Turm hinter Freibauer"? Man wähle mehrere(!), zweifelsfrei dementsprechende Teststellungen aus und sehe welche Engine mit ThFB gewinnt, oder blöd remisiert. Für beispielsweise taktische Stärke insgesamt ist das schon wesentlich anspruchsvoller, denn 50 von 100 Höchstschwierigkeiten zu finden ist weniger wichtig als 1990 von 2000 normal-schwierigen Kombinationen zu finden.

Für Deine Idee, den Bewertungsverlauf von Engines zu ermitteln und irgendwie zu bewerten, wirst Du keine Freunde finden. Es gilt das Prinzip:

--> Stellung
--> bester Zug
--> ja oder nein


Details sind unwichtig, finde den besten Zug oder nicht. Besser so 10.000 Stellungen primitiv testen, als 50 mit einem Expertengutachten über warum, wieso, wie wars nach 12-11-10 Halbzügen (ist eh auf jedem Computer anders...) usw.usf. Das bringt doch nichts.
Parent - By Peter Martan Date 2013-09-10 15:20
[quote="Michael Scheidl"]
Doch für eine Gesamtbewertung wird es keine allgemein akzeptierte Alternative mehr geben. Falls mir das früher nicht klar war, wurde ich spätestens dann überzeugt als jemand sinngemäß festhielt:

"Praktische Testpartien sind nichts anderes als eine Reihe von Stellungstests in einer Vielfalt von Positionen."
[/quote]

Könnte glatt von mir sein, bei dem Vielen, was ich in genau die Richtung schon alles abgelassen habe, dennoch, den Satz hat wohl jemand Anderer geschrieben, schade, dass du nicht weißt, wer's war.
Gesamtbewertung ist allerdings sowieso auch reine Illusion, es ist einfach das, was wir aus welchem Testverfahren auch immer zu einer solchen hochstilisieren.
Bei Menschen ist's ja eigentlich noch krasser: wer will denn ernsthaft von sich oder einem anderen Schachspieler behaupten, geschweige denn beweisen, dass die Performance gegen einen bestimmten Gegner weniger spezifische Eröffnungsvorbereitung und Verständnis der bestimmten einzelnen aufs Brett gebrachten Positionen war oder ist und mehr "allgemeine Spielstärke"?
Natürlich, gegen je mehr Gegner in je mehr Eröffnungen jemand gewinnt, umso mehr kann er von sich behaupten der stärkste aller Klassen zu sein, so etwas statistisch beweisen zu wollen, ist Selbstbetrug am Wesen des Schachspiels vorbei.

[quote="Michael Scheidl"]
Für Deine Idee, den Bewertungsverlauf von Engines zu ermitteln und irgendwie zu bewerten, wirst Du keine Freunde finden.
[/quote]

Da magst du recht haben, was die Statistiker und die Elofans (wie wär's mit Elofanten? ) angeht, aber:

[quote="Michael Scheidl"]
Es gilt das Prinzip:

--> Stellung
--> bester Zug
--> ja oder nein


Details sind unwichtig, finde den besten Zug oder nicht. Besser so 10.000 Stellungen primitiv testen, als 50 mit einem Expertengutachten über warum, wieso, wie wars nach 12-11-10 Halbzügen (ist eh auf jedem Computer anders...) usw.usf. Das bringt doch nichts.
[/quote]

Das bringt in Wirklichkeit den Schachspielern den einzigen für sie relevanten Aufschluss, Michael, wie ändern sich die Evals über die Züge, die sie ausprobieren, mal brauche ich längere und mal kürzere Varianten, um den Vorteil der einen über die andere Seite und des einen über den anderen Zug zu sehen.
In der realen Partie gibt's den best move als hot shot höchstens ein- zweimal, wenn überhaupt, den einen bm, den du dir für deine Stellungstests vorstellst und den sich immer schon alle für so etwas gewünscht haben.
Natürlich kann man auch aus Unmengen von Partien und konstruierten Stellungen diejenigen herausssuchen, die in so ein einfach zu beurteilendes Schema passen, da bist du aber in der Auswahl so beschränkt, dass das, was dann als Sammlung herauskommt, wieder eine ganz eigene Schachwelt für sich darstellt, das tut jede Auswahl, aber die der taktisch eindeutig nachweisbaren best moves unmittelbar auf die Teststellung folgend, sind schon eine ganz spezielle solche, damit kannst du sehr schön bestimmte Stärken einzelner engines gegeneinander abwägen, overall playing strength ist nicht einmal die Summe von genau solchen Stellungen allein, da gehören vor allem auch sehr viel mehr "stille" Züge und Eröffnungsvarianten hinein.
Der Hauptsinn der engines ist immer noch der Fortschritt in der Eröffnungstheorie, dafür brauchst du engines, die von den grundstellungsnahen Stellungen aus in der Tiefe die positionellen Vorteile aufspüren, ohne die taktischen Fallen des Mittelspiels zu übersehen und dann im frühen Mittelspiel nicht nur das Remis als einzig sicheren Ausgang anrechnen.
Illusion nach wie vor?
Nicht unbedingt, man muss halt Zug um Zug und Variante um Variante vorgehen, dazu muss der Verlauf der Evals etwas aussagen.
Positionelle best moves für Einzüger- Stellungstests gibt's wohl, sie sind aber in aller Regel nur im Vergleich zu ein paar nicht viel schwächeren Kandidatenzügen und durch mehr oder weniger große Anzahlen von Folgezügen beweisbar.
Das ist mein Punkt:
Wenn du die kleinen Fortschritte, die auch in solchen "normalen" Stellungen drin stecken, von den nur Remis haltenden Alternativzügen am Verlauf der Evals sehen kannst, dann hast du ein starkes Schachwerkzeug, alles andere bleibt ein Spielzeug für sich, dessen Spielstärke gegen andere solche Spielzeuge nur von sehr beschränkter Relevanz für den menschlichen Spieler und die Eröffnungstheorie ist und bleibt.
Sagt dir die Spielstärke, die du in genau den Eröffnungen und anderen Stellungen, die dich selber interessieren, praktisch relevant messen kannst, etwas darüber aus, welche engine wo und wie am besten eingesetzt wird, dann hast du da auch schachlich was davon.
Hören wir hin und wieder mal ein bisschen damit auf, den Sport nur darin zu sehen, auf ein bestimmtes Pferd zu setzen und zum Schluss zu jubeln, wenn es als erstes durch irgend ein Ziel geht, und bringen wir die Interessen der Fernschachspieler, der Buchmacher und der Analysanten (auch nicht von mir, der Ausdruck ) wieder ein wenig mit dem der eng-eng-Spieler zusammen.
Oder glaubst du auch das nicht mehr, dass das noch gehen wird?
Dann können wir uns bald nur mehr entscheiden zwischen Schach oder Computerschach und ob wir spielen oder spielen lassen wollen.
Zugegeben, das mussten wir uns immer schon mehr für das eine oder das andere, es haben aber immer die einen auf das geschielt, was die anderen so hatten, die Fernschachspieler auf die Ranglisten und die eng-eng-Fans auf die Stellungstests und Analysen. Jetzt kranken die Ranglisten halt mehr und mehr am Überangebot an ähnlich starken engines und einer explodierenden Partienzahl als Voraussetzung, um noch statistisch saubere Aussagen treffen zu können, wie sehr sich wie viele engines an den 0815 Eröffnungsstellungen wie viel gegenseitig schenken.
Ich will das wirklich nicht in den Kübel treten, ich will nur die Gelegenheit noch einmal ergreifen, meine für mich schon sehr alte Sicht vom engine- Testen zu erklären, ich weiß schon, dass es eine sehr eigene Sicht ist, gleichzeit weiß ich, dass da jeder seine eigene hat.
Ich verspreche aber auch, ich werde nach diesem aller-allerletzen Mal keinen weiteren Versuch mehr machen, wenn sich wieder einmal mehr herausstellt, dass ich einfach nicht imstande bin, rüberzubringen, worum es mir geht.
Halt, das nehm ich sofort wieder zurück, dieses Versprechen war voreilig und unbedacht gegeben.

Es ist eben so: ich weiß, dass ich genau dasselbe will, wie die meisten, die sich mit Computerschach und Schach beschäftigen, ob es wirklich überhaupt noch geht, eine gemeinsame Basis zu finden, Spielstärkenunterschiede schachlich zu beurteilen, weiß ich auch nicht, Ideen hätte ich, und dass ich nicht versucht hätte, sie zu vermitteln, kann man mir auch nicht vorwerfen.
Vielleicht greift ja jemand Anderer so etwas ähnliches einmal auf, und dann bin ich sicher wieder mit Feuereifer dabei, hoffentlich bin ich dann nicht zu alt dafür...

Mittlerweile mach ich's halt zu meinem Privatvergnügen so weiter wie bisher, immerhin bringt es ja vielleicht doch mal mein Buch weiter, irgend etwas werde ich der Schachnachwelt schon hinterlassen, aber wenn das dann posthum alle anderen Bücher meilenweit hinter sich lässt, fragt mich bloss nicht ins Grab hinein, wie ich das gemacht habe.
Parent - - By Joe Boden Date 2013-09-10 06:44
Frank, Du hast hier http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=6020
doch schon einen Thread zu diesem Thema aufgemacht, wo Michael Scheidl und ich bereits einige konstruktive Ansätze gepostet haben. Lass uns das doch an dieser Stelle mal ausdiskutieren...warum bist Du nicht mehr mit Ideen in Deinen eigenen Thread zurückgekommen???
Parent - By Frank Quisinsky Date 2013-09-10 10:59
Hallo Joe,

ja, schaue ich mir noch an.
Habe derzeit nur morgens etwas Zeit dafür und mache das noch.

Viele Grüße
Frank
Parent - - By Benno Hartwig Date 2013-09-10 07:22
OK, die 4-stellige Zahl gaukelt eine Genauigkeit vor, die letztlich gar nicht da ist. (Wenn ELO als Spielstärkemaß aufgefasst wird, trifft dies auf die ELO-Listen der Menschen in noch viel stärkerem Maße zu!)
Praktisch genutzt wird aber wohl auch nur eine Bereich mit der breite 2000, der ist dann auch man gerade doppelt so groß die der Raum der 3-stelligen Zahlen.
Und das ELO-System ist etabliert.
Ich sehe in 3-stelligen Zahlen keinen ausreichend großen Nutzen, als dass sich solch eine grundsätzliche Neuorientierung lohnen könnte.

Benno

PS:
wenn jemandem dann die 3-stelligen Zahlen als zu wenig granular erscheinen, würden wir sicher auch Spielstärkeangaben 123,4 angeboten bekommen, und dann (Hurra, das Eis ist gebrochen) auch 123,456. 
Parent - - By Chess Player Date 2013-09-10 07:39
Wenn man dieses System ändern will, warum auch immer, dann bietet sich folgende Lösung an.
Ähnlichkeiten zur Ingo-Zahl sind vorhanden!

Man nehme eine Skala von Null bis 100, also 0% - 100% ohne Nachkommastellen.
Der Beste hat dann den Spielstärkewert von 100. Der schlechteste Spieler einen Wert von Null.

Diese System ist gerecht und sehr einfach.
Parent - - By Benno Hartwig Date 2013-09-10 11:04
[quote="Chess Player"]Der Beste hat dann den Spielstärkewert von 100. Der schlechteste Spieler einen Wert von Null.[/quote]Und wenn du die Batterie von Rechnern in dieser Art eingebaut hast, und es kommt dann einer hinzu, der noch stärker ist, oder einer (Gott behüte) der schwächer ist?
Wird die Skala dann erweitert?
Oder bekommen die Engines bei absolut unveränderten Spieleigenschaften einen anderen Spielstärkewert?
Letzteres fänd ich sehr unbefriedigend.

Benno
Parent - - By Chess Player Date 2013-09-10 12:31
Zitat:
Wird die Skala dann erweitert?

C.P.
Nein. Warum auch? Im Prinzip ist es so etwas wie ein umgedrehtes INGO-System.

Zitat:
Letzteres fänd ich sehr unbefriedigend.

C.P.
Das ist doch sehr komfortabel. Man weiss sofort wo die engine in der Rangliste steht!

Fünfzig Prozent enspricht dem Mittelmaß. Besser geht es doch nicht. Einfach skalierbar von 0 bis 100 Prozent.
Und die Unterschiede sind einfachst zu erkennen. Also ultimativ.
Parent - By Hauke Lutz Date 2013-09-10 14:18
Das System was Chess Player meint, ist denke ich mit dem Benchmark vergleichbar.
Rang 1 hat 100,0% und Rang 7 von mir aus nur noch 92,8%.
Parent - - By Benno Hartwig Date 2013-09-10 17:22
[quote="Chess Player"]Zitat:
Letzteres fänd ich sehr unbefriedigend.

C.P.
Das ist doch sehr komfortabel. Man weiss sofort wo die engine in der Rangliste steht![/quote]Der Wert beschreibt dann nicht mehr die Stärke der Engine, sondern die relative Stärke zum Gesamtfeld.
Mich interessiert mehr ein Wert, der eine Annäherung an die unveränderliche Stärke der unveränderten Engine darstellt. Einen festen, unbekannten Wert, den man abzuschätzen versucht.
Benno
Parent - By Chess Player Date 2013-09-10 17:53
Nichts Anderes macht die Elo Berechnung! Sie gibt die relative Stärke zur Gesamtheit in Elo Zahlen aus.
Parent - By Klaus Meier Date 2013-09-10 08:02
[quote="Benno Hartwig"]
PS:
wenn jemandem dann die 3-stelligen Zahlen als zu wenig granular erscheinen, würden wir sicher auch Spielstärkeangaben 123,4 angeboten bekommen, und dann (Hurra, das Eis ist gebrochen) auch 123,456. 
[/quote]

Bleibt zu hoffen, das dieser Bedarf an Differenzierbarkeit der 4-stelligen ELO-Bewertungszahlen für ENGINES dann mal endlich an der Einser-Stelle vor dem Komma halt macht. 
toi toi toi
Parent - By Frank Quisinsky Date 2013-09-10 11:09
Hi Benno,

wie viele Stellen hinter dem Komma stehen ist dann auch nicht so entscheidend.
Von mir aus drei ... denn es sind nur Kommastellen die ausdrücken wo die Tendenz der Vorkommastelle hingeht.

Also ein Rating z. B.
AnMon = 150, 721 wäre für mich auch OK.

Was wir brauchen ist ein komplett neuer Ansatzpunkt die Spielstärke zu berechnen.
Anzahl der Partien, Anzahl der Gegner sollte einfließen.
Das Programm sollte erkennen ob 100 Partien einfließen die eine Werthaltigkeit von Stufe 1 von 10 haben oder eine Werthaltigkeit von Stufe 5 von 10 haben. Je höher die Bedenkzeit, schnellere Hardware sollte die Stufe klettern.

1.000 Partien mit 1 Sekunde pro Zug sollten eingehen mit Faktor 100
100 Partien mit 60 Sekunden pro Zug sollten eingehen mit Faktor 100

Das Berechnungsprogramm sollte also zunächst mal einen Faktor für die Werthaltigkeit errechnen und in das PGN einfügen.

Anwender x hat 10 Partien mit Faktor 3,7
Anwender y hat 2000 Partien mit Faktor 6,3
Anwender z hat 10.000 Partien mit Faktor 2,1

Das sollte das Berechnungsprogramm erkennen um dann die durchschnittliche Spielstärke auszugeben.

Gibst Du dem Programm also 100.000 Partien rechnet es für jede Partie anhand der PGN Informationen im Turniernamen ... dort wird der Faktor gesetzt was ein anders Programm errechnet ... eine durchschnittliche dreistellige ELO.
Im Grunde können dann von allen Anwender egal auf welcher Hardware und Zeit die Partien gesammelt werden und der Datenbank hinzugefügt werden.

Die Ratinglisten Ersteller können die Durchschnittswerte dann mit Ihren ermittelten Werte vergleichen.
Etc..

Ein solches Programm zu erschaffen wird eine echte Aufgabe sein!
Wird aber einen neuen Standard setzen, dessen bin ich mir sicher.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Spielstärkeberechnung bei Schachprogrammen ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill