Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR: SF 2.1.1 JA x64 & SF 2.1.1 JA x64 PHQ, im Live-Mode!
1 2 Previous Next  
- - By Frank Quisinsky Date 2011-06-10 05:41
Hallo zusammen,

nach dem Fire 1.5 xTreme x64, BugChess2 1.9 x64 & Junior 12.5.0.2 x64 "LIVE-Test" läuft nun ...

1. Stockfish 2.1.1 JA x64 (default)
2. Stockfish 2.1.1 JA x64 PHQ (setting)

Im LIVE mode!
PHQ Setting bzw. die Shredder Classic 4.0 GUI *.eng Konfigurations-Datei:
PHQ steht für Pohl / Hartwig / Quisinsky (Anfangsbuchstaben)

Code:
[ENGINE]
Name=Stockfish 2.1.1 JA x64 PHQ
Author=Tord Romstad, Marco & Joona
Filename=C:\Chess\Shredder 12\Engines\Stockfish\Stockfish_211-x64.exe
[OPTIONS]
Book File=
Mobility (Middle Game)=125 (Quisinsky)
Aggressiveness=150 (Pohl)
Cowardice=75 (Hartwig)
Threads=1
Emergency Base Time=0


Gruß
Frank
Parent - By Frank Quisinsky Date 2011-06-10 07:01
Nur eine Niederlage nach den ersten 9 Partien gegen die TOP-9.
Puh, zumindest mal keine Schande ...

Wird schon ...
PHQ wird nach meiner Wunschprognose ganz sicher auf Platz 1 landen

So genug!
Hoffe es stürzt nichts über das Wochenende ab.
Die erste ELO-Berechnung folgt am Montag irgend wann ...

Frank
Parent - - By Benno Hartwig Date 2011-06-10 07:04
[quote="Frank Quisinsky"]2. Stockfish 2.1.1 JA x64 PHQ (setting)[/quote] Ja, kommt, lasst uns das Computerschach revolutionieren!
Im Ernst:
Meine Erwartung ist, dass  diese PHQ-Engine ein Ergebnis so dicht am normalen Stockfish erspielt, bei welchem man nicht erkennen kann, ob nicht doch lediglich die ganz normale Streuung als Ursache angenommen werden sollte.
Aber ich bin gespannt, vor allem auf die Leistung der normal-SF, und mit einem Schmunzeln auch auf die der 'Weltneuheit'!

Benno
Parent - By Frank Quisinsky Date 2011-06-10 07:10
Hi Benno,

durch das PHQ setting wird gerade Protector 1.4.0 JA x64 vermöbelt.
Stockfish spielte Se2-f5 anstatt Se2-f4 ... damit hat Protector nicht gerechnet

Halte ja von den ganzen Settings wenig, weil zu unbestimmt und einfach nicht wirklich testbar.
Aber egal ... ein wenig Spaß am Wochenende und wenn z. B. 30 ELO mehr lassen wir uns in eine TalkShow einladen, vielleicht mit Ingo als Moderator.

Bin mal gespannt auf den IPON Komodo 2.0.1 Test!
Vielleicht startet der am Wochenende auch noch und dann können wir ein wenig glotzen!

Gruß
Frank
Parent - By Benno Hartwig Date 2011-06-10 11:13
Dinge, die die Welt zwar nicht unbedingt nicht wissen muss/will...:
Nach der ersten Runde geht SF221-PHQ hauchdünn mit 75% : 73,33% vor SF221 in Führung (ein halbes Pünktchen also) Konfetti...
Benno
Parent - - By Stefan Pohl Date 2011-06-10 11:55
[quote="Frank Quisinsky"]
Hallo zusammen,

nach dem Fire 1.5 xTreme x64, BugChess2 1.9 x64 & Junior 12.5.0.2 x64 "LIVE-Test" läuft nun ...

1. Stockfish 2.1.1 JA x64 (default)
2. Stockfish 2.1.1 JA x64 PHQ (setting)

Im LIVE mode!
PHQ Setting bzw. die Shredder Classic 4.0 GUI *.eng Konfigurations-Datei:
PHQ steht für Pohl / Hartwig / Quisinsky (Anfangsbuchstaben)

Code:
[ENGINE]
Name=Stockfish 2.1.1 JA x64 PHQ
Author=Tord Romstad, Marco & Joona
Filename=C:\Chess\Shredder 12\Engines\Stockfish\Stockfish_211-x64.exe
[OPTIONS]
Book File=
Mobility (Middle Game)=125 (Quisinsky)
Aggressiveness=150 (Pohl)
Cowardice=75 (Hartwig)
Threads=1
Emergency Base Time=0


Gruß
Frank
[/quote]

Hi Frank,

also dieses Setting halte ich für wenig geeignet. Das Herabsetzen des Cowardice-Faktors ergab bei mir durch die Bank weg immer schlechte Ergebnisse. Und das Heraufsetzen der Mobility könnte sich kontraproduktiv auf Angriffsbemühungen auswirken, weil bei Königsangriffen Figuren auch mal an Stellen gezogen werden müssen, wo sie wenig Bewegungsfreiheit haben. Wenn schon hättest Du eher den Space-Parameter hochdrehen sollen.
Also ich fürchte dieses Setting wird signifikant schlechter abschneiden als die default-Version. Ich hatte mein Setting, nämlich nur die Aggressivität hochzudrehen, schon mit Bedacht gewählt. Zudem ist das Drehen an mehreren Parametern gleichzeitig m.E. prinzipiell sehr problematisch, weil sich dabei unerwartete Nebeneffekte durch das Zusammenspiel der Veränderungen ergeben können, die fast immer schlechte Ergebnisse nach sich ziehen.
Hast Du denn wenigstens einen Schnelltest gemacht, bevor Du dieses Setting in so einen aufwendigen Test schickst?

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2011-06-10 18:24 Edited 2011-06-10 18:27
Hi Stefan,

der Schnelltest läuft parallel. 800 Partien mit Ponder = off hatte ich mit der 2.1.1 default.
Jetzt mit dem Setting sind es ca. 350 ...

ELO kann ich nicht auswerten, da ich keine direkte Liste unter den Bedingungen führe aber es sind 5% mehr als default.

Mal schauen wie es beim laufenden Test ausschaut ...
4.22% mehr für das Setting!

Denke die Idee von Benno ist in Kombination zu Deiner recht gut.
Ich dachte mir schon etwas dabei an der dritten Schraube zu drehen, denn das ist genau das Problem bei Stockfish 1.8.0 - 2.0.1 nach meinen statistischen Auswertungen im Vergleich zu 1.7.1. Also habe ich ganz einfach an der Mittelspielschraube gedreht und zwar ganz sicher in die richtige Richtung. Muss mal Ahmed anschreiben, er drehte in die falsche Richtung bei seinem Stockfish Setting ... da bin ich mir sicher, denn das habe ich anhand von 10 Test-Postionen gestern Abend schon festgestellt.

Also, im Grunde dennoch ein Start auf "Gut Glück" ... so ins Niemandsland hinein, aber ich denke die Kombination dieser drei Einstellungen könnte wirklich gut sein.
Warten wir es mal ab ... schaut derzeit sehr gut aus.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-10 18:51
Hi Stefan,

habe noch schnell die bisherigen Partien überflogen.
Wow, viele Kurzpartien vom PHQ Setting, auch zwei gegen starke Engines, aber auch eine schnelle Niederlage.
Fast keine von Stockfish 2.1.1 default.

Das schaut bislang richtig gut aus, aber wir müssen das wirklich abwarten!

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-10 18:58
Hi,

mal die erste ELO-Auswertung hochgeladen.
Übrigens, beide Versionen haben nicht eine Partie auf Zeit verloren.
BRAVO, war ein Problem der letzten drei Versionen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-10 19:11
Noch ein kleiner TIPP.
Beide Matches wurden zeitgleich gestartet.
Wenn nun eine Version deutlich mehr Partien gespielt hat als die andere bedeutet das, dass der Zügedurchschnitt deutlich geringer ist Natürlich nur so lange kein Match hängen bleibt aber hier läuft alles reibungslos.
Klar das bei diesem aggressiven PLQ Setting der Durchschnitt geringer ist.

Glaube es sind derzeit 9 Partien unter 56 gewonnen für PLO und eine verloren.
Bei Standard ist es bislang noch keine unter 56 gewonnen oder verloren.

Das deutet alles auf einen sehr spannenden Test hin!
Kann natürlich noch alles reiner Zufall sein, sind ja erst wenige Partien gespielt.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-10 19:18
Remisquote ist auch so ein Thema ...
43% bei default ... und 27% bei PLQ !!

Sind alles so Geschichten die das Engine-Leben schreibt!
Parent - - By Frank Quisinsky Date 2011-06-10 19:43
Wow, was war das denn für eine Partien.
Fire ist gegen PHQ in einen Königsangriff gelaufen.
Nach 29 Zügen war die Partien entschieden, nach 33 Zügen bei +5 ...
Leider, leider kann ich nicht weiter zusehen, wirklich endlich mal wieder packendes Stockfish Schach!

Partie kann später nachgespielt werden, die vierte gegen Fire ...
Stockfish jetzt mit DTTL - DTT ... wird also noch ein bissel dauern, aber der Angriff war genial.
Interessant auch das Fire erst im Zug 36 durchgeblickt hat
Die Stellungsbewertungen lagen also 5-6 Züge lang zwischen +2 und +6 auseinander!

Da wird uns wirklich ein heißer Test bevorstehen!

Gruß
Frank
Parent - - By Robert Bauer Date 2011-06-11 11:23
Hallo Frank,

poste doch mal die interessantesten Partien mit schnellem Ende hier!

Gruß, Robert
Parent - - By Frank Quisinsky Date 2011-06-11 12:05
Hallo Robert,

wenn Du den Test einfach nicht abwarten kannst ...
http://www.amateurschach.de/download/sf211ja-default-phq.zip

Wenig Zeit um selbst weiter auszuwerten, sind noch zu wenige Partien ...
186 für beide Engines sind im Download File.

Die Bayesian Auswertung nach 186 für beide ist auch hochgeladen!
Siehe meine Webseite ... startet ja mit der Ratingliste!

Gerade aber mal die Daten hinsichtlich Nachholpartien überprüft:
SF PLQ - ChessTiger 1:0 (CT verlor auf Zeit, wird gerade wiederholt)
SF Default - Crafty 0:1 (SF verlor auf Zeit, wird gerade wiederholt)

Ansonsten bislang zu diesem Thema keine Auffälligkeiten.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-11 12:14
Hi Robert,

PHQ
15x gewonnen unter 56 Zügen bis zum Matt, gar 1x nach 24 Zügen (könnte gar SWCR Rekord sein, muss selbst nachsehen)
01x verloren
Remis = 27%

Default
07x gewonnen unter 56 Zügen bis zum Matt
01x verloren
Remis = 37%

Sind noch wenige Partien aber es spricht alles dafür ... das!

Gruß
Frank
Parent - - By Dieter Eberle Date 2011-06-11 13:31
Hallo Frank,
das sieht ganz so aus, als könnte PQH ein richtiger Volltreffer werden. Es macht echt Spass, solch ein Live-Duell zu verfolgen. Guter Einfall!
Gruß, Dieter
Parent - - By Frank Quisinsky Date 2011-06-11 13:57
Hi Dieter,

wirklich durch dieses Forum kreiert.
Stefan und Benno und ich gab meinen Senf dazu.

Bei mir (Testpartien) und Ingo (IPON-Test) hat SF 2.1.0 default keine 10 ELO zugelegt. Nun kam ja Version 2.1.1 und hier auch zwei Versionen von Jim. Teste hier die Letzte (glaube exe hat 740.noch irgend etwas an bytes). Wenn jetzt aber hier keine Änderung mehr erfolgte sind es 10 ELO maximal. Im laufenden Test sind es aber ca. 20. Die Wahrscheinlichkeit das das Default Setting runter geht ist höher als das das PHQ Setting fällt.

Na ja, so sicher auch nicht denn ...
In der Regel startet eine Engine die ganz oben spielt oft spektakulär und fällt dann wirklich noch ab. Derzeit sieht es aber so aus das das PHQ Setting eher kontinuierlich zulegt.

Morgen Abend sollten ca. 400 Partien vorliegen ...
Dann ist klar Setting ist besser oder nicht (meine absolut klar).
Bei 600 Partien wissen wir dann ... sehr wahrscheinlich +-10 und bei 800 +-5 ... also am Montag Abend kennen wir dann die absolute Gangrichtung.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-11 14:56
Hier noch ein Hinweis:

In der SWCR liegt Rybka 4.0 x64 Exp. 42 mit 2.970 ELO und 34 ELO hinter Houdini 1.5 x64 auf Platz 2.
Um Platz 2 zu erreichen muss SF 2.1.1 PHQ genau 77,40% machen (die Prozentangabe in der Shredder Turniertabelle).

Die Remisquote sollte aber bei 28%-30% bleiben.
Um ganz sicher zu sein (Remisquote geht noch ein wenig nach oben) sollte SF 2.1.1 x64 PHQ also 77,75% erreichen.
79% oder 80% sind sicherlich ausgeschlossen, glaube ich nicht.

Liegt das Endergebnis bei 76,5% wäre das auch sehr gut denn Rybka 4.1 x64 wäre erreicht.
Rybka 4.1 spielt ca. 15-20 ELO besser als 4.0!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-11 18:05
Hi,

jetzt spielt uns offenbar das Default Setting einen Streich. Sofern richtig verfolgt gab es in den letzten 16 Partien 15 Siege. Das Rating geht deutlich nach oben. Default legt um 2% zu, PHQ verlor 1%. Die beiden Versionen liegen jetzt fast gleich auf

Auch die Remisquote müsste bei der PHQ deutlich nach oben gegangen sein, denn in den letzten 15 Partien gab es auch nur eine Niederlage aber 8x Remis.

So kann das gehen ... Remisquote, kurze Gewinnpartien und zwischenzeitlich 3.5% mehr war deutlich!

Aber der Zweikampf zwischen default und PHQ wird spannender!

Mal schauen wie lange diese sensationelle Serie von Default anhält.

Frank
Parent - - By Frank Quisinsky Date 2011-06-11 18:22 Edited 2011-06-11 18:24
Hi,

so, jetzt haben beide 75,68% nach 222 Partien!
PHQ verlor 1.6%, Default gewann 2,2%!

Gehen wir zurück in die Ausgangsposition, der Zweikampf startet erneut!
Wenn das aber dabei bleibt scheint default durch die letzten Compiles zugelegt zu haben, denn ich hatte mit der 2.1.0 beim Test auf meinen Testmaschinen das gleiche Ergebnis wie Ingo.

Ist einfach zu früh nach 200 Partien etwas zu sagen auch wenn drei Statistiken in Kombination zunächst eindeutig waren.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-11 21:18
Hi,

jetzt wird es unheimlich ...

bei der letzten ELO Berechnung nach 190 Partien hatte PHQ 77,11%, erreichte Platz 3.
Jetzt bei 76,36, also 0,75% verloren.
Im Rahmen der Schwankungen zwar schade aber normal ...

Aber ...
73,48% hatte das Standard Setting und steht jetzt bei 76,76% nach 241 Partien.
Das wären 3,28% gewonnen.
Bei den letzten 30 Partien gab es 27 Siege!

Soll mal irgend jemand verstehen zumal Default nun noch 1% fehlt um das Exp. 42 Setting von Platz 2 zu vertreiben.
Das wären genau gesagt dann 40-50 ELO mehr als bei Ingo, sofern Default jetzt noch um 1% zulegt.

Frank
Parent - - By Benno Hartwig Date 2011-06-11 22:48
[quote="Frank Quisinsky"]Soll mal irgend jemand verstehen...[/quote]Frank, da ist es doch gut, dass du 1200 Partien mit jeder Engine machst. Dann ungefähr wird man abschätzen können, ob man tatsächlich ein Phänomen betrachtet, oder ob alles noch mit einem zufälligen Rauschen erklärbar ist.

Benno
(inzwischen noch stärker vermutend, dass Aggressiveness, Cowardice und Mobility letztlich kaum Einfluss auf die Spielstärke haben.
Oder dass wir schon froh sein müssen, mit dem gravierenden Ändern 3er Parameter 'frech aus dem Bauch heraus' der Engine nich 1 bis 3 Beine gestellt zu haben, die die Spielstärke ruinieren.)
Parent - - By Stefan Pohl Date 2011-06-12 07:21
[quote="Benno Hartwig"]

(inzwischen noch stärker vermutend, dass Aggressiveness, Cowardice und Mobility letztlich kaum Einfluss auf die Spielstärke haben.
Oder dass wir schon froh sein müssen, mit dem gravierenden Ändern 3er Parameter 'frech aus dem Bauch heraus' der Engine nich 1 bis 3 Beine gestellt zu haben, die die Spielstärke ruinieren.)
[/quote]

Hallo zusammen,

ja, es scheint so, als wäre das Setting einer der seltenen Glückstreffer, hätte ich nicht gedacht, aber freut mich. Dennoch hatte ich nicht ganz Unrecht mit meinen Bedenken bzgl. der Cowardice und Mobility, denn das Setting scort bisher gegen Houdini und Rybka katastrophal (welches meine Hauptgegner bei Tests sind, weil mich diese eben primär interessieren, weil man gegen diese primär auf playchess spielt...). Während bei mir Stocki (mit der einzigen Änderung Aggressivität auf 150) gegen Houdini ja sehr, sehr gut scorte (ca. 48%, soweit ich mich erinnere). Und das im 2'+1'' Blitztempo, welches ja bekanntlich Houdini bevorteilt, der ein Superblitzer ist! Bei diesem Tempo hatte bei mir bisher keine Engine (auch nicht Rybka 4.1) jemals auch nur 40% gegen Houdini erreicht...

Gruß Stefan
Parent - - By Frank Quisinsky Date 2011-06-12 09:11 Edited 2011-06-12 09:18
Hi Stefan,

Umkehrschluss ...
Default punktet gegen Houdini und Rybka 4.1 mit 50%, ohne Parameterverstellungen!
Also besser als bei Dir im Test mit Paramterverstellungen!

Schaue Dir mal die Ergebnisse gegen IvanHoe und Fire von PHQ an.
Die beiden spielen deutlich passiver als Rybka und Houdini und von daher klar das PHQ hier dann gar gleich gut oder besser punktet und nicht auf Default verliert.

Wird immer nur gegen eine gleiche Engine oder gegen sich selbst getestet wird ein Programm automatisch passiver wenn die Ergebnisse bei den Einstellungen berücksichtigt werden. Wird nun ein Programm spekulativer eingestellt, besteht die Gefahr das gegen die bisherigen Testgegner das Ergebnis schlechter wird aber wahrscheinlich gegen andere Testgegner das Ergebnis besser wird. Und mit immer mehr Bedenkzeit gleicht sich das wieder aus, sofern die Engine in der Lage ist die vielleicht besseren Züge zu errechnen um die Fehler durch die spekulativen Einstellungen zu vermeiden.

Bedeutet ...
Beim Blitz dann eher alles auf passiver stellen um die Spielstärke zu steigern. Feigheit hoch anstatt runter ... insofern hast Du Recht mit kontraproduktiv! Du kannst das auch sehr schön anhand von Testaufgaben erkennen die positioneller Natur sind. Die Lösungszeiten werden bei PHQ schwächer aber mit immer mehr Zeit wird dennoch alles gefunden was Default findet. Agg. bewirkt mehr und schnellere Lösungszeiten bei taktischen Aufgaben und gibst Du noch den von mir gesetzten Mobility Parameter hinzu wird unglaublich viel in taktischen Mittelspielstellungen schnell gefunden.

Letztendlich werden wir sehr wahrscheinlich zu folgendem Ergebnis kommen:
PHQ wird hinsichtlich schnellen Gewinnpartien eine klar bessere Statistik als Default aufweisen, wird eine niedrigere Remisquote haben und wird augenscheinlich noch besseres Schach spielen. Gibt mehr Punkte gegen Houdini oder Rybka ab und vor allem ... macht weniger Punkte gegen andere Taktiker (Stärke kommt nicht zum Tragen). Also weniger Punkte gegen Junior oder gegen Critter.

Nun was ist uns lieber?
Sollen alle Programme das Mittelspiel so grottenlangweilig spielen wie Fire, IvanHoe, Rybka oder Houdini? Sollen alle Programme den gleichen Spielstil haben nur damit dies auf Playchess besser punkten?

Wenn sich das jetzt bestätigt was ich schreibe haben wir immerhin etwas festgestellt. Insofern war der Test nicht umsonst. Glaube ferner immer noch daran, dass nach 1.200 Partien das PHQ Setting ein um ca. 20 ELO besseres Ergebnis erzielen wird. Glaube das Default derzeit weit über seine Verhältnisse punktet.

Müssen einfach den Test abwarten und ja ... es kann durchaus sein das im Blitz nur durch Parameter Änderung Agg. 150 Stockfish bessere Ergebnisse gegen Houdini und Rybka 4.1 erzielt aber das wird sich wieder regulieren mit mehr Bedenkzeit.

Leider kann ich das nicht alles abtesten, sonst ist der Sinn der Ratingliste dahin (meine es gibt viel zu testen, nicht nur 2-3 Programme und deren Parameter). Aber hin- und wieder ist so ein Test wirklich ganz nett, warum nicht!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-13 12:28
Hallo zusammen,

gerade habe ich die aktuelle SWCR mit ca. 460 Partien für beide Stockfish 2.1.1 x64 Versionen hochgeladen.

Partiestatistik:
Es gab 3 Partien mit Remis unter 16 Zügen (alle von Default), die zur Zeit wiederholt werden.
Es gab 5 Zeitüberschreitungen! 1x ChessTiger 2007 und 4x Stockfish (je 2x mal Default und PHQ), die Partien werden zur Zeit wiederholt.

Remisstatistik:
31% für PHQ
35% für default

Habe mal ausgerechnet wie sich das ELO mäßig bei Bayesian auswirkt, also 4% weniger Remisquote.
2 ELO zu Gunsten von PHQ

Und hier eine weitere sehr interessante Statistik:

PHQ
33x unter 56 Zügen bis zum Matt gewonnen = 7,13% ... Spark wurde überholt ... in dieser Statistik Platz 1 aller getesteten Engines in der SWCR, BRAVO!
Stockfish 1.7.1 kehrt in der Tat wieder zurück. Meines Erachtens deutlich die angriffslustigste Stockfish Version!
04x unter 56 Zügen bis zum Matt verloren

Default
16x unter 56 Zügen bis zum Matt gewonnen = 3,48%
Bewegt sich alles im Rahmen von 1.8.0, 1.9.1 und 2.0.1 gar wieder ein Stück passiver!
01x unter 56 Zügen bis zum Matt verloren

Schauen wir auf die Ergebnisse ...
PHQ ist derzeit 11 ELO besser aber mit einem schockierenden Ergebnis gegen Rybka 4.1 und einem durchwachsenen Ergebnis gegen Critter 1.0.1 x64.

Schaue ich auf dem laufenden Test von Ingo schaut es nicht anders aus.
Wahrscheinlich werden sich die Rybka und Critter Ergebnisse beider Stockfish Versionen noch angleichen.

Zur Zeit kann gesagt werden:
PHQ hat eingeschlagen und produziert bei Stockfish ein deutlich sehenswerteres Schach und gar ein paar ELO mehr.

Waren wir nun weiter auf die Endergebnisse.
Es sind ja noch um die 750 Partien zu spielen.

Viele Grüße
Frank
Parent - - By Kurt Utzinger Date 2011-06-13 12:31
[quote="Frank Quisinsky"]
[...]
Es gab 5 Zeitüberschreitungen! 1x ChessTiger 2007 und 4x Stockfish (je 2x mal Default und PHQ), die Partien werden zur Zeit wiederholt.
[...]
[/quote]

Hallo Frank
Weshalb werden solche Partien wiederholt? Bekommen da nicht die (fehlbaren) Engines
unnötigerweise eine zweite Chance?
Gruss
Kurt
Parent - - By Frank Quisinsky Date 2011-06-13 12:36
Hi Kurt,

die Diskussion hatten wir schon mal.
Möchte eine saubere Datenbank für statistische Auswertungen.
Seit dem Start der SWCR werden die Partien wiederholt, es sei denn ein Matt war schon angekündigt.
Dann wird gewertet für die Engine die Matt setzt.

Bei den vier Partien handelte es sich um:

PHQ:
ChessTiger 2007 - Stockfish PHQ 0:1 (ChessTiger verlor auf Zeit)
Stockfish PHQ - Junior 12.5.0.3 (PHQ verlor auf Zeit)
Stockfish PHQ - Hannibal (PHQ verlor auf Zeit)

Default:
Stockfish Default - Scorpio (Default verlor auf Zeit)
Stockfish Default - vergessen ... müsste wieder nachsehen

Die drei Remispartien unter 16 Zügen:
Default gegen Rybka, Critter und Scoripo

Insgesamt jetzt nach ca. 900 Partien der beiden SF Versionen wurden 5 Partien auf Zeit verloren.
Bei der 2.0.1, 1.9.1, 1.8.0 waren es prozentual gesehen minimal mehr!
1.7.1 produzierte keine Zeitüberschreitungen!

Alle Zeitüberschreitungen bei Zug 39 oder 40.
Auch die der 1.8.0, 1.9.1 und 2.0.1

Ein solches Problem verursacht von den TOP-35 derzeit nur Stockfish.
Die anderen aktuellen Engines spielen bis auf ChessTiger 2007 sauber.
ChessTiger produziert ca. in einer von 20 Partien eine Zeitüberschreitung.
Mit dieser Engine habe ich ein wenig Arbeit ...

Viele Grüße
Frank
Parent - - By Kurt Utzinger Date 2011-06-13 12:42
[quote="Frank Quisinsky"]
[...]
Insgesamt jetzt nach ca. 900 Partien der beiden SF Versionen wurden 5 Partien auf Zeit verloren.
Bei der 2.0.1, 1.9.1, 1.8.0 waren es prozentual gesehen minimal mehr!
[...]
Frank
[/quote]

... OK, das ist statistisch somit vernachlässigbar.
Gruss
Kurt
Parent - - By Frank Quisinsky Date 2011-06-13 12:44
Hi Kurt,

bin da sehr genau!

Bevor wieder irgend jemand fragt ... 922 Partien sind drin!
http://www.amateurschach.de/download/sf211ja-default-phq.zip

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-13 22:56
Hi,

in der Tat ein rauf und runter der beiden SF Versionen!
Nun hat Default trotz einer Niederlage gegen IvanHoe wieder eine Serie hingelegt.
PHQ ist auch Straucheln.

Ganz interessant die letzte Partie gegen Komodo.
Trotz Mattanzeige beider Engine in einem König / Bauernendspiel gab es ein Remis.
Hier patzte Stockfish mit einem schlimmen Oppositions-Fehler !!

Auch ganz interessant eine Partie gegen GullChess von Default.
Beide Engine zeigten um die +3 an (passiert selten so etwas zu beobachten).
Dann kam der Zug von Stockfish mit Unterverwandlung in Springer und GullChess änderte auf -2.48 und verlor!

Es gab eine weitere Zeitüberschreitung bei Default-Houdini (Default lag bei +3).
Partie wurde wiederholt und default gewann ... hier siegte die Gerechtigkeit.

Genau wie bei der Zeitüberschreitung von PHQ - Junior. Leichter Vorteil für Junior ... Partie wurde wiederholt und Junior gewann.

Viele sehr schöne Partien aber auch einige Fehleinschätzungen gerade im Endspiel bei Stockfish. Gegen Naum konnte PHQ nicht gewinnen obwohl ein Remis in der Luft lag. Trotz Sieg gegen Rybka in der letzten Runde 3 Niederlagen und viele Remispartien. Auch GullChess spielte PHQ an die Wand.

Der Vorsprung beträgt noch ca. 8 ELO oder 0.7%. Die Remisquote jetzt nur noch 2% besser bzw. niedriger bei PHQ.
Es scheint sich auszugleichen, nicht die Statistik zu den kürzesten Partien.

Auffällig ist auch, das die Ergebnisse von Default gegen die schwächeren leicht besser sind, auch die Ergebnisse gegen die TOP-5 leicht besser sind. PHQ punktet besser gegen das Mittelfeld.

Also, ein Rauf und runter dennoch lag PHQ nun immer knapp oder auch anfangs gar mit 3.4% vorn. Wenn es dann am Ende der 1.200 Partien ein knappes Ergebnis wird wissen wir aber wie schwierig es ist wirklich einen guten Parameter zu finden. Wir wissen aber auch das sich der Parameter auswirkt. PHQ spielt wirklich aggressiver auch opfert PHQ mehr. Gegen Jonny z. B. ging das in die Hose. Opfer nach 24 Zügen (Leichtfigur) mit +0,8 und dann einen Zug später kam ein Remis zum Vorschein (dreifache) und die Bewertung ging natürlich auf 0,00. Fraglich ob default das auch gespielt hätte.

Rauf und runter ...
Licht und Schatten

Wird nicht anders ausschauen bei anderen Parametereinstellungen.
Stockfish scheint in der Grundeinstellung sehr ausgewogen zu sein, aber ich finde ein wenig zu passiv. Nach wie vor!

Sind noch 700 Partien ...
Fahrstuhlfahren geht weiter ...

Wer weiter verfolgt ...
Wünsche viel Spaß dabei!

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-14 22:04
[quote="Frank Quisinsky"]Auffällig ist auch, das die Ergebnisse von Default gegen die schwächeren leicht besser sind, auch die Ergebnisse gegen die TOP-5 leicht besser sind. PHQ punktet besser gegen das Mittelfeld.[/quote]Stimmt. Und zu Beginn hatte ich ja gemutmaßt, dass PHQ vielleicht allenfalls gegen die schwächeren gut punkten könnte. Aber ich lag daneben. Daneben.
Für jede Gegnerengine habe ich mal die Differenz gebildet des Erfolges von PHQ und Default. Herausgekommen ist die blaue Kurve (besser: die blauen Punkte auf dieser Kurve):



Ich habe Excel dann zwei Trendlinien dazurechnen lassen:
1) linear - grüene Gerade ("Punktet PHQ eigentlich eher gegen die Starken oder gegen die Schwachen besonders gut?")
2) Parabel - rote Kurve ("gegen die Gegner welcher Spielstärke punktet PHQ besonder gut?")

Und hier sieht man auch:
1) Eher gegen die Starken Engines punktet PHQ besonders gut
2) am Besten punktet PHQ gegen die Engines, die nur etwas schwächer sind als SF selbst.
3) Wow, ist die Streuung groß!

Nett, dass PHQ vorn liegt. Aber der Vorsprung ist im Vergleich zu den aktuellen 95%-Intervallen doch recht klein.
Mag sein, dass die Engines einfach nur ungefähr gleich stark sind und dass alles andere dem Zufall geschuldet ist. (2942-8, 2942+8, und wie leicht liegt eine Spielstärkeschätzung bei 700 Spielen mal um 8 ELO daneben.)

Benno
Parent - By Frank Quisinsky Date 2011-06-14 22:27
Hallo Benno,

super, sehr schön!
Du solltest die SWCR Statistiken übernehmen.
Gerade bei Statistik sind der Fantasie ja keine Grenzen gesetzt, meine was möchte ich wissen und wie kann ich das auswerten.

Wirklich sehr gut gemacht und sehr aufschlussreich.

Selbst versuche ich mich z. B. an einer besseren Statistik zu den Kurzpartien.
Hier gibt es ein Problem.

Engines wie Scorpio oder Zarkov sind die Paradebeispiele für kurze Verlustpartien. Nun haben aber nicht alle gegen die beiden gespielt. Überlege ob ich wie folgt vorgehe.

Beispiel:
Engine Engine hatte mit 1.000 Partien 25 Gegner (sind ja immer 40-Partien Matches in der SWCR).

Wir nehmen die zwei besten und zwei schlechtesten Engine Ergebnisse heraus und bilden dann eine Statistik.

Was uns fehlt ist einfach eine grafische Benutzoberfläche die nichts anderes macht als PGN Files statistisch auszuwerten.

z. B. Du gibst 100.000 Partien vor.
Jede Partie hat ja ein Datum.

So könnte mir eine Statistik sagen ...
Die Leistung der Engine war nach 100 Partien, nach 200 Partien, nach 300 Partien ...

oder gebe mir die Leistung aller Engines nach 400 Partien aus und stelle mit dem derzeitigen Resultat gegenüber.

Wir sind hier einfach sehr sehr schwach besetzt.
Könnten eine GUI wie z. B. Arena entwickeln die nichts anders macht als die PGNs auszuwerten.
ChessBase ist bei den Statistik-Ausgaben auch nicht sonderlich stark, die Tools von Norman sind gut, viele gute Ideen hat Norman drin aber das ultimative Statistik Programm ist z. B. Excel mit viel Fantasie.

Mir dauern diese Auswertungen einfach viel zu lange und meine Ideen ständig neu auszuwerten ist eine ABE bei den vielen Partien die täglich immer wieder hinzukommen.

Vielleicht hast Du Lust mal mehr Statistiken mit Excel zu generieren und diese Excel Tabellen dann bei Lust und Laune zu ergänzen und anzubieten. Bin wirklich beeindruckt von Deiner Arbeit und immer wieder beeindruckt was mit Statistik alles möglich aus. Meine Fähigkeiten für solche Auswertungen werden zwar auch immer besser aber mir fehlt ehrlich gesagt zu viel Grundwissen. Lese mich zwar ein aber so einfach ist das alles nicht

Dir einen schönen Abend ... und ja ... !!
Es sind einfach zu wenige Partien bei diesem geringen ELO Vorsprung zwischen den beiden Einstellungen!

Weißt Du was merkwürdig ist ... wie SF PHQ Protector zusammenschiebt oder die 18 Remispartien gegen Critter bei 21 Spielen. Critter und PHQ können Brüder sein!

Viele Grüße
Frank
Parent - - By Ingo Bauer Date 2011-06-14 22:35 Edited 2011-06-14 22:39
Hallo Benno,

Nette Grafik, aber für 2 Engines die pro Gegner je ein 40 Spiele Match gespielt haben, dass noch nicht mal die selben Eröffnungen beinhaltete, wundert mich die Streuung nicht ein bischen! Ich fürchte du versuchts sehr wissenschaftlich aus Kaffeesatz zu lesen

Kurz: Dieser Vergleich gibt keinerlei Informationen gegen welche Gruppe von Engines wie gespielt wird. Allenfalls kann man "über alles" das Resume ziehen, dass der Unterschied, wenn vorhanden, noch nicht nachgewiesen werden konnte.

Gruß
Ingo
Parent - - By Benno Hartwig Date 2011-06-14 22:50
Klar, die Streuung sollte nicht verwundern.
Es ist aber schon das Wesen der Ausgleichsrechnung, dass man versucht, sich aus sehr vielen sehr unscharfen Ergebnissen Aussagen zu generieren, die dann eben doch mehr als Kaffeesatzleserei sind.
Benno
Parent - - By Ingo Bauer Date 2011-06-14 22:55
Das man das versucht ist klar; aber ehrlich, glaubst du das 2 mal 40 Spiele (mehr ist es ja nicht), die unterschiedliche Eröffnungen beinhalten, irgendwie ausreichen um sinnvolle Schlüsse zu ziehen?

Den einzigen Schluß den ich ziehen kann ist, das es eben nicht reicht. Nicht bei 40 und nicht bei 100 Spielen!

Wohlgemerkt, nichts gegen den vollen Satz an Spielen, das ist schon eine Hausnummer, aber ein Vergleich auf individueller Gegnerbasis ... ?!

Gruß
Ingo
Parent - By Benno Hartwig Date 2011-06-15 07:11
[quote="Ingo Bauer"]Das man das versucht ist klar; aber ehrlich, glaubst du das 2 mal 40 Spiele (mehr ist es ja nicht), die unterschiedliche Eröffnungen beinhalten, irgendwie ausreichen um sinnvolle Schlüsse zu ziehen?[/quote]Nicht für einzelne Engines als Gegner. Falls es aber eine Abhängigkeit Erfolg<->Gegner-ELO gibt, dann lässt sich dies so ggf. schon herausfinden, auch wenn die Spielstärkeunterschiede weit geringer sind als das Rauschen der Ergebnisse. Gerade das leistet ja diese Methode. Die Information finden, die tief im Rauschen steckt. OK, Dafür hätte ich natürlich gern sehr viel mehr 40-Partien-Ausgänge.
Wohlgemerkt: Mehr würden mir auch sehr helfen. Ich bräuchte nicht unbedingt längere Partienserien. Dieselbe Anzahl Partien verteilt über 300 Engines wäre wohl auch nicht schlechter. Und auch wenn gegen 3000 Engines nur jeweils eine Partie gespielt worden wäre.

Ich habe vor einer Weile angefangen, für sehr viele Aggressiveness-Einstellungen Testläüfe zu machen.
Augenscheinlich sieht man fast nur Rauschen. Selbst Werte wie einerseits 60 und andererseits 200 sind nicht wirklich schlecht. Rauf unt runter geht es.
Mal sehen was die Regression da leistet, was da also optimale Agressivität vorgeschlagen wird.
Aber: Die damit erreichbaren Spielstärkesteigerugen sind weitaus(!) kleiner, als das was bei 150 Partien so der Zufall 'anrichtet'.

Benno
(eigentlich immer noch von der "PHQ und Default sind kaum unterschiedlich stark"-Te´hese überzeugt)
Parent - - By Frank Quisinsky Date 2011-06-14 22:54
Das Thema mit den Eröffnungen hatten wir schon.
Mit jeder Abweichung in der Eröffnungsphase entsteht bei Computerschachprogrammen eine neue Partie.

Du kannst auch eine Ratingliste erstellen mit sämtlichen Sizilianisch Varianten.
Das Ergebnis der Engines wird das Gleiche sein.

Das ist logisch Ingo!

Der Unterschied zwischen PHQ und Default ist offensichtlich wenn Du viele Statistiken generierst.
Die eingesetzten Parameter wirken!

SF Versionen 1.8.0, 1.9.1 und 2.0.1 (Partien liegen ausreichend vor, ca. 6.000 inklusive der w32 Versionen in der SWCR) haben das Problem das die Mittelspielstatistiken immer schwächer werden. Weniger kurze Gewinnpartien, mehr Remispartien in Mittelspielstellungen. SF gibt schneller ein Remis. Versuchen wir nun zu beeinflussen mit den Möglichkeiten die uns zur Verfügung stehen. Also die drei Parameter der Beeinflussung. Was kommt dabei heraus. Doppelt so viele Gewinnpartien bis zum Matt im Mittelspiel und doppelt so wenige schnelle Remispartien im Mittelspiel.

Sehr schön ...
Es schaut danach aus das eine Wirkung erzielt wird, bzw. wird diese immer deutlicher mit mehr Partien.

Die Frage wo ist der Knacktus begraben.

Schauen wir uns die wenigen Verlustpartien an und die vielen Remispartien. Vergleichen wir das mit den drei älteren Stockfish Versionen bzw. der gewaltigen Datenbank dieser drei Versionen ... sind gar über 7.000 Partien. SF default können wir getrost in die 7000er Datenbank packen. Die Statistiken sind vergleichbar zu der der Vorgänger. Gegenübergesellt nun die ca. 700 Partien von PHQ. Der Kasus Knacktus liegt nicht im Endspiel sondern in der Partiephase wenn noch ca. 10-14 Figuren auf dem Brett sind.

Generieren wir also alles mit 10-14 Figuren und stellen fest ... ups die Parameter sind zu aggressiv. Die Frage ist welcher der drei ... der Mittelspielparameter kann ausgeschlossen werden. Feigheit oder der Aggressivparameter oder beide in Kombination.

Also, suchen wir in der SWCR Partien die durch einen guten Zug bei 10-14 verbliebenen Figuren die keine Endspieldatenbanken nutzen gewonnen wurden. Bilden eine kleine Testdatenbank und es wird deutlich. Habe mir 5 Stellungen herausgepickt. Default findet mehr als PHQ.

Und logisch weiter gesponnen ...
Die starken Engines die oben liegen haben alle eine ganz besondere Stärke. Das späte Mittelspiel. Logischer Weise sind die Statistiken gegen diese Engine minimal schlechter.

Warum dann gegen die schlechteren auch minimal schlechter? Weil SF zu spekulativ in dieser Partiephase ist und auch ein schwächeres Programme ... das eh kaum Chancen hat ... bei einer Chance besser punktet.

Fest steht folgendes:
Ein Taktiker sieht nicht nur den Angriff sondern auch wenn ein Angriff kommt. Spielst nun Taktiker gegen Taktiker kommt es zu zwei Fallgestaltungen.
Entweder eine ganz schwaches Ergebnis von Taktiker 1 ... meist begründet weil Taktiker 2 tiefer rechnen kann oder ... die beiden rauchen Friedenspfeife und es beginnt der Remishagel. Gutes Beispiel PHQ gegen Spark, Junior oder Critter.

Wobei hier wieder Junior heraussticht. Diese Engine hat Fähigkeiten die kein anderes Programm hat. Wahrscheinlich das individuellste Programm was wir überhaupt haben.

Schreibe das nicht für Dich ...
Aber es lesen sicherlich auch noch andere Computerschächler mit.

Denen ich bei der Gelegenheit einen schönen Abend wünsche!

Frank
Parent - By Frank Quisinsky Date 2011-06-14 22:58 Edited 2011-06-14 23:05
Wird natürlich nur auf ein Ergebnis geschaut ... ja dann kommt es zur Aussage statistisches Rauschen
Wird genauer geschaut wird die Sache richtig interessant!

Daher ganz wichtig ...

Um genauer zu schauen so wenig beeinflussen wie möglich!

Optimal wäre:
Kein Aufgabeparameter (OK für SWCR)
kein Learning (OK für SWCR)
keine Endspieldatenbanken (hätte ich das nur früher bedacht)

Mein Gott, ich hätte so viele Dinge mehr auswerten können als jetzt.
Jeder beeinflussende Faktor ist schlecht für eine statistische Aussage zu einer Spielstärke einer Engine.
Weil, wir können dann nicht mehr vergleichen ...

Engine A nutzt Endspieldatenbanken anders als Engine B.
Differenzen ... die wirken sich aus bei Statistiken und genaue Aussagen werden unmöglich.

Möglich wird die Aussage ...
Besser mit TBs vielleicht x ELO aber das ist eine Aussage die heute nicht sonderlich interessant ist.

Gruß
Frank

Interessant ist doch ...

Engine A hat eine Grundspielstärke von X ELO.
Bekommt x ELO durch x cores mehr
Bekommt x ELO durch Endspieldatenbanken dazu
Bekommt x ELO durch Parameter x dazu.

Das ist meines Erachtens eine wirkliche Aussage zu einer Engine wenn es rein ums messen geht.

Wird alles gemixt sind selbst 10.000 Partien die zu ELO x führen nicht genau!
Parent - - By Ingo Bauer Date 2011-06-12 19:05
Hallo Frank, Hallo Interessierte

Ich habe mich mal angeschlossen um zu sehen ob Stockfish 2.1.1 (default) irgendwie wirklich besser ist als 2.1 (.0).

Wer will kann hier verfolgen: http://www.inwoba.de/match.html

Die 2.1 hatte 2928 bei mir, das 'live rating' ist in diesen Regionen in der Regel etwas zu hoch. Wenn also nichts deutliche Besseres dabei rumkommt ist die 2.1.1 gleich stark zur 2.1 (was auch das ist, was die Programmierer erwarten) Ich gehe in diesem Fall aber mal auf Nummer sicher und werde anschließen die 2.1er Spiele aus der Liste löchen.
Was ich leider nicht live einspielen kann ist 2.1.1 gegen DF12, das wird das Gesamtergebniss aber nicht völlig verändern.

Mal sehen ob die Programmierer Recht haben mit ihrer Prognose, dass 2.1.1 keinerlei Verbesserung zur 2.1 haben sollte.

Gruß
Ingo
Parent - By Frank Quisinsky Date 2011-06-12 19:32
Hallo Ingo,

sehr gut !!

Mittlerweile glaube ich wirklich es liegt bei SF nur an den Compiles. Erklärt auch warum mal die eine 32bit besser oder schlechter ist.
Dann schaun wir mal wie es bei Dir ausschaut, mein Test dauert ja deutlich länger und wird noch bis Ende der Woche laufen.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-13 13:07
Hallo Ingo,

2.947 nach ca. 1.300 Partien.
Da SF bei dir immer ca. 10 ELO höher liegt als bei mir ... stimmt das mal wieder mit meinem Ergebnis überein.
Bei mir derzeit 2.938.

Interessant auch das schlechte Ergebnis gegen Rybka 4.1 von default bei Dir und auch gegen Critter durchwachsen.
Bei mir sehr gute Ergebnisse von default gegen Rybka 4.1 und Critter 1.01 und bei PHQ eher schlechte.
Denke das wird sich mit mehr Partien ausgleichen!

Meine Prognose nach den bisherigen Statistiken ...
PHQ könnte noch 10 ELO zulegen und Default bleibt in etwa da stehen wo jetzt nach ca. 480 Partien.

Das Setting ist also ca. 10-20 ELO spielstärker und produziert auch klar die sehenswerteren Partien!

Viele Grüße
Frank

Siehst du ... wie mit den 32bit compiles!
Wahrscheinlich lag es daran das SF 2.1 ca. 30 ELO schlechter angeschnitten hat.
Bei mir auf meinen Testmaschinen ja auch, daher wollte ich erst gar nicht testen!
Parent - - By Ingo Bauer Date 2011-06-13 13:40
Hi Frank

Bei mir sind es momentan 2944 nach Shredderelo. Das sind mindesten 7, wenn nicht mehr, Elo weniger nach Bayes. Damit hätte ich mit der Default keine 10 Elo mehr als die 2.1 und 10 Elo sind für mich nicht nennenswerter, sondern statistisches Rauschen!
Auch bei dir sind zw. Default und Setting nach Shredderelo (Reine Elo formel) gerade mal 15 Elo Differenz bei nicht mal 500 Spielen ... selbst wenn das bei 1200 Spielen die du machst bei 15 bleibt ist das noch innerhalb allen mathematischen Wahrscheinlichkeiten und auch nur rauschen.

Ich warte erstmal die vollen 2400 Partien ab ehe ich irgendetwas Halbgares ernsthaft vergleiche und mich zu Aussagen wie X ist besser als Y hinreißen lasse.

So verschieden sehen wir die Dinge.

Gruß
Ingo
Parent - - By Ingo Bauer Date 2011-06-13 14:09
Vergessen

Du macht 40 Spiele je Gegner (richtig?), also gerade mal 20 Eröffnungen und die auch noch zufällig aus einem Buch (und für beide Stockfishe verschieden) und versuchst daraus zu lesen ob eine Engine mit diesem Gegner klar kommt (und das auch noch ehe die 40 Spiele zur Hälfte um sind)?
Vorsichtig gesagt empfinde ich das als unseriös; ich traue mich das nicht mal mit 100 (fertigen) Spielen!

Gruß
Ingo
Parent - - By Thorsten Czub Date 2011-06-13 14:17
[quote="Ingo Bauer"]
Vergessen

Du macht 40 Spiele je Gegner (richtig?), also gerade mal 20 Eröffnungen und die auch noch zufällig aus einem Buch (und für beide Stockfishe verschieden) und versuchst daraus zu lesen ob eine Engine mit diesem Gegner klar kommt (und das auch noch ehe die 40 Spiele zur Hälfte um sind)?
Vorsichtig gesagt empfinde ich das als unseriös; ich traue mich das nicht mal mit 100 (fertigen) Spielen!

Gruß
Ingo
[/quote]

ich denke wenn man 2 unterschiedliche Versionen eines Programms mit wenigen Partien
"differenzieren" möchte, sollte man vielleicht wirklich aus denselben eröffnungstellungen spielen.
und sich dann die abweichungen anschauen.

aber ich wuerde nicht so harte worte wie unseriös verwenden.
es ist artistisch.
Parent - - By Frank Quisinsky Date 2011-06-13 15:21 Edited 2011-06-13 15:25
Hi Thorsten,

ist auch Käse ...
nimmst Du die gleichen Eröffnungen entsteht nach der Abweichung zwischen den beiden Versionen wieder eine andere Partie.
Leider gibt es kein menschliches Wissen bei Schachprogrammen, so ganz nach dem Motto liegt mir oder liegt mir nicht.

In der SWCR wird mit einem Buch gespielt zu welchen es eine Art Projektbeschreibung gibt.
Jeder Arbeitsschritt ist enthalten, mir schon fast unangenehm das es immer mehr und mehr Personen einsetzen.
Aber es erfüllt seinen Zweck!

Schaust Du auf die IPON und auf die SWCR fällt Dir dieses und jenes auf, allerdings würdest Du niemals vermuten das hier völlig andere Eröffnungssysteme eingesetzt werden.
Gleiches wenn Du auf CEGT oder CCRL schaust.

Die Ergebnisse sind immer die Gleichen, hier und dort mal eine Engine die vielleicht maximal um 30 aus der Reihe tanzt, meist weil zu wenige Gegner oder so wenige Partien.

Besser ist natürlich auch immer mehr Partien zu haben (noch wichtiger mehr Gegner) aber der Unterschied hinsichtlich Genauigkeit von 1.000 auf 2.000 Partien liegt bei 1.3 ELO durchschnittlich.
Kann einfach überprüft werden, einfach die SWCR Engines nehmen die schon über 1000 Partien gespielt haben und alle Partien über 1.000 kappen.

Dann mit den Engines Durchschnittsabweichungen berechnen.

Für 1.3 ELO einen solchen Aufwand zu betreiben wie es Ingo macht ist mir zu dumm.
In der Zeit könnte ich jede Engine 2x testen, was viel viel interessanter ist.

Gruß
Frank

0.78 ELO sind es übrigens bei 1.200 auf 2.000 Partien, meine ja nur
Parent - - By Thorsten Czub Date 2011-06-13 15:27
[quote="Frank Quisinsky"]
Hi Thorsten,

ist auch Käse ...
nimmst Du die gleichen Eröffnungen entsteht nach der Abweichung zwischen den beiden Versionen wieder eine andere Partie.[/quote]

ja. aber ist die abweichung besser oder schlechter. das wird sich dann ja zeigen. gelingt es der verwandten engine die stellung anders (besser) zu spielen als die ältere engine ?!
und wenn es ihr gelingt, ist dieser eindruck eines besseren spiels dann auch in den anderen Partien, wo sie auch abweicht, umgesetzt ?

also käse ist das fuer mich nicht.
Parent - By Frank Quisinsky Date 2011-06-13 15:45 Edited 2011-06-13 15:48
Thorsten,

Vorgabe-Eröffnung ... Eröffnung endet mit Zugnummer 10 schwarz.
Beide rechnen ...

Default spielt 11. Sd5
PHQ spielt 11. Se4

Es entsteht eine andere Partien und das alles hat nicht direkt etwas mit der Eröffnung zu tun.

Es gibt Eröffnungen die einem Programm mehr liegen als einem anderen Programm oder besser Varianten in bestimmten Eröffnungssystemen. Spielst Du einen wilden Mix gleicht sich das durch die vielen Partien wieder aus. Also Default verliert weil aufgrund der ersten Züge die Eröffnung nicht verstanden wurde, merkwürdige Züge gespielt wurden. PHQ gewinnt, weil vielleicht den taktischen Durchblick behalten.

Wenn das im Detail getestet werden soll, was absoluter Unsinn aufgrund der vielen Varianten, der vielen Engines und Engine Versionen ist, müssten nicht nur die Ausgangspositionen der 500 ECO abgetestet werden (Hyatt geht so vor), sondern die Endpostionen aller Varianten der 500 ECO Codes. Glaube es sind um die 40.000 Varianten, die hier und dort als spielbar gekennzeichnet sind (hat mir mal ein GM verraten).

Nun kannst Du einen Querschnitt nehmen ... 100 dieser 40.000!

Mein Querschnitt ist 3.500 aktuelle Varianten der 40.000 die per Zufallsgenerator ausgespielt werden.
Siehe Projektbeschreibung zum eingesetzten Buch, auch ein PGN-Random Buch für Arena ist im großen Download file (spielst ja mit Arena).

Sinn macht dieses ganzen Tuning erst dann, wenn beständig für eine Version versucht wird herauszufinden was ich gut oder schlecht. Könnte schon bis zu 50 ELO ausmachen, kommt natürlich auch auf die Gegner an. Es multipliziert sich ... hast Du jetzt alle 40.000 Varianten mit Fritz 12 gegen Rybka 4 getestet und plötzlich spielt Fritz 12 mit dem Buch gegen SF schaut die Welt wieder ganz anders aus. Die guten Varianten gegen Rybka sind schlechte gegen SF, nicht zuletzt weil beide Engines nach den Buchzügen komplett unterschiedlich spielen.

Was für eine Arbeit ...
Habe wirklich Respekt vor den Buchautoren halte die Arbeit aber für unnütz.
Es sein denn ein Programm spielt pausenlos gegen die IPP Famlie oder gegen sich selbst ... wie auf dem ChessBase Server!

Interessanter ist herauszufinden, durch welche Varianten kein Nachteil entsteht damit die Schachpartie normal und ohne Nachteil oder Vorteil gestartet werden kann. Denn schließlich wollen wir ja die Engine spielen sehen und nicht eine Datenbankabfrage eine Partie entscheiden lassen.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-13 14:35 Edited 2011-06-13 14:42
Hi Ingo,

es ist schade wie Du oftmals reagierst und wie verkrampfst Du an etwas fest hälst.
Dein Stockfish Rating bei deinem Test steht seit Partie 278 bei 2.949 und schwankt seit dem +-2!

Du musst mir nichts von Statsitik erzählen, zumal Du mit Pauken und Trompeten an einer ErrorBar festhälst Du völlig falsche Werte ausgibt. Raffen wirst Du die Sache erst dann wenn Dir ein Update vorgelegt wird, weil Du offenbar selbst nicht in der Lage bist etwas zu hinterfragen.

Das ist hart geschrieben aber mein Gott ... das ist leider die Wahrheit!
Kann es ja nicht ändern, bist so wie Du bist.

Gruß
Frank

Auch wenn es keinen Sinn macht:
Shredder ELO und Bayes sind nicht immer = 7.
Ist die Remisquote niedriger sind es weniger!

Weist Du was unseriös ist ...
1. Verschiedene Versionen zusammen zu schmeißen!
2. Erst mit Intel dann auf AMD Hardware zu wechseln!
3. Die Partien nicht anzubieten.

40 Partien reichen allerdings nicht aus um etwas zu einem Match zu sagen.
Aber auch keine 100 lieber Ingo!

Wie war es doch mit Deiner ErrorBar ...
Wie groß ist diese bei 40 und bei 100?

Und immer wieder die gleichen Eröffnungen zu sehen ... es gibt mehr als 100 die Du abtestet ist A nicht nur langweilig sondern B völliger Unsinn. Wenn Du schon so testest musst Du sämtliche Eröffnungen aus dem ECO-Code miteinbeziehen (Robert Hyatt testet so).

Ferner solltest Du Dir mal anschauen was Du überhaupt testest!
Wenn Du das gemacht hast werden Diskussionen mit Dir wesentlich angenehmer!

Ansonsten ist es über Jahre immer das Gleiche ...
Gehst auf alles drauf los was sich mit Deinen Ansichten denkt.

Gut ist zumindest das Deine Rechner nicht so eigensinnig sind
Insofern ist Dein Test interessant, leider nicht die Person die diesen durchführt, sorry!

Ehrlich ...
Wichtig für mich ist doch nur das Deine Maschinen laufen, damit ich einen Anhaltspunkt habe wenn ich selbst teste.
Mehr als ein Anhalspunkt ist es eh nicht und was Du schreibst ist auch nicht sonderlich hilfreich um zu irgend einer Erkenntnis zu gelangen.
Insofern auch gut das Du wenig schreibst, kommt eh nichts bei rum.

Wer schießt Ingo ...
Bekommt irgend wann auch mal eine Salve zurück!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-13 14:54
Wer schießt Ingo ...
Bekommt irgend wann auch mal eine Salve zurück!

Du, Du ... mein Puls ist auf 180 ... Du Tester Du

Dir noch ein schönes WE, sprach der "Unseriöse" ... habe ich auch noch nie gehört, aber sei es drum!
Darfst mich ab heute den "Unseriösen" nennen, habe damit kein Problem!
Ich nenne Dich dann den "Seriösen", siehste alles halb so schlimm!
Parent - - By Thorsten Czub Date 2011-06-13 15:02
nun streitet euch doch nicht so.

Ist doch wirklich nicht so verbissen wer nun mit welcher methode bessere
"wahrhaftigere" Ergebnisse bekommt.

Jeder interpretiert seine Daten anders. jeder legt wert auf andere Dinge.
wir kennen uns doch schon so lange.
Up Topic Hauptforen / CSS-Forum / SWCR: SF 2.1.1 JA x64 & SF 2.1.1 JA x64 PHQ, im Live-Mode!
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill