Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / TCEC 14 - Superfinale NEUER Thread
1 2 Previous Next  
Parent - - By Stefan Pohl Date 2019-02-25 08:43 Edited 2019-02-25 08:54
"Man kann es aber auch so deuten: Die Schachprogramme beweisen mit diesen Ergebnissen, dass die Drawkiller-Eröffnungen an irgendeiner Stelle unkorrekte Züge enthalten."

Eben nicht. Wäre dem so, würden sich die Ergebnisse (die Enginescores) nicht weg von der 50%-Marke aufspreizen, sondern würden gestaucht. Wie ich schon gefühlte 100x erklärt habe:
Nichts ist leichter, als Remisqouten mit unausbalancierten (oder meinetwegen inkorrekten) Vorgaben zu senken:
Ich gebe einfach einen Turm oder Dame für eine Farbe vor. Schon habe ich 0% Remisen. Soooo einfach. Nur dann habe ich auch in allen Engine-Wettkämpfen 50%-50% Ergebnisse, weil sich der Vorteil für eine Farbe bei genügend Partien auf beide Engines statistisch gleichverteilt.

Die Kunst ist eben, die Remisqouten zu senken OHNE dabei die Ergebnisse Richtung 50%-50% zu stauchen. Und das schafft Drawkiller par excellence. Die Ergebnisse werden sogar weiter gespreizt. Bei stark sinkenden Remisqouten!
Zudem sind alle Drawkiller-Endstellungen mit Komodo analysiert worden.
Bei Drawkiller tournament liegen alle Endstellungen in einem Bewertungsintervall von: [-0.39;-0.20] oder [+0.20;+0.39]
Bei den Drawkiller balanced files sogar im Intervall [-0.09;+0.09]

noch fairer und ausgeglichener geht nicht!

Hast du überhaupt schon mal eine Drawkiller-Endstellung mit eigenen Augen angesehen? Vermute mal nicht. Vielleicht erläuterst du mir mal, was an dieser Stellung (und bis auf unterschiedliche Bauern-Muster sehen ALLE Drawkiller-Stellungen so aus) unkorrekt sein soll? Daß die Zugfolgen, die diese Stellungen erzeugen, chaotisch aussehen, stimmt zwar. Spielt aber überhaupt keine Rolle, da die Engines ja immer nur diese Endstellungen vorgesetzt bekommen. Daher sind die Züge bis dorthin völlig irrelevant.

Parent - - By Florian Wieting Date 2019-02-25 12:57 Edited 2019-02-25 13:06
Hallo, Stefan,

das ist ein Missverständnis. Bitte keinen Disput daraus machen. Ich bin ganz harmlos. Glaube es mir bitte!
So tief wollte ich ins Thema gar nicht einsteigen. Es war eine spontane Überlegung von mir, die ich vielleicht besser für mich behalten hätte oder breiter hätte darlegen sollen.

Ich weiß doch, wie viel Entwicklungsarbeit du seit Jahren in unser Hobby steckst. Da kann ich doch gar nicht mithalten, will ich auch gar nicht.

Und dennoch möchte ich versuchen, dass Missverständnis ein bisschen aufzuklären.
So weit liegen unsere Überlegungen nämlich gar nicht auseinander.

Ich gehe von der Prämisse aus, dass die Grundstellung beim klassischen Schach remis ist. Wie Guenter trefflich bemerkte, scheint diese Grundstellung mittlerweile für Schachprogramme zu einfach zu sein, sie spielen immer zuverlässiger das Remis aus.

Nun gibt es die Möglichkeit, das klassische Schachspiel zu modifizieren. Ein Weg wären Randomchess-Systeme. Diese Methode hat sich aber nicht in wesentlichem Maße durchgesetzt.
Oder man gibt Ausgangsstellungen vor, die einen kleinen Fehler einbauen, der aber möglichst minimal sein muss. Also Turm vorgeben geht gar nicht.
Und nun setzt man die Engines an diese "verfälschte" Ausgangsstellung und beobachtet, welche von ihnen am besten den eingebauten (ich betone nochmal: minimalen) Fehler verwerten kann.
Die Kunst besteht darin, den Fehler so klein zu halten, dass nicht jede Stümperengine ihn verwerten kann, also das Ergebnis stets 50:50 wäre.
Das entspricht für mich genau dem, was du in deinem Beitrag ausgedrückt hast.

Das ist eine sehr gute Lösung, denn sonst wird sich gähnende Langeweile breitmachen.
Es bleibt die Tatsache, dass im Sinne des Lösungsbaums der Grundstellung eine fehlerhafte Stellung benutzt wird. Und mehr sollte mein kurzer Einwurf nicht ausdrücken.

Ich wünsche dir einen sonnigen Start in die Woche.
Florian

PS. einen Rechtschreibfehler korrigiert
Parent - By Florian Wieting Date 2019-02-25 19:31
Wer den zweiten Rechtschreibfehler findet, darf ihn behalten. Zum Korrigieren ist es jetzt zu spät! 
Parent - - By Thomas Plaschke Date 2019-02-25 22:08
Florian Wieting schrieb:
...
Oder man gibt Ausgangsstellungen vor, die einen kleinen Fehler einbauen, der aber möglichst minimal sein muss. Also Turm vorgeben geht gar nicht.
Und nun setzt man die Engines an diese "verfälschte" Ausgangsstellung und beobachtet, welche von ihnen am besten den eingebauten (ich betone nochmal: minimalen) Fehler verwerten kann.
Die Kunst besteht darin, den Fehler so klein zu halten, dass nicht jede Stümperengine ihn verwerten kann, also das Ergebnis stets 50:50 wäre.
Das entspricht für mich genau dem, was du in deinem Beitrag ausgedrückt hast.
...
Stefan Pohl baut nicht mehr Fehler in die Drawkiller-Eröffnungen ein als in jedem Set klassischer Eröffnungssysteme enthalten sind, denke ich. Jede Endstellung beliebiger Eröffnungsbibliotheken liegt den Programmen mehr oder weniger. Ich glaube, kein Autor neutraler Eröffnungsbibliotheken beabsichtigt, Endstellungen zu verwenden, die eindeutig in Bezug auf den Spielausgang sind. Die Partie würde von der Bibliothek entschieden und nicht von dem Programm. Frank Quisinsky, hier als Exponent des klassischen Ansatzes für Engineturnier-Bibliotheken genannt, hat deswegen mit sehr großem Aufwand normale Eröffnungen aller Systeme gewählt, die nach Prüfung durch mehrere Programme anscheinend keine Seite bevorteilen. Die Entscheidung über den Partieausgang bleibt so bei den Engines. Er hat dabei auch solche Varianten entfernt, die zu einer hohen Remisquote neigten. Stefan Pohl ist den Weg gegangen, die Programme über ungewöhnliche Zugfolgen in Positionen zu entlassen, die seltener ins Remis münden, aber natürlich auch keiner Seite einen eindeutigen Vorteil gewähren. Natürlich sind diese Endstellungen nicht von der Schachtheorie durchleuchtet worden, sodass sie möglicherweise doch nicht neutral sind. Andererseits werden die Varianten grundsätzlich mit Farbwechsel wiederholt, sodass sich der Nachteil unter halbwegs gleichstarke Engines ausgleichen könnte. Eine Verfälschung der Statistik müsste man nicht befürchten. Die zusätzlichen Vorteile seines Ansatzes sind demgegenüber genug beschrieben worden.
Für FEOBOS spricht aus meiner Sicht, dass man daraus auch das Gerüst für eine Turnierbibliothek machen kann. Alles in allem finde ich gut, dass wir zwischen beiden Ansätzen wählen können, je nach Zweck des beabsichtigten Turnierlaufs.

Viele Grüße
Th. Plaschke
Parent - - By Peter Martan Date 2019-02-25 22:38 Edited 2019-02-25 23:00
Thomas Plaschke schrieb:

Andererseits werden die Varianten grundsätzlich mit Farbwechsel wiederholt

Ich glaube, das siehst du falsch, Thomas. Ich finde jetzt auf die Schnelle in Stefans umfangreicher Dokumentation die Stellen nicht, die das klären, bin mir aber ziemlich sicher, es dort oder im Forum in einem Posting von ihm gelesen zu haben, dass kein automatischer Farbwechsel stattfindet normaler Weise bei seinen eigenen Tests.

Ich habe das selbst erst relativ spät wahrgenommen, halte es aber für möglich, dass er genau dadurch nicht nur weniger Remis, sondern vor allem auch weniger 1:1- Paare hat in den Ergebnissen.
Vielleicht sagt Stefan ja noch was dazu, ob ich mich irre.

Edit: Mittlerweile habe ich wenigstens das Posting gefunden, in dem ich da zuletzt etwas darüber gelesen habe:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=119266#pid119266

Stefan Pohl schrieb:

Im RoundRobin-Modus spielt die LittleBlitzerGUI immer für jede neue Partie eine neue, zufällig gewählte Eröffnung als Vorgabe. Es gibt also kein Hin- und Rückspiel bei diesen Testruns. Das ist aber auch gar nicht zwingend nötig. Eine erhöhte Elospreizung von Engine-Wettkämpfen läßt sich nur durch zwei Möglichkeiten erreichen, nämlich zum einen eine geringere Remisqoute und zum anderen durch sehr gut ausbalancierte Eröffnungsvorgaben, die nicht eine Farbe stark bevorteilen, wodurch eben 1:1 Ergebnisse unwahrscheinlicher werden. Bleibt die Remisqoute nun konstant (oder wie hier: steigt sie sogar leicht im Vergleich zu Drawkiller tournament), und die Elospreizung ist dennoch höher geworden, dann muß die Zahl der potentiellen 1:1-Ergebnisse/Vorgabestellungen gesunken sein. Da gibt es gar keine andere Option.
Und natürlich gibt es auch in Drawkiller immer noch Stellungen, die ein 1:1 Ergebnis ergeben können. Das kann man nie zu 100% vermeiden. Gerade bei Engines, die in der Spielstärke nicht so weit auseinander liegen, kann sowas immer mal auftreten. Das ist unvermeidbar und natürlcih auch nicht zu "verdammen". Es geht nur darum, Eröffnungsvorgaben möglichst nicht zu vorteilhaft für eine Farbe zu machen, damit nicht 1:1-Ergebnisse auftreten, auch wenn es ein beträchtliches Spielstärkegefälle bei den Engines gibt. Denn das drückt die Elospreizung Richtung 50% zusammen, genau wie Remisen. Und das ist natürlich nicht wünschenswert.
Parent - - By Thomas Plaschke Date 2019-02-25 23:15
Ja, stimmt. Das ist anscheinend der LittleblitzerGUI geschuldet. Nicht schön, aber verkraftbar, wenn durch die große Zahl der Partien jede Engine gleich häufig bevorteilt oder benachteiligt wird (in verschiedenen Varianten allerdings).

Viele Grüße
Th. Plaschke
Parent - - By Peter Martan Date 2019-02-25 23:29
Ich habe Stefan so verstanden, dass das nicht nur verkraftbar ist, sondern ein Teil des "Geheimnisses".

Würden Stellungen, die die eine oder die andere Seite leicht bevorteilten, immer mit Farbwechsel ausgespielt, würden sich die niedrigeren Remisquoten gar nicht so "Elo- spreizend" auswirken, wie so, wenn einmal zufällig die weiße und ein andermal zufällig die schwarze Seite aus dem kleinen Vorteil der einen Stellung und dann zufällig (vom GUI ausgewählt) aus der anderen einen ganzen Punkt macht.

Stefan schreibt ausdrücklich in dem Zitat, das ich oben gebracht habe, dass die 1:1-Paare die niedrigere Remisrate wieder teilweise ausgleichen würden, wären sie häufiger.

So funktioniert es auch, glaube ich, was ich anfangs auch nicht verstand, dass keine ausnehmend höhere Weißquote in den Ergebnissen auftritt, was zu vermuten wäre, wenn einfach durch die Abgaben des Rochaderechts einer Brettseite (im Dame- König- Seite Sinn) meistens nur der Anzugsvorteil verstärkt würde. So ist es einmal Weiß und einmal Schwarz, der mit leichtem Vorteil anfängt.
Parent - - By Guenter Stertenbrink Date 2019-02-26 07:02 Edited 2019-02-26 07:25 Upvotes 1
Soweit ich erinnere, hab ich das damals ausklamuesert, dass hin- und Rueckpartien
gespielt wurden, nur eben in zufaelliger Reihenfolge, schwer zu finden in der Gesamt.pgn

Bei genuegend vielen Partien faellt das statistisch wohl kaum ins Gewicht, ob hin- und Rueckpartien gespielt werden.

Ich selber hab mit mehreren der drawkiller-Sets zig-tausende well, hunderttausende von Partien -
jeweils hin-und Rueck gespielt und die Remisquote und 1-1 Paare gezaehlt.
Beides war deutlich niedriger als bei den "besten" anderen Eroeffnungs-Sets , z.B. Noomen-Superfinale Eroeffnungen

Allerdings immer nur auf tablets und asmFish, verschiedene Bedenkzeiten.
Ich hab eber das Gefuehl, dass sich bei enderen engines oder Hardware nicht viel aendern wuerde

-------------------------------------

Anlass, meine alte Eroeffnungs-sets Test-Tabelle upzudaten :

Code:

Bedenkzeit
no book
HERT-500
topGM-500
SALC-500
SALC-HC
opcas-1 (opposite castling , Ausgangsstellung mit geaenderten Rochade-flags)
noo16-50 (Noomen 2016)
feobos-500
zuf (10  random moves , eval-filtered)
dk-t (drawkiller "tournament")
dk1h (irgendein anderer drawkiller set)
av.9 (durchschnitt)

Remisquoten , drawrates in %

TC     none,hert,GM  ,salc,sahc,opca,noom,feob,zuf ,dk-t*,dk1h, av.9
--------------------------------------------------------------------
10+0  :                                            ,39.1,43.9,
30+0  :                                                 ,48.8%
0+0.5 :73.0,66.9,66.6,52.8,50.5,57.9,56.5,60.9,57.7,39.8,45.3, 60.3
000+1 :76.6,71.3,71.7,55.8,53.1,62.2,63.2,63.9,64.8,40.1,47.9, 64.7
000+5 :85.1,78.6,77.9,65.3,60.9,80.5,67.7,74.4,73.7,49.1,55.1, 73.8
120+1 :87.4,83.0,79.8,66.9,66.8,79.8,70.3,76.9,77.6,51.5,57.4, 76.5
240+2 :88.5,82.6,81.4,65.8,67.9,84.7,73.9,78.4,77.9,53.1,59.5, 77.9
420+5 :                                                  60.1
      

Ergebnisspreizung , decisive pairs in %
                                                   dk1g= dkg
TC     none,hert,GM  ,salc,sahc,opca,noom,feob,zuf,dk-t*,dk1h av.9  av.11  +dr
-------------------------------------------------------------------------------
10+0  :                                            ,62.6,62.2,
30+0  :                                                 ,62.8%,
0+0.5 :38.6,47.2,45.6,50.0,61.0,57.6,51.6,50.2,54.4,61.2,61.8, 50.7       1108  
000+1 :35.2,40.6,39.4,52.0,57.2,52.6,49.2,46.4,48.6,60.2,59.2, 46.8       1115
000+5 :25.4,31.8,31.2,38.2,48.8,34.2,43.2,35.6,36.2,58.2,51.0, 36.1       1099
120+1 :22.6,29.0,29.0,40.5,45.8,33.4,40.4,34.5,35.8,55.6,52.0, 34.6 38.1  1111
240+2 :20.2,27.8,28.0,40.6,39.6,27.6,37.2,31.0,32.5,52.6,52.0, 31.6 35.5  1095
420+5 :                                                  49.6
                                                        


    # : dk1h , 1000 games ,
    % : die 2 grund-drawkiller-stellungen
   * : cp-1668 vs. cp-2498 (asmFish 2018 mit contempt , sonst asmFish 2017)
  51.3 , 55.5 2000*dk1g

*45.8 7000 games   52.8 2000 games dk1g
Parent - By Guenter Stertenbrink Date 2019-02-26 08:44 Edited 2019-02-26 08:47 Upvotes 1
mit drawkiller auf den tablets

00+10:40% draws,38% 1-1-pairs
120+1:51% draws,45% 1-1-pairs
240+2:53% draws,47% 1-1-pairs
480+5:55% draws,49% 1-1-pairs
...(9 weitere Male verdoppeln)
TCEC : 73% draws , 67% 1-1 pairs  (StockFish gegen StockFish)

man sollte das zumindest mal antesten bei TCEC oder CCCC im "bonus"-matsch
Parent - - By Stefan Pohl Date 2019-02-26 11:14 Edited 2019-02-26 11:29 Upvotes 1
Peter Martan schrieb:

Ich habe Stefan so verstanden, dass das nicht nur verkraftbar ist, sondern ein Teil des "Geheimnisses".



Nein. Thomas Plaschke hat völlig Recht. Es ist mit der LBG im RoundRobinModus nicht machbar, spielt aber bei genügend Partien auch keine Rolle für die Ergebnisse.

Die ursprünglichen Head-to- Head Testruns mit asmFish gegen Komodo 10.4 sind im Gauntletmodus gespielt worden und dort werden die Eröffnungen mit vertauschten Farben wiederholt. Auch dort treten höhere Ergebnisspreizungen auf. Logischerweise. Siehe meine Drawkiller-Sektion auf meiner Website.

Wäre ja auch mehr als peinlich, wenn Drawkiller nur funktionieren würde, wenn man ganz bestimmte Bedingungen herstellt. Dem ist natürlich nicht so. Bei genügend gespielten Partien wird Drawkiller IMMER niedrige Remisqouten und hohe Ergebnisspreizungen generieren!
Parent - By Peter Martan Date 2019-02-26 12:28
Alles klar, Stefan, danke für die extra Erklärung.
- - By Benno Hartwig Date 2019-02-24 08:21 Edited 2019-02-24 08:24
Endstand des Superfinales:

N Engine             Rtng  Pts  Gm      SB X  Elo Perf
1 Stockfish 190203   3588 50.5 100 2499.75 0 -760 50.5
2 LCZero v20.2-32930 3404 49.5 100 2499.75 0 +760 49.5


Schon fantastisch, wie schnell Lc0 an den alten Platzhirschen SF heranrücken konnte!
Lust auf mehr!
Benno

PS:
Aber was soll man eigentlich mit diesen Angaben -760 Elo und +760 Elo anfangen???
Parent - By Peter Martan Date 2019-02-24 08:52 Edited 2019-02-24 08:57 Upvotes 1
Benno Hartwig schrieb:

Lust auf mehr!

Und schon läuft unter der bekannten Adresse 

https://tcec.chessdom.com/live.html

ein 3Kampf zwischen Antifish, Leelenstein und SF mit 5'+2". Schon 16, 15, 15 Partien gespielt, diese Ungleichheit bedenkend, noch ziemlich ausgeglichen derzeit (8, 7 1/2, 7 1/2).
Parent - - By Arno Nickel Date 2019-02-24 12:29 Edited 2019-02-26 20:33
Eine der brennenden Fragen für mich ist, wie nahe Lc0 leistungsmäßig an Alpha0 dran ist.
Ich neige zu der Auffassung, dass der Alpha0-Lernfortschritt kaum größer sein dürfte als der von Lc0, so dass also ein vergleichbares seriöses Live-Match Alpha0 gegen SF 10 (bzw. eine verbesserte SF 10-Entwicklerversion) ebenfalls ganz auf Augenhöhe verlaufen würde mit beiderseits gleichen Stärken und Schwächen.
Einen solchen Vergleich - oder ein Match Alpha0 vs. Lc0 - werden wir aber vermutlich nie zu sehen bekommen, obwohl man ja, wie das Sprichwort sagt, nie "nie" sagen soll.
Auf jeden Fall gibt es jetzt viel hochkarätiges Material zum Analysieren.

EDIT: auf Wunsch gelöscht -TM (MOD)
Parent - - By Guenter Stertenbrink Date 2019-02-24 13:56 Edited 2019-02-24 14:07
Man koennte sich doch nun mit dem Gegner absprechen, die Partie interessanter
zu gestalten, z.B. mit drawkiller oder so. Erreicht werden koennten solche Stellungen
voellig legal durch absurde Eventualzugfolgen, bei denen derjenige der vorschlaegt
bereits im ersten Vorschlagszug Zug einen grossen Vorteil hat, welcher beim letzten
Vorschlagszug verschwindet. Bei Annahme der Zugfolge muessen also alle
absurden Zuege angenommen werden.
Waere das dann auch unlautere Absprache ? Die Wahl interessanter Eroeffnungen ist ja
akzeptiert und wird auch allgemein begruesst.
Absurde Eventualzugfolgen hab ich merkwuerdigerweise noch nie gesehen.
Ich glaube ich hab mal versucht 1.e4 , falls 1...h6 so 2.a3 oder aehnlich
(um aus der Theorie herauszukommen, lang ist's her) hat aber nie jemand angenommen.

Ich hab das auch schon L.Ljubicic im Rybka-Forum gefragt, der verstand
aber gar nicht (oder wollte nicht verstehen ? well, oder ich hatte es schlecht formuliert) was ich meinte.
Parent - By Arno Nickel Date 2019-02-24 16:15
Es will ja so gut wie niemand, der aktiv im ICCF- oder FIDE-Bereich spielt und nicht ganz unten herumkrepelt, aus der "Theorie" aussteigen. Derartige operative Eingriffe gleichen einer Hirntransplantation.  Und wenn jemand doch mal Lust verspürt, aus der "Theorie" auszusteigen, dann nur zur Abwechslung mit chess960. Und Abprachen gehen natürlich "wägen Rägel" gar nicht. Insofern ist da - für mich allerdings verständlich - auch keine Diskussionsbereitschaft.
- By Guenter Stertenbrink Date 2019-02-24 16:28 Edited 2019-02-24 16:36
update der eval-charts : http://magictour.free.fr/TCEC14F4.GIF

Lc0 nimmt StockFish - nach beider Meinung -
im Durchschnitt etwa 0.20 eval ab zwischen Zug 15 und 33 .

StockFish - mit contempt - schaetzt die Noomen-Eroeffnungen
mit Weiss als +0.60 ein, mit Schwarz als 0.10.

Wenn Lc0 Weiss hat, dann gehen die evals in etwa parallel ,
man kann etwa den Mittelwert als vernuenftige eval nehmen.

Interessant waere es , die BlauFish-evals hier einzufuegen, aber die sind leider wohl nicht archiviert.
Up Topic Hauptforen / CSS-Forum / TCEC 14 - Superfinale NEUER Thread
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill