TCEC/S9: Schnarchoholiker

By Thorsten Czub Date 2016-09-30 15:17

Wie groß sind denn die abstände. Ist das statistisch relevant ? Oder turnierglück?

By Frank Quisinsky Date 2016-09-30 16:28 Edited 2016-09-30 16:42

Sagt der Richtige!
Wirst bei Deinen Turnieren auch nichts aussagekräftiges produzieren (viele gleiche Engines in unterschiedliche Versionen und zu wenige Partien).

Wenn gleich es dennoch gut ist das jemand sich überhaupt noch die Mühe macht und versucht etwas herauszufinden bzw. auch mal ein bissel auf Spielstile achtet. So lange durch TCEC Leute angezogen werden ist alles im grünen Bereich, soll jeder Spaß haben und sich auf solche Turniere freuen. Ganz egal ob was aussagekräftiges produziert wird oder nicht.

Erinnere mich an einem Forte B und Forte C Bericht von Dir. War fasziniert, als ich gelesen hatte das jemand endlich mal mehr zu den Spielstilen schreibt. Zwar konnte ich das Ergebnis von Dir in diesem Fall nicht nachvollziehen (Forte A spielte meines Erachtens aufregender und Forte C war eher vergleichbar wie Simultano Langeweile pur) ... aber was solls. Ärgere mich nur das ich das Teil nach Kimnich fürs Tuning gesendet hatte und mir das Geld bitter in jüngeren Jahren ersparen musste ... hätte ich mir sparen können. Ist lange her und viele Deiner Berichte waren wirklich richtig gut und haben mir sehr gefallen. Was ich hier schreibe war wirklich die rühmliche Ausnahme. OK, ChessTiger war auch eher so ein ganz normales Schachprogramm und GambitTiger war nur minimal interessanter bzw. spielte minimal interessanter. Aber in Test-Stellungen war eher zu sehen das Gambit-Tiger mal eher etwas findet und von daher auch wieder OK.

Im Computerschach sind so einige Mythen entstanden, für einige hast Du gesorgt Du Schelm.

Dir ein schönes WE.

Gruß
Frank

By Thorsten Czub Date 2016-09-30 17:16

Wieviel Rundig spielen die denn da ? Wohl kaum 240 runden, oder ?

By Thorsten Czub Date 2016-09-30 17:24

Wenn ich das richtig sehe sieht es auf 29 runden mit einem 2 Punkte Vorsprung aus,
Das ist nicht viel Abstand.
Wenn es jetzt mehr Partien / runden wären.

By Frank Quisinsky Date 2016-09-30 17:54 Edited 2016-09-30 18:01

Hallo Thorsten,

es könnte auch Andscacs vorn liegen nach 30 Runden.

Denke kaum jemand der Ratinglisten verfolgt wird auf das Einzelergebnis in Elo schauen.
Endergebnis in Elo ist eh zweitrangig ... eher drittrangig und auf dem Level für uns sowieso.

Aber während einer Partie mitfiebern ... geht auch auf dem heimischen Rechner wenn dieser 50x langsamer ist (kleiner Tipp) ... macht Spaß!
Aber da erzähle ich Dir nichts neues!

Für viele ist der Chat auch interessant während die Partie läuft.
Nicht zuletzt deswegen hatte der ChessBase Server seinerzeit auch so viele Leute im Computerraum.

Aber wie es so ist mit allem was neu ist.
Irgend wann ist es alt und neue Ideen müssen her damit die Masse sich einfindet.

Gruß
Frank

By Frank Quisinsky Date 2016-09-30 16:13 Edited 2016-09-30 16:40

Hallo Michael,

wenn klar ist wie diese Engine entstanden ist finde ich es äußerst fragwürdig diese wieder zu befeiern wenn doch noch gar nicht verfügbar!
Rein so aus Erfahrung ... derjenige der 1x ... wird es immer wieder!

Dennoch wird ja auch deutlich, dass der Programmierer mit einigen Tricks gearbeitet hat. Siehe vermeiden von Remis und verschieben der Spiele ins Endspiel. Geht seit ich Houdini in meiner Züge Statistik habe aus jeder dieser Statistiken eindrucksvoll hervor. Allerdings hatte diese Idee vorher in der Form auch noch niemand und insofern ist es eine eigene Idee. Auch im Endspiel gewinnt Houdini sehr viele Partien, mehr als Stockfish oder Komodo ... was aber auch wieder an die durch Contempt verursachte Schieberei nach hinten verursacht wird. Gleiches macht DiscoCheck und genau diesen beiden Engines ... Houdini und DiscoCheck haben mit ca. 100 Züge ohne Aufgabefaktor den höchsten Partiedurchschnitt in meiner Liste. OK, Quazar gesellt sich noch durch viele kleine Eigenwilligkeiten hinzu.

Denke die Community wünscht sich einfach mehr starke Gegner für Stockfish und Komodo. Wie diese Engines dann entstanden ist oder entstehen werden ... das wird kaum jemand interessieren. Wir müssen uns immer vor Augen halten, was wir in der Computerschachgeschichte vorher nicht erreichen konnten, kann niemand allein dann in wenigen Schritten tun. Er muss die Informationen und Daten nutzen die vorhanden sind um vergleichbares zu leisten, ganz sicher mit den eigenen Ideen gemixt. Ich hoffe und wünsche mir für die Zukunft, dass dies dann auch dokumentiert wird und nicht wieder verheimlicht wird. Der Andscacs Programmierer machte es kürzlich vor und nur so geht es und alles ist im grünen Bereich.

Denke wenn ein Shredder, ein Fire und ein Houdini dann verfügbar werden, wird es spannender oben in der Tabelle.
Auch weil viele von unten in den letzten 2 Jahren nach oben gestürmt sind (Nirvana, Texel, Fizbo, ICE etc.).

Und zu TCEC:
Ich finde solche Turniere (auch wenn ich keine Zeit habe zu folgen) spannender als die Test-Runs die ich so mache. Weil ganz einfach diese Test-Runs sehr viel Arbeit sind und sich lange hinziehen. Wir können zwar lesen wie in einem Buch wenn die Stats solcher Test-Runs vorliegen ein Turnier sorgt immer für mehr Spannung ... es darf nur nicht zu lange dauern, dann wird es auch wieder zu Knetgummi.

Dir weiterhin viel Spaß bei TCEC.

Gruß
Frank

Und zur Engine 2017 ...
Mein erster Kandidat ist Andscacs ... er schaufelte das Programm von 0 nach oben!
John Stanback ist zurück und sehr fleißig am entwickeln, der Dino der mit GnuChess mit die ersten freien Sourcen frei zugänglich gemacht hat und einen maßgeblichen Anteil daran hat was es heute überhaupt gibt.
Fizbo spielt aufregend und vergleichbar wie Andscasc ... er schaufelte das Programme von 0 nach oben!

Das sind Programme wo ich sage ... Engine 2017.
Das sage ich ganz sicher nicht bei einer Version von einem Programm welches es offiziell noch gar nicht gibt.
Finde das ein wenig beleidigend allen anderen Programmierern gegenüber!
Bin sehr neugierig auf die Readme Dateien wenn Houdini in einer neuen Version kommerziell angeboten wird.
Der Vorteil ... er kann heute nur alles besser machen!

By Benno Hartwig Date 2016-09-30 17:16 Upvotes 1

> wenn klar ist wie diese Engine entstanden ist...

Wenn jemand das für klar hält, dann soll er bitte seine belastbaren Argumente präsentieren.
Und andernfalls doch lieber vorsichtig formulieren.

Benno

By Frank Quisinsky Date 2016-09-30 17:39 Edited 2016-09-30 17:59

Benno,

TalkChess ist voll davon, aus der Zeit der ersten Houdini Versionen.
Kann jeder nachlesen wer möchte.

Da muss auch heute niemand vorsichtig formulieren, eher kann sich jeder seine eigene Meinung bilden.
Die vielen Hinweise sind meines Erachtens zu offensichtlich.

Persönlich finde ich die Hinweise vom Thinker Programmierer sehr eindrucksvoll, noch interessanter die vielen Hinweise vom Critter Programmierer. Der erste Houdini war 99% Robbolite. Und zur Erinnerung ... die IPP Sorucen schrieb der Fire Programmierer in einen lesbaren Code.

Musst also nicht mit Gewalt versuchen ein offenes Geheimnis zu verstecken.
Macht keinen Sinn!

Gruß
Frank

Persönlich finde ich an den seinerzeitigen Informationen eher aus heutiger Sicht nachteilig, dass die Eigenarbeit vom Houdini Programmierer untergegangen ist. Aber genau das hat er sich selbst verbockt und auch heute muss er damit leben. Finde das nur schade weil großartiges was er ganz offenbar geleistet hat für viele Kritiker nie zur Diskussion stand. Er hat also viel einstecken müssen aber einiges davon sicherlich zu Unrecht. Hätte er mit offenen Karten gespielt würden selbst die Kritiker eher denken ... OK aber er hat eine Verbesserung erzielen können und das ist für eine einzelne Person eine wirkliche Leistung (denn alle Kritiker auf Programmier Ebene konnte Houdini nicht toppen ... zumindest eine längere Zeit). Auch wenn heute bekannt ist warum. Glaube auch nicht das er dann so viel Kritik hätte einstecken müssen. Weil der Trend ja klar ist und seinerzeit schon war. Muss immer wieder auf das Stockfish Interview hinweisen ... die Geheimnisse der Schachprogrammierung lagen offen. Sicherlich seit dem Stockfish Interview neue hinzugekommen, die aber auch offen liegen. Nicht anderes was seinerzeit mit den IPP Sourcen passierte, passiert heute mit den SF Sourcen. Die Aussagen des Houdini Programmier bei Veröffentlichung von Houdini 1 ... alles ist mir ... hätte er besser nicht geschrieben. Aber wie gesagt, heute weiß jeder das er das Programm dann mit neuen Versionen nach vorne getrieben hat. Und heute schauen viele Leute sehr genau hin was in seiner Readme steht. Er kann also alles nur besser machen!

Bleiben wir nüchtern!
Hochloben oder verheimlichen hat noch nie etwas gebracht.

Benno, ich habe so viele Menschen aus der Computerschachszene kennengelernt und viele von denen würden niemals auch nur ansatzweise etwas eingestehen bzw. auch mal einen Fehler zugeben. Überhaupt verändern sich Menschen kaum ... oftmals denke ich ... leider!

By Peter Martan Date 2016-09-30 19:10

Frank Quisinsky schrieb:

wenn klar ist wie diese Engine entstanden ist finde ich es äußerst fragwürdig---

Prima, Frank, das mit den Ranglisten und den Celo, und wer wieviele Partien gegen wieviele und welche Gegner mit welchen Eröffnungen spielen sollte und vielleicht noch mit welchen Bedenkzeiten und auf welcher Hardware, lockt ja wirklich keinen Hund mehr hinter dem Ofen hervor.
Hätten wir da nicht das uralte Reserve-Thema Nr.1, wie welche engine entstanden ist, wüssten wir wirklich nicht mehr, worüber wir hier schreiben sollten.
Passt auch so gut zum Thread- Titel Schnarchoholiker...

By Frank Quisinsky Date 2016-09-30 19:25 Edited 2016-09-30 19:28

Hallo Peter,

wir sind ja bekanntlich nicht so oft einer Meinung. Zumindest werden langfristig eher die Fans der Stellungsanalyse mehr auf Ihre Kosten kommen als die von Ratinglisten. War nie wirklich ein Gegner von Testverfahren für Stellungs-Tests aber stets ein Gegner von ... das was vorliegt reicht nicht aus. Und je höher das Niveau der Engines wird, desto anspruchsvoller dann ein solcher Test und desto unmöglicher weil schwieriger.

Aber in der Tat ...
Also ich denke ich habe zumindest genug von Ratinglisten wenn ich denn bald aufhöre. Kann auch derzeit einfach nichts mehr herausfinden bzw. noch irgend etwas an dem System verbessern. Heute muss ich eher kämpfen mit der Konzentration wenn ich mich an den PC setze ... mir ist die Energie ausgegangen weil ich auch nichts neues mehr herausfinden kann. Wir brauchen extrem viele Gegner für einen verlässlichen Wert in einer Ratingliste und auf dem Niveau von Stockfish und Komodo haben wir die Gegner nicht. Da können wir nicht schauen wie oft verloren oder gewonnen sondern betrachten eher die Remis-Statistiken und die werden auch immer feiner. Haben wir wenige Gegner, egal wie viele Partien können wir auch würfeln wenn wir uns nicht mit möglichen Abweichungen die selbst bei 20 Gegner um 100 Elo liegen könnten ... zufrieden geben.

Letztendlich finde ich die Ermittlung einer Elo nicht mehr zu reizvoll wie noch vor einigen Jahren. Weil alles weit über unserem Horizont liegt. Heute ist es eher interessanter tiefer zu forschen aber dafür fehlt das Schachwissen. Verbleibt die Bewunderung für Engines die nun schon bei 3200 Elo liegen. Im Jahr 1900 hätte ein aktueller Stockfish bei deren Spielweise wahrscheinlich alles in Grund und Boden nach wenigen Zügen vom Brett gefegt. Zumal die Altmeister das Eröffnungswissen nicht hatten und sehr viel mehr Varianten spielten die heute eher direkt zum Verlust führen.

Nun ja ...

Müssen wir ein paar neue Ideen generieren damit es spannend bleibt.
Mir persönlich wird da schon etwas einfallen ...

Gruß
Frank

By Peter Martan Date 2016-09-30 19:42 Upvotes 1

Frank Quisinsky schrieb:

und auf dem Niveau von Stockfish und Komodo haben wir die Gegner nicht.

Na, wenn wir den neuen Houdini auch mitspielen lassen, offenbar doch.

Und wenn wir die Geduld aufbringen, auf einen neuen Shredder zu warten, mit dem SMK so zufrieden ist, ihn zu veröffentlichen, und mehr als ein SF- Derivat als engine gelten lassen (MateFinder ist für mich eigenständig, Sting sowieso) sich vielleicht jemand weiter der Entwicklung von Gull, Equinox und Fire annimmt (ist dir der eigenständig genug? Ich glaube, ich las das mal von dir, warum eigentlich, weil du dich mit Norman Schmidt besser verstehst, als mit Robert Houdart? Fire ist aber erst recht astreiner Ippo), sich ein chessbase Programmierer findet, der im Rybka- Code mehr als 4G Hash- Nutzung einbaut, und vielleicht auch Johnny und Gingko mal der Öffentlichkeit zugänglich gemacht werden, haben wir engines auf diesem Niveau genug, finde ich. Für mich ist das, was "Overall Playing Strength" angeht (die Illusion, die die Basis der Celosion darstellt) alles ziemlich eins, sorry, ich hab's halt leichter, weil ich keinen Wert auf Centicelo lege.
Und (absichtlich und wissentlich) rein stellungsabhängig getestet, sind mir diese und andere engines auch durchaus leicht genug unterscheidbar.

By Frank Quisinsky Date 2016-09-30 20:04 Edited 2016-09-30 20:06

Hi Peter,

dann haben wir einen mehr und mit Shredder dann zwei.
Prima ... fehlen ca. 15-20 weitere, die nicht mehr als 250 Elo entfernt sind.

Wenn denn natürlich die TOP-20 mit unterschiedlichen Spielstilen zukünftig auch noch daher kommen ist und bleibt alles im grünen Bereich. Aber unter den TOP-20 in meiner Liste gibt es nur 11 wirklich sich klar zu unterscheidenden Spielstilen. 6 weitere sind ähnlich und meines Erachtens sind 3 weitere gleich. Und je mehr sich die Spielstile annähern desto weniger Sinn macht ein Ratinglisten Test, egal wie sich die Engines schimpfen. Insofern ist meine Ratingliste letztendlich trotz der vielen Engines die mitspielen auch oftmals nur ein Zufallsprodukt (Zahlen die ermittelt werden). Denn wenn z. B. 10 weitere komplett anders spielende Engines in der Liste unter den TOP-20 wären könnte das innerhalb der TOP-20 um Abweichungen bis zu 100 Elo oder gar drüber hinaus sorgen. Und genau aus dem Grund stellt sich die Sinnfrage.

Klar ist Fire ein Ippo, nochmals er hat ja selbst auf seinen Igorit Code aufgesetzt und hat die Sourcen erst mal klar neu runtergeschrieben. Allerdings sind in Fire 4 viele neue Sachen eingeflossen die den Weg von den IPP Code weggehen, gerade im Endspiel, gerade in der Taktik. IPP ist schnell zu enttarnen schon aufgrund der hohen Remisquoten, wenigen schnellen Gewinnpartien. Heute schwieriger zu enttarnen als vor ca. 3-4 Jahren.

Jonny und Gingko ...
Kenne die aktuellen Versionen nicht und kann mir kein Urteil erlauben bzw. zu Gingko gar nicht. Habe auch keine Lust Analysen mit vorhandenen CEGT Material zu machen weil es einfach zu viele gute Engines gibt, die frei verfügbar sind und mich daher wesentlich mehr interessieren. Finde ich auch interessanter wenn mit verfügbarem Material getestet wird oder der Ratinglistenbetreiber beginnt den Versionen hinterherzulaufen und darauf habe ich schon mal gar keine Lust mehr. Glaube wenn Du 1x das in Winboard Zeiten gemacht hättest was ich seinerzeit machte hättest Du dafür auch keine Lust mehr.

Die Unterschiede zu sehen ist mit Teststellungen beim Spielstil schon möglich. Allerdings wenn ich die Spielstile aus meiner Ratingliste nicht kennen würde, hätte ich ein verdammt großes Problem damit diese von 50 Engines anhand von Teststellungen herauszufinden ... weil wir einfach dafür keinen wirklich guten Test haben. Das meiste beruht auf Best-Move Zügen und die eigenen sich dafür nur für verschiedene Konstellationen.

Gruß
Frank

By Frank Quisinsky Date 2016-09-30 20:11

Test-Set:

Könnte so gewichtet werden:

Nach der Eröffnung, frühes Mittelspiel: 10%
Spätes Mittelspiel: 30%
Übergang Endspiel: 45%
Endspiel: 15%

Wenn ein Test-Set diese Zahlen bei der Anzahl der Stellungen oder Gewichtung bei der Auswertung bringt, könnte ein Ergebnis in die richtigen Regionen kommen.

Gruß
Frank

By Peter Martan Date 2016-09-30 20:29 Edited 2016-09-30 20:45

Frank Quisinsky schrieb:

Allerdings wenn ich die Spielstile aus meiner Ratingliste nicht kennen würde, hätte ich ein verdammt großes Problem damit diese von 50 Engines anhand von Teststellungen herauszufinden ... weil wir einfach dafür keinen wirklich guten Test haben.

Sch...au auf die Spielstile, Frank.

Natürlich kannst du dir deine Celo mit Teststellungen genau so aufmalen, wie mit deinem Buch, das aus lauter Teststellungen besteht, ist da dasselbe Prinzip und dieselbe Illusion, die der "Overall Playing Strength", die gibt es nicht, die spielt man sich mit Willkür herbei, mit wieviel statistischem und Hardware- Zeit- Einsatz auch immer und natürlich wird die Illusion immer fadenscheiniger, je mehr man sich immer willkürlicher mittlerweile auch nur auf ein bestimmtes Teilnehmerfeld einigen muss, damit's überhaupt noch machbar bleibt.
Dafür kann niemand was, ich am allerwenigsten, weil ich das schon zu Zeiten gesagt hab, als es mit eng-eng noch vergleichsweise simpel war.
Dass ich mit dem Ergebnis einer einzelnen Teststellung zufrieden bin, um an Hand von der allein die Outputs der engines, die mich gerade in dem Zusammenhang interessieren, zu vergleichen, das gönnt mir halt keiner, ist das meine Schuld? Ich brauch keine Testsets und keine Stellungssammlungen und keine Bücher und keine Statistik für meine Tests, die ich immer wieder neu mit einzelnen alten und neuen Stellungen mache. Taktischen, positionellen, Eröffnungsstellungen, Mittel- und Endspielstellungen, der Seite am Zug im Vorteil, im Gleichgewicht und im Nachteil, und jede einzelne hat ein schlüssiges und reproduzierbares Ergebnis für sich (für mich).

Mittlerweile sieht es der namhafteste engine- Programmierer, Marco Costalba auch schon ganz klar so, (ohne natürlich als Erfinder des Frameworks zur Weiterentwicklung seiner engine auf Statistik und große Partienzahl aus eng-eng zu verzichten, die Patches, die ihm sinnvoll erscheinen, die hat er aber woher, glaubst du, bevor er sie in Unmengen von Spielen ins Framework schickt?), lies doch mal ein bisschen aktuelles Talkchess, Frank, oder sch...au weiter ruhig auf deine Spielstile allein.

SCNR.

Übrigens, um mir auch diesen Pawlow- Vorwurf vielleicht doch mal im Vorhinein zu ersparen: ja, ich schaue auch nach wie vor gerne auf alle möglichen Ranglisten und bin dankbar für sie und erst recht dafür, dass ich selbst keine machen muss, und ich lade mir gerne TCEC- Partien runter und bin auch wirklich dankbar für dieses Event, so sehr es mir dennoch zu langweilig wäre, da immer wieder stundenlang live zuzuschauen.

By Frank Quisinsky Date 2016-10-01 09:30 Edited 2016-10-01 09:50

Hallo Peter,

nun ich denke das mir die Ratingliste insofern etwas gebracht hat, dass ich die Spielstile der Engines kenne, das Buch resultierend aus den gespielten Partien auf einem sehr hohen Level angelangt ist und ferner fast 300.000 Partien der Allgemeinheit zur Verfügung stehen, speziell für die Programmierer die z. B. keinen Framwork haben. Auch diese Programmierer benötigen Material um die Engines zu verbessern. Das wird aber immer nur zu gerne vergessen. Auch die Fehlerbehebungen ... das sehen die Ratinglisten Ersteller. Im Grunde ist der Ratinglisten Ersteller Beta Tester für gleichzeitig 50 Engines (in meinem Fall).

Alles das dient einem Weiterkommen und das ist maßgeblicher als das Endergebnis welches dann der eine oder andere sich anschaut. Programmierer werden animiert durch die Listen Ihre Programme zu verbessern, erhalten wie gesagt das Material hierfür, können Ihre Bücher optimieren etc..

Das ist Teil der Kausalkette warum sich heute überhaupt die Programme nach oben schieben. Auch die Züge-Statistiken auf meinen Seiten geben viele Anhaltspunkte und Personen die diese ein wenig studieren können sich sehr schnell einen groben Überblick verschaffen.

Den feineren Überblick dann in der Einzelanalyse und warum nicht mit Teststellungen.

Wie gesagt, ich bin fest davon überzeugt dass es sehr wohl möglich ist auch sehr genaue Einschätzungen mit einem Test-Set zu simulieren. Wir sparen Arbeit und Strom aber nochmals ... diesen Test-Set gibt es nicht. Es müssen alle Partiefragmente drin sein, zweit und drittbester Zug können bewertet werden ... nicht nur Best-Move.

Das wurde ja alles schon hinreichend diskutiert.

Leider haben wir keine Fans von Test-Sets die sich die Arbeit in diesem Bereich machen wie z. B. die Ratinglistenbetreiber mit Ihrer Arbeit.

Fun-Faktor:
Ist bei beiden Arten gegeben ... beim Zusehen von Partien und beim beobachten ob eine Engine eine Stellung löst oder nicht. Nur mit der Methode Test-Set ... das kann dann jeder sehr schnell machen, für eine Ratingliste braucht man viel Geduld, viel Geld, viel Nerven und vor allem sehr viel Zeit.

Gruß
Frank

Übrigens:
Habe auf meinen Webseiten eine Rubik (download games by Players). Diese Rubik nach jedem Spießroutenlauf neu zu erstellen bzw. die derzeit über 300 kleinen Datenbanken neu zu generieren ist viel Arbeit. Auch wenn das Tool von Ferdinand im Hintergrund bei derzeit ca. 280.000 Partien ca. 2-3 Stunden benötigt, muss ja alles auf der Detailseite upgedatet werden. Der Arbeitsaufwand hierfür steht eigentlich in keinem Verhältnis weil ja alle Partien heruntergeladen werden können. Nur ist der Download mit Partiekommentaren bei ca. 500Mb angelangt und viele habe keine schnelle Internetverbindung.

Und dennoch ... es sind derzeit 17 Personen die regelmäßig Daten von neuen Test-Runs herunterladen. In Anbetracht das die Partiesammler diese Option ganz sicher nicht nutzen sind es eher die Programmierer und Beta-Tester. Im letzten Jahr also 17 Personen bei 23 der TOP-50 Engines die upgedatet wurden. Und wenn es nur 3 wären würde sich die Arbeit lohnen. Weil einfach etwas passiert und wer die Daten von einem Spießroutenlauf prüft sieht im Grunde fast jeden groben Fehler. Engines die Endspiele nicht richtig behandeln (gespielt wird ja bis zum Matt) oder x andere Fehler. Blunder-Analyse anhand der Evals welche enthalten sind, sind schnell erstellt. Eine Blunderanalyse von 2450 games ... und Ruck-Zuck hat der Programmierer für seine Programmentwicklung einen Test-Set kreiert passend zu seiner eigenen Engine, der letzten Version und kann dann ansetzen mit Verbesserungen.

Also, ich betrachte eine Ratingliste nicht nur als Ratingliste. Es gibt so viele Gründe warum das Ergebnis in Elo was rauskommt nicht maßgebend ist. Buchentwicklung, Programmentwicklung, Spielstile, Vergleiche, mögliche Statistiken ... das uns noch viel mehr geht mit einer guten Datenbank. Das geht nicht mit einem Test-Set. Das Problem ist nur das alles sehr viel Arbeit ist und wenn ich aufhöre mit der Liste ich selbst kaum eine wirklich gute Gelegenheit habe mich einer solchen Arbeit selbst zu bedienen. Ganz einfach weil meine Ansprüche sehr hoch sind und andere Ratinglisten das und vieles mehr einfach nicht bieten. Und bloße Zahlen interessieren mich auch nur am Rande weil ich weiß wie diese zu werten sind wenn denn klar was dahinter steckt (Anzahl der Gegner, welche Gegner, sind Gegner vorhanden die sich angleichen im Spielstil ... etc.).

Die unendliche Geschichte von Ratinglisten.
Ja, es ist möglich eine wirklich gute zu erstellen, nein es geht nicht ohne Zeit und Arbeit zu investieren. Elos die rauskommen sind morgen überholt, die Partien aber nicht ... können für viele Zwecke eingesetzt werden.

By Peter Martan Date 2016-10-01 18:03

Frank Quisinsky schrieb:

Wie gesagt, ich bin fest davon überzeugt dass es sehr wohl möglich ist auch sehr genaue Einschätzungen mit einem Test-Set zu simulieren. Wir sparen Arbeit und Strom aber nochmals ... diesen Test-Set gibt es nicht. Es müssen alle Partiefragmente drin sein, zweit und drittbester Zug können bewertet werden ... nicht nur Best-Move.

Erstens ist das Simulieren von Bedingungen, die originär schon nur eine bestimmte Art von Daten liefern, meiner Meinung nach sinnlos. Strom und Zeit zu sparen, wäre ein löbliches Ziel, wenn du aber wirklich gleich aussagekräftige Ergebnisse willst, wirst du gleich viel investieren müssen.

Eng-eng liefert (und natürlich auch relativ zum explodierenden Aufwand) aber keine Daten über etwas anderes als eng-eng, keine kausal durchschaubaren Zusammenhänge zwischen Ausgangsstellungen und Punkten, die erspielt werden, dennoch sind die Ergebnisse aber auch stellungsabhängig, aus einem noch so großen Kollektiv von Buchenden werden immer nur Teilmengen gespielt, was du wie editiert vorgibst, ist Willkür und damit eingeschränkte Fragestellung, da kannst du im Nachinein noch so viel Statistik hineingeheimnissen, die Partien sind voller einzelner Züge, aber sie werden immer nur auf eine einzige von der Hardware- Zeit und dem Teilnehmerfeld abhängige Art erhalten. Soviel zum ausgelutschten Thema "allgemeine Spielstärke", die kann man vereinfacht so definieren, das heißt aber nicht, dass damit wirklich alles beantwortet wäre, was an engines interessieren kann.

Und zu den Testsets für Stellungstests, Bücher und Sammlungen von Startstellungen für eng-eng sind ja auch Testsets.
Für einen die Illusion der allgemeinen Spielstärke ähnlich wie eng-eng abbildenden Stellungstest bräuchtest du vor allem, was du überhaupt nicht hast, Eröffnungsstellungen.

Mehr als ein Zug als Lösung ist eine Bombenidee, Frank, bei Eröffnungen hast du selten eindeutige best moves, kannst du sie deshalb nicht bewerten?
Im Gegenteil, du hast von Eröffnungsstellungen mehr Daten zu ihrer Bewertung als bei späteren, von den Wenigsteinern mal abgesehen.
Was hindert dich, die Stellungen deines Buch auf die Abspiele hin zu evaluieren?
Irgendwie machst du es sowieso, mit den Evals einer einzelnen engine oder mit mehreren, mit den Ergebnissen der Partien.
Forward- Backward würde auf jeden Fall auch dazugehören für mich, was Marco Costalba im CCC gerade macht und DBT nennt (double blind test) ist ein Ansatz in die Richtung.
Er bewerten den Schweregrad von Teststellungen nach dem Verhältnis von Eval vor und nach dem Ausspielen eines Lösungszuges, je weniger die engine von einem beweisbar besten Zug "schnallt" in limitierter Hardware- Zeit, desto schwieriger.

Prinzipiell kannst du das mit jeder Stellung so machen, von der du gut durchanalysierte Abspiele kennst, und es sollten natürlich jeweils alle sein, die miteinander zu vergleichen sind.
Nicht erst seit Brainfish von Thomas Zipproth werden Eröffnungen durch Retroanalyse bewertet, er hat einen neuen Algorithmus dafür und man wird sehen, wenn es für den User selbst und mit verschiedenen engines bearbeitbar werden wird, was es an neuen Erkenntnissen über Eröffnungen bringen mag, vielleicht nicht unbedingt gleich fürs Fernschach, dort wird's ohne die ohnehin immer mehr explodierenden Datenbanken und Eigenarbeit an bestimmten aktuellen Turnierlines nicht gehen, vorfiltern könnte man mit eigenen Computerbüchern vielleicht schon mehr und mehr, mal sehen, vor allem im eng-eng sollte es aber schon Veränderungen bringen, ist ja sowieso schon lange das Um und Auf der automatischen Servermatches.

Lass dir deinen Spass an deiner Arbeit nicht vermiesen, Frank, deine Erkenntnisse für dich selbst sind dir wahrscheinlich ohnehin Motivation genug, ab einem bestimmten Punkt sind die für die Anderen halt meistens nicht mehr nachvollziehbar.
Und würden die Eröffnungsstellungen tatsächlich auch einmal wirklich verlässlich von engines allein beurteilbar, wäre es für den Menschen ja wirklich aus mit Schach. Noch gibt es aber auch an nachvollziehbaren und beweisbaren best move- Stellungen genug (man kommt, je besser die engines werden, sogar auf immer mehr solche drauf, die weder Menschen noch engines früher verstanden haben), die die meisten engines in begrenzter Hardware- Zeit nicht lösen können, das sind nach wie vor die Highlights unter den Teststellungen.
Dass die eigentlich viel schwierigeren, die positionellen und die Eröffnungen an und für sich, von denen man nur Kandidatenzüge und geringe Unterschiede in der Evaluierung kennt, noch mehr oder weniger im Dunkeln liegen, verdrängt man dabei immer.
Und doch: im hochklassigen eng-eng und im Fernschach wird die Analyse der riesigen Datenmengen der Eröffnung auch immer besser und wichtiger auf dem Weg zur Wahrheit, und sei es, dass die halt letztlich doch im Remistod liegen mag.

Hätten wir genug Eröffnungsteststellungen mit durchanalysierten Evalverhältnissen exakter Testlines aus den Datenbanken (dabei kannst du die einzelnen Zahlenwerte praktisch wegkürzen, wenn es genug Rechenbeispiele über genug Halbzüge in Länge und Breite ausgewogener Varianten sind) dann wäre eine overall playing strength, die hoffentlich auch eine Zusatzinformation zu Ranglisten brächte so testbar:

9 Klassen von Stellungen: Für die Seite am Zug im Vorteil, im Ausgleich und im Nachteil (die alten avoid move- Stellungen, Defensivzüge, Save Draw- Züge, wird auch viel zu selten untersucht, ist dabei so wichtig für die Leistung einer engine, die meisten spielen einfach 2 Klassen schlechter im Nachteil, beim Menschen sind es allerdings eher drei) und das in der Eröffnung, im Mittel- und im Endspiel.
Da gibt's für die Eröffnung noch den zusätzlichen Sonderfall, dass der Vor- oder Nachteil nicht zu groß sein darf, damit es noch Sinn macht, die Eröffnung überhaupt weiter zu verfolgen.
Wie groß darf der Vorteil einer Seite in der Eöffnungsstellung sein, damit du das Ergebnis nicht vorweg nimmst und auf der anderen Seite nicht nur Remispartien bekommst?
Machte man diese Eröffnungssteststellung nicht nur an ganzen und halben Punkten fest, sondern an der Qualität der ersten paar Züge danach, könnte man viel mehr über gute Defensiv- und Angriffs"strategien" von engines herausfinden.

Aus all diesen Gründen würde ich jedenfalls so lange bei der Analyse einzelner Stellungen bleiben, bis ich wirklich so viele einzelne beisammen habe, dass ich meine, alles Wesentliche damit abzudecken.
Die 9 Klassen würden aber für mich die alten immer schon völlig undefinierbaren Begriffe von Strategie und Taktik hinfällig machen. Wie forciert Abspiele sind, geht ohnehin in die Variantenzahl und -Länge ein, wie man Eröffnungen katalogisiert, dafür hat man ja wenigstens Schemata genug.
Genug für jetzt aber vor allem wieder hier und jetzt, liest sowieso wieder kein vernünftiger Mensch von Anfang bis Ende, würde ich auch nicht tun, einmal wenigstens muss ich jetzt aber noch, selber Schuld.

By Frank Quisinsky Date 2016-10-01 21:00

Hi Peter,

habe zwar aufmerksam gelesen aber kann und will auch nicht bei allem folgen, weil ich Deine Denke oft nicht nachvollziehen kann (bin ehrlich).

Wenn ich mir vorstelle das die Nummer 50 in der Welt bei einer Sekunde Bedenkzeit Dich sicherlich in Grund und Boden spielen würde ... und selbst auch noch die Nummer 500 in der Welt ... wie die meisten die in Computerschachforen unterwegs sind, werde ich dieses immens hohe Anspruchsdenken niemals verstehen. Die Jagd nach 500 Cores noch schnellerer Hardware und 4000 Elo Engines ist für mich nicht unbedingt nachvollziehbar weil ich selbst merke das mich auch Laser auf Platz 50 in meiner Ratinglisten mit guten Ideen überfordert. Die guten Ideen sind in jeder Eng-Eng Partie zu sehen und davon gibt es von meiner Seite aus schon fast 300.000 ... damit könnte Material für einige zigtausend Stellungs-Tests kreiert werden.

Im Grunde würde es ausreichen der Usergemeinde eine Ratingliste mit 0.1 Sekunden pro Partie zur Verfügung zu stellen die dann für eine gründliche Fehleranalyse spannend wäre. So weit sind wir vom Level weg.

Sehr vielen Deiner Äußerungen kann ich einfach nicht folgen und möchte das wie gesagt auch nicht. Und natürlich lasse ich mir den Spaß nicht nehmen, dass siehst Du ja schon allein daran dass ich seit mehr als 2 Jahrzehnten Arbeiten aus dem Computerschachbereich jedem zur Verfügung stelle, egal was ich gemacht habe mit dem Hintergedanken ... wenn ich animieren kann und etwas zur Verfügung stelle werde ich selbst aus dem was andere mir zur Verfügung profitieren.

Nur was Du hier zu Ratinglisten als auch zum Thema Stellungstest schreibst ist für mich einfach nicht nachvollziehbar.

Wurde auch alles schon in x Beiträgen ausdiskutiert.
Ich warte nach wie vor darauf ... das die großen Befürworter von Stellungen abtesten auch endlich mal aktiv werden und etwas brauchbares anbieten.

Vielleicht wird der Tag mal kommen und dann werde ich ganz sicher einen solchen Test genießen und mich damit beschäftigen.
Vorschläge wie ein guter Test auszusehen hat ... ja das hatten wir doch erst kürzlich mit Walter und einigen anderen diskutiert.
Seit dem ist nichts passiert und ständig den alten Käse zu wiederholen ... was bringt das?

Viele Grüße
Frank

By Peter Martan Date 2016-10-02 06:23 Edited 2016-10-02 07:18

Frank Quisinsky schrieb:

Wenn ich mir vorstelle das die Nummer 50 in der Welt bei einer Sekunde Bedenkzeit Dich sicherlich in Grund und Boden spielen würde ...

Was hat das damit zu tun, dass ich mir zutraue, anhand von Datenbanken mit engine- Unterstützung Eröffnungsvarianten ein paar Züge weit zu beurteilen? Dein Missverständnis beruht vermutlich darauf, dass du glaubst, ich will die Eröffnungstheorie neu schreiben, ich will nur beim Stellungstesten prinzipiell nicht nur einen ersten Halbzug als Lösung, sei er noch so klar der beste, sondern Testvarianten, die wenigstens so lang sind, dass danach klar ist, ob's ein sicherer Winner ist oder nur eindeutig besser als der nächstbessere Alternativzug und wie weit die anderen Kandidatenzüge auseinanderliegen in ihren Leistungen. Und Eröffnungsstellungen könnten eben nicht nur anhand von engine- Lines allein beurteilt werden, sondern auch aus dem großen gespeicherten Wissen über die besten Abspiele. Dass man dazu die Evals endlich beim Wort nehmen sollte, wie's ja ohnehin ständig alle tun, nur nicht zugeben, finde ich auch, und dass man dabei nicht nur eine einzelne numerische Eval einer einzelnen engine aus dem Standrechnen, vielleicht noch bei kurzer Bedenkzeit, heranziehen kann, ist wohl auch den meisten klar, die überhaupt schon länger als ein paar Tage gelernt haben, engine- Output zu lesen.

Frank Quisinsky schrieb:

Ich warte nach wie vor darauf ... das die großen Befürworter von Stellungen abtesten auch endlich mal aktiv werden und etwas brauchbares anbieten.

Dass ich beim Abtesten von Stellungen in meinem auch nicht mehr ganz neuen Userdasein noch nichts angeboten hätte, kann man mir, wenn man die Szene und mich ein bisschen kennt, eigentlich nicht wirklich vorwerfen, Frank, dass du damit nichts anfangen kannst, ist vielleicht nicht meine Schuld allein.
Und dass du immer drauf wartest, dass dir endlich jemand Anderer das ultimative Testset baut, dass dir die ganze übrige Testarbeit abnimmt, darauf hoffst gerade du sicher nicht wirklich, Frank, im Gegenteil, gerade du wärst damit sicher nicht zufrieden.

Und ich finde halt immer wieder in erster Linie, man soll beim Stellungstesten damit aufhören, den Ranglisten Konkurrenz machen zu wollen und dieselben inkompletten Informationen, die man mit denen aber sicher am besten gewinnt, mit Stellungstests gewinnen zu wollen. Mit Teststellungen klärst du andere Fragen, die dir die Ranglisten nicht beantworten können, weil sie eine andere Fragestellung haben, das, was in der Community allgemein als allgemeine Spielstärke gesehen wird, soll von mir aus ruhig weiter so heißen dürfen, stellungsabhängige genauere Informationen gewinnt mit genau in der Fragestellung definierten Stellungen.
Die Eröffnung ist ein Stiefkind des engine- Testens an und für sich, in den Testsets der Ranglisten sind immer entweder zu wenige einzelne überhaupt drin oder die Testbücher sind zu bunt, zu lang oder zu kurz, zu breit oder zu eng editiert, sodass entweder erst wieder nur ein paar gleiche Stellungsmuster aufs Brett kommen oder das GUI zufällig auswählt, was irgendwie in einen Topf passt. Die breite Partiepalette, die man sich damit erhofft, kriegt man so auch nie, wenn man nicht jede einzelne interessante Stellung eigens ausspielen lässt. Das mit dem breiten engine- Mix und den großen Partiezahlen, die man heutzutage braucht, um die Centielo noch hervorzukitzeln zwischen komodo und SF, das geht nicht.

Und so testet man weiter entweder das Spielen erst nach der eigentlichen Eröffnungsphase (gefällt mir aber immer noch besser, zum Beispiel dein Buch) oder gleich wieder nur das Spiel von der Grundstellung aus, weil die heutigen engines auf der heutigen Hardware die ersten 10 Halbzüge von der weg innerhalb weniger Sekunden im Arbeitsspeicher haben, wenn da nicht von frühen Blödinnsstellungen aus gespielt wird, die kein Mensch spielen würde, spart es der engine nicht einmal wirklich Bedenkzeit, wenn sie 3,4,5 Züge der gängigen Systeme vorgegeben bekommt, das macht die Stellungen nur noch remisträchtiger, wenn's konventionelle sind, weil der Anzugsvorteil dann meistens auch schon teilweise ausgeglichen ist. Da wäre es klüger, finde ich, sich gleich auf das buchlose Grundstellungsmatch zu beschränken, da könnte man dann wenigsten sagen, da spielt die engine wirklich allein, dass es dabei lauter Dubletten werden, stimmt bei einem breiten engine- Mix und SMP auch längst überhaupt nicht mehr, und wer schert sich bei Ranglisten denn außer dir sonst noch überhaupt um die Partien, wenn's eh nur auf die Punkte ankommt?
Ceterum censeo, aus, aus, aus.

Testsets zu taktischen best moves gibt's wirklich schon genug gute, wenn man nur sehen will, wie sich da an time to solution- Summen zwischen engine- Versionen etwas ändert, das von Vincent Lejeune, das Hard2016, um das es im CCC gerade hauptsächlich ging, ist auch ein sehr feines übrigens, Walters Nightmare2 ebenfalls.

Und das für mich immer wieder Wesentlichste: nicht mit Sets irgendwas beweisen wollen ohne überhaupt zu wissen, was, sondern sich lieber mit der einzelnen Stellung allein ordentlich auseinandersetzen und mit dem, was die engine dazu auswirft an Infos, nicht nur einzelnen ersten Halbzügen und vielleicht noch einer einzelnen numerischen Eval, über die man dann schimpfen kann, dass sie überhaupt nicht stimmt, ohne dafür auch nur irgendeine Handhabe zu bieten.

By Hauke Lutz Date 2016-10-02 09:33

Verstehe ich es richtig, dass du mehrere Ergebnisse der Alpha-Beta-Suche mit einem abgespecktem Monte-Carlo-Prinzip beurteilen möchtest?
Das klingt interessant und ist Beweisführend.

By Peter Martan Date 2016-10-02 10:26 Edited 2016-10-02 10:30

Naja, Hauke, Monte Carlo würde ich nicht sagen dazu, einfach Forward- Backward gut durchanalysierter Varianten, die vielleicht auch schon eine halbwegs aussagekräftige Statistik in der Turnierpraxis haben, möglichst aus Fernschachpartien, können ja ruhig jeweils die Hauptvarianten der gängigsten Systeme sein, wenn man nur damit testen will, wie sich welche engines über eine definierte Variantenlänge in den Evalrelationen sowohl pro Halbzug als auch relativ zu ähnlich guten Kandidatenzügen verhalten.
Weiß man davon jetzt, welche engine für welche einzelne bestimmte Eröffnungsstellung exaktere Evalverläufe zeigt, liegt die Vermutung nahe, das könnte auch für ähnliche Stellungen desselben Systems gelten. Tatsächlich gehen Fernschachspieler ja so vor, sie haben ihre Erfahrungen mit bestimmten engines in bestimmten Eröffnungen, das irgendwie messbar und reproduzierbar zu machen, das hätte schon was. Der Algorithmus von Thomas Zipproth, soweit ich das verstanden habe, geht prinzipiell ähnlich vor, glaube ich. Während bei diesem Prinzip aber eher die Datenmenge, die das pro Zeit bewältigt, das Besondere sein dürfte, wäre mein Ansatz mal wieder, zunächst das Prinzip für einzelne Teststellungen genauer zu definieren.

Das Problem, dass das in der Eröffnung relativ geringe Evalvdifferenzen sind, wenn keine Loserzüge passieren, (weil die engine einfach stellungsinkompatibel eröffnen will, und das sollte man dann eben auch wenigstens gleich deutlich merken), ist sogar eigentlich auch ein Vorteil, die Relationen (die Quotienten der numerischen Evals) werden umso größer, je näher sie der 0.00- Eval sind, zum Unterschied von den Differenzen. (Eval vor minus Eval nach dem Backward, das genügt bei taktischen, forcierten best moves, bei Eröffnungsstellungen sollte man unbedingt dividieren, finde ich, statt der unmöglichen Division durch 0.00 halt durch auf + oder -0.01 korrigierte Werte, je nachdem, wie's ohne Vorzeichenumschlag geht.)

By Frank Quisinsky Date 2016-10-03 14:00 Edited 2016-10-03 14:16

sorry, hatte sehr viel Arbeit nach dem Fight for Place 1 auf meinen Seiten, hatte keine Zeit zu antworten.
Außerdem hatte ich noch 156 Varianten aus meinem Buch auf den Prüfstein bevor ich die neue Version von meinem Buch veröffentlichen konnte.
Habe zwar 2 Rechner hierfür aber ich muss das natürlich auch auswerten und auch das dauert.

Hallo Peter,

aber was willst Du damit erklären?
Das bei einer Variante nicht der Zug ausschlaggebend ist mit der die Variante endet ist doch selbstverständlich.

Auf meinen Webseiten liegt ein Programm von Ferdinand. Fragte Ferdinand ob er mir etwas programmiert was drei Züge später in die Eval schaut, da alle Partien von mir mit Zugkommentaren sind. Selbst schaue ich mir also an was passiert drei Züge später, wenn nicht vorher schon klar das eine Variante schlecht ist. Dann Analysiere ich die Stellungen und schmeiße raus oder lasse im Buch drin ... analysiere drei Züge später. Mithin beinhaltet mein Buch schon mehr als 10.000 solcher Analysen ... in ca. 6800 Fällen habe ich mit "F" deaktiviert. Alleine das waren einige tausend Stunden Arbeit.

Bei meiner Arbeit ist problematisch das nach jedem Test-Run die Engines das Buch nach hinten ergänzen und dann andere mir aufzeigen ... ist schlecht und ich muss wieder rausschmeißen. Aber durch diese zwar aufwendige aber im Grunde logische Verfahren fische ich raus und erweitere gleichzeitig. Und so sind es ca. noch 78.000 Varianten die ausgespielt werden und verhindern das bei einem langen Test-Run immer das selbe aufs Brett kommt und diese sind absolut spielbar ... bzw. nach meinen Hochrechnungen sind von den ca. 78.000 noch ca. 1.500 drin die noch nicht gefunden sind (weil wegen Prio zu selten ausgespielt ... Vermutung). Das ist z. B. bei der Buchidee von Brainfish nicht so gut. Brainfish sucht offenbar immer das beste raus. Klar, kann auch so vorgehen und habe dann bei 2.450 Partien 500 doppelte Varianten drin. Das bringt mir persönlich rein gar nichts ... bzw. für meinen Einsatzzweck. Aber ich habe auch nur das Brainfish was ich runterladen kann.

Ferner muss auch immer beachtet werden, dass in der Theorie nicht alles bei Zug Nummer 5 oder 8 ändert. Daher sind die Verianten auch mal länger weil wenn zu schnell abgeschnitten wird verstehen viele Engines gar nichts und es kommt nicht wirklich was dabei raus. Oftmals müssen Varianten gar 20 Züge tief gehen ... wenn nicht endet alles nach 14 Zügen im Chaos weil die Engines den Weg nicht sehen. Auch solche Dinge müssen im Buch sein, wenn nicht könnte ich ganze ECO Codes streichen.

Also die Eröffnung ist zumindest bei mir nicht das Stiefkind sondern ganz im Gegenteil das Event. Durch die Idee die ich seit Jahren umsetze optimieren die Engines die komplette Eröffnungstheorie immer und immer wieder durch, weil ich alles aus den 500 ECO Codes ausspielen lasse (gewichtet nach ... ist beliebt in GM-Theorie oder nicht). Daher hat mein Buch z. B. auch sehr viele Downloads und ich erhalte sehr schöne Mails und diskutiere mitunter auch über Varianten mit GMs per eMail.

Weiß jetzt auch nicht wie die anderen Listenbetreiber vorgehen.
Für völlig falsch halte ich wenn immer die gleichen Stellungen für einen Ratinglisten Test verwendet werden. Sind es 100 oder 200 aus x hunderttausend möglichen ... wird das den unterschiedlichen Spielstilen der Engines, gerade in der Eröffnung nicht gerecht.

Bei diesem Ausführungen stimme ich Dir also zu.
Aber das was Du schreibst ist nicht neu, denke niemand der an einen Buch arbeitet schaut sich die Stellungen direkt nach dem Ende der Variante an. Dabei würde nur Murks rauskommen!

Gruß
Frank

Kannst das ja mal testen.
Lasse Engine Favoriten von Dir mal unter Shredder GUI mit meinem Buch spielen.
Sagen wir mal 50 Partien in einem Engine Match.
Dann schaue Dir an was gespielt wurde.

Und wenn Du ganz viel Zeit hast ... lasse 2500 Partien spielen und schneide dann die Partien nach Zug Nummer 14 ab. Prüfe wie viele doppelte dabei sind und viele ECO Codes ausgespielt wurden (prüfe auch die Gewichtung nach Beliebtheit der ausgespielten ECO Codes). Wenn jemand mit einem Buch das Ergebnis toppt welches ich mittlerweile erreiche ... dann muss ich das Buch haben.

Dann würde ich ein solches Buch mal gegen mein Buch und zwei Engines antreten lassen. Nur so könnte ich sehr einfach vieles in meinem Buch weiter optimieren. Aber ich finde ein solches Buch nicht.

By Peter Martan Date 2016-10-03 20:50 Edited 2016-10-03 20:53

Frank Quisinsky schrieb:

aber was willst Du damit erklären?
Das bei einer Variante nicht der Zug ausschlaggebend ist mit der die Variante endet ist doch selbstverständlich.

Scheint es eben nicht wirklich zu sein, Frank.

Der Zug, mit dem eine Variante endet, sollte dann entscheidend sein, wenn die Variante die richtige Länge hat, das zu untersuchen, was dich an der Anfangsstellung der Variante als Teststellung interessiert.
Bei den herkömmlichen Stellungstests werden einzelne (Halb-) Züge gesucht, gefunden oder nicht, und die Zeit, die das Finden dauert oder als Limit abläuft, wird gewertet.
Das ist ok, wenn's Stellungen und einzelne Züge sind, die bereits die Endstellung der gesuchten Variante darstellen, weil sie die eindeutig und unbestreitbar besten unter den Kandidaten sind, und es sind solche game- winner, dass es nicht notwendig ist, weitere Folgezüge näher zu untersuchen.

Das ist bei Eröffnungsstellungen in aller Regel ganz anders. Es gibt meistens mehrere annähnernd gleich gut in der Literatur bewertete Alternativen und die Vor- und Nachteile für die beiden Seiten werden meistens erst viele Halbzüge später deutlicher, vernünftige Eröffnungsstellungen haben selten einen eindeutigen Vorteil einer Seite, die Evals sollten im = bzw. += bis =+ -Bereich liegen.
Evalverläufe müssen über längere und mehrere Varianten verglichen werden, oder du lässt gleich wieder die ganzen Partien ausspielen was du natürlich auch machen kannst.
Wenn du das aber nicht willst, brauchst du zum Vergleich der Evals Division statt Subtraktion, das hat den Vorteil, dass die Relationen mit 0.00- nahen Evals im Nenner des Bruchs bei kleinen Zuwächsen im Zähler viel größer sind als die Differenzen, selbst als die bei höheren Unterschieden, so lange es nicht in die Bingo- Evals über 100 geht.
Und du brauchst den Evalvergleich mit dem Forward- Backward, weil sich das, was sich an Eröffnungsvarianten, die nicht bis zur Spielentscheidung führen, an den Evals verändert, nur dann einen "Erkenntnisgewinn" der engine siehst, wenn sie die Gelegenheit hat, ihre eigenen Output- oder Ausspiel- Varianten mit Testvarianten zu vergleichen, ebenso wie du selbst. Du hast ja eben auch nicht den ganzen oder halben Punkt als Entscheidungskriterium, du brauchst Datenbank- und engine- Unterstützung zum eigenen Beurteilen der Ausgangs- und Endstellungen deiner gut durchanalysierten Test- Lines.

So weit, so gut, warum auch nicht? Dass Eröffnungsstellungen auch als Teststellungen verwendet werden können im Sinn eines Stellungstests und nicht nur für eng-eng, ist eigentlich evident, dass es unter diesem Titel nicht gemacht wird, liegt meiner Meinung nach einfach daran, dass das Thema Eröffnungen im eng-eng, wo sie den engines vorgesetzt werden müssen, und es ohne sie also gar nicht geht, das ja aber (eng-eng) für statistisch unbiased Ergebnisse möglichst stellungsunabhängig sein sollte, gern ausgeklammert wird. Nicht so, dass man sich keine Gedanken machte, von was für Stellungen aus man spielen lassen sollte, das schizophrene daran scheint mir aber immer zu sein, dass der Consens zum Schluss immer ist, eigentlich sollte es eh egal sein, was das angeht, was hinten raus kommt.

Du bist eine rühmliche und seltene Ausnahme für mich, Frank ich erwähne es noch einmal, du machst dir mehr Sorgen um dein Testbuch als die meisten anderen, oder jedenfalls gehst du anders an das heran, was du dir uter Ausgewogenheit vorstellst, bleibt für mich nur immer die Frage, wenn du dir so eine Arbeit mit deinem Buch machst und damit gar nicht ein Buch haben willst, mit dem jede engine einen Vorteil gegen jede andere hat, sondern die Stellungen dahingehend aussuchst, dass sie die Literatur ausgewogen abbilden sollen und eben keine für eine bestimmte engine vorteilslastige Varianten enthält, wozu lässt du dann überhaupt noch damit Unmengen von Partien spielen, und nimmst die Stellungen deines Buches nicht gleich als Teststellungen für einen Stellungstest?

Es wäre halt natürlich einer, der nur die Eröffnungsspielstärke von engines testete, aber wenigstens mal was Neues. Was dir halt nicht erspart bliebe, wäre, dir jetzt zusätzlich zu den Stellungen, die du für gut für ein Ranglistenbuch erachtet hast, auch noch in Hinblick auf die besten Test- Lines durchzuanalysieren, aber das wäre für einen Profi wie dich mit deinen Konnektions zur Prorgammierer- und Großmeistergilde ja auch machbar. Kurzum, mach doch mal, Frank.

Kurz noch einmal zurück zum Eröffnungsdilemma im eng-eng- Testen. Man kann sich nicht entscheiden, einfach ohne Buch zu spielen und das Eröffnen damit wirklich den engines zu überlasse, also versucht man die menschliche Turnierpraxis nachzuahmen, man macht ein Mittelding zwischen engine- Schach und Menschenschach aus den Matches und sagt dazu Overall Playing Strength, ok, auch wieder warum nicht.
Dass man diese beiden Herangehensweisen an Spielstärkenmessungen aber nicht unbedingt ständig miteinander verwechseln müsste, zeigt die Fernschach und Turnierpraxis.
Wie geht man da vor? Lässt man noch und noch ganze engine- Partieserien von einer Eröffnungsstellung aus mit verschiedenen engines spielen? Nein, man schaut sich die Varianten, die einen interessieren, die Partiebeispiele aus der Literatur und die Bewertungen verschiedener engines im Forward- Backward an.
Dann nimmt man die engines und die Varianten, die einem am besten gefallen, es sei denn, man legt sich von vornherein auf eine bestimmte engine und ein bestimmtes "Buch" fest und lässt die engine auch im Fernschach allein spielen. Dass letzteres nicht die erfolgreichere Möglichkeit in den höheren Spielklassen ist, wissen die, die dort mitspielen.

Eröffnungsstellungen zu testen, ohne Unmengen von ganzen Partien mit einem möglichst bunten engine- Mix auszuspielen, ist Schachspielern in ihrer eigentlichen eigenen Computerschachpraxis keine wirkliche Überlegung wert, ob's das gibt, ob das funktioniert, ob man das machen kann und soll, ist denen allen keine Frage wert, warum dann den Profitestern?

Wieder einmal das unnötige P.S dazu: natürlich schauen die Nah- und Fernschachspieler trotzdem und erst recht auch dauernd auf die Ranglisten, was aber folgern wir daraus?
Es gibt das eine und das andere, das (bewusst) stellungsabhängige Testen (das eigentliche Schachspielen) und den Ranglistensport, der sich mit der sogenannten (möglichst stellungsunabhängigen, wär's denn überhaupt möglich) overall playing strength befasst, so wie sie halt für die Ranglistenerstellung definiert ist und sein muss, damit sie nicht erst recht völlig undefiniert ist. Wohlgemerkt, es handelt sich bei allen Versuchen, möglichst stellungsunabhängig zu testen, um eine rein für die momentan gerade aktuelle Hard- und Softwaresituation mehr oder weniger exakt definierte Testumgebung, die nur für ein bestimmtes Kollektiv an engines und Testern eine Zeit lang gilt.
Im Augenblick wird dieses klassische Ranglistentesten allein der explodierenden engine- Landschaft in obersten Celospitzen und Celobreite der engine- Anzahl weniger und weniger leistbar, man muss immer mehr Abstriche beim Teilnehmerfeld und der Auswahl der Eröffnungstellungen machen, nicht mein Problem, ich erlaube mir aber hin und wieder darauf hinzuweisen. Weil, wenn ich immer mehr engines in mein Testkollektiv aufnehmen muss und die Gesamtceloleistung dieses Kollektivs schon allein in den Spitzenreitern immer höher wird oder zumindest immer höher gemessen, ist die gleiche kleine Anzahl an Eröffnungsteststellungen, die ich den Matches zugrunde lege, immer weniger aussagekräftig, je bessser und ähnlicher in der Leistung immer mehr engines damit zu recht zu kommen gerade durch diese selektive Art zu testen darauf hin weiter- oder zumindest fortentwickelt werden. Das ist die eigentliche und ursprüngliche Art des engine- Clonens und jedenfalls auch die, die den buchstäblichen Clones auf Programmcodeebene den Antrieb liefert.
Wie gesagt...

By Frank Quisinsky Date 2016-10-04 11:13

Hallo Peter,

aufmerksam gelesen:
Ein paar Hinweise zu Deinen Ausführungen:

1. Fernschach / GM Schach und die Ergänzungen der Engines ab Zugtiefe x nach diesen Vorgaben.
Da ich ja bis Zug 6 / 8 / 10 Partien aus dem Fernschach und GM Schach beim Start übernommen habe weiß ich anhand der "F" Statistik (aus dem Buch raus) was von wo kam. Beim GM Schach waren wirklich einige Blunder drin die dann nach direkt zum Verlust führen aber augenscheinlich auch sehr viele Varianten die in den Theoriebüchern (Informator) stehen. Die haben das gut auswendig gelernt. Beim Fernschach wird hier und dort gerne abgewichen von der Theorie aber die Varianten sind langfristig zweischneidig für Engines auf den Niveau 40 in 10 auf 4GHz Hardware. Das heißt ich muss deutlich mehr Varianten aus dem Fernschach mit "F" deaktivieren.

2. Bei der Optimierung durch gleichzeitig 50 Engines in meiner Liste wird alles ein wenig komplex. Nach der Eröffnung ist es natürlich noch nicht so das die schwächeren so deutlich unterlegen sind wie im sehr späten Mittelspiel / Übergang Endspiel. Einige Engines haben derart schwankende Evals oder klar zu hohe oder zu niedrige Evals das dies berücksichtigt werden muss beim Analysieren der evtl. schwächeren Varianten.

Die Art meiner Optimierung vom Buch dient wirklich dazu ausgeglichene Varianten zu generieren. Oftmals ist es klar das eine Hauptfortsetzung zunächst vorteilhaft ist und der zweitbeste und drittbeste Zug eher Ausgleich bringt. Wenn die vorteilhafte Variante im Buch ist und Stockfish spielt gegen Laser ist das Ding 5-10 Züge später entschieden. Das heißt ich muss mit "F" deaktivieren wenn ich sehe das die Mehrzahl der Engines nicht den Ausgleich erreichen. Diese Variante eignet sich zum Testen nicht denn ich will nicht die Eröffnungstheorie abtesten sondern eine Engine. Und dafür brauche ich Varianten die ausgeglichen sind.

Das empfinde ich als nachteilig wenn ich den Anspruch hegen würde das mein Buch als Lexikon dient. Als eine Art Eröffnungstheorie die ständig durch die Partien der Engines und Erweiterung der Züge nach hinten raus auf maximal 12 die Theorie überprüfen.

Richtig schei... ist das viele Eröffnungen sehr schwierig sind und sehr komplex für Engines. Holländisch als Beispiel oder auch viele Königsinder. Es ist fast unmöglich bei ca. 35 ECO Codes eine optimale ausgeglichene Staffel von Stellungen zu generieren weil ... es sind dabei zu viele zweitbesten und drittbesten Züge dabei.

Insofern habe ich mir abgewöhnt selbst mein Buch als Basis für Eröffnungstheorie zu sehen weil es wirklich nur ein Buch ist welches sich zum Testen von Engines eignet ... da ausgeglichen das Buch verlassen wird. Das hat nicht wirklich 100% mit der Theorie zu tun aber 100% mit der Praxis beim Engine Testen ... und jetzt ... auf genau diesen Bedingungen wofür ich das Buch nutze ... 40 in 10. Daher sind die Analysen die ich gemacht habe auch nur auf diesen Bedenkzeiten erfolgt ... mit Programmen bei denen ich weiß das sie positiv mit den jeweiligen Eröffnungen umgehen (auch darüber habe ich eine Statistik). Insofern spare ich Analysezeit und Nerven.

Es ist ein geiles Buch zum Testen und war sehr viel Arbeit aber was ultimatives wird es auch nie sein. Und insofern sind viele Dinge die Du angesprochen hast hierbei natürlich auch nicht auf einem sehr hohem Level bei mir vorhanden. Aber dennoch, ein paar GMs nutzen die Arbeit nur um zu sehen ... gibt es etwas was Engines herausgefunden haben in Abspielen von bevorzugten Varianten ... da wird offenbar gerne mal bei mir nachgesehen.

Gruß
Frank

By Tobias Lagemann Date 2016-09-30 19:35

Hallo Michael,

habe für Donald Trump gevoted. Warum? Weil Trump um alle Engines außer SF eine Mauer bauen lassen wird. Damit ist und bleibt SF auf ewig die Nummer eins in der freien, nicht ummauerten Welt. SF heißt dann zwar nicht mehr Stockfish, sondern IMT, aber ist dafür endlich die Nummer 1. Unangefochten. Sogar ohne Eröffnungsphase. Und was das Beste ist, zur Erstellung der Elo-Rangliste braucht es keine Tests mehr. IMT bekommt 2.000.000 Trump-Elo auf der bis 2.000.000 Trump-Elo reichenden Trump-Elo Skala. Mehr geht nicht ... Obwohl, doch! Natürlich wird IMT zur amerikanischen Engine gemacht. Dafür annektieren Trumps Truppen Norwegen und machen es zum 52. Bundesstaat der dann endlich wieder ein Stück größer gewordenen USA. Mit dem norwegischen Öl, Gas und den Wasserkraftwerken schwimmen die USA noch geraume Zeit in Öl, Gas und Wasser. Gelobt sei Donald Trump.

Uhps, ich glaube, das Mitlesen im Chat hat mich etwas verwirrt

ARB ARB ARB. Channeling. ARB.

Nun aber mal ganz im Ernst: Habe für SF gestimmt. Warum? Man schaue sich die Partien an.

Viele Grüße
Tobias

By Frank Quisinsky Date 2016-10-01 09:55 Edited 2016-10-01 10:03

Hallo Tobias,

so ist es.
Was Stockfish an Partien produziert hinsichtlich Taktik, Kampf und Kombinationen ist atemberaubend und ein Level höher als bei Komodo. Wenn denn nicht so viele schnelle Remispartien wären. Gerade, dachte ich mir ... komm schaue Dir mal SF - Laser an. Machte mir einen Kaffee ... freute mich auf heißen Angriff. Und was passierte ... Remis nach 20 Zügen, gegen 2.630 Elo. Das fortwährende SF Problem ist nach wie vor noch nicht gelöst. Ich bin gespannt wie denn Stockfish mit Contempt in meinem Test abschneiden wird. Solche Partien wie gegen Laser darf es einfach nicht geben.

Das wäre vergleichbar als wenn ich gegen Kasparow in besten Zeiten gespielt hätte und er nach 17 Zügen denken würde ... eine dreifache Stellungwiederholung gegen Quisinsky ist auch gut. Das ist nach wie vor Computerschach und bildet derzeit bei den Computerschachwettkämpfen ein echtes Problem. Niemals hätte ein Mensch bei 600-700 besser sich auf ein solches Remis eingelassen. Hätte ich ein solches Remis gegen Kasparow erspielt würde ich ganz sicher nicht stolz nach Hause gehen sondern denken ... der hatte keine Lust gehabt und würde das als Beleidigung betrachten ... dann hätte er auch besser nicht gegen mich antreten brauchen. Genau das geht mir gewaltig auf den Zeiger wenn ich bei Computerschachpartien zuschaue. Da denke ich jetzt wird es spannend und Bingo ein Remis nach wenigen Zügen.

Gruß
Frank

Gibt natürlich auch noch die Fraktion der anderen großen Denker, die nichts eiligeres zu tun hätten als in die Weltgeschichte zu plärren ... ich habe gegen Kasparow Remis gespielt. Die Wege des Herrn ...
Und der Laser Programmierer wird ganz sicher nicht stolz auf diese Partie sein und sich denken ... damit kann ich nichts anfangen!

By Michael Scheidl Date 2016-10-17 16:50

Nun sieht es so aus, daß wir in spätestens sechs Tagen den Endstand haben, also am kommenden Wochende bzw. 22./23.10.

Die Top-10 zur Stunde, zehn Runden vor Schluß:


 N Engine               Rtng  Pts  Gm     SB Ho Ko St Fi Gi Jo Gu Ry An Ni Pr Ch Te Ha Fz Cr Na Bo Ra Va La Fu Th Ga Ar Hk Di Je My De Fe Fr

 1 Houdini 200716       3182 49.0  54 1203.00 ·· =  == 1= 1  =1 11 1  1= == =1 11 11 1  =  11 11 11 11 11 11 11 11 1  11 1  11 11 11 11 11 1 
 2 Komodo 1692.19       3230 47.0  54 1162.75 =  ·· =  =  11 11 =1 =1 =1 =  11 =1 =1 1= 11 11 1  11 11 1= =1 =1 1  11 1= 11 11 1  11 1  11 11
 3 Stockfish 030916     3228 46.5  54 1155.25 == =  ·· 1= =  =1 1= 1  =1 11 11 =1 =1 =1 1  == 11 11 11 11 11 =  11 1  11 1  11 11 11 =1 11 1 
 4 Fire 5               3113 42.0  54 921.00 0= =  0= ·· =  1= == =  == == =  =1 0  =  11 1= 1= 11 1  11 11 1= 11 11 11 11 11 11 1  11 11 11
 5 Ginkgo 1.9h          3042 40.5  54 916.25 0  00 =  =  ·· == == =1 11 =  == 10 1= 1= == 11 =  11 1= 1= 11 11 11 11 =  11 1= 1  11 1  11 11
 6 Jonny 8              3039 40.0  54 854.00 =0 00 =0 0= == ·· =  1= =  == 1= =  1  11 =1 =  10 11 1  1= =  11 1  11 11 11 11 11 11 11 11 11
 7 Gull 3               3112 38.0  54 809.25 00 =0 0= == == =  ·· =  == 1= =  == 1  1  00 =  11 1= =  =1 11 11 11 11 11 =1 =1 11 1  11 11 11
 8 Rybka 4.1            3102 37.0  54 792.25 0  =0 0  =  =0 0= =  ·· == =  =0 == == =1 11 11 0= 11 =1 11 11 1= =  11 == 11 11 1  11 1  11 11
 9 Andscacs 0.872b      3094 36.5  54 803.00 0= =0 =0 == 00 =  == == ·· 01 =  1  1  =  10 1  =1 =1 1  11 11 =1 11 == == 11 11 11 1  11 11 10
10 Nirvana 010916      3034 36.0  54 780.00 == =  00 == =  == 0= =  10 ·· =  =1 1= 0  =  =0 == =1 =1 11 =1 11 =1 =  1= 11 =1 11 11 11 11 1 
(...)
(Protector und Chiron je 35.5/54)

Houdini zeigt sich wieder einmal als Killerengine, die gegen die untere Tabellenhälfte (Critter nur 16.!) bisher kein Remis zugelassen hat. Gleichzeitig ist zu sehen, daß die Top-10 gegen diese Gegnergruppe insgesamt nur vier dieser zahlreichen Partien verloren haben. - An technischen Problemen fällt mir vor allem auf, daß Hannibal unter diesen Bedingungen noch nicht völlig stabil ist, sowie daß Fridolin trotz 10 Sek.-Inkrement oft die Zeit überschreitet.

Ich hoffe, daß kurz danach das Finale starten kann

Auf Facebook nichts neues.

By Thomas Müller Date 2016-10-17 17:00

Zitat:

Die Top-10 zur Stunde, zehn Runden vor Schluß:

8 Runden

By Michael Scheidl Date 2016-10-17 17:45

Zitat:

8 Runden

Ah ja stimmt, danke.

Houdini	12	52%
Stockfish	5	22%
Komodo	2	9%
Fire	0	0%
eine andere Engine	0	0%
Lady Gaga	4	17%