Reinhold Stibi schrieb:
Benno, mit deinen Äußerungen "saukurzen Testläufen ..." liegst du vollkommen daneben.
Nein, tut er nicht.
Zitat:
58 Testdurchläufe, die ich in der Regel absolviere, sind bestimmt nicht saukurz und dabei wird auch bestimmt
nicht herausspekuliert.
Diese sind vollkommen ausreichend und sehr aussagekräftig.
Nein, sind sie nicht, bei weitem nicht.
Zitat:
Bei der menschlichen Schachweltmeisterschaft waren es 12 Partien. Bei mir mit Computerschach ca. 5 x mehr.
Ja, aber nach der WM hat niemand behauptet (!), dass Carlssen (außer im Schnellschach, was vorher schon bekannt war) der bessere war, so wie du es ständig tust, wenn du ein Netz für "klar" besser hältst, weil es in einem (!), kurzen (!) Wettkampf etwas (!) besser abgeschnitten hat als ein anderes.
Das ist statistischer Unfug, sorry.
Zitat:
Sage mir einen Wettkampf wo es mehr als 58 Durchläufe gibt.
Du lernst es nicht oder? In den bekannten Ranglisten (CCRL, CEGT, SPCC usw. usw.) werden fast immer (!) deutlich mehr gespielt.
Bei uns (CEGT) sind es bei den kürzeren Bedenkzeiten 100-200, nur bei 40/120 Turnierbedenkzeit sind es 50. Und nicht nur gegen ein oder zwei Engines, sondern gegen möglichst viele im Rahmen einer gewissen ELO-Range. Das ist das Wesen einer Rangliste
Stefan Pohl (SPCC) spielt m.W. nochmal deutlich mehr.
Zitat:
Deine Angabe mit 1000 Partien ist vollkommener Quatsch. Dann richte doch 2000 Partien aus und behaupte,
dass eine Engine die eine Partie mehr gewonnen die bessere Engine wäre.
Wer behauptet das? Niemand.
Zitat:
Mit meinen Testbedingungen würde ich sagen, dass die Fehlerquote bei ca. 20 Elo liegt, also sehr genau ist.
Mehr als 58 Durchgänge finde ich unsinnig, da unbedeutend aussagekräftiger, das habe ich aus großer Praxis erfahren.
Jetzt wird's aber wirklich skuril. Für ein Fehlerintervall von +- 20 Punkten brauchst du den gängigen Auswertungsprogrammen (ELOStat, Ordo) zufolge ca. 1000 Partien. Was für ein Intervall bei 58 herauskommt, will ich gar nicht wissen...
Aber ok, das sind wahrscheinlich alles "Fake News", die deiner "großen Praxis" natürlich nicht standhalten.
Ehrlich, langsam kommst Du mir wie ein Geisterfahrer vor, der meint ALLE anderen fahren in die falsche Richtung.
Ich habe nichts gegen deine Tests, jeder soll das machen, was ihm Spaß macht. Nur die Schlussfolgerungen daraus sind teils mehr als grenzwertig. Vor allem wenn man daraus dann noch Vorwürfe generiert, siehe dein Eingangsposting von wegen alter Suppe und so.
Besonders ärgert es mich, dass Du so etwas schreibst, OHNE dich offensichtlich vorher korrekt zu informieren.
Ich spreche nur für CEGT, aber wir haben das Network 32930 (ist das das vom letzten Superfinale?) bereits seit Ende Januar im Test, siehe
http://cegt.forumieren.com/t1082-testing-lczero-v0-20-2-32930#2253Daraus ergab sich der zweite Platz in der Rangliste, siehe
http://www.cegt.net/40_4_Ratinglist/40_4_single/rangliste.html.
Allerdings sind die Bedingungen recht "leela-freundlich" bei einem durchschnittlichen Ratio von 1,4
Auch ein Test für unsere 5'+3"-Liste mit Ponder läuft. Da wir die Liste momentan aber etwas umstellen, z.B. auf 100 Partien pro Wettkampf statt bisher 50 (!!), findet das noch im internen Bereich statt, der nur für Tester zugänglich ist. Wird aber bald veröffentlicht.
Fazit aus beiden Tests bisher: Unter
Ranglistenbedingungen kommt Leela an Stockfish bei weitem noch nicht heran, was an der immer noch vorhandenen taktischen Schwäche (wird aber besser) und der ab und zu auftauchenden Unfähigkeit liegt, gewonnene Stellungen auch wirklich zu gewinnen
Und natürlich werden wir auch zukünftig aktuelle Networks testen, allerdings zwei bis maximal drei mal pro Jahr ein dann jeweils aktuelles, ähnlich wie bei Stockfish-Development Versionen. Wir betreiben nämlich keine Leela-Listen sondern Computerschach-Listen und dazu gehört die 2300er oder 2500er Engine genauso wie Stockfish, Leela, Komodo, Houdini usw.
Unabhängig davon welche Sau gerade durchs Dorf getrieben wird.