Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / CEGT 4/40: 1, 2, 4 und 12 Kerne
- - By Benno Hartwig Date 2016-07-12 06:37 Edited 2016-07-12 06:40
Ich guckte gerade mal bei TCEC 4/40, welchen Elo-Gewinn SF7 gelang, wenn er mehr Kerne bekam.
(und mittlerweile finde ich auch gut, dass diese Liste die Engines auch mit 12 Kernen antreten lässt. 12-Kern-Tests haben inzwischen ja auch schon diverse Engines hier absolviert)
3214(w32) -> 3254 -> 3309 -> 3370 --> 3462
eine schöne und auch plausible Reihe.

Thanx, CEGT bietet immer eine tolle Basis für diverse Betrachtungen!

Ich guckte dann hinein, gegen wen (besser: gegen wie viele Kerne) diese SFs eigentlich so spielten.
Die Tabelle unten gibt jeweils die Anzahl solcher Gegner an:

  SF-       Gegner-Kerne
  Kerne     1     2     4    12     Bem.
--------------------------------------------------------------------
    1      13     0     0     0     SF und alle Gegner w32
    1      14     7     0     0     SF und alle Gegner x64
    2       0    21     0     0
    4       0     0     8     0
   12       0     0     1    12     dazu noch Houdini mit 8 Kernen


SF-Kerne und Gegner-Kerne passten also oft gut(!?) zusammen.
Aber besteht hier, also bei doch recht wenig Durchmischung, nicht die Gefahr, dass sich für jede Kern-Anzahl ein eigenes Elo-Gefüge ergibt, dass die Beziehungen zu anderen Kern-Anzahlen aber ziemlich unsicher sind?
Dasselbe zwischen der w32- und der x64-Welt.
(Ob es bei anderen Engines anders aussieht, habe ich aber bislang nicht angesehen)

Benno
Parent - - By Frank Quisinsky Date 2016-07-12 07:30 Edited 2016-07-12 08:23
Hallo Benno,

ein Punkt den ich niemals in der Logik anderer nachvollziehen kann.
Wenn doch eine Verdoppelung der Geschwindigkeit ca. 57,5 Elo ausmacht (hatte ich mal mit Durchschnittsbildung errechnet) dann kann ich ausrechnen wie hoch der Gewinn bei ...

2 Kerne = 1.8
4 Kerne = 3.2
Etc. ist.

Abweichungen hierzu sind wieder durch Spieleigenschaften zu erklären (Stile).

Beispiel: Wenn das Endspiel zwischen Platz 1-50 = 250 Elo ausmacht aber der Übergang zum Endspiel von Platz 1-50 800 Elo ausmacht wird eine Engine die im Endspiel stark ist weniger bei Vergleichen vieler profitieren. Der Booster durch SMP wird weniger als 57.5 Elo ausmachen ... etc.

Wobei, ob dann die 57.5 Elo noch gleich sind bei 8, 16, 32 Kerne weiß ich nicht genau.

Mehrfach bei 1/2/4 getestet ... Ergebnissen waren gleich aber dennoch ... so ganz genau ... hatte einfach kein Bock mehr auf dieses Thema.
Es sind nie genau bei Verdoppelung durchschnittlich 57.5 sondern immer sehr minimal weniger (heute).
Also von 1 auf 2 = 57.5 von 2 auf 4 2% weniger ... so kam ich seinerzeit zum Ergebnis ... eine Verdoppelung der Cores wird irgendwann bei deutlich schnellerer Hardware zu immer weniger Zugewinn führen.

Heute bei 4Ghz sind es 57,5 ... früher bei 400 MHz waren es ca. 65 Elo.
Und da wir gerne stehen bleiben in unseren Aussagen ... sind es heute noch 65 Elo um aufzurunden kamen einige daher und sprachen von 70 Elo.
Es waren nie 70 Elo.

Da diese 57.5 Elo aber grob gleich sind bei 2, 4 Kerne gehe ich der Einfachheit davon aus. Ich muss also nur den SMP Faktor errechnen. Das ist einfach, ich nehme ohne TBs die 8 Steine, 16 Steine, 24 Steine und 32 Steine auf dem Brett ... also 4 Stellungenstypen hierzu und bilde daraus dann wieder den Durchschnittswert bei der Berechnung wie hoch der SMP Faktor überhaupt ist. Patzer hatte seinerzeit 1.15, Deep Fritz zu dem Zeitpunkt 1.65 ... ein Crafty lag seinerzeit schon bei 1.7 und hatte die beste SMP Unterstützung.

Hatte mir schon folgendes überlegt.
Ich errechne den SMP Faktor und bilde diesen bei jeder Engine in einer Ratingliste am Ende der Zeile der Ratingliste ab, genau wie Zügedurchschnitt was nicht ausgegeben wird aber wichtige Rückschlüsse auf Spielstile zulässt. Obwohl das hatte ich auch schon in einer Ratingliste vor 15 Jahren gemacht ... das Thema ist für mich einfach so was von ausgelutscht.

Daher ...
Maximal interessant ist 1 Core ... die Grundspielstärke.
Alles andere kann genauso genau ermittelt werden ohne das tausende unnötige Partien gespielt werden. Und genau deswegen ist ein Test für eine Ratingliste mit mehr Cores pure Zeitverschwendung. Damit werden nur die Betrachter in die Irre geführt denn ...

Der von Dir angesprochene Punkt!
Dadurch das die Elos von klar überragenden Engines nach oben schießt, erst Recht wenn keine Anzahl an ausreichenden Gegnern vorliegt verwischt genau das alle anderen Ergebnisse in einer Liste der Engines die oben und der Engines die unten liegen. Lediglich die Mitte einer Ratingliste +- 100 Elo bleibt vergleichbar zu anderen Ratinglisten.

Wenn ich also CEGT oder CCRL betrachte blende ich alles aus was oberhalb dieser Grenze oder unterhalb dieser Grenze liegt.
Sprich alles was über 2.900 oder unter 2.700 Elo liegt interessiert mich nicht mehr weil ich weiß das die Ergebnisse nicht mehr vergleichbar mit meiner Ratingliste ist. Bei mir spielen jeder gegen jeden und ich habe ca. 2x mehr Gegner und meist 2x mehr Partien als CEGT und CCRL zusammen bei einem Core innerhalb der TOP-60.

Wenn nun also bei mir ein Stockfish auf 3.150 kommt und bei CEGT bei deutlicher weniger Partien und Gegnern auf 3.250 kommt ist das genau der Punkt.
Denn es ist absolut schön zu sehen, dass alles was +-100 zu 2.800 Elo vergleichbar ist und es dann ungenau wird. Je höher die Elo bei mir über 2.900 desto höher und überproportional die Elo bei CEGT.

Gut vergleichbar mit ...
Wenn seinerzeit Karpov 2.700 als spielender Weltmeister hatte, wir aber nur 4-5 Spieler hatten die 2.700 erreicht haben warum haben wir heute 30 oder mehr Spieler die 2.700 erreichen. Die spielen gegeneinander und schaufelt sich gegenseitig nach oben. Ein Spieler heute mit 2.750 Elo hätte in Zeiten Karpov vielleicht nur 2.650 Elo erreicht, hingegen viele Spieler mit 2.500 Elo zu Zeiten von Karpov heute auch nur 2.500 haben würden.

Nach meinen Stats die ich hierzu mal gemacht habe in % die Gründe warum die gleiche Engine mit einem Core ca. 100 ELO mehr in einer anderen Elo-Liste hat wenn der Bezugspunkt ... Shredder mit 2.800 gleich ist:

- Überproportional starke Gegner in der Liste (durch mehr als 2 Cores) = 70%
- nicht ausreichend Gegner = 20% ... würde ich bei CEGT z. B. bei nur 10 Gegner die Gegner einfach mal austauschen und würde nach Spieleigenschaften den Austausch bestimmen kann ich locker mit meiner Datenbank 50 Elo Unterschiede erzeugen, egal wie viele Partien die 10 Gegner vorweisen. Klar, eine starker Taktiker spielt gegen 10 andere Taktiker oder gegen 10 ausschließlich starke Engines im Endspiel ... daher ... es sind viele unterschiedliche Gegner notwendig sonst werden Einzelergebnisse das Gesamtbild einer Liste kräftig negativ beeinflussen.
- die 10% die verbleiben haben im Detail oftmals andere Gründe.

Wenn denn eine Elo bei vierfacher Leistung überproportional ansteigt für Engines die oben liegen in einer Liste ...
Umkehrschluss ...
Zieht eine Engine die in einer Tabelle unten liegt und gegen die Engine die oben liegt antritt ... wird die Elo der stärkeren Engine wieder nach unten gezogen.

Bei CEGT ... wird künstlich nach oben gezogen (Engines die eh schon stark sind).
Bei FCT ... wird durch die vielen schwächeren Gegner künstlich nach unten gezogen.

zu den 10% ...
Meist wenn viele Versionen immer wieder neu antreten in einer Liste ...
Wenn viele Stockfish oder Komodo Versionen in einer Liste sind.

Daher werte ich beides aus ... nur jeder gegen jeden und alles was ich habe zusammen (letztere Variante ist trotz mehr Partien die schlechtere und eigentlich für diese nicht zu logischen Ergebnissen).

Was ist nun richtiger ...
Karpov darf nur gegen die TOP-10 spielen oder Karpov hat gefälligst gegen alle zu spielen die kommen könnten.

Sprich ...
Würde in meiner Liste Stockfish oder Komodo nur gegen Engines spielen die auf den letzten 10 Plätzen liegen ist das für die Liste vergleichbar als wenn Stockfish mit 12 Kerne gegen andere mit 1 Kern spielen würde. Stockfish zieht sich selbst immer mehr nach oben.

Alles nicht so einfach und der Schwachpunkt des Elo Systems wird aufgezeigt.

Möchte jetzt auch nicht die Arbeit von CEGT und CCRL verurteilen aber was die dort tun macht aus zwei Gründen keinen Sinn ...

1. Getrennte Listen für Engines mit 2 Cores, 4 Cores, 8 Cores, 12 Cores ... nicht  alles in einem Topf !!
2. Es macht eh keinen Sinn 2 Cores, 4 Cores, 8 oder mehr Cores anhand einer Ratingliste zu testen. Nur um mal festzustellen ob ein SMP Faktor auch den erwarteten Zugewinn erzielt. Würde ich bei 12 Cores auch die Situation haben das jeder gegen jeden bei 50 Engines gespielt hätte ... würde ich nur sehen das dann wieder ... bis auf sehr weniger Aussetzer ... knapp am Ergebnis vorbei ... sich alles durchschnittlich bei 57.5 Elo mehr bei der Verdoppelung der Geschwindigkeit einpendelt.

Das ist mathematisch viel besser darzustellen als Strom nun wirklich für die Berechnung von Ratings zu verschwenden.
Und das sage ich nicht weil CEGT oder CCRL ärgern will ... das sage ich seit 1999 als ich das Depp Fritz Review für Gambit-Soft schrieb als ich mit meinem Dual Core und einem Quad System (seinerzeit kaum erschwinglich gewesen ... hatte die Voyager Programmiererin ... das schon ausgetestet haben). Wir flunkerten seinerzeit bös und sagten ... passe mal auf da kommen Personen in vielen Jahren sicherlich auf die Idee und bringen mehrere Cores in Ratinglisten ... sie sagte ... das wird nicht passieren. Und genau das passierte ... unnütz komplett!!

Muss gerade an diese Diskussionen denken. Lange vor CEGT und CCRL erstellten Kai Skibbe, Christian Koch und meine Wenigkeit eine Winboard Ratingliste. Seinerzeit spielte Voyager mit. Gabi schrieb seinerzeit ... ganz stolz auf die 30.000 DM 4-Core Maschine ... wäre doch schön zu sehen wie 2 Cores oder 4 Cores in der Liste liegen würden. Nach der Diskussion ... stimmt, macht keinen Sinn ... vor 17 Jahren war das schon klar.

CEGT und CCRL sind in vielen Punkten für mich stehen geblieben.
Die Arbeit die sich die Tester machen steht nicht im Verhältnis zu dem was eigentlich aus dieser Arbeit an Rückschlüsse fließen müsste. Mit den Jahren wird alles ungenauer und oberflächlicher. Nur damit eine Engine schnell in der Liste ist ... 10 Gegner und 800 Partien ... damit wird alles andere ungenauer. Gibt natürlich x Punkte wo ich dann wieder mit Ergebnissen etwas anfangen kann. Eine neue Engine ... wo stuft sich die Engine in den Pool vorhandener Ergebnisse ein. Ich wusste schon vorher das Wasp bei 40 in 20 bei CEGT bei 2.700 - 2.710 landen wird, denn alle die dort stehen sind durchnittlich 30-40 unter dem Wert im Vergleich zu mir bei jeder gegen jeden.

Habe hier eine absolute klare und logische Meinung was CEGT und CCRL macht ist dahingehend unlogisch und macht meines Erachtens noch weniger Sinn als zu versuchen einen Elefanten mit Wattebällchen zu verjagen. Um wenn es nicht funktioniert noch nach Begründungen zu suchen die für die Wattebällchen sprechen um es noch böser zu formulieren. Wie gesagt, das ist kein Feldzug gegen CEGT oder CCRL sondern es geht um Aussagen die ich schon ca. 8 Jahre vor CEGT / CCRL getätigt habe und meines Erachtens einfach nachzuvollziehen sind ... wenn denn wir mal davon runter kommen ... das ja ein gerade gekaufter Rechner mit 16 Cores so unglaubliche Zahlen produzieren muss damit ich die Anschaffung rechtfertigen kann. CCRL setzt ja noch einen drauf und sagt alle Engines sind ca. 175 - 200 Elo stärker und die Zahlen noch mehr ins fantastische abzuzielen ... was so hirnrissig ist. Shredder 12 mit einem Core und fast 3.000 Elo ... klar ich könnte auch sagen ein Vereinsspieler mit 1.800 hat einfach 2.000 um die 2 vorne zu sehen.

Es würde maximal Sinn machen wenn folgendes passiert.

Ratingliste 1 Core ... jeder gegen jeden ... Shredder 12 z. B. mit 2.800 Elo
Ratingliste 2 Cores ... jeder gegen jeden mit 2 Cores ... Shredder 12 z. B. mit 2.858 Elo
etc..

Selbst wenn dann die Ratinglisten in sich komplett schlüssig wären ... wären diese nicht in sich komplett schlüssig wenn alles wieder in einem Top geworfen wird.
Diese Aussage ist durch Datenbanksimulation sehr schnell zu überprüfen. Kann ja Ergebniss zu tausendfach einfach simulieren und Elo-Berechnungen vornehmen ... was ich oft mache um für unschlüssiges eine Erklärung zu finden. Allerdings kann ich dann zwar 90% erklären aber nicht alles. Mit anderen Worten es gibt Themen für die ich damit auch keine wirklich gute Erklärung finde nur dieses Thema ist keines mehr für mich bzw. war es ehrlich gesagt noch nie.

Gruß
Frank

Computerschach war in Aussagen immer schon sehr realitätsfremd weil Realitäten nur ungern gesehen werden.
CSS Aussage im Gromit Interview ... die 2.500 Elo Grenze bei Crafty ... die in Wirklichkeit eine 2.200 Elo Grenze war (Elo Grenze weil die Amateure eine Zeit nicht über Crafty hinaus gekommen sind). Die Profis dann wieder ...die Amateure werden niemals stärker als wir sein. Von solchen Aussagen wimmelte es in der Vergangenheit genauso wie heute. Nur heute neigen wir noch mehr zu Übertreibungen und am liebsten wäre es uns diese in irgend einer Arbeit auch bestätigen zu lassen. Genau diese Arbeit schauen wir uns dann an um 10 Jahre später solche komplexen Themen einfach in Diskussionen zu vermeiden. Heute sagen wir eher ... Karpow hatte nie mehr als 2.725 Elo. Nein Karpow hätte nach heutigen Verhältnissen über 2.800 Elo gehabt ... auch das kann doch heute so einfach simuliert werden.
Parent - By Frank Quisinsky Date 2016-07-12 08:34 Edited 2016-07-12 09:07
Schau Dir mal folgendes an ...
Die Cross-Tab auf meinen Webseiten zur aktuellen Version 4.20.

Schaue jetzt nur auf die Ergebnisse der schwächeren gegen Stockfish und Komodo.

Glaubst Du im Ernst das das Schachspiel durch höhere Elo so perfekt ist das selbst 500 schwächere Engines die normalen Remispartien nicht mehr erreichen? Die unten stehen punkten alle gegen Stockfish und Komodo und meist sind die wenigen Punkte viel mehr als es nach Elo-Berechnung sein dürften denn nach Zufallsprinzip entstehen nunmal Remisstellungen.

...

jetzt schaue mal in die *.sto Shredder Dateien der ganzen Spießroutenläufe (ist so einfacher zu sehen, bzw. was ich jetzt schreiben werde).
Eigentlich dürfen nur dann Engines für die Berechnung gegen Stockfish und Komodo verwendet werden die mindestens gegen diese Gegner 1x bei 50 Partien gewonnen haben.

Meines Erachtens wäre die perfekte Ratingliste wenn nur Engines gegeneinander antreten die auch in der Lage sind den Gegner zu schlagen. Wir sagten seinerzeit ... Platz 1 - letzter Platz ... niemals darf der letzte noch weniger als grob 30% erzielen. Nein es sind schon 40% weil Komodo und Stockfish so überragend sind und so sehr sie überragen so sehr werden die Elos nach oben geschaufelt.

Trotz dessen ich alles versuche meine Liste so gut es geht darzustellen und alle Beeinflussungsfaktoren versuche auszuschalten ... trotz dessen ist diese Liste einfach schrecklich schei... auch wenn es die eigene ist. Denn ich erreiche das nicht ... TOP-50 zu haben und den Tatbestand zu erreichen das Platz 50 Platz 1 mindestens 1x geschlagen hat.

Nach heutigen Erkenntnissen macht es Sinn ...
Eine Ratingliste ohne Stockfish und Komodo ... vielleicht auch derzeit ohne Houdini zu errechnen.

Alles im Rahmen von 3.000 - bis nach unten 2.700 Elo.
Kann ich simulieren mit meinen Ergebnissen da jeder gegen jeden gespielt hat und wenn ich das simulieren ... nur dann ... diese Gruppe 2.700 - 3.000 sind die Ergebnisse nach Abwägung aller Stats die ich so machen in sich logisch und ich habe mein Ergebnis.

Mist, jetzt habe ich etwa verraten ... denn meine eigene Ratingliste schaut anders aus als die, die ich auf meine Seiten bringen ... weil das was gut ist ... dafür interessiert sich niemand ... weil ... die Leute wollen etwas zu Komodo und Stockfish erfahren und nehmen hier alles mit auch wenn alles was wir haben ... gelinde gesagt ... schei... ist (inklusive das was ich produziere).

...

Gibt aber einen Weg um bei 500-600 Elo Differenz die Spielstärke von Stockfish und Komodo zu den anderen genauer abzudrücken wenn alle anderen Elos der anderen in der Liste genau bleiben

Gibt ja viele Ratinglisten ... errechne hieraus Durchschnittswerte und versuche meine Liste auf diesen Durchschnittswert zu bringen.
Habe eine Lösung dafür ...

Ich lösche alle Remispartien von Stockfish und Komodo unter Zugnummer 70 (so hoch muss ich gehen) weg.
Und Bingo die meist dann eher doch zufälligen Remise sind draußen und plötzlich passt alles.

Interessant, nicht wahr ...
Siehste wie Remispartien tatsächliche Resultate beeinflussen und je mehr davon bei höheren Bedenkzeiten desto ungenauer werden eigentlich die Listen wenn es darum geht das das gesunde Verhältnisse bzw. das reale wirkliche Verhältnisse in einer Liste mit allen Teilnehmern dargestellt wird.

Was richten die vielen Handschläge nach 10-20 Zügen bei den GM Partien nur mit  der Elo-Auswertung an.
Die vielen Remise beim Fernschach ...

Elo wird zur Farce!

Und in 20 Jahren gibt es 20 Spieler die mehr Kasparow haben und was passiert mit uns ... wir glauben das natürlich das plötzlich 20 Spieler 2.900 Elo haben.
Weil wir Elo vertrauen ohne genauer zu hinterfragen. Und da im Computerschach eh nur die wenigsten wirklich hinterfragen ... wird hingenommen und verteidigt mit allen was wir haben und wenn es nur Wattebällchen sind. Auch damit kann eine Kanone geladen werden.

+++

Schaue Dir die Liste von Ingo an. In sich hat Ingo natürlich auch seine Überlegungen. Die Ratings der Engines die oben liegen sind plausibel weil ein paar private dazu die stark sind. Dann kann auch Platz 16 durchaus gegen Platz 1 gewinnen. Die technischen Details bei der Programmierung die seinerzeit dafür sorgen das Amateure mit freien Code Wissen nicht über Crafty 2.500 ... eigentlich ja 2.200 ... hinaus kommen. Ist ja heute nicht anders, die Grenze ist nur höher. Habe ich viele Engines die von 2.950 - 3.250 liegen sollte allen klar sein das 16 Programmierer das nicht mit 16 neuen Ideen bewerkstelligt haben, sondern wie seinerzeit bei Crafty die bekannten Ideen, gespickt mit eigenen Ideen verwendet haben. Sie haben mehr oder weniger gut bekanntes zusammen gefügt. Oft auch sehr interessant wenn in Spielphasen Stärken zu sehen sind ... kann eine Engine interessanter mit 2.900 als mit 3.000 sein.

Auch hier ... alles immer noch gut.
16 Programme, meist gleiche Ideen, meist gleiche Stats, dennoch oft unterschiedliche Stärken und Schwächen ... die Handschrift vom Programmierer ... was ist ihm oftmals selbst wichtig in Kombination mit eigenem Wissen übers Computerschach bzw. dem was er akzeptiert zu verwenden, zu ergänzen.
Wobei es ja wirklich Programme gibt die auf diesem Level durch Besonderheiten noch hervor treten.

Aber ...
nur 15 Gegner ... und worunter leider diese Liste dann ... bei der Abstufung nach hinten, also wenn es runter geht zu Platz 16 ... stimmen diese Werte nicht mehr wenn ich das Vergleiche mit anderen Liste wo Platz 16 bei Ingo in anderen Liste wieder die Mitte bildet.

Können wir drehen und wenden ... im wahrsten Sinne wie wir wollen.
Es gibt sie nicht ... die perfekte Liste.
Sie wird es auch niemals geben bzw. ich denke vielleicht kann etwas erstellt werden was Nahe an die Realität kommt aber was wir haben ist zu unterschiedlich effektiv zu vergleichen. Nur mit viel Wissen zu diesem Thema können wir aus Listen lesen und wissen die unnütze Zahlen zu deuten wenn wir denn Zahlen deuten wollen.

Interessant ist an den Listen ...
Die Rangabbildung ... ist Chiron in allen Listen knapp vor Protector ... ja!
Solche Sachen deuten darauf hin, das eigentlich alle Listen die wir haben gut sind, nur die Zahlen die sich dahinter verbergen sind schei...

Egal wie wir es drehen und wenden!

Gruß
Frank

Also zu sagen CEGT oder CCRL oder IPON oder sonst was finde ich gut oder finde ich nicht gut.
Ist im Grunde genauso bedenklich denn in allen Listen ist eines meist immer gleich ... der Rang !
Die Elo bei den Problemen die wir haben ist im Grunde so uninteressant wie der Sack Reis in China.

- Stärken und Schwächen
- Rang in einer Ratingliste
- Eröffnungen verbessern
- Bei Analysen etwas feststellen was wieder auf Stärken und Schwächen hinzielt.
- Fehler rausholen ... jede Engine ist voll davon ... deswegen werden Partien verloren, keine Engine ist perfekt ... gibt immer etwas zu verbessern.
etc.

ist alles wichtiger als eine dumme ELO.
Elo ist gut um zwei Versionen zu vergleichen ...

Bobcat 7.6 zu Bobcat 7.1 ... hat um ca. 60 Elo zugelegt.
Nichts anders werden die anderen feststellen wenn genau getestet wird ... mit vielen unterschiedlichen Gegnern!
Parent - - By GS Date 2016-07-12 11:19
Frank Quisinsky schrieb:

[...snip...]
- nicht ausreichend Gegner = 20% ... würde ich bei CEGT z. B. bei nur 10 Gegner die Gegner einfach mal austauschen
[...snip...]


Da der TO von unserer 40/4 Liste gesprochen hat, siehe:
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/rangliste.html

Wo in aller Welt, haben wir "nur" 10 Gegner bei einer Engine ?
Parent - By Benno Hartwig Date 2016-07-12 13:28 Edited 2016-07-12 13:40

> Wo in aller Welt, haben wir "nur" 10 Gegner bei einer Engine ?


Nicht "10", ich erwähnte sogar 8.
Und diese Info fand ich hier:
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/12.html
SF7 mit 4 Kernen hat gemäß dieser Seite gespielt gegen
3 mal Komodo, Houdini, Gull, Critter, Equinox und Gingko.
Und jede dieser Engines hatte hier auch genau 4 Kerne.
Begegnungen mit Engines mit einer anderen Kernzahl gab es demnach nicht. (Auf diesen Aspekt kam es mir ja an.)

Meine Befürchtung ist dann halt:
Dass das Elo-Gefüge bei Engines mit gleicher Kernzahl statistisch sehr gut abgesichert ist,
dass der Vergleich bei verschiedener Kernanzahl oder auch zwischen w32 und x64 nur auf recht wenigen Partien beruht und entsprechen "wackelig" sein könnte.

Benno
Parent - - By Frank Quisinsky Date 2016-07-12 14:27 Edited 2016-07-12 14:35
Hallo Gerhard,

ich habe allerdings von der "40 in 20" auf alter Hardware gesprochen.

Anfangs habe ich noch bei der 40/4 geschaut um schnell etwas zu neuen Engines zu finden.
Seit ich aber weiß das unterschiedliche Hardware unterschiedliche Bedingungen bei der 40/4 erhalten schaue ich mir die Liste nicht mehr an.
Wäre so als wenn ich zu meinen 40 in 10 Partien auf i7 meine private Ratingliste die auf 40 in 20 auf i7 mit Ponder läuft dazu kopiere.

Jede Hardware eine Liste und gleiche Conditions.
Stimmt schon das nicht ... stimmt die ganze Liste nicht.

Kopiere ich die Q9550 40 in 10 mit Ponder Ergebnisse zu der doppelt so schnellen i7 4.0 GHz Hardware ohne Ponder dazu ... sehe ich das Chaos.
Tue ich mir nicht an und bringt rein gar nichts.

Hatte ich letztens in einem Thread hier erfahren das CEGT moderne Hardware bei der 40 in 4 nimmt und nicht unter 3 geht. Dann ist die alte Hardware bei 40 in 4 oft doppelt so langsam und das zu vermischen ist nichts mehr für mich und ich bin raus weil ich weiß was passiert. Gibt es dennoch Freude der Sonne für die Liste ... alles gut.

So viel Kritik muss sein, nehme auch keine Kiste mit Äpfel mische ein paar Birnen dazu und verkaufe das als Bananen.
Reicht ja schon wenn ich z. B. 40 in 20 deklariere was ja auch nicht korrekt ist bei der Hardware die heute eingesetzt wird.
Wäre so als wenn ich sagen würde meine Liste ist 40 in 80 und schreibe ins Kleingedruckte ... 1GHz Pentium Hardware.

Auch stimmen die Links auf der CEGT Seite zu den anderen nicht mehr.
Und das schon seit vielen Jahren ...

So langsam bleibt die CEGT stehen und ist alles andere als modern.
Gerade eine Ratingliste darf niemals stehen bleiben. Ich messe die Leistung der Engines die sich stetig verbessern, sage aber das Messverfahren geht besser und anschaulicher aber egal ...

So sehr mich mit der Zeit immer alles ein wenig ankotzt ...
Am meisten noch nicht mal CEGT oder CCRL sondern das Eigene ... weil ich schon wieder x Ideen habe noch ein bissel an vorhandenen Schwachpunkten der eigene Liste zu werkeln. Die gibt es durchaus und ich wüsste wie ich die abstellen könnte ... ist das alles wieder sehr zeitaufwendig wenn ich erneut ansetze. Dennoch, ich bin allein, bei der CEGT sind viele Personen zu Gange ... da erwarte ich mehr und erhalte weniger Rückschlüsse als bei Arbeiten einzelner die teils wesentlich interessanter sind weil ich nicht erkennen kann das mal irgend wann auch die bekannten CEGT Fehler in den Listen versucht werden abzustellen.

Gruß
Frank
Parent - - By GS Date 2016-07-12 14:40
Verglichen mit anderen Listen funktioniert die CEGT 40/4 sehr gut
und vor allem sehr schnell. Mir ist keine einzige Wertung bekannt
aus den letzten Jahren, welche sich nicht innerhalb der Error-Bars
in anderen (auch unseren) Listen bestätigt hätte ! Für unsere 40/20
ist die 40/4 unersetzlich bezüglich der korrekten Auswahl der Gegner
für neue (und vor allem für unbekannte) Engines.
Parent - - By Frank Quisinsky Date 2016-07-12 15:04 Edited 2016-07-12 15:13
Hallo Gerhard,

das stimmt allerdings!
Schaue natürlich auch auf CEGT wenn ich mir überlege ...
Soll ich Laser testen oder nicht, liegt die Engine in etwa da wo die letzten in meiner Tabelle liegen. Schaue auf alles was ich finde und bilde mir meine Meinung. Da ich die Schwachpunkt der anderen Listen nun hinreichend kenne ist es dann wieder leicht.

Arbeite an einer privaten und an einer offiziellen Ratingliste.
Für die private ist dann wieder meine offizielle der Anhaltspunkt soll ich oder soll ich nicht testen weil die Bedingungen 3x höher als CCRL und 7x höher als CEGT 40 in 20 sind.

Egal ...
Werde definitiv nicht mehr lange meine offizielle Ratingliste weiter betreiben.
Nach 3 Jahren wird die Hardware alt. Ich plane umzuziehen einiges zu verändern und habe auch keine Zeit mehr pro Spießroutenlauf 15 Stunden Arbeit zu investieren. War eine schöne Zeit, bin um viele Erkenntnisse reicher geworden und konnte alles was unklar war für mich abarbeiten. Konnten die anderen profitieren gut wenn nicht auch gut.

Mich persönlich reizt das auch nicht mehr sonderlich.

Schaue auf meinem Notebook lieber mal bei einem Turnier zu und fiebere mit. Ob dann die beste Engine gewinnt ist mir egal. Der Durchschnitt von 50 Engines meiner offiziellen Liste hat Kasparow Level in besten Zeiten angenommen. So langsam wird es immer schwieriger zu folgen. Mit Ergebnissen die über meinen Horizont liegen kann ich persönlich nicht mehr anfangen bis auf die Aussage ... zu stark für mich selbst bei Analysen blicke ich kaum noch durch. Das fuchst mich gewaltig ... ich will mein Buch verbessern und scheitere am nicht vorhandenen Schachwissen. Kann ja nicht den ganzen Büchermarkt aufkaufen um zu lesen warum und weshalb weil ich es mir selbst nicht erarbeiten kann.

Müssen neue interessante andere Themen her um Computerschach wieder interessanter zu machen.
Die Ratinglisten sorgen eher für Stillstand anstatt daraus was neues entsteht.
Insofern ... unabhängig von meinen persönlichen Veränderungen ... habe seit geraumer Zeit kaum noch Spaß an der Arbeit, maximal hier und da beim Zusehen. Suche einen guten Abschluss zum Ende des Jahres mit ca. 300.000 Partien auf moderner Hardware. Habe dann erstklassiges Material für die neue Bücher (beschäftige mich dann eher mit Themen die schwierig sind ohne die Kriese zu bekommen) ... das reizt mich viel mehr. Aber ich komme nicht dazu ... habe auch noch einen Job und andere Hobbies.

Wollte auch den CEGT Testern nicht die Lust nehmen ... aber von CEGT wünsche ich mir Innovation. Diese sehe ich nicht ... seit vielen Jahren immer das Gleiche ... zwar Beständigkeit aber durch diese Beständigkeit unterschiedlicher Bedingungen etc.. wir die Liste nicht wirklich besser sondern bläht sich auf und der Schuss geht meines Erachtens nach hinten los (40 in 20).

Gruß
Frank

Der Weg ist das Ziel ... ich bin bei FCT am Ziel angekommen. Weitere Veränderungen führen zum Neuaufbau.
Mehr ändern ohne die Partien in den Müll zu schmeißen kann ich nicht.
Ziel erreicht ... wo ist der nächste Weg den es zu bestreiten gilt?
Niemals Stillstand ... Stillstand ist das schlimmste was es im Leben gibt.
Parent - - By GS Date 2016-07-12 15:15
Frank Quisinsky schrieb:

[...snip...]

Wollte auch den CEGT Testern nicht die Lust nehmen ... aber von CEGT wünsche ich mir Innovation. Diese sehe ich nicht ... seit vielen Jahren immer das Gleiche ... zwar Beständigkeit aber durch diese Beständigkeit unterschiedlicher Bedingungen etc.. wir die Liste nicht wirklich besser sondern bläht sich auf und der Schuss geht meines Erachtens nach hinten los (40 in 20).
[...snip...]


Hhm, wir führen nicht blos eine oder zwei Liste(n).
Die 5'+3" pb=on z.B. wird "round robin" gespielt was die "main list" anbelangt.
Und trotzdem kommt schlussendlich nichts anderes heraus als bei der 40/4 oder der 40/20.

Wenn wir z.B. einen weiteren Kandidaten für die 5'+3" pb=on Liste ins Auge fassen geht
der erste Blick immer in die 40/4. Und bisher, nach nun immerhin auch schon wieder
4 Jahren, hat immer alles gepasst. Die Kandidaten erspielten innerhalb der Error-Bars
das zu erwartende Resultat !

Ganz aktuell:
Jonny 8.00 x64 1CPU steht nach (lediglich) 700 Spielen für unsere 40/4 Liste bei 3038
und somit 121 Punkte besser als der Vorgänger. Ingo hat die Engine bereits in die IPON
integriert mit dem Resultat, dass Jonny 8.00 (hier verbesssert um 130 Punkte) knapp vor
Ginkgo 1.7 und Equinox 3.30 liegt. Und GENAU das zeigen unsere 700 Spiele für die CEGT
40/4 auch auf ! Unsere 5'+3" pb=on wird dies dann ebenfalls im Laufe der Zeit bestätigen,
dieser Test hat gerade erst begonnen.
Parent - - By Frank Quisinsky Date 2016-07-12 15:30 Edited 2016-07-12 15:41
Gerhard,

Jonny ist eine private Engine.
Ergebnisse von privaten Engines zu veröffentlichen treibt anderen die diese Engine nicht haben nur die Saber in den Mund. Eifersüchteleien hier und dort und davon gab es in all den Jahren Computerschach genug. Ich halte absolut gar nichts davon Programmierern hinter her zu laufen und betteln zu gehen um dann meist doch festzustellen ... ist ja ein Clone. Meine jetzt nicht Jonny aber aus der Erfahrung heraus waren private engines meist Clones. Das wird sich ja nicht geändert haben wenn alle Erfahrungswerte dagegen sprechen.

Ferner haben wir mehr als tausend engines die zur Verfügung stehen dann private Engines in Listen hervorzuheben ... welcher Sinn steckt dahinter.
Hoffe irgend einer kann mir den Sinn mal erklären.

Um zu sagen schau mal ich bin der aller Größte und habe was was Du nicht hast.
So ein Schwachsinn ...

Seit ich keine privaten mehr teste habe ich endlich mal Ruhe. Als ich noch Jonny in meiner Liste hatte (der Versuch der SWCR II) bekam ich wöchentlich so viele eMails. Kannst Du mir die senden, ich erzähle das auch niemanden. Diese Leute tun mir irgendwie leid ... und noch mehr leid tat ich mir selbst weil ich das auch noch gefördert habe.

Mein Gott ...
Wer Spaß an Jonny hat soll sich das Teil senden lassen und privat testen.
Was muss das alles veröffentlicht werden.

Wäre ich der Organisator von öffentlichen Turnieren wäre meine erste Amtshandlung ..
Keine nicht verfügbare Engine darf teilnehmen.

Diese Gruppe von Programmierern können sich auch privat für Ihre Turniere treffen.
Was ist das alles für ein Schwachsinn ...

CEGT 5+3 finde ich wirklich gut.
Da habe ich nichts auszusetzen (bis auf private Engines die da nicht rein gehören, die sollen unter sich bleiben) ... und ist für mich das was meinen Erfahrungen sehr Nahe kommt.

CEGT 40 in 20 ... wird mit den Jahren immer schwächer.

CEGT 40 in 4 ... unterschiedliche Bedingungen führen dazu das die alten Ergebnisse mit neuen vermischt werden und das beeinflusst die kompletten Berechnungen.

Klar, das ist ja der Punkt ...
Ob nun Ingo feststellt Engine x hat zugelegt um x Elo im Vergleich zur Vorgängerversion oder ich mit meinen Bedingungen gleiches feststelle oder die CEGT oder sonst wer.
Das können wir feststellen und interessant ist der Rang ... die Elos selbst sind eher uninteressant.

Wir sind ja noch nicht mal in der Lage uns auf einen moderen Standard zu einigen. CCRL backt seinen eigenen Kuchen, die CEGT und alle anderen auch.

Anstatt festzulegen wie getestet wird und jeder kann dann Partien beisteuern ... Leute vernünftig integrieren, das hat immer funktioniert auch wenn es lange dauert bis es sich durchsetzen wird.

Das was wir heute haben an Ratinglisten ist im Vergleich zu dem was in der Engine Entwicklung passiert ist eine Katastrophe.
Stehen geblieben ...

Wie sagten unsere Eltern ... was gut ist muss nicht geändert werden.
Die Ratinglisten glänzen heute nicht durch Innovation sondern durch Stillstand.
Und wo Stillstand herrscht ...

Gruß
Frank

Beende die Diskussion ...
Kotzt mich eh alles an ... habe zwei Sachen heute entdeckt die eigentlich beantwortete Fragen wieder in Frage stellen.
Das mag ich gar nicht und habe auch keine Lust den Frust an Dich rauszulassen.

Genug ...



Bei 49 Gegnern ist die Elo bislang immer ca. nach 25-30% der zu spielenden 2.450 genau.
Genauer funktioniert ein Test nicht. Sehr schnell sehr genau ... keine andere Liste publiziert das so übersichtlich wie ich es mache.
Das ist Fakt und mir sehr wichtig, alle Stats liegen im Download ... kann einfach nachvollzogen werden.

Der Nachteil daran ...
Wenn es schnell genau wird ist der Test nach 2 von 5 Tagen langweilig.
Hat alles seine Vor- und Nachteile.
Parent - - By GS Date 2016-07-12 15:39
Frank Quisinsky schrieb:

Jonny ist eine private Engine.
Ergebnisse von privaten Engines zu veröffentlichen treibt anderen die diese Engine nicht haben nur die Saber in den Mund. Eifersüchteleien hier und dort und davon gab es in all den Jahren Computerschach genug.
[...snip...]


Quatsch, ich habe das nur erwähnt weil es aktuell ist und die IPON bereits die Ergebnisse
online hat. In ein paar Tagen gilt das dann auch für Booot 6.0.1 (6.0.2) und Texel 1.06,
beide CEGT 40/4 Tests laufen bereits und die Resultate werden wieder übereinstimmen !

[...snip...]

Frank Quisinsky schrieb:

Anstatt festzulegen wie getestet wird und jeder kann dann Partien beisteuern ... Leute vernünftig integrieren, das hat immer funktioniert auch wenn es lange dauert bis es sich durchsetzen wird.
[...snip...]


GENAU das tun wir doch innerhalb der CEGT bereits seit sehr langer Zeit ...
Parent - By Frank Quisinsky Date 2016-07-12 15:46 Edited 2016-07-12 15:56
Wichtiger ist nicht so schnell wie möglich etwas zu testen ...
Sondern so genau wie möglich zu testen, so dass die ermittelten Ergebnisse sich durch mehr Partien auch nicht mehr regulieren.

Persönlich wird ein Test bei mir nach 2 Tagen für den Betrachter langweilig aber nicht für mich.
Ich beschäftige mich mit jeder getesteten Version und finde heraus wo sich eine Engine im Detail verbessert hat.

Die Elo ist mir ehrlich gesagt so was von egal.
Mich interessiert ... Stärken und Schwächen!

Hätte auch Booot schon jetzt testen können ...
Warum um aktueller zu sein als andere ...

Sind die anderen fertig mit Booot weiß ich auch nicht mehr als vorher.
Dann lieber genauer und im Detail ...

Jetzt wird Fizbo getestet ...

Die Versionen vor 1.6 ... auch die 1.5 haben an taktischer Schlagkraft ein wenig verloren. Viele Remispartien ... dafür ist das schwache Endspiel der ersten Versionen deutlich verbessert.
Wir die Version 1.7 zu den Stärken wieder finden?

Aus den anderen Listen weiß ich das Fizbo zulegt hat aber aus keiner Liste kann ich erkennen warum.
Also, was bringt mir das persönlich?

NICHTS !!

CEGT Test:
Sind aber immer noch die gleichen Leute ... wenig Veränderungen bei den Testern.
Liegt es daran das andere das Konzept nicht gut finden weil Stillstand zu erkennen ist.

Ich hatte in den Foren auch schon öfters gefragt ob mich jemand unterstützten will. Ein User schrieb mir ... Frank, das würde ich gerne funktioniert aber nicht. Bei Dir baut alles aufeinander auf ... was soll ich da testen? Einfach irgendwelche Partien spielen lassen, denn bei Dir hat ja dann jeder gegen jeden schon gespielt ... es fehlt ja nichts. Stimmt auch wieder, wie sollte ich jemand integrieren bei dem Konzept was ich fahre ... was meines Erachtens zu genauen Ergebnissen führt denn ich wüsste nicht wie es genauer gehen sollte.

Wie gesagt, würde ich heute neu starten würde ich nunmehr drei Dinge verändern aber dafür ist es zu spät und ferner wir die Liste nicht mehr länger als 6 Monate laufen. Und in dieser Zeit kann ich mit 3 Jahre alter Hardware auch nichts neues mehr aufbauen bzw. ich wüsste auch gar nicht warum etwas neues.

Die Sinnfrage ist nicht mehr zu rechtfertigen!

Meine kleine zweite private Ratingliste ist um Klassen interessanter ... weil hier habe ich nochmals neue Ideen umgesetzt aber es ist zu viel Arbeit das auch noch zu publizieren. Wenigen würden die Art wie ich hier teste verstehen weil ich teste Spielstile mit Vorgabestellungen in Form einer Ratinglisten mit einem Ausschlussverfahren ab. Kompliziert ... QuisiQuasi Denke ... völlig überreizt und hoffnungslos romantische Testweise führt zu Zauberei Ergebnissen.

Innovation bedeutet für uns ...
Mit neuen interessanteren Mitteln zu Engine Bewertungen kommen, wobei hierbei Elo nicht im Vordergrund stehen darf.
Parent - - By Benno Hartwig Date 2016-07-12 21:48

> Maximal interessant ist 1 Core ... die Grundspielstärke.
> Alles andere kann genauso genau ermittelt werden ohne das tausende unnötige Partien gespielt werden.


Thanx für deine umfangreichen Ausführungen.
Aber ich möchte in solchen Listen auch gerne ganz praktisch sehen(!), wie für die verschiedenen Engines diese Faktoren 1.8 und 3.2 und ... so aussehen, wenn viele Kerne genutzt werden.
Ich möchte nicht nur hochrechnen, wie erfolgreich eine Engine auf starker Hardware wohl ist, ich möchte gern das Ergebnis sehen.
Und ich möchte die Chance haben, Abweichungen oder gar Überraschungen zu erkennen, positive wie negative.

Aber ich verstehe natürlich, dass man bei knappen Ressourcen genau überlegen muss, wie man sie am besten einsetzt.

Benno
Parent - - By Frank Quisinsky Date 2016-07-12 22:08 Edited 2016-07-12 22:14
Hallo Benno,

und für unsichere Resultate sollen tausende von EUR an Strom ausgegeben werden, Hardware die gekauft werden muss. Es sind bei mehreren Cores viel mehr Rechner notwendig ... und das alles obwohl wir mit 4 Teststellungen den SMP Faktor errechnen können und das mit einer einfachen Rechnung erledigen könnten.

Ich hätte die Ressourcen das zu tun aber niemals würde ich unnütz Strom dafür aus dem Fenster ... und zeitlicher Aufwand und Hardware ... damit ein paar, die zu bequem sind in einer Minute eine einfache Berechnung durchzuführen ... und das alles auch noch mit dem Hintergedanken das die ermittelten Ergebnisse niemals wirklich reproduzierbar sind und und und ...

Würde ich meine Liste mit 4 Cores ausüben wären das anstatt 76 EUR im Monat für Strom 300 EUR Strom + 12.500 EUR zusätzlich an Hardware ... 12 Rechner würde ich anstatt die drei benötigen die ich zusätzlich einsetzen müsste. Dann 60 Spießroutenläufe im Jahr = 60x15 Stunden Arbeit im Jahr ... wenn die Partien geprüft werden, die Arbeiten an der Seite ... 900 Stunden ... da könnte ich wenn ich putzen gehen würde und 10 EUR die Stunde verdiene 9.000 EUR anrechnen.

Das heißt im Jahr 20.000 EUR mehr als das was eh schon ausgegeben wird damit dann wirklich bei 4 Cores auch etwas vernünftiges dabei rauskommt was dennoch so was von überflüssig ist und in keinem Verhältnis steht.

Für 20.000 EUR kann ich 15 Pferde mit Wasser, Heu und Stroh und notwendiger Sondernahrung als auch normale Nahrung wie Äpfel, Mören sonstiges versorgen.

So ungeheuerlich es ist etwas was mal schnell dahin zu schreiben. Selbst wenn sich 5 Leute einfinden ... wäre das bei ca. 2-30 EUR was die Besucher dann bereit wären zu spenden im Jahr ... ca. einer von 1.000 macht das ... eine Summe von der wir reden die sowas von nicht im Verhältnis steht ... für ein unnützes Ziel was auch noch über unserem Horizont liegt.

So unsinnig ist das!!
Damit dann "praktisch" ein paar Leute sehen können wie sich etwas bei Faktor 1.8 und 3.2 entwickelt ... das auch noch in der Luft zerreißen wenn sie einen schlechten Tag haben ... was in einer Minute auszurechnen ist.

Selbst wenn ich z. B. das Geld hätte ...
Glaube mir ich würde lieber 15 Pferde davon versorgen die niemand mehr haben möchte bevor diese zum Schlachter kommen.

Um das mal etwas krasser auszudrücken!
Denn eine dankbare Minute von einem Pferd ist ca. x Millionen mal schöner als das was ich im Internet lese von Leuten deren Anspruchsdenken ja gar nicht mehr zu stoppen / toppen ist. Wahrscheinlich von Leuten die selbst noch zu geizig sind mit Ihrem i3 mal 100 Partien mit einem weiteren unnützen Ergebnis beizusteuern.

Wir leben in einer echt geilen Community.

Gruß
Frank
Parent - By Benno Hartwig Date 2016-07-12 23:07
Klar, du darfst dich für das interessieren, wofür du dich interessieren möchtest.

> Denn eine dankbare Minute von einem Pferd ist ca. x Millionen mal schöner als das was ich im Internet lese...


Und wenn du jetzt auch noch Haus, Auto und Computer verkaufst, wirst du dir viele schöne Minuten mit Pferden gönnen können.

Benno
der sich im übrigen auch weiterhin die Freiheit nimmt, selbst zu entscheiden, wofür er sich interessiert.
Und auch, wofür er sein Geld ausgibt.
Parent - By GS Date 2016-07-13 10:09
Frank Quisinsky schrieb:

[...snip...]
und für unsichere Resultate sollen tausende von EUR an Strom ausgegeben werden, Hardware die gekauft werden muss. Es sind bei mehreren Cores viel mehr Rechner notwendig ... und das alles obwohl wir mit 4 Teststellungen den SMP Faktor errechnen können und das mit einer einfachen Rechnung erledigen könnten.
[...snip...]


Ich muss dazu sagen, dass ich ganz froh bin solche Vergleiche in unserer CEGT 40/4 zu haben.
Als Leto sich die neuen Maschinen zugelegt hatte und die ersten Matches fertig waren, gab es
doch einiges, was ich so nicht erwartet hätte, z.B.:

                ELO  / games  ELO  / games  ELO  / games
Engine (x64)    1CPU          4CPU          12CPU
--------------------------------------------------------------------
Stockfish 7.0   3254 / 2900   3370 / 1600   3462 / 1350
Komodo 10.0     3268 / 2100   3380 / 1200   3437 / 1050


oder (hier genau anders herum)


                ELO  / games  ELO  / games  ELO  / games
Engine (x64)    1CPU          4CPU          12CPU
--------------------------------------------------------------------
Stockfish 6.0   3202 / 3600   3298 / 2550   3362 / 2550
Komodo 9.0      3199 / 2100   3316 / 1400   3379 / 1150


oder (und vor allem)


                ELO  / games  ELO  / games  ELO  / games
Engine (x64)    1CPU          4CPU          12CPU
--------------------------------------------------------------------
Houdini 4.0     3128 / 6600   3217 / 5950   3247 / 2200


Allerdings muss angemerkt werden, dass z.T. noch etwas zu wenige Spiele gespielt sind.
Parent - - By GS Date 2016-07-13 09:10
Parent - - By Benno Hartwig Date 2016-07-13 12:02 Edited 2016-07-13 12:12

> Es gibt genügend Matches "Engine 1CPU vs Engine 2/4/8/12CPU" in der Liste


Thanx für die 3 Links.
Hier spielten ja Komodo, Stockfish und Houdini mit einem Kern gegen andere Engines.
Ich habe hier mal durchgezählt, wieviele Gegner tatsächlich 1, 2, 4, 8, oder 12 Kerne hatten:

  Gegner-
   Kerne   Ko   SF   Ho  zus.
--------------------------------
     1      9 + 14 + 47 = 70
     2      4 +  7 +  3 = 14
     4      0 +  0 +  0 =  0
     8      0 +  0 +  2 =  2
    12      0 +  0 +  1 =  1


Ich habe schon den Eindruck, dass sie Partienanzahl bei verschiedener Kernanzahl recht knapp ist.
Ich befürchte, wir haben hier ggf. doch Gruppen von Teilnehmern, und die Gruppenmitglieder spielen viel gegeneinander und vergleichsweise selten gegen Mitglieder einer anderen Gruppe.

OK, gerade 1-Kern vs. 2-Kerne Begegnungen gibt es noch recht häufig. Aber 2Kern-4Kern? oder 4Kern-12Kern?
Komodo 10 mit 4 Kernen spielte nur gegen 4 Kerne (Quelle)
Stockfish 7 mit 4 Kernen spielte nur gegen 4 Kerne (Quelle)

Bei Houdini 4 mit 4 Kernen sieht es aber tatsächlich anders aus:
   - 10 Gegner mit 12 Kernen,
   -   5 Gegner mit 8 Kernen,
   - 38 Gegner mit 4 Kernen
   - Gegner mit 2 oder 1 Kern gab es nicht.
OK, von den Begegnungen, die ich mir ansah, schafft es Houdini 4 auf 4 Kernen tatsächlich eine Brücke zu schlagen zur 8- und 12-Kerne-Welt. (aber nicht zur 1- oder 2-Kerne-Welt. Vielleicht gibt es dafür ja eine andere Engine, oder ein paar mehr.)

Ist das ausreichend?
Teilst du meine Befürchtung Angesichts dieser Zahlen nicht irgendwie auch?
Aber vielleicht achtet ihr ja auch schon drauf, und ich habe die größere Anzahl von Kernzahl-übergreifenden Partien nur noch nicht gesehen.

Benno

PS:
Stockfish 6 und Komodo 9.2 (nicht 9.0 oder 9.3) hatte auf 4 Kernen  tatsächlich auch ein buntere Gegnerschaft, was die Kernanzahl betrifft.
Parent - By GS Date 2016-07-13 13:36
Nun, es macht nicht sehr oft Sinn eine 12-CPU-Engine gegen
eine 1- und/oder 2CPU-Engine spielen lassen. Das geht max.
mit den "TOP-5". Trotzdem "mischen" wir so gut wie möglich durch.
Früher war z.B. Rybka 1.2f x64 1CPU eine Engine, welche gegen
möglichst viele 2-und 4-CPU Engines spielen musste/durfte:
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/447.html

Zu jener Zeit war 4CPU allerdings das Maximum in der Liste.
Up Topic Hauptforen / CSS-Forum / CEGT 4/40: 1, 2, 4 und 12 Kerne

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill