Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Komodo 13.1 MCTS
- - By Kurt Utzinger Date 2019-08-25 14:58
Hat schon jemand Erfahrung, ob sich Anschaffung für Analysen im MV lohnt?
Im normalen Kampf gegen andere Schachprogramme soll ja der normale
Komodo 13.1 noch immer etwas stärker sein.
Mfg
Kurt
Parent - - By Stefan Pohl Date 2019-08-25 16:25 Edited 2019-08-25 16:46 Upvotes 1
Kurt Utzinger schrieb:

Hat schon jemand Erfahrung, ob sich Anschaffung für Analysen im MV lohnt?
Im normalen Kampf gegen andere Schachprogramme soll ja der normale
Komodo 13.1 noch immer etwas stärker sein.
Mfg
Kurt


Komodo ist ohne MCTS deutlich stärker als mit. Bisher waren es so 75-100 Elo Unterschied, je nach Rangliste und Bedenkzeit. Und da beide Modi laut Komodoteam in Komodo 13.1 ca. +20 Elo besser sein sollen als 13.01, dürfte das immer noch so sein.
Dennoch lohnt Komodo für Analysen auf jeden Fall, da die Bewertungen wesentlich weniger extrem und (viel wichtiger) viel weniger schwankend sind, als die von Stockfish. Weswegen ich alle Analysen der Endstellungen meiner diversen Eröffnungs-Vorgabesets seit dem ersten SALC-Set nur mit Komodo gemacht habe. Und damit gut gefahren bin. Ob du nun für den MCTS-Modus Geld ausgeben willst, oder dir die Gratis Version Komodo 10 (ohne MCTS-Modus) (https://komodochess.com/pub/komodo-10.zip) ausreicht, das kann ich nicht sagen. Generell ist es aber so, daß der MCTS-Modus taktisch immer löchriger ist, als der AlphaBeta-Modus. Daher würde ich für Analysen nicht auf den MCTS-Modus setzen, zumindest nicht ausschließlich. Aber das ist eine rein persönliche Meinung.

Selbst ohne RTX-Grafikkarte liefert lc0 mittlerweile auch ganz gute Analysen bzw. neue Ideen, die man dann mit einer AB-Engine noch auf taktische "wasserdichtigkeit" prüfen kann (und sollte!). Selbst die CPU-Version von lc0 ist mit dem LD2-Net schon ziemlich stark, wenn man alle CPU-Cores nutzt. Das LD2-Net ist eine kleines (128x10) Netz, das auf den T40 Lernpartien basiert, und wirklich schon sehr lc0-typisch spielt (und mindestens 5x mehr n/s berechnet, als ein "richtiges" 256x20 Netz). Und MCTS hast du bei lc0 sowieso.
Ich würde erst mal dieses Netz probieren, wenn die Hardware nicht so gut ist. Vielleicht wirst du mit diesen MCTS-Analysen auch schon glücklich...und die gibts umsonst. Dann mit Gratis Komodo 10 nachprüfen. Das wäre sicher nicht die schlechteste Lösung. Die nix kostest. Somit kostet das Probieren auch nichts.

https://lc0.org/ld2

PS: Wenn man lc0 als CPU-Version (blas) benutzt, sollte man MiniBatchsize auf 8 oder 4 und MaxPrefetch auf 0 stellen. Das erhöht die Knotenleistung und wird in den CCCC-Turnieren auch so gemacht.
Parent - - By Kurt Utzinger Date 2019-08-25 16:55
Stefan Pohl schrieb:

Komodo ist ohne MCTS deutlich stärker als mit. Bisher waren es so 75-100 Elo Unterschied, je nach Rangliste und Bedenkzeit. Und da beide Modi laut Komodoteam in Komodo 13.1 ca. +20 Elo besser sein sollen als 13.01, dürfte das immer noch so sein. Dennoch lohnt Komodo für Analysen auf jeden Fall, da die Bewertungen wesentlich weniger extrem und (viel wichtiger) viel weniger schwankend sind, als die von Stockfish. Weswegen ich alle Analysen der Endstellungen meiner diversen Eröffnungs-Vorgabesets seit dem ersten SALC-Set nur mit Komodo gemacht habe. Und damit gut gefahren bin. Ob du nun für den MCTS-Modus Geld ausgeben willst, oder dir die Gratis Version Komodo 10 (ohne MCTS-Modus) (<a class='ura' href='https://komodochess.com/pub/komodo-10.zip'>https://komodochess.com/pub/komodo-10.zip</a>) ausreicht, das kann ich nicht sagen. Generell ist es aber so, daß der MCTS-Modus taktisch immer löchriger ist, als der AlphaBeta-Modus. Daher würde ich für Analysen nicht auf den MCTS-Modus setzen, zumindest nicht ausschließlich. Aber das ist eine rein persönliche Meinung.

Selbst ohne RTX-Grafikkarte liefert lc0 mittlerweile auch ganz gute Analysen bzw. neue Ideen, die man dann mit einer AB-Engine noch auf taktische "wasserdichtigkeit" prüfen kann (und sollte!). Selbst die CPU-Version von lc0 ist mit dem LD2-Net schon ziemlich stark, wenn man alle CPU-Cores nutzt. Das LD2-Net ist eine kleines (128x10) Netz, das auf den T40 Lernpartien basiert, und wirklich schon sehr lc0-typisch spielt (und mindestens 5x mehr n/s berechnet, als ein "richtiges" 256x20 Netz). Und MCTS hast du bei lc0 sowieso. Ich würde erst mal dieses Netz probieren, wenn die Hardware nicht so gut ist. Vielleicht wirst du mit diesen MCTS-Analysen auch schon glücklich...und die gibts umsonst. Dann mit Gratis Komodo 10 nachprüfen. Das wäre sicher nicht die schlechteste Lösung. Die nix kostest. Somit kostet das Probieren auch nichts. <a class='ura' href='https://lc0.org/ld2'>https://lc0.org/ld2</a> PS: Wenn man lc0 als CPU-Version (blas) benutzt, sollte man MiniBatchsize auf 8 oder 4 und MaxPrefetch auf 0 stellen. Das erhöht die Knotenleistung und wird in den CCCC-Turnieren auch so gemacht.


Hallo Stefan
Besten Dank für diese ausführliche Antwort. Mein neuestes
Notebook ist ein Acer Nitro 5:
Intel(R)Core(TM) i7-8750H CPU @ 2.20 GHz
Speicher: 32 GB
Festplatte: 500 SSD
Grafikeinheit: NVIDIA GeForce GTX 1050
Lohnt sich denn da der Einsatz des LD2-Netzes statt eines guten 256x20
Netzes unter Verwendung von CUDA. Ist letzteres nicht besser.
Jedenfalls werde ich mir Komodo 13.1 zulegen. Deine Empfehlung tönt gut.
Mfg
Kurt
Parent - By Stefan Pohl Date 2019-08-25 17:03
Ja, mit einer GTX 1050 und lc0-Cuda, da kannst du natürlich auch ein “richtiges“ 256x20 Netz nehmen.
Parent - - By Stefan Pohl Date 2019-08-29 09:36
Da wohl noch niemand das kleine LD2 Netz auf einer RTX Karte getestet hat (LD2 ist ja eigentlich auch für die langsame CPU-Leela gedacht), mache ich das jetzt mal. Denn das Netz ist zwar klein (10x128), somit positionell sicher etwas schwächer als die “richtigen“ 20x256 Netze, aber dadurch auch schneller: Lc0 kommt damit auch auf einer RTX GPU auf ca. 5.5x mehr n/s als ein normales 40xxx Netz, was erheblich höhere taktische Qualität verspricht.
Der Testrun ist noch in einer frühen Phase, aber ich wage mal die Prognose, daß das Ergebnis einige Leute (mich auch) positiv überraschen dürfte...
Parent - - By Horst Sikorsky Date 2019-08-29 11:32
RTX 2060 mit 1cpu und 10x128 Netz 57068 gegen Stockfish 250819 Horst Einstellung und 9 Threads müssten etwa auf Augenhöhe sein?
oder ... 
Parent - - By Horst Sikorsky Date 2019-08-29 11:43
Horst Sikorsky schrieb:

RTX 2060 mit 1cpu und 10x128 Netz 57068 gegen Stockfish 250819 Horst Einstellung und 9 Threads müssten etwa auf Augenhöhe sein?
oder ... 

Vielleicht liegt es an 10x128 Netz 57068, wenn Stockfish Klar Gewinnt. oder am Ratio.
Parent - - By Stefan Pohl Date 2019-08-29 13:46 Edited 2019-08-29 13:49
Horst Sikorsky schrieb:

Horst Sikorsky schrieb:

RTX 2060 mit 1cpu und 10x128 Netz 57068 gegen Stockfish 250819 Horst Einstellung und 9 Threads müssten etwa auf Augenhöhe sein?
oder ... 

Vielleicht liegt es an 10x128 Netz 57068, wenn Stockfish Klar Gewinnt. oder am Ratio.


Die 57xxx Netze basieren auf ca. 4 Mio Lernpartien. Das ist lächerlich wenig. Das LD2-Netz basiert auf den T40 Lernpartien. Das waren insgesamt ca. 88 Millionen (!) Partien...
Parent - By Horst Sikorsky Date 2019-08-29 14:16
in 2 von 3 Partien hat LCO extrem alt ausgesehen. zumindest muss ich die RTX 2060 volle Kraft geben. !!
wenn überhaupt Zeit dafür ist.
Parent - - By Walter Knobloch Date 2019-09-02 03:12
hast Du den Faktor 5,5 für LD2 im Vergleich zu T40 gemessen?
Also so 120knps auf der 2060?
Parent - - By Stefan Pohl Date 2019-09-02 05:21 Edited 2019-09-02 05:28
Ich hab eine mobile RTX 2060, die mit geringerem Takt läuft. Diesen habe ich dann nochmals abgesenkt, damit die Leela-Ratio im Vergleich zu meiner mobilen Hexacore CPU nicht zu hoch ist (LR ist bei mir so 1.3, das ist schon recht hoch). Und ich spiele mit der LittleBlitzerGUI, die Knotenzahlen für die Engines gemittelt über alle gespielten Züge aller gespielten Partien einer Engine in einem Testrun ausgibt. Die Werte sind also extrem genau. Und mit den 20x256 T40 Nets schafft lc0 bei mir 11700 n/s und mit dem kleinen LD2 Netz 65500 n/s also knapp 5.6x schneller, um ganz genau zu sein... Auf einem älteren Notebook hab ich für die CPU-Version von lc0 auch so Faktor 5.5 gemessen. Und auf meinem Smartphone schafft lc0 CPU im Singlethread-modus mit einem normalen T40 Netz ca. 7 n/s und mit dem LD2 Net so ca. 40 n/s. Der Faktor 5.5 läßt sich also auch mit der CPU Version von lc0 reproduzieren.

So 120000 n/s auf einer nicht gebremsten non-mobile RTX 2060 könnte also hinkommen. Aber so eine GPU hab ich nicht, das muß jemand anderes mal nachmessen.
Parent - - By Walter Knobloch Date 2019-09-02 16:25
Ich bezweifel den Faktor nicht, ging aber von einer großen 2060 aus und da wird die CPU dann evtl. schon zum Flaschenhals.
Kann ja gerne jemand mit 2060/70/80 mal nps aus der Startstellung mit LD2 posten - mit Angabe der CPU.
Parent - - By Stefan Pohl Date 2019-09-02 16:35
Walter Knobloch schrieb:

Ich bezweifel den Faktor nicht, ging aber von einer großen 2060 aus und da wird die CPU dann evtl. schon zum Flaschenhals.
Kann ja gerne jemand mit 2060/70/80 mal nps aus der Startstellung mit LD2 posten - mit Angabe der CPU.


Das möchte ich doch bezweifeln. Selbst bei einem so kleinen Netz ist die Verarbeitung einer Brettstellung durch das Neuralnetz (durch die GPU) immer noch schneckenlangsam - im Vergleich zur CPU-Rechengeschwindigkeit. Und ggf. kann man ja die Zahl der CPU-Threads bei lc0 noch erhöhen (default ist ja nur 2).
Parent - By Walter Knobloch Date 2019-09-04 12:25
vielleicht finden sich ja zwei Testpersonen/rechner die das LD2 Netz auf RTX-Karten laufen lassen können.
Ich wette, daß eine RTX 2080 damit nicht schneller als eine 2070 ist, sofern der Rechner mit 2080 keine schnellere CPU als der Vergleichsrechner hat.

Am einfachsten wäre, wenn einfach jeder mit RTX das LD2 Netz mal laufen läßt und die nps nach einer Minute aus der Grundstellung postet - mit Angabe der CPU.
Parent - - By Walter Knobloch Date 2019-09-04 15:50 Edited 2019-09-04 16:04
Die CPU hat natürlich auch Arbeit. Sie muß der GPU ja die "Stellungen" zuweisen.
Parallelisierung von UCT Suchbäumen ist komplizierter als für A/B Bäume.
Habe nun eine Beispielmessung:
Threadripper mit 2080ti:
77knps für LD2

ein superschneller Core-i5 würde es vielleicht auf gute 90 knps bringen.
Klar LD2 ist nicht für RTX Karten gedacht, aber obiges Beispiel reicht schon aus, um festzustellen, daß eine 2080ti mit dem Netz nicht schneller als eine normale 2060 ist.

Dein Faktor von 5,5 gilt daher schon nicht mehr für eine normale (nicht mobile) RTX 2060.
Parent - - By Volker Göbel Date 2019-09-04 16:13
Hier RTX 2080Ti mit Intel Core i7-9700 K
105 Kn/S für LD2 nach 60 Sekunden.

Gruß
Volker
Parent - By Walter Knobloch Date 2019-09-04 16:53
danke!
das dürfte ohne Stickstoffkühlung dann so ziemlich das Maximum an Speed sein - egal wieviele GPUs oder welche Netzgröße benutzt wird.
Parent - - By Stefan Pohl Date 2019-09-04 17:57
Volker Göbel schrieb:

Hier RTX 2080Ti mit Intel Core i7-9700 K
105 Kn/S für LD2 nach 60 Sekunden.

Gruß
Volker


Wieviele Threads waren bei lc0 eingestellt? Default ist nur 2.
Wie war die Auslastung der GPU im Taskmanager (CUDA-Reiter)?
Parent - - By Walter Knobloch Date 2019-09-04 18:12
Mehr threads schaden eher als daß sie helfen. Empfehlung ist 1 GPU: 2 threads / 2 GPU: 3 threads
Schätze seine GPU Auslastung auf 60%.
Sicherer als Taskmanager ist GPU-Z.
Parent - - By Stefan Pohl Date 2019-09-04 18:20 Edited 2019-09-04 18:26
Bei mir ist die GPU Auslastung bei 98%-99%.
Bei dem kleinen LD2 Netz auf deiner schnellen GPU müßtest du wenigsten mal testweise die Threadzahl so weit erhöhen, wie die CPU eben Threads hat. Sonst ist diese ganze Messung witzlos. Und Schätzungen sind sowieso für den Eimer. Und die von dir genannten “Empfehlungen“ gelten für normal große Netze.
Nur messen macht Sinn. Und nur mit der maximal möglichen Threadzahl weißt du, wieviele Knoten lc0 mit LD2 maximal erreicht.
Denn die schnelleren GPUs sind schneller, weil sie mehr Operationen parallel ausführen können. Und dann wird ein kleines Netz nur einen kleinen Teil der GPU nutzen können. Daher müssen mehr Threads parallel laufen, damit auch in der GPU mehr LD2-Kalkulationen parallel laufen können.
Parent - By Walter Knobloch Date 2019-09-04 18:46
Die 2080ti ist nicht meine, kann also nicht selber testen.
Selbst für 4x 2080ti auf chess.com mit demux-backend wurden 2 threads als Optimum getestet.
Das Maximum mit dem 10b T35 waren 109 knps auf der high-end Maschine von chess.com.
Glaube kaum, daß plötzlich mehr geht. Die Taktfrequenz der CPU ist wirklich der Begrenzer.
Parent - - By Volker Göbel Date 2019-09-04 19:55
Bei der ersten Messung, waren 2 threads eingestellt.
Mit 8 threads gibt es nach 60 Sec. nur noch 93 Kn/s
Parent - By Stefan Pohl Date 2019-09-04 22:03
Volker Göbel schrieb:

Bei der ersten Messung, waren 2 threads eingestellt.
Mit 8 threads gibt es nach 60 Sec. nur noch 93 Kn/s


OK. Interessant. Danke sehr. Für die extrem schnellen GPUs ist das kleine LD2 Net dann wohl doch zu klein. Wieder was gelernt. Aber dafür war es ja auch nie gedacht.
Up Topic Hauptforen / CSS-Forum / Komodo 13.1 MCTS

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill