Hallo Alexander, herzlich willkommen und danke für die Infos!
Ihrem Wunsch am Ende Ihres Postings entsprechend, erlaube ich mir, Korrektur zu lesen und zu schreiben.
Alexander Lyashuk schrieb:
Es gibt vier Parameter,
Code:
--draw-score-sidetomove
--draw-score-opponent
--draw-score-white
--draw-score-black
Alle der Parameter können -100 bis 100 sein. Das macht die Punktzahl des Remis nicht 0.0 sondern -1.0 (wie Niederlage) bis 1.0 (wie ein Sieg).
Ich denke, in meisten Fälle ist es am sinnvollsten, die Parameter symmetrisch zu haben. z.B "--draw-score-sidetomove=-50 --draw-score-opponent=50" wird wie Contempt funktionieren (der Spieler "denkt", dass ein Remis so schlecht wie 1/2 Verlust ist, und auch "denkt", dass der Gegner "denkt" dass ein Remis wie 1/2 Gewinn ist).
--draw-score-white und --draw-score-black sind meistens für Admaggeddon (bzw. --draw-score-white=-100 --draw-score-black=100). Das ist genauso wie "--draw-score-sidetomove=-100 --draw-score-opponent=100" wenn Lc0 als Weiss spielt und wie "--draw-score-sidetomove=100 --draw-score-opponent=-100" wenn Lc0 spielt als schwarz.
Es kann doch sein, dass diese Parameter nicht viel machen wird. Wenn ein Netzwerk schon trainiert ist, beeinflussen diese Parameter nur Value-head, aber nicht Policy-head.
Aber wenn ein Netwerk mit veränderen Parameter trainiert wird, wird das auch auf Policy-head Auswirkung haben.
UPD. Weil ich Deutsch lerne, wäre ich auch froh, wenn sie mich korregieren.
<<
Es gibt vier Parameter,
Code:
--draw-score-sidetomove
--draw-score-opponent
--draw-score-white
--draw-score-black
Alle diese Parameter können -100 bis 100 sein. Das macht die Punktzahl des Remis nicht 0.0 sondern -1.0 (wie eine Niederlage) bis 1.0 (wie ein Sieg).
Ich denke, in meisten Fälle ist es am sinnvollsten, die Parameter symmetrisch zu haben. z.B "--draw-score-sidetomove=-50 --draw-score-opponent=50" wird wie Contempt funktionieren (der Spieler "denkt", dass ein Remis so schlecht wie ein 1/2er Verlust ist, und "denkt" auch, dass der Gegner "denkt" dass ein Remis wie ein 1/2er Gewinn ist).
--draw-score-white und --draw-score-black sind meistens für Armaggeddon (bzw. --draw-score-white=-100 --draw-score-black=100). Das ist genauso wie "--draw-score-sidetomove=-100 --draw-score-opponent=100" wenn Lc0 mit Weiss spielt und wie "--draw-score-sidetomove=100 --draw-score-opponent=-100" wenn Lc0 mit Schwarz spielt.
Es kann dennoch sein, dass diese Parameter nicht viel machen werden. Wenn ein Netzwerk schon trainiert ist, beeinflussen diese Parameter nur Value-head, aber nicht Policy-head.
Aber wenn ein Netzwerk mit veränderten Parametern trainiert wird, wird das auch auf Policy-head Auswirkung haben.
UPD. Weil ich Deutsch lerne, wäre ich auch froh, wenn Sie mich korrigieren.
>>
War nicht viel auszubessern, ich hoffe, ich habe nichts übersehen. Ich glaube, Sie können auch gut ohne Korrektur auskommen.