Engineprobleme

By Gerhard Sonnabend Date 2010-08-31 19:59

Hi Ingo !

Das Teil heisst "Booot", einmal "B", dreimal "O" (warum auch immer) und endlich, einmal "T".

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-08-31 20:14

[quote="Gerhard Sonnabend"]
Das Teil heisst "Booot", einmal "B", dreimal "O" (warum auch immer) und endlich, einmal "T".
[/quote]

... und trotz der vielen O kann es kein komplettes Schach spielen

Gruß
Ingo

By Gerhard Sonnabend Date 2010-08-31 20:56

Nun, die Engine ist gut genug um auch ohne
das lästige PB (fast) jeden Schachspieler in
die Schranken zu weisen.

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-08-31 21:40

Hi

[quote="Gerhard Sonnabend"]
Nun, die Engine ist gut genug um auch ohne
das lästige PB (fast) jeden Schachspieler in
die Schranken zu weisen.

[/quote]

Oh, selber spielen ... da habe ich ja schon ewig nicht mehr dran gedacht

Aber um ohne Ponder fast alle Menschen zu schlagen braucht es glaube ich keinen Gull, da können wir in meiner Liste komplett an die letzte Stelle gehen.

Gruß
Ingo

By Kurt Utzinger Date 2010-09-01 08:28

[quote="Gerhard Sonnabend"]
Nun, die Engine ist gut genug um auch ohne
das lästige PB (fast) jeden Schachspieler in
die Schranken zu weisen.

Viele Grüsse,
G.S.
[/quote]

Hallo Gerhard
Was meinst Du mit das lästige PB in diesem Posting?
Mfg
Kurt

By Gerhard Sonnabend Date 2010-09-01 09:41

[quote="Kurt Utzinger"]
Was meinst Du mit das lästige PB in diesem Posting?
[/quote]

Hi Kurt !

Lästig in Bezug auf Enginetests.
Desweiteren gibt es ohnehin keine Unterschiede in
Punkto Spielstärkenmessungen, gleichgültig ob nun
PB=on oder PB=off gewählt wird.

Viele Grüsse,
G.S.

By Kurt Utzinger Date 2010-09-01 12:48

[quote="Gerhard Sonnabend"]
[...]
Desweiteren gibt es ohnehin keine Unterschiede in
Punkto Spielstärkenmessungen, gleichgültig ob nun
PB=on oder PB=off gewählt wird.
[/quote]

Hallo Gerhard
Da gehe ich mit Dir vollkommen einig, weshalb ich all die
(hitzigen) Diskussionen über Tests mit/ohne PB als
einigermassen überflüssig betrachte.
Mfg
Kurt

By Frank Quisinsky Date 2010-09-01 14:57 Edited 2010-09-01 15:06

Hallo Kurt,

Pondern ist ein "Zeitfaktor".
Durch Ponder = ON haben die Engines "auch" mehr Zeit zur Verfügung, nämlich die Zeit, die das gegnerische Programme selbst für die Zugberechnung benötigt.

Es ist für mich unlogisch, dass sich ein Verfechter von längeren Bedenkzeiten gegen das Pondern ausspricht.
Es ist ferner unlogisch, dass ein Schachspieler keine Analysen durchführt wenn er nicht am Zug ist.

Ponder = off simuliert eine unlogische Schachpartie.
Schach ist aber kein unlogischer, sondern ein logischer Denksport.
Im Grunde müsste "Ponder = off als eine Schach-Abart laufen bzw. durchgehen ... wie z. B. Chess960 / FRC.
Ein schöner Name wäre "NoPoChess"

Vermutlich richtig ist, dass sich bei Ponder = ON / OFF Ratinglisten kaum Unterschiede ergeben. Die Ratinglisten bleiben in etwa gleich. Ponder = On Ratinglisten zeichnen sich nicht nur durch eine höhere Qualität der Partien aus, sondern dem Beobachter macht "natürlich" auch das Zusehen wesentlich mehr Spass. Ganz einfach deswegen, weil 2 Analyseprozessore gleichzeitig beobachtet werden können. Im Grunde wird das Partiematerial um durchschnittlich ca. maximal 25 ELO höher.

Das Ratinglistenbetreiber ohne Ponder spielen hat einen wesentlichen Hauptgrund. Es können doppelt so viele Partien produziert werden und da sich vermutlich grundsätzlich wenig an den Listen (Ponder on oder Ponder off Listen) ändert, wäre das auch gerechtfertigt, um die Masse an Programmen zu bewerkstelligen, die dann in einer Liste letztendlich eingehen.

Von den derzeitigen TOP 25 Engiens können folgende Programme nicht korrekt pondern:

1. GullChess
2. Bison
3. Chronos
4. Booot

Das ist schade aber dennoch kein Beinbruch. Diese Engines werden ja in Ponder = Off Listen aufgeführt. Die derzeitigen bekannten Listen wie CEGT oder CCRL, die ohne Ponder spielen lassen, sind dennoch sehr gut. Erwarten können wir von diesen Amateurprogrammieren nichts. Hatte das Thema vor kurzer Zeit mit dem Chronos Programmierer per eMail. Er wird den Ponder Mode in naher Zukunft versuchen. Natürlich wird diese Chronos Version dann auch wieder in die SWCR eingehen.

Viele Grüße
Frank

By Frank Quisinsky Date 2010-09-01 15:11

Alles Zeitfaktoren ...

Pondern (rechnen während der gegnerischen Bedenkzeit)
x64 (zwar eher waage aber die Engines kommen bei fast immer gleichen Analyseausgaben schneller auf Tiefe)
mehrere Cores (dumm dabei ist, das die Ergebnisse nicht reproduzierbar sind, Analysen von solchen Partien machen wenig Sinn).
TableBases nicht in der Suche (Rechnenzeit wird eingesparrt).

Und das alles hat weniger mit dem eigentlichen Schachprogramm zu tun, daher halte ich auch die SWCR-32 für wichtiger als die SWCR-64, die künstlich, aber nicht künstlich intelligent - künstliche Intelligenz - nur für einen Zeitvorteil sorgt.

Spassfaktoren für die Tester, genauso wie Hardware ... schneller, tiefer, besser ... aber niemand versteht solche Partien mehr ... weil die Ergebnisse der TOP-Programme ohne hin schon weit über unseren Leveln liegt.

By Ingo Bauer Date 2010-09-01 15:24 Edited 2010-09-01 15:28

Hallo Frank,

das mit dem Zeitfaktor ist richtig allerdings führt 'mehr Zeit' nicht zu anderen Ranglisten wenn dieses 'mehr' an alle Engines geht (Siehe mien Zappa Experiment).

Aber es gibt noch ein anderes Argument:

Eine Engine die sieht das sie Pondern darf, kann ihre Zeit anders einteilen. Sie kann frei nach Gusto mehr Zeit in der Eröffnung, Mittelspiel oder sonstwo verbringen als wenn sie weiß das sie Ponder OFF spielt da sie davon ausgehn kann das die für die duchschnittlichen 60/70 Züge mehr echte Zeit hat. Eine Engine die Ihre Zeit bei Ponder ON anders einteilt als bei Ponder OFF spielt komplett anders! Ich kenne 2 Enignes (und vermute eine dritte) die bei Ponder ON einen andere Zeiteinteilung benutzen.
Wieso wird behauptet, das das zur selben Spielstärke führt? Weil der Unterschied sich, nach meinen Erfahrungen, bei 10 bis maximal 15 Elo bewegt und die schwer nachzuweisen sind. (und die 15 Elo sind Oberkannte, es ist ein bischen schwer zu vergleichen zw. verschieden, ausgeführten Listen)

Ansonsten ist es wie mit dem Glauben das manche Engine mit mehr Zeit besser wird - es war schon immer so, nachprüfen brauchen wir nicht ist auch bequemer! Wiederholtes behaupten ändert aber nichts am Wahheitsgehalt.

Gruß
Ingo

PS: Eigentlich auch ein interessantes Experiment. Ich könnte mal eine Engine zwei-, dreitausend Spiele 5 + 3 OHNE Ponder machen lassen ... hmmm interessant ...

By Frank Quisinsky Date 2010-09-01 15:35 Edited 2010-09-01 15:44

Hallo Ingo,

absolut richtig, die Zeiteinteilung:
Bin die Zeiteinteilung auch rege am Verfolgen, bei 40 in 10 im Grunde OK bei den SWCR Engines.
Aber früher war es grausam. Viele Engines spielten mit einer wirklich schlechten Zeiteinteilung.

Prof. Hyatt äußerte sich schon vor ca. 10 Jahren. Er vertrat die Aufassung, dass Engines auch so programmiert werden könnten, dass mindestens mit 25% Ponder Treffer im Vorfeld gerechnet werden müsste, schon alleine wegen den logischen Schlagzügen. Wenn die Engine weiß, es gibt 25% Ponder-Treffer kann sich die Engine auch vorher mehr Zeit für die anderen Züge nehmen. Und Bingo es kommt zu einer Zeitnot wenn die Ponder-Treffer ausbleiben. In diesen Zeiten behalfen sich viele Testeer mit der Fischerzeitkontrolle, also Simulierung druch + x Sekunden. Auch das verstanden die Engines seinerzeit oftmals nicht aber vermieden wurden die Partien die auf Zeit verloren wurden.

Es ist richtig, dass die Vermutungen bestehen, dass Engines mit mehr Zeit besser werden oder schlechter spielen. Ich glaube ja daran, dass die Engines mit weniger Wissen mit mehr Zeit geringfügig besser werden, weil dann einfach mit mehr Zeit immer mehr errechnet, Wissen hierzu also gar nicht notwendig ist. Aber das ist auch nur eine These und wie Du schon richtig schreibst ... ich glaube zwar das einige Engines mit mehr Zeit im Verhältnis zu anderen besser werden aber das bewegt sich in einem sehr schwer zu messenden Rahmen. Vielleicht maximal 30 ELO, eher so 20-30 im Maximalfall. Nicht bewiesen ist, ob diese Engines dann mit noch mehr Zeit sich weiter im Verhältnis zu den anderen verbessern. Diese nicht bewiesene These ist gar nicht so logisch, weil ich nicht glaube das sich das immer weiter steigert.

Zu Deinem Experiment ...
Das ist in der SWCR und im Forum ja angekündigt.
Crafty 23.3 JA x64 wird in die SWCR-64 auch ohne Ponder eingehen.

Kannst du ja auch gerne mal testen ...
Schaue mal auf die Umfrage die ich gestern beendet habe.

Das Interesse ist nicht sonderlich groß.
Aber auch verständlich ... weil eigentlich klar das es 20-25 ELO ausmacht.
Habe ich schon x-mal in den letzten Jahren getestet.

In der ATL-4 gab es hierzu glaube ich über 40 Vergleichswerte ...

Gruß
Frank

By Frank Quisinsky Date 2010-09-01 15:55

Wirklich grausam wie früher getestet wurde.

Fischer-Zeitkontrolle, kein Ponder und zur Belohung gab es dann auch noch die 5-Steiner.
Damit bei der schwierigen Partiephase auch noch die Prozessorbremse zum Einsatz kommt ... 70% weniger Power durch 5-Steiner in den für Engines schwierigsten Partiesituationen.

HILFE ...
Weil die Leute geil auf die TBs waren. Der Saber der herunterlief bedeckte den ganzen Teppichboden vor lauter Geilheit auf ein Matt in 40 durch einen TB-Treffer ... ganz unabhängig davon das die Engines auch ohne Tbs wahrscheinlich die besten Züge ausspielten. Das eine Partie durch TBs in der Suche entscheiden wurde ist unwahrscheinlicher wie ein Niederlage von KS-KT (sofern die Engine mit KS keine TBs nutzt, passiert immer wieder wenn bis zum Matt gespielt wird).

By Ingo Bauer Date 2010-09-01 15:56

Hallo Frank,

[quote="Frank Quisinsky"]

Zu Deinem Experiment ...
Das ist in der SWCR und im Forum ja angekündigt.
Crafty 23.3 JA x64 wird in die SWCR-64 auch ohne Ponder eingehen.

Kannst du ja auch gerne mal testen ...
Schaue mal auf die Umfrage die ich gestern beendet habe.

Das Interesse ist nicht sonderlich groß.
Aber auch verständlich ... weil eigentlich klar das es 20-25 ELO ausmacht.
Habe ich schon x-mal in den letzten Jahren getestet.

In der ATL-4 gab es hierzu glaube ich über 40 Vergleichswerte ...

[/quote]

Das ist aber ein komplett anderes Experiment.

Du willst eine Engine OHNE Ponder gegen viele Engines MIT Ponder spielen lassen.
Ich will sehen ob eine Engine OHNE Ponder gegen andere Engines OHNE schlechter/besser abschneidet als die selbe Engine MIT Ponder gegen die selben anderen Engines MIT Ponder, denn das ist der Hauptunterschied der Ponder ON und OFF Listen!
Das ist hier die Crux und nicht 'eine Engine ohne Ponder gegen alle mit Ponder' - das interessiert mich auch nicht, die POFF-Engine wird schlechter sein als mit PON, völlig logisch (Sollte sie besser sein, hat das Pondern einen Bug, auch eine Erkenntniss!). Wieviel, ob 20,30 oder 40 Elo schlechter ist mir ziemlich "wurscht".

Gruß
Ingo

By Frank Quisinsky Date 2010-09-01 16:00

Hi,

in der ATL-4 lief ein Xeon 2.8 mit Ponder und ein Athlon x64 3800 ohne Ponder.
Die Zeiteinteilung wurde so festgelegt das in etwa die Werte verglichen werden konnten.

Es spielen ca. 40 Engines in der Liga 1 und 2 ... je mit auf Rechner 1 und ohne auf Rechner 2.
Dazu gab es viele Statistiken.

Das ist es doch was Du meinst.

Festgestellt wurden Abweichungen von maximal +-10 ... nur drei Engines tanzten aus der Reihe.
King Of Kings, Zarkov und die dritte habe ich vergessen.

King of Kings spielt mit Ponder wesentlich besser, wobei die Zeiteinteilung ohne Ponder aber OK war.
Zarkov spielte glaube ich ohne Ponder genauso gut wie mit Ponder, auch bei korrekter Zeiteinteilung.

Früher konnte ich natürlich nicht so viele Partien spielen lassen und die Engines vor 4 Jahren sind heute auch nicht mehr aktuell.
Ein neues Experiment macht also Sinn aber ist viel Arbeit und vermutlich wird das Gleiche dabei heraus kommen.

Gruß
Frank

By Gerhard Sonnabend Date 2010-09-01 16:16

[quote="Frank Quisinsky"]
[...snip...]
Prof. Hyatt äußerte sich schon vor ca. 10 Jahren. Er vertrat die Aufassung, dass Engines auch so
programmiert werden könnten, dass mindestens mit 25% Ponder Treffer im Vorfeld gerechnet werden
müsste, schon alleine wegen den logischen Schlagzügen. Wenn die Engine weiß, es gibt 25% Ponder-
Treffer kann sich die Engine auch vorher mehr Zeit für die anderen Züge nehmen. Und Bingo es kommt
zu einer Zeitnot wenn die Ponder-Treffer ausbleiben. In diesen Zeiten behalfen sich viele Testeer
mit der Fischerzeitkontrolle, also Simulierung druch + x Sekunden. Auch das verstanden die Engines
seinerzeit oftmals nicht aber vermieden wurden die Partien die auf Zeit verloren wurden.
[...snip...]
[/quote]

Ja, der Bob.
Ich kann mich noch gut erinnern wie er einmal schrieb, dass Crafty PB=on unbedingt braucht.
So konnte resp. versuchte er die eher mässige Resultate in den damaligen Listen zu erklären.
Kurz darauf haben sich 2 Leute mit Crafty näher befasst und die Engine einige Matches mit
PB=on spielen lassen. Die Resultate war nahezu identisch und ebenso mässig wie mit PB=off.

Engines kommen aufgrund ausbleibender Pondertreffer in Zeitkontrollen X Züge / Y Zeit in Zeitnot ?
Wie sollte man das auch nachweisen können ?

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2010-09-01 16:31 Edited 2010-09-01 16:35

Hi Gerhard,

richtig, und als Bob vor diese Tatsache gestellt wurde antwortete er nicht mehr

Daran kann ich mich auch erinnern!
Aber was Bob schrieb wurde auch von mehreren anderen Programmierern bestätigt. So z. B. Sylvain Renard (Capture) oder der Programmierer von King of Kings (sein Name ist mir derzeit nicht geläufig). Sofern ich das richtig im Kopf habe ging auch Roland Pfister (Patzer) so vor, glaube auch der SOS Programmierer Rudolf Huber. Schon lange her ... keine Ahnung ... mit den Jahren kannst Du nicht mehr die tausenden von Informationen behalten.

Gruß
Frank

By Günther Höhne Date 2010-09-01 16:48

[quote="Frank Quisinsky"]
oder der Programmierer von King of Kings (sein Name ist mir derzeit nicht geläufig).
[/quote]

Hallo Frank,

Koundinya Veluri ist auch schwierig zu merken.

Gruß
Günther

By Frank Quisinsky Date 2010-09-01 17:03

Hi Günther,

stimmt, ein sehr netter Zeitgenosse.
Schade das er offenbar nichts mehr macht.

Es gab so einige riesige Amateurentwicklungen mit vielen guten Ideen ... auch ETChess (fantastisches Programm), Pharaon, AnMon, SOS ... da kommen einen die Tränen ... Yace ... darf gar nicht weiter drüber nachdenken.
Phalanx ... Phalanx war in Version 22 nicht weit von Fritz weg ... hatte alles versucht darauf hinzuweisen aber im Gambit-Soft Forum glaubten das einige nicht und niemand wollte eine WB testen ... die Zeiten änderten sich dann.

Nun gut, heute stehen andere Engines im Blickpunkt bzw. unter den TOP-20.
Und in 5 Jahren sind es dann wieder andere und in 10 Jahren testen wir alle wieder Pharaon, Tao, Comet, Yace, Aristarch etc. ... weil es einfach Spass gemacht hat.

Mensch, ich muss doch weg ...

Gruß
Frank

By Gerhard Sonnabend Date 2010-09-01 15:57 Edited 2010-09-01 16:01

[quote="Frank Quisinsky"]
[...snip...]
mehrere Cores (dumm dabei ist, das die Ergebnisse nicht reproduzierbar
sind, Analysen von solchen Partien machen wenig Sinn).
[...snip...]
[/quote]

Hi Frank !

Auch wenn Du nicht müde wirst dies immer wieder zu schreiben,
richtig wird diese Behauptung dadurch trotzdem nicht !

1.)
Bei SMP zählt in erster Linie die Art und Weise (die Güte) der Einbindung.
Ist diese gut, so profitiert die Engine deutlicher davon als bei "Standard-
Verfahren". Die "gewonnene" Zeit resp. die höheren angezeigten Rechentiefen
und Knotenzahlen sind nur ein Merkmal davon.

2.)
Die "Nichtreproduzierbarkeit" trifft auf Partien nicht zu resp. tritt nicht
deutlicher zum Vorschein als wenn man "1CPU vs 1CPU" spielen lässt.
Beispiele dazu:
ich lasse auf meinem Baby-Quad immer 100er-Serien "4CPU vs 4CPU" spielen und
danach wird das System komplett neu gestartet. Bisher habe ich sechs (6)
100er-Serien wiederholt, die grösste Abweichung ist bisher +- 1.5 Punkte.
Solch eine Abweichung hätte ich mit den Singlevarianten der Engines ebenfalls.

Ich greife nun wahllos eine Engine (XY 4CPU) heraus und vergleiche, welchen
ersten Zug diese in der Vorgabestellung Nummer 14 mit Weiss am Zug gegen alle
bisherigen 21 Gegner gezogen hat. Übrigens ist das selbstverständlich kein
erzwungener Zug, sondern lediglich einer von insgesamt 5 Favoriten, welche die
anderen Engines ausspielen. "XY 4CPU" hat jedes mal (!!) 11. Sfe5 gespielt. Jede
weitere Stichprobe in dieser Art ergibt das selbe Bild, die Züge sind absolut
reproduzierbar, mit Ausnahme gleich bewerteter Züge, hier schlägt ab und an der
Zufallsgenerator zu. Dies würde bei Singleengines ebenfalls passieren.

Das SMP-Engines bei Stellungsanalysen unterschiedliche Züge und HVs
produzieren liegt daran, dass man sie nicht unter identischen Bedingungen dies
tun lässt, Stichworte: Hashtables, Lernfiles, allgemeine Speicherbelegung,
Hintergrundprogramme, Ontime des PCs etc. etc.

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2010-09-01 16:07 Edited 2010-09-01 16:11

Hallo Gerhard,

OK, habe hier nicht so viele Erfahrung.
Insofern nehme ich das jetzt alles als gegeben hin.
Aber lese auch mal was der Stockfish Programmierer im Interview hierzu schreibt (glaube es war das Stockfish Interview).

Wenn ich Partien spielen lasse.
Engine A 4 Cores vs. Engine B 4 Cores (ohne Ponder) kann ich bei Analysen die Züge nur sehr selten reproduzieren.

Also ich finde es sollte eher mit einem Core und mehr Zeit als mit 2 oder 4 Cores und weniger Zeit getestet werden.
Das macht meines Erachtens deutlich mehr Sinn.

Weil, eine Liste soll vergleichen ... sonst wäre es keine Liste.
Es kann nur das verglichen werden was auch gleich ist bzw. auch reprodzierbar ist.

Für mich ist die sauberste Ratingliste.
w32, ponder = on, keine TableBases (würde ich die SWCR heute neu starten, würde ich die weglassen) und dann lieber mehr Zeit ... weil dann wird das eigentliche Programm getestet und nicht irgend welche Zeitfaktoren die nie gleich sind ... ganz ehrlich ... ganz egal das wir alle auch das optimale sehen wollen (gute Hardware, höher getunt, viele Cores, x64 etc, etc.).

Hat aber wenig mit guter Vergleichbarkeit zu tun.

Aber OK, es können mehr Partien bei Ponder = off prodziert werden und wahrscheinlich haben nur ganz wenige Engines dann ein Problem mit der Zeiteinteilung ... zumal die Listen wirklich in etwas gleich bleiben. Sehe ich ja auch wenn die SWCR mit der CEGT Vergleiche was gut möglich ist ... da die Bedenkzeit in etwas gleich ist (zur CEGT 40 in 20).

Gruß
Frank

By Gerhard Sonnabend Date 2010-09-01 15:17

[quote="Frank Quisinsky"]
Pondern ist ein "Zeitfaktor".
Durch Ponder = ON haben die Engines "auch" mehr Zeit zur Verfügung, nämlich die Zeit,
die das gegnerische Programme selbst für die Zugberechnung benötigt.
[/quote]

Dies trifft aber nur dann zu, wenn es "Ponderhits" gibt.

[quote="Frank Quisinsky"]
Es ist für mich unlogisch, dass sich ein Verfechter von längeren Bedenkzeiten gegen das
Pondern ausspricht.
[/quote]

Hat er nicht. Er hat lediglich zugestimmt, dass es keine relevanten
Unterschiede in Punkto Spielstärkenmessung zwischen PB=on und PB=off gibt.

[quote="Frank Quisinsky"]
Es ist ferner unlogisch, dass ein Schachspieler keine Analysen durchführt wenn er nicht
am Zug ist.
[/quote]

Einer Engine ist das total wurscht.

[quote="Frank Quisinsky"]
Ponder = off simuliert eine unlogische Schachpartie.
Schach ist aber kein unlogischer, sondern ein logischer Denksport.
[/quote]

s.o.

[quote="Frank Quisinsky"]
Im Grunde müsste "Ponder = off als eine Schach-Abart laufen bzw. durchgehen ... wie z. B. Chess960 / FRC.
Ein schöner Name wäre "NoPoChess"
[/quote]

s.o.

[quote="Frank Quisinsky"]
Vermutlich richtig ist, dass sich bei Ponder = ON / OFF Ratinglisten kaum Unterschiede
ergeben. Die Ratinglisten bleiben in etwa gleich.
[...snip...]
[/quote]

Du sagst es !
Nur ist Dein "vermutlich" schon lange nicht mehr nötig,
es gibt keine (messbaren) Unterschiede so man denn auch
genügend Partien zu einer Auswertung heranzieht.

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-01 15:38

Hallo

[quote="Gerhard Sonnabend"]

Nur ist Dein "vermutlich" schon lange nicht mehr nötig,
es gibt keine (messbaren) Unterschiede so man denn auch
genügend Partien zu einer Auswertung heranzieht.

[/quote]

Gerhard - wo hat den mal wirklich jemand unter gleichen Bedinungen gemessen?
Ich kann ich an ein Experiment von vor vielen Jahren erinnern in dem mal viele WB Enignes gegeneinander mit PON und POFF losgelassen wurden. Meines Wissens wurde kein Unterschied festgestellt, aber wenn ich mich recht erinnere waren das für heutige Verhältnisse schlicht SEHR SEHR wenig Partien da es über viele Engines verteilt wurde.
Deinen obigen Satz kann ich nur als "War schon immer so ..." interpretieren. Irgendwelche belastbaren Zaheln gibt es nicht! (Wenn doch immer her damit.)

Meine Topkanidaten sind immer noch Naum 4.0/4.1 und Shredder 12. Alle Listen hatten Naum vorne, nur die Ponder ON Listen nicht. Mit Naum 4.2 ist das wieder schwieriger geworden, weil der besser ist ... vielleicht mache ich mal das Experiment mit 3000 Spielen Shredder 12 mit Ponder OFF. ich müßte ja nur so 2-3% Unterschied ermitteln und hätte mien 12-18 Elo ... mal sehen. Fakt ist: Mit Poder kann eine Engine anders die Zeit einteilen. Das wird sicherlich keine 50 Elo bringen, aber 10 bis 15 sind drin, wenn die Engine es geschickt macht. (Wir wissen alle wie wichtig eine ordentliche Zeiteinteilung ist!)

Gruß
Ingo

By Gerhard Sonnabend Date 2010-09-01 15:53

[quote="Ingo Bauer"]
Gerhard - wo hat den mal wirklich jemand unter gleichen Bedinungen gemessen?
[...snip...]
[/quote]

Hi Ingo !

Du selbst lieferst die Zahlen mit Deiner IPON.
Vergleiche ich diese mit unseren Listen so zeigt sich,
dass PB=on und PB=off zu identischen Reihungen führen.
Die wenigen Ausnahmen im "95er-Intervall" (5 von 100
Engines "dürfen", "können", "müssen" (?) ausserhalb liegen)
stören dabei keinesfalls.

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-01 16:08

Moin,

Meine Liste, respektive eure, ist dafür gar kein Beweis. Zu unterschiedlich sind die Bedinungen, zu klein das was wir nachweisen wollen. Wie ich schon schrieb, es geht nicht um 50Elo ... und ja, habe ich mal versucht, und ich habe auch knappe Unterschiede gefunden allerdings glaube ich das diese Unterschiede auf anderen Dingen beruhen (BSP S12 in 32 und 64bit - warum hat die Engine bei euch unterschiedliche Ratings. Lt. Programmierer und einen Test über VIELE tausend Spiele bei 100% identischen Bedinungen besteht da kein Unterschied? (Und da ihr selbst in eurer Liste nicht alle gleich testet wissen wir warum Untershciede bestehen können). Wenn also schon identische Enignes bei euch andere Ratings erhalten, wie will ich oder du den kleinen Unterschied PON/POFF zwischen unseren Listen rauslesen können?

Sehr bequem ist das zurückziehen auf die 95% ... Korrekt wäre, das jede, selbst eine einzige, Engine ausserhalb dieser 95% Intervalls Zweifel sääen sollte ...

Gruß
Ingo

By Frank Quisinsky Date 2010-09-01 16:21 Edited 2010-09-01 16:24

Ingo,

das mit Shredder ist fragwürdig.
Lasse Shredder w32 und x64 mal Stellungen analysieren. Berücksichtige den Zeitfaktor und Du siehst das es zu mehr unterschiedlichen Varianten kommt als bei anderen w32+x64 Engines. Shredder 12 w32 und x64 ist nicht gleich. Irgend eine Einstellung ist anders ... das ist leicht zu sehen.

Kann dennoch sein, dass die Ergebnisse wieder gleich sind. Zeigt ja Deine Liste jetzt sehr schön auf.
Abweichungen von +-10 sind bei 40 in 10 Bedenkzeiten OK. Logischer Weise können hier nicht so viele Partien produziert werden als bei der Hälfte der Bedenkzeit.

Aber ob in einer Ratingliste eine Engine jetzt +-5 (also 10) besser oder schlechter ist als in anderen ist im Grunde total egal.
Das ist kein Wert der ausschlaggebend ist.

Gruß
Frank

By Ingo Bauer Date 2010-09-01 16:23

Hi

[quote="Frank Quisinsky"]

das mit Shredder ist fragwürdig.
Lasse Shredder w32 und x64 mal Stellungen analysieren. Berücksichtige den Zeitfaktor und Du siehst das es zu mehr unterschiedlichen Varianten kommt als bei anderen w32+x64 Engines. Shredder 12 w32 und x64 ist nicht gleich. Irgend eine Einstellung ist anders ... das ist leicht zu sehen.

[/quote]

Welchen Zeitfaktor? Auf gleicher IntelHW sind die ENignes gleich schnell - kein Unterschied ...

Hmm, ich kann zwar nichts sehen, aber wenn du es sagst muß ich Stefan sagen das er sich täuscht und er offensichtlich doch unterschiedliche Sourcen verwendet hat.

Gruß
Ingo

By Frank Quisinsky Date 2010-09-01 16:27

Hallo,

nehme einfach ein paar Mittelspielstellungen und analysiere mit Shredder w32 und mit x64 ... schaue auf die Hauptvarianten.
Hatte ich vor ein paar Wochen mit unterschiedlichen Stellungen gemacht.

Oder nehme ein paar Stellungen und schaue Dir vom Test-Set die Shredder Logfile Ausgaben an.

Kann natürlich auch an x64 liegen aber es gibt bei Shredder mehr Auffälligkeiten als bei anderen Engines wo eine w32 und x64 verfügbar ist.
Hatte mich aber mit dem Thema auch nur 1 Stunde beschäftigt, vielleicht ist mir ein Fehler unterlaufen.

Gruß
Frank

By Ingo Bauer Date 2010-09-01 16:36

OK Frank,

gib mir drei Stellungen bei denen die 32 und 64 Bit Single Variante (oder Deep mit einem Thread) auf Intel CPU, gleicher Hash und gleicher Rechner unterschiedliches Verhalten zeigt?

Danke
Ingo

By Frank Quisinsky Date 2010-09-01 16:39

Hi Ingo,

muss gleich wieder weg ...
Nächste Woche maile ich Dir etwas, steht auf meiner Liste.

Wollte doch heute eigentlich nicht diskutieren, nehme gerade meine Rechner auseinander .... Reinigung, mal updaten, prüfen ... Verschleißteile wechseln.

So, bin weg ...
Dienstag oder Mittwoch nächster Woche.

Gruß
Frank

By Ingo Bauer Date 2010-09-01 19:50

Moin,

ich habe ein bichen selber rumprobiert.

wie heißt es so schön im Englischen: "I stand corrected!". Also ich liege wohl daneben! Ich werde mich jetzt mal an die Ursachenforschung machen!

Gruß
Ingo

By Frank Quisinsky Date 2010-09-01 20:57

Hallo Ingo,

kann natürlich trotzdem sein, dass die beiden Versionen von der Spielstärke gleich sind.
Du hast ja viel mehr Partien und dahingehend ein genaueres Rating.

Könnte aber auch sein, dass Deine beiden Ratings nur bei Deinen Bedinungen so sind und bei längeren Bedenkzeiten dann schon wieder abweichen wie bei mir (derzeit ist die w32 9 ELO stärker als die x64). Bei 9 ELO ist die Wahrscheinlichkeit schon sehr gering aber da ...

Vermutlich hat Stefan seinerzeit irgend eine Einstellung getestet, kannst ja mal nachfragen, würde mich auch interessieren.

Im Grunde aber völlig sinnlos, eine x64 und eine w32 anzubieten wenn die Spielstärke gleich sein soll.
Da sehe ich überhaupt keinen Nutzen. Er gibt die x64 ja den Deep Käufern dabei ... aber ein wirklicher Anreiz ist das nicht.
Eine Beigabe die dann niemand benötigt.

Mehr Sinn würde es machen, eine experimentelle Version den Käufern zu geben und genau zu beschreiben warum experimentell. Da er eh nur 1x im Jahr updatet hätten seine Käufer dann wirklich zwei Versionen zu testen. Aber das muss er natürlich wissen, werde mich hüten dem guten Stefan einen Rat zu geben. Er macht das alles richtig gut.

Viele Grüße
Frank

By Ingo Bauer Date 2010-09-01 21:25 Edited 2010-09-01 21:28

Frank,

da haben wir uns überschnitten, beide Engines sind doch 100% identisch, siehe mein weiteres Posting!

Wenn du noch Stellungen hast wo die Engines auseinanderlaufen ... ich versuche das gerne mal!

Ansonsten ist das anbieten nicht sinnlos, im Gegenteil.

1. kann die 64bit Version mehr Hash und
2. erspart man sich das ganze Nachfragen das z. B. das Hiarcsteam nervt

Bye
Ingo

By Ingo Bauer Date 2010-09-01 21:24

Hallo

Ich muß hier mein "einlenken" zurückziehen.

Normalerweise benutze ich die 64bit Shredder Version. Dieser gebe ich immer 2 GB Hash. Aus alter Gewohnheit habe ich auch der 32bit Version 2 GB Hash gegeben. Leider kann die 32bit Version aber keine 2GB Hash verwalten und nimmt sich intern weniger. Wiederrum natürlich laufen die Enines nicht parallel.

Hier jetzt das selbe Experiment auf einem i7 mit 512 MB Hash:

Grundstellung:

rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq -

Engine: DS 12 x64 1T (512 MB)
by Stefan Meyer-Kahlen

13/32  0:01   +0.27    1.e4 e5 2.Nf3 Nf6 3.Nc3 Nc6 4.Bc4 Bc5 
                       5.d3 h6 6.O-O O-O 7.a3 d6 8.b4 Bb6 (870.998) 858 

14/35  0:02   +0.20    1.e4 e5 2.Nf3 Nc6 3.Nc3 Nf6 4.Bc4 Bc5 
                       5.d3 h6 6.O-O O-O 7.Be3 Bxe3 8.fxe3 d6 
                       9.d4 Be6 10.b3 Bxc4 11.bxc4 (2.229.861) 864 

15/39  0:04   +0.35    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.Nc3 Bg4 6.h3 Bxf3 7.Qxf3 Qf6 8.Qg3 Bc5 
                       9.d3 Ne7 10.O-O O-O 11.Bg5 (3.746.595) 875 

16/40  0:06   +0.35    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.Nc3 Bg4 6.h3 Bxf3 7.Qxf3 Qf6 8.Qg3 Bc5 
                       9.d3 Ne7 10.O-O O-O 11.Be3 Bb4 (6.026.301) 878 

17/42  0:27   +0.46    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d4 exd4 7.Nxd4 Be6 
                       8.Nxe6 fxe6 9.e5 Qxe5 10.Re1 Qd6 
                       11.Qh5+ g6 12.Qg5 Be7 (23.687.033) 877 

18/37  0:34   +0.45    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 (30.362.479) 879 

19/49  0:52   +0.46    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 
                       9.Bb2 Qf6 10.d4 Bd6 11.h3 Bxf3 
                       12.Nxf3 O-O-O 13.dxe5 Nxe5 (46.875.608) 889 

20/47  1:26   +0.43    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 
                       9.h3 Bxf3 10.Qxf3 Be7 11.Bb2 Qf6 
                       12.Qxf6 gxf6 13.d4 O-O-O 14.Nc4 (76.660.804) 888 

21/52  3:36   +0.25    1.e4 e5 2.Nf3 Nf6 3.Nxe5 d6 4.Nf3 Nxe4 
                       5.Qe2 Qe7 6.Nc3 Nxc3 7.dxc3 Qxe2+ 
                       8.Bxe2 Nc6 9.Bf4 Be7 10.Kd2 Be6 
                       11.Bd3 O-O 12.Rhe1 Bd5 13.Nd4 (193.111.528) 892 

best move: e2-e4 time: 3:52.657 min  n/s: 892.255  CPU 99.9%   n/s(1CPU): 893.148  nodes: 207.560.858 

rnbqkbnr/pppppppp/8/8/8/8/PPPPPPPP/RNBQKBNR w KQkq -

Engine: DS 12 32b 1T (512 MB)
by Stefan Meyer-Kahlen

13/32  0:01   +0.27    1.e4 e5 2.Nf3 Nf6 3.Nc3 Nc6 4.Bc4 Bc5 
                       5.d3 h6 6.O-O O-O 7.a3 d6 8.b4 Bb6 (870.998) 819 

14/35  0:02   +0.20    1.e4 e5 2.Nf3 Nc6 3.Nc3 Nf6 4.Bc4 Bc5 
                       5.d3 h6 6.O-O O-O 7.Be3 Bxe3 8.fxe3 d6 
                       9.d4 Be6 10.b3 Bxc4 11.bxc4 (2.229.861) 815 

15/39  0:04   +0.35    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.Nc3 Bg4 6.h3 Bxf3 7.Qxf3 Qf6 8.Qg3 Bc5 
                       9.d3 Ne7 10.O-O O-O 11.Bg5 (3.746.595) 821 

16/40  0:07   +0.35    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.Nc3 Bg4 6.h3 Bxf3 7.Qxf3 Qf6 8.Qg3 Bc5 
                       9.d3 Ne7 10.O-O O-O 11.Be3 Bb4 (6.026.301) 825 

17/42  0:28   +0.46    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d4 exd4 7.Nxd4 Be6 
                       8.Nxe6 fxe6 9.e5 Qxe5 10.Re1 Qd6 
                       11.Qh5+ g6 12.Qg5 Be7 (23.687.033) 824 

18/37  0:36   +0.45    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 (30.362.479) 826 

19/49  0:56   +0.46    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 
                       9.Bb2 Qf6 10.d4 Bd6 11.h3 Bxf3 
                       12.Nxf3 O-O-O 13.dxe5 Nxe5 (46.875.608) 835 

20/47  1:31   +0.43    1.e4 e5 2.Nf3 Nc6 3.Bb5 a6 4.Bxc6 dxc6 
                       5.O-O Qd6 6.d3 Nf6 7.b3 Bg4 8.Nbd2 Nd7 
                       9.h3 Bxf3 10.Qxf3 Be7 11.Bb2 Qf6 
                       12.Qxf6 gxf6 13.d4 O-O-O 14.Nc4 (76.660.804) 834 

21/52  3:50   +0.25    1.e4 e5 2.Nf3 Nf6 3.Nxe5 d6 4.Nf3 Nxe4 
                       5.Qe2 Qe7 6.Nc3 Nxc3 7.dxc3 Qxe2+ 
                       8.Bxe2 Nc6 9.Bf4 Be7 10.Kd2 Be6 
                       11.Bd3 O-O 12.Rhe1 Bd5 13.Nd4 (193.111.528) 838 

best move: e2-e4 time: 3:52.594 min  n/s: 838.165  CPU 99.9%   n/s(1CPU): 839.004  nodes: 194.926.313

Wie man sehen kann identische HV und sogar absolut gleiche Anzahl an Knoten bis zum erreichen einer bestimmten Tiefe (193.111.528 bei Tiefe 21).

Der einzige Unterschied ist dem i7 geschuldet. Die 64bit Version ist hier sensationelle 6 Prozent schneller, allerdings ist es sehr hart das in Elo auszudrücken.

Frühes Mittelspiel:


rnbqk2r/p4p2/2p1pb2/1p6/2pP4/2N1B3/PP3PPP/R2QKB1R b KQkq -

Engine: DS 12 x64 1T (512 MB)
by Stefan Meyer-Kahlen

11/37  0:01   +0.16    1...Na6 2.Qf3 Nb4 3.O-O-O Nd5 4.Ne4 Be7 
                       5.Kb1 a5 6.Nc5 a4 7.Bc1 e5 8.Be3 (1.250.459) 869 

12/34  0:02   +0.79    1...Na6 2.a4 Nc7 3.Qf3 Nd5 4.axb5 cxb5 
                       5.Nxb5 a6 6.Nc3 Rb8 7.Bxc4 Nxe3 
                       8.fxe3 Rxb2 9.Bxa6 Bh4+ 10.g3 (2.467.441) 882 

12/37  0:04   +0.70    1...Bb7 2.Qf3 Be7 3.O-O-O Qa5 4.Kb1 Na6 
                       5.Ne4 Nb4 6.a3 Nd5 7.Nc5 Qc7 8.Be2 Rh4 
                       9.Nxb7 Qxb7 (4.344.445) 876 

12/37  0:07   +0.29    1...Be7 2.Qf3 Qa5 3.Be2 Bb7 4.O-O Nd7 
                       5.Ne4 Qb4 6.Rab1 Rh4 7.Bd2 Qa4 8.g3 Rh7 (6.248.134) 874 

13/37  0:08   +0.47    1...Be7 2.Qf3 Qa5 3.Bd2 Qb6 4.O-O-O Nd7 
                       5.Be3 Bb7 6.Kb1 c5 7.Qf4 Rh4 8.dxc5 Nxc5 
                       9.Qe5 Rd8 (7.064.292) 874 

14/35  0:10   +0.30    1...Be7 2.Qf3 Qa5 3.Bd2 Qb6 4.O-O-O Bb7 
                       5.Be3 Nd7 6.Kb1 Rd8 7.h4 Rxh4 8.Rxh4 Bxh4 
                       9.Qf4 Bf6 10.Qd6 (8.830.588) 877 

15/38  0:14   +0.52    1...Be7 2.Qf3 Qa5 3.Bd2 Qa6 4.b3 cxb3 
                       5.Bxb5 b2 6.Rb1 Qb6 7.Ba4 Kf8 8.O-O Ba6 
                       9.Rfd1 Bc4 10.Bf4 Rh4 11.Be5 (12.658.016) 879 

16/37  0:23   +0.58    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Bg5 f5 7.Bxe7 fxe4 8.Qa3 Qxa3 
                       9.Bxa3 Rf7 10.Rd2 O-O-O (21.010.430) 882 

17/40  0:40   +0.54    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 f6 9.Qg3 c5 10.dxc5 Be4+ 
                       11.Ka1 Ne5 12.Be2 Kb8 13.Rd6 Rxd6 
                       14.cxd6 (36.041.228) 884 

18/40  1:30   +0.47    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 Qb4 9.Rc1 f6 10.Qf4 c5 11.Bd2 Qa4 
                       12.Qd6 Be4+ 13.Ka1 cxd4 14.Qxe6 (80.293.345) 882 

19/52  2:40   +0.47    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 Qb4 9.Rc1 f6 10.Qf4 c5 11.Bd2 Qa4 
                       12.Qd6 Be4+ 13.Ka1 cxd4 14.Qxe6 (142.099.462) 883 

best move: Bf6-e7 time: 3:03.297 min  n/s: 884.646  CPU 99.9%   n/s(1CPU): 885.531  nodes: 162.139.717 

rnbqk2r/p4p2/2p1pb2/1p6/2pP4/2N1B3/PP3PPP/R2QKB1R b KQkq -

Engine: DS 12 32b 1T (512 MB)
by Stefan Meyer-Kahlen

11/37  0:01   +0.16    1...Na6 2.Qf3 Nb4 3.O-O-O Nd5 4.Ne4 Be7 
                       5.Kb1 a5 6.Nc5 a4 7.Bc1 e5 8.Be3 (1.250.459) 824 

12/34  0:02   +0.79    1...Na6 2.a4 Nc7 3.Qf3 Nd5 4.axb5 cxb5 
                       5.Nxb5 a6 6.Nc3 Rb8 7.Bxc4 Nxe3 
                       8.fxe3 Rxb2 9.Bxa6 Bh4+ 10.g3 (2.467.441) 835 

12/37  0:05   +0.70    1...Bb7 2.Qf3 Be7 3.O-O-O Qa5 4.Kb1 Na6 
                       5.Ne4 Nb4 6.a3 Nd5 7.Nc5 Qc7 8.Be2 Rh4 
                       9.Nxb7 Qxb7 (4.344.445) 832 

12/37  0:07   +0.29    1...Be7 2.Qf3 Qa5 3.Be2 Bb7 4.O-O Nd7 
                       5.Ne4 Qb4 6.Rab1 Rh4 7.Bd2 Qa4 8.g3 Rh7 (6.248.134) 831 

13/37  0:08   +0.47    1...Be7 2.Qf3 Qa5 3.Bd2 Qb6 4.O-O-O Nd7 
                       5.Be3 Bb7 6.Kb1 c5 7.Qf4 Rh4 8.dxc5 Nxc5 
                       9.Qe5 Rd8 (7.064.292) 831 

14/35  0:10   +0.30    1...Be7 2.Qf3 Qa5 3.Bd2 Qb6 4.O-O-O Bb7 
                       5.Be3 Nd7 6.Kb1 Rd8 7.h4 Rxh4 8.Rxh4 Bxh4 
                       9.Qf4 Bf6 10.Qd6 (8.830.588) 833 

15/38  0:15   +0.52    1...Be7 2.Qf3 Qa5 3.Bd2 Qa6 4.b3 cxb3 
                       5.Bxb5 b2 6.Rb1 Qb6 7.Ba4 Kf8 8.O-O Ba6 
                       9.Rfd1 Bc4 10.Bf4 Rh4 11.Be5 (12.658.016) 836 

16/37  0:25   +0.58    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Bg5 f5 7.Bxe7 fxe4 8.Qa3 Qxa3 
                       9.Bxa3 Rf7 10.Rd2 O-O-O (21.010.430) 839 

17/40  0:42   +0.54    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 f6 9.Qg3 c5 10.dxc5 Be4+ 
                       11.Ka1 Ne5 12.Be2 Kb8 13.Rd6 Rxd6 
                       14.cxd6 (36.041.228) 842 

18/40  1:35   +0.47    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 Qb4 9.Rc1 f6 10.Qf4 c5 11.Bd2 Qa4 
                       12.Qd6 Be4+ 13.Ka1 cxd4 14.Qxe6 (80.293.345) 838 

19/52  2:49   +0.47    1...Be7 2.Qf3 Bb7 3.O-O-O Qa5 4.Kb1 Nd7 
                       5.Ne4 Rh7 6.Qf4 O-O-O 7.Ng5 Bxg5 
                       8.Qxg5 Qb4 9.Rc1 f6 10.Qf4 c5 11.Bd2 Qa4 
                       12.Qd6 Be4+ 13.Ka1 cxd4 14.Qxe6 (142.099.462) 839 

best move: Bf6-e7 time: 3:03.485 min  n/s: 840.161  CPU 99.9%   n/s(1CPU): 841.002  nodes: 154.157.095

Das selbe Spiel wie in der Startposition, 5% Speedunterschied.

Endspiel (ohne Sbases oder Tbases):


8/1B2k3/8/7K/r6P/8/n4R2/8 w - -

Engine: DS 12 x64 1T (512 MB)
by Stefan Meyer-Kahlen

13/31  0:00   +0.70    1.Kg5 Ra5+ 2.Kg6 Ra3 3.h5 Rg3+ 4.Kf5 Nc3 
                       5.Rh2 Rg8 6.h6 Nb5 7.Bd5 Nd6+ 8.Kf4 Rf8+ 
                       9.Kg4 Rh8 10.h7 (1.305.044) 1326 

14/32  0:03   +0.78    1.Kg5 Nc3 2.Rf3 Nb5 3.Re3+ Kd7 4.h5 Ra2 
                       5.h6 Rh2 6.Bf3 Nd6 7.Bh5 Rg2+ 8.Kf6 Rh2 
                       9.Re7+ Kc6 10.Re5 Rf2+ 11.Kg7 Rg2+ 
                       12.Bg6 (4.553.342) 1368 

15/35  0:05   +0.76    1.Kg5 Nc3 2.Rf3 Nb5 3.Re3+ Kd6 4.h5 Ra7 
                       5.Be4 Kc5 6.h6 Kd4 7.Rh3 Nd6 8.Bg6 Ra8 
                       9.h7 Rh8 10.Rd3+ Ke5 (7.015.020) 1377 

16/36  0:11   +0.66    1.Kg5 Nb4 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Ra3 6.Kh4 Ra4+ (15.380.552) 1388 

17/39  0:36   +0.66    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Ra3 6.Bf3 Nf8 7.Kg5 Ra6 8.Re5+ Kd6 
                       9.Rb5 Ra3 10.Be4 Rh3 11.Rb6+ (50.772.103) 1409 

18/39  0:44   +0.63    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf4+ 
                       8.Kg4 Ne6+ (63.521.456) 1414 

19/42  0:53   +0.70    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf8 
                       8.Bd5 Ra6 9.Rh5 Ra3+ 10.Kg2 Ng6 
                       11.h7 Nh8 12.Be4 Re3 13.Re5+ Kf8 
                       14.Kf2 (75.334.505) 1421 

20/45  1:09   +0.67    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf4+ 
                       8.Kg4 (99.149.392) 1428 

21/48  5:08   +1.39    1.Kg5 Nc3 2.Rf3 Rb4 3.Rxc3 Rxb7 
                       4.Kg6 Rb6+ 5.Kg7 Rb5 6.Rc7+ Kd6 
                       7.Rc4 Kd5 8.Ra4 Kd6 9.Rg4 Rh5 10.Kg6 (453.689.165) 1468 

22/44  5:48   +1.38    1.Kg5 Nc3 2.Rf3 Rb4 3.Rxc3 Rxb7 
                       4.Kg6 Rb6+ 5.Kg7 Rb5 6.Rc7+ Kd6 
                       7.Rc4 Kd5 8.Ra4 Kd6 9.Rg4 Rh5 (511.002.463) 1467 

best move: Kh5-g5 time: 6:10.313 min  n/s: 1.471.223  CPU 99.9%   n/s(1CPU): 1.472.695  nodes: 544.789.618 

8/1B2k3/8/7K/r6P/8/n4R2/8 w - -

Engine: DS 12 32b 1T (512 MB)
by Stefan Meyer-Kahlen

13/31  0:01   +0.70    1.Kg5 Ra5+ 2.Kg6 Ra3 3.h5 Rg3+ 4.Kf5 Nc3 
                       5.Rh2 Rg8 6.h6 Nb5 7.Bd5 Nd6+ 8.Kf4 Rf8+ 
                       9.Kg4 Rh8 10.h7 (1.305.044) 1285 

14/32  0:03   +0.78    1.Kg5 Nc3 2.Rf3 Nb5 3.Re3+ Kd7 4.h5 Ra2 
                       5.h6 Rh2 6.Bf3 Nd6 7.Bh5 Rg2+ 8.Kf6 Rh2 
                       9.Re7+ Kc6 10.Re5 Rf2+ 11.Kg7 Rg2+ 
                       12.Bg6 (4.553.342) 1306 

15/35  0:05   +0.76    1.Kg5 Nc3 2.Rf3 Nb5 3.Re3+ Kd6 4.h5 Ra7 
                       5.Be4 Kc5 6.h6 Kd4 7.Rh3 Nd6 8.Bg6 Ra8 
                       9.h7 Rh8 10.Rd3+ Ke5 (7.015.020) 1312 

16/36  0:11   +0.66    1.Kg5 Nb4 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Ra3 6.Kh4 Ra4+ (15.380.552) 1319 

17/39  0:37   +0.66    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Ra3 6.Bf3 Nf8 7.Kg5 Ra6 8.Re5+ Kd6 
                       9.Rb5 Ra3 10.Be4 Rh3 11.Rb6+ (50.772.103) 1338 

18/39  0:47   +0.63    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf4+ 
                       8.Kg4 Ne6+ (63.521.456) 1343 

19/42  0:55   +0.70    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf8 
                       8.Bd5 Ra6 9.Rh5 Ra3+ 10.Kg2 Ng6 
                       11.h7 Nh8 12.Be4 Re3 13.Re5+ Kf8 
                       14.Kf2 (75.334.505) 1350 

20/45  1:12   +0.67    1.Kg5 Nc1 2.h5 Nd3 3.Rf5 Nf4 4.h6 Ne6+ 
                       5.Kh5 Nf4+ 6.Kh4 Ne6+ 7.Kh3 Nf4+ 
                       8.Kg4 (99.149.392) 1358 

21/48  5:24   +1.39    1.Kg5 Nc3 2.Rf3 Rb4 3.Rxc3 Rxb7 
                       4.Kg6 Rb6+ 5.Kg7 Rb5 6.Rc7+ Kd6 
                       7.Rc4 Kd5 8.Ra4 Kd6 9.Rg4 Rh5 10.Kg6 (453.689.165) 1398 

22/44  6:05   +1.38    1.Kg5 Nc3 2.Rf3 Rb4 3.Rxc3 Rxb7 
                       4.Kg6 Rb6+ 5.Kg7 Rb5 6.Rc7+ Kd6 
                       7.Rc4 Kd5 8.Ra4 Kd6 9.Rg4 Rh5 (511.002.463) 1397 

best move: Kh5-g5 time: 6:10.281 min  n/s: 1.398.161  CPU 99.9%   n/s(1CPU): 1.399.560  nodes: 517.690.368

Ein letztes mal: Identisches Verhalten beider Engines. Geschwindigkeitsdifferenz (5%)

Wichtig: Wenn man so etwas testet, vorher eine Engine mit Position lerning off erstellen, lernfile löschen und zw. den Tests am besten GUI und Engines neu starten!

Also: Absolut identischer Sourcecode, absolut identische Engines! Die größte Überraschung sind die 5% mehr Speed, aber das dürfte dem i7 geschuldet sein. Wenn ich mich recht erinnere sind es auf dem C2 ca. 2%. Aber selbst die 5% sind praktisch nicht über eine Rangliste nachweisbar (zumal bei mir die 64 bit Version 2 Elo schlechter als die 32bit Engine ist ...)

Gruß
Ingo

By Frank Quisinsky Date 2010-09-01 22:11

Hi Ingo,

OK, schaue mir das nochmals an.
Wie beschrieben nächste Woche.

Bin voll mit meiner Wartung beschäftigt und komme ansonsten diese Woche nicht dazu.
Will das ja jetzt auch genauer prüfen.

Melde mich dann ...

Gruß
Frank

By Ernest Bonnem Date 2010-09-02 11:24

[quote="Ingo Bauer"]Die 64bit Version ist hier sensationelle 6 Prozent schneller, allerdings ist es sehr hart das in Elo auszudrücken.[/quote]
Normalerweise, 6 Elo!

(Basis: wenn das 6% für die meisten Stellungen gilt, und ungef. das übliche +70 Elo für doppelt Geschwindigkeit)

By Gerhard Sonnabend Date 2010-09-01 16:23

[quote="Ingo Bauer"]
[...snip...]
Sehr bequem ist das zurückziehen auf die 95% ... Korrekt wäre, das jede, selbst eine einzige, Engine ausserhalb dieser 95% Intervalls Zweifel sääen sollte ...
[...snip...]
[/quote]

Ganz klares und deutliches Nein.
Willst Du das haben, dann musst Du (z.B. unter ELO-Stat)
mit dem "99.7%-Intervall" arbeiten.

Beispiel:

Code:


Wins   = 2500
Draws  = 500
Losses = 2500
Av.Op. Elo = 2700

Result     : 2750.0/5500 (+2500,=500,-2500)
Perf.      : 50.0 %
Margins    :
 68 %      : (+  0.6,-  0.6 %) -> [ 49.4, 50.6 %]
 95 %      : (+  1.3,-  1.3 %) -> [ 48.7, 51.3 %]
 99.7 %    : (+  1.9,-  1.9 %) -> [ 48.1, 51.9 %]

Elo        : 2700
Margins    :
 68 %      : (+  4,-  4) -> [2696,2704]
 95 %      : (+  9,-  9) -> [2691,2709]
 99.7 %    : (+ 13,- 13) -> [2687,2713]

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-01 16:32

Ja Gerhard,

und wenn du 99,9999999 nimmst, sind eigentlich alle Engines im dann riesengroßen Intervall und unter allen Bedinungen und Zeitkontrollen wahrscheinlich gleich gut. Was soll dann aber die ganze Testerei überhaupt!?

Du glaubst wahrscheinlich erst dann wenn es 100% BEWIESEN ist das Unterschiede bestehen. Das kann ich oder sonstjemand aber bei einem solchen Thema nicht leisten. Ich glaube aber, dass du gar nicht am Ponder OFF Paradigma zweifeln willst! Für mich gehören Zweifel dazu, und da ich weiß das Zeiteinteilung wichtig ist und ich weiß das zwei mir bekannte Engines je nach Ponderbedinung anders spielen, sehe ich keinen Grund zu glauben das die Engines bei POFF und PON identisch sind. Über die Größe des Abweichung läßt sich streiten, über den Fakt eigentlich nicht!

Gruß
Ingo

By Gerhard Sonnabend Date 2010-09-02 10:01

[quote="Ingo Bauer"]
[...snip...]
Du glaubst wahrscheinlich erst dann wenn es 100% BEWIESEN ist das Unterschiede bestehen.
Das kann ich oder sonstjemand aber bei einem solchen Thema nicht leisten.
[...snip....]
[/quote]

Wie kommst Du jetzt darauf ?
Ich wehre mich lediglich gegen Deine Ansicht, dass man bereits beim Abweichen
einer einzigen Engine (so mittels des "95er-Intervalls" ausgewertet wurde)
in Bezug auf Listenvergleiche Zweifel haben sollte.
Es ist nunmal Fakt, dass im beschriebenen Fall 5 (fünf) Engines ausserhalb der
Errormargins liegen können, sollen oder gar müssen.

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-02 11:58

Hi Gerhard

[quote="Gerhard Sonnabend"]
...
Es ist nunmal Fakt, dass im beschriebenen Fall 5 (fünf) Engines ausserhalb der
Errormargins liegen können, sollen oder gar müssen.
...
[/quote]

Ist das so?

Ein Würfel hat eine 16.6% (0.16) Wahrscheinlichkeit bei einem Wurf eine 6 zu würfeln. 2 Würfel, jeder individuell mit der 16.6% Wahrscheinlcihkeit behaftet, haben aber eine kleinere Wahrscheinlichkeit mit einem Wurf (also gleichzeitig) zwei 6en zu würfeln (2.8%) ...
Wir haben also die 5% Möglichkeit das EINE individuelle Engine ausserhalb der (allgemein üblichen) Errormargin liegt. Will man die Wahrscheinlichkeiten issen ob 2 Enignes gleichzeitig ausserhalb liegen, sollte diese kleiner als 5% werden und nicht gleich bleiben ... (Hängt natürlich von der Größe der Gruppe ab, aber sollte bei 5 immer kleiner sein als bei 1).

Mein Bauchgefühl sagt mir das ich recht habe ... aber Bauchgefühl und Statistik passen häufig nicht .... Keine Ahnung ob meine lange zurückliegende mathematische Grundausbildung das richtig hinbekommen hat - lasse mich gerne berichtigen!

Gruß
Ingo

By Gerhard Sonnabend Date 2010-09-02 12:46

Hhm.
Ich habe das mit dem "95er-Intervall" bisher immer so aufgefasst,
dass 5 von 100 Engines ausserhalb der Errormargins liegen können
resp. ausserhalb liegen werden.
Ich lasse mich jedoch selbstverständlich korrigieren, so ich denn mit
meiner Annahme daneben liegen sollte.

Viele Grüsse,
G.S.

By Gerhard Sonnabend Date 2010-09-02 13:46

Hier:
http://de.wikipedia.org/wiki/Konfidenzintervall#Ausgew.C3.A4hlte_Konfidenzintervalle

findet sich folgende Aussage:
"Wählt man ein 95 %-Konfidenzintervall (das heißt: in 95 von 100 Fällen enthalten die errechneten Intervallgrenzen den wahren Wert)..."

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-02 14:33

[quote="Gerhard Sonnabend"]

http://de.wikipedia.org/wiki/Konfidenzintervall#Ausgew.C3.A4hlte_Konfidenzintervalle

findet sich folgende Aussage:
"Wählt man ein 95 %-Konfidenzintervall (das heißt: in 95 von 100 Fällen enthalten die errechneten Intervallgrenzen den wahren Wert)..."

[/quote]

Was aber nicht zu meinem Würfelbeispiel passt ... (aber wie gesagt, bin nicht sicher ob das geht)

Meine ursprüngliche Aussage war ja, das "...selbst eine einzige, Engine ausserhalb dieser 95% Intervalls Zweifel säen sollte ..." was du mit einem "Ganz klares und deutliches Nein." abgetan hast.

Jetzt: Angenommen obiges stimmt (und ich habe Zweifel das ich das alles verstehen). Nehme ich EINE gefundene Engine raus, bleiben noch 4 in 99, und das sind nur noch rund 4.04%, 3 in 98 = 3.03% .... Selbst unter obiger Annahme, steigt mit jeder Engine die ich finden würde die Wahrscheinlichkeit das PON POFF unterschiedlich sind. Das nenne ich Zweifel säen und glaube das du das nicht einfach als '5 aus 100 sind normal' beiseite schieben solltest.

Dein 95% sind übrigens schwer für mich nachzuweisen, weil wir hier von einem Effekt reden der dann wieder kleiner (besser gleich) ist als das Intervall (zumindest bei IPON)... Ich glaube also durchaus das du argumentieren könntest der Effekt ist zu klein als das er dich interessiert, aber als nicht existent kannst du den Effekt nicht bezeichnen, schon aus theoretischen Erwägungen. (Und übrigens auch deinem Problem nachzuweisen DAS er existiert - theoretisch habe ich bessere Chancen ihn nachzuweisen als du das Gegenteil zu beweisen. (Insofern scheint mir die Vorabannahme der Existens eines PON/POFF Unterschiedes sicherer als deren Ablehnung!)

Gruß
Ingo

By Gerhard Sonnabend Date 2010-09-02 15:48 Edited 2010-09-02 15:53

Hi Ingo !

Ich sehe das wesentlich pragmatischer.
5 von 100 Engines liegen (bei Verwendung der "95%-Fehlergrenzen") ausserhalb
der berechneten Errormargins, nicht mehr aber auch nicht weniger - thats it.

Wertet man hingegen unter Verwendung der "99.7%-Fehlergrenzen" aus, so ist
dies lediglich bei nur noch einer von 300 der Fall (gerundet).

Das hat auch nichts mit der Anzahl der gespielten Games zu tun, hierbei werden
zwar die Fehlergrenzen an sich immer kleiner (enger), jedoch die blosse Anzahl
an ausserhalb dieser (nun engeren) Grenzen liegenden Engines bleibt gleich.
Bei 95% sind es eben deren 5 und bei z.B. 60% sind es halt 40, deren berechneten
Fehlergrenzen ausserhalb liegen.

Vergleicht man unter diesem Gesichtpunkt die gängigen Listen (welche wohl alle
unter Verwendung der "95%-Fehlergrenzen" erstellt werden) und ist sich diesem
"Fehler" bewusst, so stellt man fest, dass sich zumindest die Engine-Reihungen
der besagten Listen äusserst stark gleichen.

Trotz alle dem würde ich mich sehr freuen, wenn Du selbst ein oder zwei Engines
für eine genauere Untersuchung hernimmst.
Naum hattest Du ja schon selbst ins Gesprächs gebracht, wie wäre es zusätzlich
mit der zuletzt von Dir getesteten Crafty-Version ?

Viele Grüsse,
G.S.

By Ingo Bauer Date 2010-09-02 16:01

Hi

[quote="Gerhard Sonnabend"]
Wertet man hingegen unter Verwendung der "99.7%-Fehlergrenzen" aus, so ist
dies lediglich bei nur noch einer von 300 der Fall (gerundet).
[/quote]

Dafür ist das Interval größer ... Wenn der Effekt zu klein ist habe das Problem da raus zu kommen.

[quote="Gerhard Sonnabend"]
Vergleicht man unter diesem Gesichtpunkt die gängigen Listen (welche wohl alle
unter Verwendung der "95%-Fehlergrenzen" erstellt werden) und ist sich diesem
"Fehler" bewusst, so stellt man fest, dass sich zumindest die Engine-Reihungen
der besagten Listen äusserst stark gleichen.
[/quote]

Nur weißt du selber das praktisch keiner auf das Intervall und alle auf die Plazierung gucken! (Bestes Bsp. mein momentaner erster Platz ... Ich finde die IPON immer wieder zitiert mit der mehr als kurzsichtigen Bemerkung das Houdini besser als R4 ist ...)

[quote="Gerhard Sonnabend"]
Trotz alle dem würde ich mich sehr freuen, wenn Du selbst ein oder zwei Engines
für eine genauere Untersuchung hernimmst.
[/quote]

Werde ich machen, habe aber noch was anderes am laufen.

[quote="Gerhard Sonnabend"]
Naum hattest Du ja schon selbst ins Gesprächs gebracht,
[/quote]

Naum und Shredder sind gut, insbesondere weil ich weiß das der eine mit Ponder zunimmt und annehme das der andere abnimmt!

[quote="Gerhard Sonnabend"]
... wie wäre es zusätzlich mit der zuletzt von Dir getesteten Crafty-Version ?
[/quote]

Crafty ist nicht so geeignet - hauptsächlich weil er fast nur gegen "deutlich bessere" Enignes spielt. Ideal ist eine Engine aus dem Mittelfeld, damit man die Gegner streuen kann.

Gruß
Ingo

By Klaus S. Date 2010-09-01 20:13 Edited 2010-09-01 20:18

Zitat:

Gerhard - wo hat den mal wirklich jemand unter gleichen Bedinungen gemessen?
.....

Sedat Canbaz hat's gemessen - und zwar hier

Edit: http://sedatchess.110mb.com/index.php?p=1_66 ist zurzeit leider nicht erreichbar.

By Gerhard Sonnabend Date 2010-09-01 20:19

[quote="Wilfried Lübkemann"]

Zitat:

Gerhard - wo hat den mal wirklich jemand unter gleichen Bedinungen gemessen?
.....

Sedat Canbaz hat's gemessen - und zwar hier

Diesen "Test" kannte ich schon.
Nur, ich hätte "ihn" niemals hier in die Debatte eingebracht,
da die Anzahl an gespielten Games und auch die Menge der
beteiligten Engines schlicht deutlich zu gering ist.
Alles, zumindest bisher, nur Zufall. Ich hoffe jedoch, dass
Sedat diesen Test weiter führt.

Viele Grüsse,
G.S.

By Klaus S. Date 2010-09-01 20:25

Ja, wird im Test selbst auch deutlich gemacht.
Stimmt, dadurch wird's auch nicht besser.

Aber ein Versuch wars allemal.

Gruß
Wilfried

By Ingo Bauer Date 2010-09-01 20:48

... und ich würde mich wundern wenn er wirklich Identisches gespielt hat. Ich vermute mal stark (da der Link nicht geht) das er mal wieder mit 'Eröffnungsbüchern' getestet hat ...

Gruß
Ingo

By Klaus S. Date 2010-09-01 21:06

Link funzt wieder. Stimmt mit Perfect 2010 getested.

Gruß
WL