Hyper Threading für Rechnerschach deaktivieren oder nicht ?

By Frank Qy. Date 2016-01-31 14:32 Upvotes 1

Hallo Günther,

Hyperthreading scheint ja auch deutlich verbessert zu sein bei der fünften Generation.
Dennoch würde ich für Eng-Eng ohne und für Engine Analysen ... wenn denn die beiden Cores eingesetzt werden ... auch mit Hyperthreading testen. Macht ja einiges aus, wie aus dem Fritz Bench hervorgeht (im Notebook Thread von mir).

Gruß
Frank

By Frank Brenner Date 2016-01-31 17:08

> Macht ja einiges aus, wie aus dem Fritz Bench hervorgeht

Der "Fritz Bench" ist for moderne Schachprogramme ungeeignet, erst recht wenn der Computer mehrere Kerne hat.

Du als "Freak" solltest das doch wissen.

By Frank Qy. Date 2016-02-07 13:36

Hallo Frank,

ja das stimmt.
Wenn gleich der Fritz Bench bei einem Core und Intel Hardware noch OK ist wie ich finde.

Aber gut ...
Habe meine Conditions Seite geändert und das gelöscht bzw. Bench für Crafty, Stockfish und CPU-Z aufgenommen.
Mich interessiert eh nur die Leistung auf einem Core für meine Vergleiche.

Und zum Freak ...
Mag sein aber je älter desto weniger wenn ich nüchtern betrachte.
Erwische mich selbst ständig dabei zu sagen ... läuft doch ... brauche nicht anderes wenn alles funktioniert.
Früher hätte ich z. B. eine neue Softwareanwendung sofort unter die Lupe genommen. Heute bin ich eigentlich froh mit dem was da ist wenn es denn gut ist.

Der Spruch, gerade von älteren Leuten ...
Was früher gut ist ist auch heute noch gut.
Oder ich muss das nicht haben ohne zu wissen was es ist (oftmals schade, dennoch immer mehr nachvollziehbar).
Etc..

Gruß
Frank

By Günther Höhne Date 2016-01-31 18:57

Hallo Frank,

vielen Dank für deine Meinung , ich habe deinen Notebook Thread verfolgt.
Ich werde HT deaktivieren. Das Entscheidende für mich hat Clemens ganz gut formuliert.

Clemens Keck schrieb:

Im engine match würde ich HT abschalten. mir wäre das zu unsicher welche engine welche cores oder threads zugewiesen bekommt.

Gruß
Günther

By Clemens Keck Date 2016-01-31 14:43 Upvotes 1

Günther Höhne schrieb:

Hallo zusammen,

das Thema Hyper Threading wird für mich bald aktuell, da mein neues Notebook mit Intel®Core™i5-5200U CPU
damit ausgestattet ist. Mein alter i5 750 unterstützt Hyper Threading nicht.
Nun meine Frage, Hyper Threading abschalten für Rechnerschach (Engine vs Engine) oder nicht ?
Welcher Meinung seit ihr ?

Gruß
Günther

Im engine match würde ich HT abschalten. mir wäre das zu unsicher welche engine welche cores oder threads zugewiesen bekommt.
Bei Analyse oder sonstwas ist es zwar höchstwahrscheinlich kein Zugewinn, aber schaden tuts auch nicht. Die paar Knötchen mehr die Fritz bench da ausspuckt sind trügerisch. Die Einzelthreadleistung sinkt ja spürbar.

C.K.

By Günther Höhne Date 2016-01-31 19:28

Clemens Keck schrieb:

Im engine match würde ich HT abschalten. mir wäre das zu unsicher welche engine welche cores oder threads zugewiesen bekommt.

Vielen Dank für deinen Beitrag, der sehr hilfreich ist. Dies ist eine Unsicherheit die ich auch nicht in Kauf nehmen möchte.

By Michael Scheidl Date 2016-01-31 15:07 Edited 2016-01-31 15:11

Gerade bei einem i5 rechne ich mit einem meßbaren Performancegewinn. Habe das selbst mit meinem Dualcore-i5-3210M immer wieder beobachten können:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=58881

Es hängt jedoch auch von der jeweiligen Engine und der konkreten Position ab. Im Durchschnitt habe ich jedenfalls sowohl bei Time to Depth, Knotenzahlen und Testsuitelösungen Verbesserungen mit 4 gegenüber 2 Threads gemessen. Derzeit stelle ich im Hausgebrauch gerne 3 Threads ein, wenn schwierige Analyseaufgaben bewältigt werden sollen. Das System bleibt dann flüssig bedienbar inkl. Rumsurfen.

Im CCC wurde dieses Thema auch schon wiederholt und ausgiebig diskutiert, und umfangreichere Tests als meine beigesteuert.

By Benno Hartwig Date 2016-01-31 15:25

Was für einen i5 hast du denn?
Die 4-Kerner haben meiner Kenntnis nach kein Hyperthreading, nur die 2-Kern-i5.
http://www.notebookcheck.com/Mobile-Prozessoren-Benchmarkliste.1809.0.html
Benno

By Michael Scheidl Date 2016-01-31 15:37

Zitat:

...mit meinem Dualcore-i5-3210M

Ich wußte noch gar nicht, daß es 4-Kerner-i5 gibt. - Bei Günthers i5-5200U steht in der Liste Kerne/Threads: 2/4, somit wird falls Windows 4 logische Kerne erkannt hat, Hyp. zur Verfügung stehen.

Was Quadcores betrifft, so habe ich im CCC den Gesamteindruck bekommen daß auch mit i7-CPUs, oder zumindest einigen davon, Hyp. die Performance steigert. Aber man sollte das wirklich beim eigenen individuellen System und den typischen Engines der Wahl testen, um sicherzugehen daß man nichts verschlimmbessert.

By Benno Hartwig Date 2016-01-31 16:22 Edited 2016-01-31 16:25

Unter meinem Schreibtisch werkelt ein alter i5-750 mit 4 Kernen ohne Hyperthreading. Ein i5 der ersten Generation.
Und wenn 4 Kerne arbeiten ist es, als würde sich meine Frau neben mir die Haare föhnen...
Immerhin: ein Problem hat er dadurch nicht, seine Temperatur bleibt sicher im erlaubten Bereich.
Nur nervt es. Und ich mache es dann nicht gern, selbst wenn er im Raum allein föhnt.

Im entspannten Office-Normalbetrieb ist er aber schön leise.

Benno

By Tom Paul Date 2016-01-31 15:36

Michael Scheidl schrieb:

Gerade bei einem i5 rechne ich mit einem meßbaren Performancegewinn. Habe das selbst mit meinem Dualcore-i5-3210M immer wieder beobachten können:

<a class='ura' href='http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=58881'>http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=58881</a>

Es hängt jedoch auch von der jeweiligen Engine und der konkreten Position ab. Im Durchschnitt habe ich jedenfalls sowohl bei Time to Depth, Knotenzahlen und Testsuitelösungen Verbesserungen mit 4 gegenüber 2 Threads gemessen. Derzeit stelle ich im Hausgebrauch gerne 3 Threads ein, wenn schwierige Analyseaufgaben bewältigt werden sollen. Das System bleibt dann flüssig bedienbar inkl. Rumsurfen.

Im CCC wurde dieses Thema auch schon wiederholt und ausgiebig diskutiert, und umfangreichere Tests als meine beigesteuert.

Die Engine geht davon aus das es echte Kerne sind, nun könnte theoretisch eine Engine die gut Skaliert, Stockfish, Komodo einen Performence Gewinn verbuchen.
Quasi halb so viele GHz und doppelt so viele Kerne.

By Heinz Hagenstein Date 2016-01-31 16:06

Gestern habe ich den Fritzmark gemacht,mein Rechner i7 4790 4 GHz hat mit Hyper Threading einen Wert von

33.53 =16092 Knoten ,ohne waren es 25.81 =12388 Knoten,allso mit wären das 25% mehr Knoten.

Gruß Heinz

By Thomas Plaschke Date 2016-01-31 17:02 Upvotes 1

Die Knoten machen's aber nicht aus.

Time to depth ist die relevante Größe. Ausgerechnet die ist mit wegen der "undeterministischen Multithreaded-Suche" (gibt's dafür auch einen verständlichen Begriff?) nicht mit einer Messung zu ermitteln. Ich hatte mir im letzten Jahr im Urlaub ein Test-Script für mein Notebook und Stockfish geschrieben, dass nach tausenden Läufen mit 1-4 Threads für dieses Notebook keinen Vorteil für HT errechnete (aber auch keinen echten Nachteil).
Sollte mein nächster Rechner

HT haben, würde ich das Ganze allerdings wiederholen... Auch in der 5. Generation traue ich HT-Prozessoren nicht weiter als ich sie werfen kann.

Die von Dir mit Fritzmark erzielten 25% auf einem 4 Kerner+HT wären mir jedenfalls zu wenig, um die Kompensation des Such-Overheads anzunehmen. Probier' doch verschiedene Programme aus. 1 Minute Analyse einer Test-Mittelspielstellung (selbstverständlich immer die gleiche) und sehen, welche Engine wie viel mehr Knoten schafft. Wenn ich mich recht erinnere kam die Stockfish-Version aus meinem Test mit HT auf ca. 40% höhere Knotenleistungen (und schien, wie gesagt, in etwa den Nachteil des höheren Suchaufwandes zu kompensieren). Übrigens gibt es Programme, mit denen man bei dem Test dafür sorgen kann, dass Engines nur auf echten Kernen laufen. Man muss dann nicht jedes Mal im BIOS HT abschalten (was bei meinem Notebook seit Windows 8.1 auch gar nicht mehr geht).

Viele Grüße
Th. Plaschke

By Benno Hartwig Date 2016-01-31 22:36 Edited 2016-01-31 22:39

> Man muss dann nicht jedes Mal im BIOS HT abschalten...

Zumindest bei meinem i3-Notebook fand ich solch eine Option gar nicht. HT ist immer aktiviert.
Ist das ggf. die übliche Situation auch auf vielen (den meisten?) anderen Rechnern?

Aber auch so kann ich 4 Threads nutzen oder auch nur 2.
Bei 4 Threads ist die Knotenleistung des einzelnen Threads etwas größer als halb so groß wie bei Nutzung von nur 2 Threads.
Ich interpretiere das so:
- bei 2 Threads hat jeder der Threads einen realen Kern für sich
   Er ist schnell, kann aber die HT-Vorteile (noch "dichtere Packung" der Befehle) nicht nutzen.
- bei 4 Threads trägt jeder reale Kern 2 Threads
   Sie können sehr "dicht gepackt" werden (Prozessor hat kaum Wartezeiten, in denen kein Thread bedient wird)
   darum zusammen etwas höhere Knotenleistung, aber jeder Thread bekommt nur die Hälfte dieser Knoten abgearbeitet.

Es wäre schön, wenn jemand dies so bestätigen oder widerlegen könnte, der auf seinem Rechner HT auch im BIOS deaktivieren kann.
Hier also die Frage: ist die Knotenleistung bei 2 Threads gleich groß, wenn HT aktiviert oder deaktiviert ist (bei einem 2-Kern-Rechner)?

Benno

By Thomas Plaschke Date 2016-02-01 00:16

>Aber auch so kann ich 4 Threads nutzen oder auch nur 2.

Richtig. Aber Du kannst bei 2 Threads nicht bestimmen, auf welchem Core die Threads laufen. Ich nutze ein Programm, mit dem man genau das für jede Engine steuern kann. Geschwindigkeitsplus meistens mehr als 10% für 2 Threads (wenn sie auf verschiedenen Kernen laufen). Wir hatten vor einiger Zeit einen Austausch darüber hier im Forum.
Weißt Du, ob Andreas das bei seinem Test 2 Threads gegen 4 Threads berücksichtigt hat?

>..."dichtere Packung" der Befehle...

Diese Analogie gefällt mir nicht. Für Intel enthält ein multithreaded Core zwei Ausführungspfade. Nicht nur deswegen gefällt mir der Vergleich mit einer Richtungsfahrbahn, auf der Daten und Befehle in den HT-Kern fahren besser. Im HT-Kern verbreitet sich die Fahrbahn auf zwei Spuren, auf denen auch überholt werden kann. Bei der Ausfahrt aus dem HT-Kern wird's wieder einspurig.

>Hier also die Frage: ist die Knotenleistung bei 2 Threads gleich groß, wenn HT aktiviert oder deaktiviert ist (bei einem 2-Kern-Rechner)?

Für den Fall, dass HT nicht ausgeschaltet, sondern "ausgetrickst" wird, ist meine Antwort: Ja. - Ich kann bei meinem Notebook HT auch nicht (im BIOS oder sonstwo) abschalten.
Auf meinem i3-Notebook hatte ich T2D-Tests durchgeführt. 2 Threads auf verschiedenen Cores waren durchschnittlich schneller in der Tiefe als 4 Threads mit HT. Der Test (Dauer des Stockfish-Benchmarks bei steigender Rechentiefe) ging aber nur bis 19 Hz Rechentiefe, glaube ich. Bei geringen Tiefen war der Abstand recht klar zu erkennen. Bei größeren Tiefen schien er sich zu verringern. Außerdem war bei 4 Threads (mit HT) der Abstand zwischen Minimum- und Maximumdauer zum Teil bei über 40% während die 2 Threads (auf verschiedenen Cores) deutlich niedrige Differenzen zeigten. Deswegen wird das mit ein, zwei Vergleichen auf dem eigenen Rechner nicht getan sein. - Der Test beschäftigte mein Notebook über einen Tag, um an die Rohdaten zu kommen.

Viele Grüße
Th. Plaschke

By Ingo B. Date 2016-02-01 08:25

Thomas Plaschke schrieb:

Besser wird die Analogie mit einer einspurigen Straße bei der ab und zu die Standspur freigegeben wird. Das vermeidet man auch wenn man nicht muß.

Bei modernen Intels ist es nachdem was ich so gesehen habe "im Schnitt", also über viele Enignes, wohl egal ob ich HT nutze oder nicht (ob es etwas bringt?). Insofern würde ich bei einer Analyse wahrschlich alle Kerne nutzen. Bei Engine-Engine Matches hätte ich etwas Bauchschmerzen weil früher (XP64) der Windows Scheduler die Kerne nicht gleichäßig verteilt hat. Da kam es schonmal vor, dass eine Engine 2 volle Kerne und eine andere zwei HT Kerne bekam (ist aber lange her ...). Ob eine Engine mit einem echten Kern und einem HT Kern wirklich besser ist weiß ich nicht, ist aber auch egal wenn die andere Enigne auch zwei solche Kerne bekommt.
Sehen wirs mal so: Ein einzelnes Spiel (1Core+1HT) gegen (1C+1HT) hätte ich ein komisches Gefühl, 5000 solcher Spiele sollten ok sein, da sich ein evtl. Nachteil statistisch ausgleicht (wobei man dann natürlich niemals ein einzelnes Spiel betrachten sollte).

Kurz Schach und HT ist immer noch eine komplizierte Sache. Wenn man damit leben kann, dass die Spiele ohne HT auch schon viel besser sind als jeder Mensch, ist HT-Off die sicherere Variante. Wenn man nichtssagende Knoten aber als "...verlängerung" braucht machts mans halt mit. (Knoten sind wie Alufelgen, sieht halt besser aus

Gruß
Ingo

By Frank Brenner Date 2016-02-01 15:16

> 2 Threads auf verschiedenen Cores waren durchschnittlich schneller in der Tiefe als 4 Threads mit HT

Selbst Time-To-Depth ist zur Beurteilung der Multiprozessorspielstärke im Allgemeinen bzw. der Abwägung ob Hyperthreading einen Vorteil bringt oder nicht, nicht das geeignete Mittel zur Beurteilung.

Vor einigen Monaten gab es im CCC von Larry Kaufman die Aussage, dass Komodo den Suchbaum dichter durchsucht wenn mehrere Threads rechnen, und zwar nicht nur quantitativ dichter (was ja immer so ist und nicht zu vermeiden ist, da sich die Suche nicht perfekt parallelisieren lässt) sondern auch qualitativ dichter.
Damals gab es mit Bob Hyatt ein streitgespräch über diesen Sachverhalt. Später habe ich dann noch in Erinnerung dass diese qualitativ dichtere Suche vom Komodo Team entweder abgeschwächt wurde oder komplett eliminiert.... ich glaube aber das erstere.

Von daher bleibt einem nichts anderes übrig als ein Turnier zu spielen mit sehr vielen Spielen.

Darüber hinaus kann ich mir vorstellen dass der Performance Sprung von 2-Threads @ 2 cores vs. 4-Threads @ 2 cores größer ist als bei 4-Threads @ 4 Cores vs. 8-Threads @ 4 Cores. Im Exremfall könnte im ersten Fall HT noch ein Vorteil bringen und im zweiten fall nicht.

By Michael Scheidl Date 2016-02-01 16:47

Zitat:

Von daher bleibt einem nichts anderes übrig als ein Turnier zu spielen mit sehr vielen Spielen.

Ein Turnier ist nur ein Ausspielen von 97% uninteressanten, ursprünglich aussagelosen Stellungen.

Als alter Testsuite-Freak halte ich diese Vergleichsmöglichkeit für - vielleicht nicht besser, aber - viel schneller: Wer unter identischen Bedingungen mehr schwierige Bestmoves findet, ist stärker. Die Methode mag diskutabel sein, aber sie ist schachlich orientiert und spart außerdem 99% der Zeit an dümmlichem Herumgeschiebe. Man testet das was wir von Engines primär wollen:

Zeig mir so schnell wie möglich die entscheidenden Züge!

(Man benötigt allerdings sehr große, sehr schwierige Sammlungen heutzutage.)

Der stilbedingte Dummfug in Stellungen wo 17 Züge vermeintlich oder tatsächlich gleichwertig sind, +/- 0,15 BE., ist uninteressant. D.h. wer zum Abklären der gegenständlichen Frage abertausende von Partien spielt, verschwendet unglaublich viel Zeit und Energie.

By Kurt Utzinger Date 2016-02-01 16:56

Michael Scheidl schrieb:

[...]
(Man benötigt allerdings sehr große, sehr schwierige Sammlungen heutzutage.)
[...

Hallo Michael
Bin mit Deinem Beitrag einverstanden. Du weisst sicher in der Schnelle, wo es
eine derart grosse, sehr schwierige Sammlung von Stellungen gibt, oder?
Mfg
Kurt

By Michael Scheidl Date 2016-02-01 17:10

Ja: Als Zusammenfassung zahlreicher kleiner, (sehr) schwieriger Stellungstests

Das muß man sich selber zusammenbasteln.

By Benno Hartwig Date 2016-02-01 17:21

> und spart außerdem 99% der Zeit an dümmlichem Herumgeschiebe.

Ich habe ja immer die Befürchtung, eine Engine könnte vielleicht echt besonders gut solche tollen Lösungen finden

,
würde aber vielleicht unter den ungefähr gleichguten Zügen häufig einen wählen, der eben doch letztlich spürbar schlechter ist als der Beste.

Ich befüchte, solch eine Engine wäre trotz ihrer Finde-Erfolge im praktischen Spiel gar nicht besonders erfolgreich.
Hast du solch eine Befürchtung nicht?

Benno

By Michael Scheidl Date 2016-02-01 17:36

Nein, denn der Enginesport ist für mich nur eine Nebensache. Wobei man sagen kann, das Talent für das eine geht mit dem Talent für das andere sehr eng konform. D.h. eine Engine die in der Analyse schnellstmöglich die besten Züge liefert und hierbei einen Podestplatz erringt, wird auch in praktischen Partien nahe den Top-3 sein. Die genaue Rangfolge mag sich geringfügig unterscheiden, aber relativ zu einem Menschen haben +/- 50 Elo eh keine Bedeutung mehr.

Diese Behauptung wird sich umso besser beweisen lassen, je größer (und garnicht einmal notwendigerweise besser) die herangezogene Testsuite ist. Ich glaube beispielsweise daß es wichtiger ist, gemäßigt schwierige Aufgaben zu 99% zu lösen, als äußerst schwere zu 50%. Denn erstere entscheiden Partien, aber letztere sind nur Kuriositäten über die GMs schmunzeln...

By Ludwig Buergin Date 2016-02-01 17:45

Hallo Benno

Deine Befürchtungen sind unbegründet.Genau so ist es in der Realität.Jede gute Engine wird im Ablauf ihres Spieles kaum in solche unpassenden Stellungen kommen.

Gruß Ludwig

By Ingo B. Date 2016-02-01 19:41

Michael Scheidl schrieb:

Als alter Testsuite-Freak halte ich diese Vergleichsmöglichkeit für - vielleicht nicht besser, aber - viel schneller: Wer unter identischen Bedingungen mehr schwierige Bestmoves findet, ist stärker. Die Methode mag diskutabel sein, ....

Die Methode ist nicht diskutabel, sie ist falsch!
Die Größe des Stellungstest spielt dabei keine Rolle. Man passt zu Anfang das Ergebniss des Stellungstest immer den Gegebenheiten an (Ranglistenorientiert) und mit fortschreitender Enginespielstärke läuft er irgendwann aus dem Ruder.

Wenn es dir um Schnelligkeit geht schlage ich Würfeln vor.

http://computerschach.de/Files/2005/Was%20Stellungstests%20testen.pdf

Habe mir den Link extra weggelegt, weil man den in regelmäßigen Abständen immer mal wieder braucht.

Nach diesem Artikel verschwanden die ganzen damaligen Stellungstester von der Bildfläche. Die Computerschachgemeinschaft vergisst und ich habe das Gefühl Stellungstests werden wieder populär. Na ja, Zweifler am Darwinismus sind auch immer mal wieder da.

Gruß
Ingo

PS Kaum zu glauben schon zehn Jahre alt ...

By Walter Eigenmann Date 2016-02-02 01:18 Upvotes 2

Ingo B. schrieb:

Die Größe des Stellungstest spielt dabei keine Rolle. Man passt zu Anfang das Ergebniss des Stellungstest immer den Gegebenheiten an (Ranglistenorientiert) und mit fortschreitender Enginespielstärke läuft er irgendwann aus dem Ruder.

Da hast du irgend was falsch verstanden: Die Grösse eines Stellungstests spielt eine grosse Rolle - mehr allerdings noch die Qualität seiner Aufgaben. Und beides verhindert,
dass der Test eben nicht "aus dem Ruder" läuft, sondern recht präzise Prognosen bezüglich Engine-Stärke erlaubt.
Will sagen: Wenn 20 Engines ein Test-Set von mind. 300 eindeutigen, mittelschwierigen und thematisch weitgestreuten Stellungen mit je 30 Sekunden abarbeiten,
bilden ihre Lösungs-Bilanzen ziemlich genau jene Ranglisten ab, wie sie nach 1000 Partien/Engine so +/- auch bei CEGT & Co. entstehen. Nur einfach um ein Vielfaches schneller -
da hat Michael Scheidl oben sehr gut den Point getroffen.

Denn Engine-Spielstärke in Schachpartien ist grundsätzlich nix anderes als die Fähigkeit, die stärksten Züge zu finden - je mehr, desto besser.
Und nichts anderes misst ein gut konzipierter Stellungstest.

Daran rütteln auch die angeblich so gewaltigen MP-"Zufälligkeiten" der modernen Programme bei der Züge-Auswahl nix.

Wie das Design eines solchen Stellungstests aussähen könnte, habe ich übrigens vor knapp acht Jahren hier mal zu skizzieren versucht:
http://glarean-magazin.ch/2008/05/14/neues-test-verfahren-fuer-schach-programme-b-e-t/
In Details würde ich heute da und dort aktualisieren, aber der Kern des Artikels trifft nach wie vor zu.

Also, nach deinem Post hätte ich nicht übel Lust, diesen B-E-T ("Barometer-Engine-Test") wieder aus der Mottenkiste hervorzukramen, seinen Schwierigkeitsgrad
durch Auswechseln eines Teils seiner Stellungen den heutigen Gegebenheiten anzupassen bzw. anzuheben - und hier jeweils ein paar Stunden nach
Erscheinen irgend einer neuen Engine deren Platz in der Hierarchie der Programme mit einer Präzision von +/- 5 % zu benennen -
also ca. zwei Wochen bevor CEGT & Co. ihre abertausend ungesehenen Partien durchgenudelt haben

Ingo B. schrieb:

<a class='urs' href='http://computerschach.de/Files/2005/Was%20Stellungstests%20testen.pdf'>http://computerschach.de/Files/2005/Was%20Stellungstests%20testen.pdf</a>
Habe mir den Link extra weggelegt, weil man den in regelmäßigen Abständen immer mal wieder braucht.

Ich habe damals mit Lars Bremer ausgiebig auch im privaten Mail-Verkehr über die Thematik (und dieses sein Fazit) diskutiert. Es ging ja um die Frage, ob es gelingen könnte,
einen Stellungstest quasi auf eine statistisch einwandfreie "Basis" zu stellen, bzw. die Auswahl seiner Stellungen so zu gestalten, dass die Lösungs-Ergebnisse der Engines
ein exaktes Spiegelbild der allgemein anerkannten Rankings spiegeln, um anschliessend Engine-Neuerscheinungen zuverlässig einordnen zu können.
Und um dies praktikabel zu machen, schrieb Lars extra ein entspr. kleines Selektions-Progrämmchen. Seinerzeit habe ich dieses Verfahren (aus beruflichen Gründen)
nicht mehr weiter verfolgen bzw. verfeinern können - seinen Ansatz finde ich aber heute noch sehr vielversprechend.

Ingo B. schrieb:

Nach diesem Artikel verschwanden die ganzen damaligen Stellungstester von der Bildfläche.

Nö - hättest du wohl gerne

Zumindest einen gibt es noch, der da sagt: Stellungstests sind die schachliche Antwort auf CEGT & Co. ...

Womit ich rein nix gegen die statistisch orientierten Tester der Community sage. Im Gegenteil: ich schaue immer wieder direkt in die CEGT-/CCRL-Partien rein,
geniesse dort teils schlicht phantastische Computer-Schachzüge, nutze das Partienmaterial für eigene Experimente - und bedanke mich bei dieser Gelegenheit
einfach auch hier mal explizit für die nun bald zehnjährige (!) Unermüdlichkeit, mit der die beteiligten Tester alle ihre Ergebnisse permanent und unentgeltlich
für die Community aufbereiten. Ein wirklich unverzichtbarer Dienst an unserem Hobby, den wir hier alle mehr oder weniger als selbstverständlich entgegennehmen...

Ingo B. schrieb:

Die Computerschachgemeinschaft vergisst...

Das ist natürlich Unsinn, Ingo: gerade ein Internet-Forum vergisst nie...

Und wenn doch: höchste Zeit, dass Stellungstester W.E. hier mal wieder Präsenz markiert

Im Ernst: Es wäre doof, die eine Computerschach-Disziplin gegen die andere auspielen zu wollen,
das wäre Schach-Ignoranz pur (und ausserdem grund- und sinnlose Hobby-Desavouierung...)

Compi-Schach-Stellungstests und Compi-Schach-Turniere sind zwei Seiten einer Medaille.

Gruss: Walter

.

By Michael Scheidl Date 2016-02-02 05:55

Wobei ich mich damit ursprünglich nur auf die "gegenständliche Frage", also Abklärung ob ein konkretes System mit oder ohne Hyperthreading stärker ist, bezog.

By Ludwig Buergin Date 2016-02-02 09:16

Hallo Michael

Deine Frage ist, mit HT oder ohne HT (Hyperthreading).Für Engine testen,ich verstehe darunter das gleichzeitige Spielen mehrerer Programme zum Zwecke einer Einordnung der Spielstärke auf einem PC,würde ich wohl ohne HT bevorzugen.Beim Stellungstesten ist je nach Bediener das mit HT eher angebracht.Beim Spielen auf dem CB- Server habe ich schon Beides ausprobiert. Ohne HT sind für mich die Spielabläufe in der Analyse besser zu verstehen.In letzter Zeit spiele ich wieder auf den Servern mit HT.Gefühlsmäßig sind die Spielabläufe für mich schwieriger, deshalb aber für mich interessanter.

Gruß Ludwig

By Benno Hartwig Date 2016-02-02 10:16

Hast du eine Idee, warum HT-Nutzung Spielabläufe "schwieriger" werden lassen könnte?
Ich hatte gedacht, es geht nur(!) darum, ob ein und dasselbe Programm eher etwas schneller oder etwas langsamer auf Tiefe kommt.

Falls HT also wirklich Vorteile bringt, dann könntest du bei 10s/Zug mit HT ungefähr die Züge bekommen, die du sonst bei z.B. 12s/Zug erhalten würdest.
Wodurch eine irgendwie sonst geartete andere "schwierigere" Zugqualität hereinkommen sollte, ist mir unklar.

Benno

By Frank Brenner Date 2016-02-02 12:30

> Ohne HT sind für mich die Spielabläufe in der Analyse besser zu verstehen. In letzter Zeit spiele ich wieder auf den Servern mit HT. Gefühlsmäßig sind die Spielabläufe für mich schwieriger, deshalb aber für mich interessanter.

Ich fürchte der thread hier ist bereits ausgeufert.

Bei dem Nivo kann ich ja gleich meinen Hund befragen. Vielleicht bellt er ja mit HT lauter als ohne.

By Kurt Utzinger Date 2016-02-02 13:13

Frank Brenner schrieb:

[...]
Bei dem Nivo kann ich ja gleich meinen Hund befragen. Vielleicht bellt er ja mit HT lauter als ohne.

Hallo Frank
Du hast einen Hund?
Gruss
Kurt

By Frank Brenner Date 2016-02-02 13:46

Ja, sogar 2.

By Kurt Utzinger Date 2016-02-02 14:00

Frank Brenner schrieb:

Ja, sogar 2.

Schön ... ich sende Dir eine private Nachricht mit einem Link zu unserer schönen Website des Hundevereins.
Gruss
Kurt

By Olaf Jenkner Date 2016-02-04 00:33

Ogottogott.....

By Kurt Utzinger Date 2016-02-04 08:28

Olaf Jenkner schrieb:

Ogottogott.....

????????

By Ludwig Buergin Date 2016-02-04 12:30

Ogottogott .Ist ein in früheren Zeiten gebräuchliches mildes Wort von überrascht oder verwundert sein.

Gruß Ludwig

By Benno Hartwig Date 2016-02-04 14:11

Ein Wort welches auch in die Dichtung Eingang fand:
http://www.lyrikline.org/de/gedichte/ottos-mops-1232#.VrNN1lKDtC8
Benno

By Ingo B. Date 2016-02-02 08:40

Walter Eigenmann schrieb:

Da hast du irgend was falsch verstanden: Die Grösse eines Stellungstests spielt eine grosse Rolle ...

An der Stelle bin ich raus. Sollange ein Stellungstest nicht die Größe der Millionen Stellungen, die in ein paar tausend Partien produzieren, erreicht (und das kann er nie) ist das einfach Wunschdenken.

Ich habe da etwas falsch verstanden, aber wenigstens nicht die den Artikel.

Gruß
Ingo

By GS Date 2016-02-02 15:39

Ingo hat natürlich vollkommen recht. Diese "Art" des Testens ist längst verschwunden.
Und weshalb ? Zurecht !

Ich habe viel vergessen zum einstigen Thema, eines jedoch weiss ich noch heute:
es war eine lustige Zeit damals.

Da wurden Tests "auf den Markt geworfen", welche sogar eine Art ELO-Zahl im Namen hatten
in der Art: "XY-Test-2450".
Dazu wurde eine willkürliche "Basiszahl" genommen, danach die Gesamtlösezeiten und die
Anzahl der gelösten (oder auch nicht gelösten) Stellungen irgendwie mit-oder ineinander
verrechnet und noch irgendetwas vollkommen dubioses dazugemixt und fertig war der ELO-Wert.

Wenn es kurze Zeit später überhaupt nicht mehr gepasst hat wurde die eine oder andere
"Aufgabe" einfach gelöscht und neue kamen dazu. Der Test erhielt dann einfach einen anderen
Namen, z.B.: "XY-Test-2600a/b/c/d etc. etc."

Gar nie haben solche Tests berücksichtigt, dass viele dieser Lösungszüge mit total unpassender
Bewertung und/oder Hauptvariante einher gingen, Hauptsache war: "gelöst ist gelöst".
Damals wurde das (übrigens unrichterweise) bezeichnet als:
"richtiger Zug aus falschem Grund". Das hätte natürlich heissen müssen:
"richtiger Zug ohne Grund".

Ich hatte seinerzeit einige Dinge aufgedeckt diesbezüglich, es wurde dann auch sehr schnell
sehr ruhig um diese Art des Testens.
An eine Sache kann ich mich noch gut erinnern:
Engine A, damals erwiesenermassen deutlich stärker als Engine B, lag in solch einem "Test"
hinter Engine B. Ich bin dann hergegangen und habe ein Match aus allen Stellungen
spielen lassen, welche Engine B gelöst hatte (9), Engine A jedoch nicht. Alles waren
so-called Gewinnzüge. Das Match hätte also 9-0 für Engine B ausgehen müssen. Die Realität
jedoch lies Engine A das Match sogar gewinnen, ich glaube es war ein 5.5-3.5 !!

By Benno Hartwig Date 2016-02-02 16:15 Edited 2016-02-02 16:18

> Diese "Art" des Testens ist längst verschwunden.

Ich denke da aber auch besonders an die Zeit,
- als die Plastik- und Holzkisten gegeneinander antraten,
- als die Spielzeiten noch nicht so sehr kurz sein durften, wenn der Rechner denn überhaupt etwas auf Tiefe kommen sollten
- in der die Züge manuell von einem Rechner zum anderen übertragen werden mussten.
- als allenfalls SSDF mit leidlich großen Partienzahlen aufwarten konnten.

Damals war das Ergebnis eines Stellungstest wenigstens überhaupt mal eine fixe Einschätzung,
und erst viel Aufwand vermochte bei SSDF etwas Genaueres zu bieten.
Also warten auf die nächste CSS und hoffen, dass da wieder eine SSDF-Liste drinnen ist.

Heute wird bei Interesse schnell ein Turnier bei Bulkzeiten angeworfen, auf einer Kiste mit 4 Kernen,
und 24 Stunden später hast du eine schon ganz anständige Einschätzung!
Und selbst wenn du genau dieses Biulk-Rating frech nimmst als Schätzung der Spielstärke auf Turnierstufe,
dann hast du noch eine leidliche Genauigkeit, die ein Stellungstest denn erst mal erreichen soll!

Trotzdem will ich gern anerkennen, dass Stellungstests sehr interessant sein mögen.
Die Identifikation, was die einzelne Engine erkennt, und was sie nicht erkennen kann.
Und eben, was die eine von der anderen Engine unterscheidet.
Worin ihre Stärken und Schwächen liegen.
Welche Überraschungen, so oder so, sie bereit hält.

Benno

By Walter Eigenmann Date 2016-02-03 19:17

Benno Hartwig schrieb:

Trotzdem will ich gern anerkennen, dass Stellungstests sehr interessant sein mögen.
Die Identifikation, was die einzelne Engine erkennt, und was sie nicht erkennen kann.
Und eben, was die eine von der anderen Engine unterscheidet.
Worin ihre Stärken und Schwächen liegen.
Welche Überraschungen, so oder so, sie bereit hält.
Benno

Sehr einverstanden - das alles sind in der Tat Motive, die die Beschäftigung mit Stellungstests
erst wirklich zum Schach-Spass pushen, jenseits aller Ranking-Generierung.
Und wenn aus dieser Arbeit dann noch Test-Sets resultieren sollten, aus denen man
Rückschlüsse ziehen kann aufs spätere Turnier-Verhalten von neuen Engines, ja dann erst
ist der echte Stellungstester wirklich glücklich

Allerdings hast du nochmals recht: zu SSDF-Zeiten war das alles viel leichter...

Gruss: Walter

.

By Frank Brenner Date 2016-02-02 11:08

Auch wenn Du mit Kurt einen Fan hast, so wird es einem heutzutage nicht mehr gelingen so eine Sammlung an Teststellungen zu erstellen.

Es dürfen nämlich nicht nur Teststellungen (so wie früher) sein mit "unglaublichen" Schlüsselzügen (so wie beim WM Test, BT usw) , sondern der weit überwiegende Teil der Teststellungen müsste extrem langweilige Schlüsselzüge haben die lediglich ein winzig kleines bißchen besser sind als die anderen.

Du must bedenken, dass zb ein dichterere Suchbaum (von zb Komodo) nicht zwingenderweise einen Taktisch besseren Zug hervorbringt sondern weit überwiegend nur einen Zug der die Positionelle bewertung ein winzig kleines bißchen verbessert.

Im Allgemeinen halte ich Stellungstest selbst mit solchen Stellungen aber für vollkommen ungeeignet.

By Walter Eigenmann Date 2016-02-03 19:28

Frank Brenner schrieb:

Es dürfen nämlich nicht nur Teststellungen (so wie früher) sein mit "unglaublichen" Schlüsselzügen (so wie beim WM Test, BT usw) , sondern der weit überwiegende Teil der Teststellungen müsste extrem langweilige Schlüsselzüge haben die lediglich ein winzig kleines bißchen besser sind als die anderen.

Du meinst also solche wie eben diesen hier:
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?tid=8828

Die Herausforderung ist da natürlich dieses "winzig kleines bisschen besser" zu eruieren im grossen Datenpool...
Und wenn man sich bei solchen Stellungstests auf die jeweilige Bewertung der Programme verlässt, macht man quasi den Bock zum Gärtner; Man nimmt dann das Ergebnis vorweg, das es eigentlich zu prüfen galt...

Frank Brenner schrieb:

Im Allgemeinen halte ich Stellungstest selbst mit solchen Stellungen aber für vollkommen ungeeignet.

"Ungeeignet" wofür"? Und warum?

Gruss: Walter

.

By Frank Brenner Date 2016-02-04 00:24 Upvotes 1

Stellungstests sind geeignet um eine grobe Einschätzung der Spielstärke zu ermitteln.
Zb kann man mit ein paar dutzend Teststellungen sehr schnell feststellen dass Stockfish 7 besser ist als zb Shredder 6.0

Und man kann auch sehr schnell herausfinden dass Shredder 6.0 besser ist als Mephisto MM V

Im letzteren Fall sollte man aber andere Teststellungen nehmen als im ersten Fall, denn Taktikstellungen in denen Stockfish 7 schon ein paar Sekunden für benötigt wird Mephisto MM V auch nicht nach einem Monat lösen können.

Eine sehr grobe Ermittlung der Spielstärke im Bereich +/- 800 ELO ist also recht einfach möglich.

Wenn man die Genauigkeit erhöhen möchte, zb +/- 250 Elo Punkte so denke ich, würde dies auch noch möglich sein wenn man sich sehr anstrengt.

Eine sehr exakte Ermittlung der Spielstärke zb im Bereich +/- 20 Elo ist aber so ohne weiteres mit Stellungstests nicht möglich.
Wenn man eine so genaue Ermittlung der Spielstärke nur anhand von Teststellungen erreichen möchte so müssen folgende Bedingungen erfüllt sein

+ mehrere tausend Teststellungen
+ Nur ein kleiner Teil der Teststellungen sind klassische Taktikstellungen mit einem echten "Weiß gewinnt" oder "Weiß hält remis" oder "Weiß erbeutet Material"
+ Die restlichen, also der aller größte Teil der Stellungen sind langweilige 0 - 8 - 15 Stellungen aus der täglichen Praxis, wo lediglich getestet wird wie "gut" der Zug ist.

Wie "gut" ein Zug ist, ist dabei noch die große Variable. Aber um eine Genauigkeit von +/- 20 Elo zu erzielen benötigt man auch Informationen über die Fähigkeit einer Engine positionell gut zu spielen,
also Züge zu finden die nicht Material gewinnen sondern die das Potential haben in der Zukunft der Partie der Engine möglichst viele spielbare Züge pro Stellung zu ermöglichen und dem Gegner möglichst wenige und schwer zu findende spielbare Züge pro Stellung zu gewähren, so dass die Wahrscheinlichkeit steigt, dass der Gegner im Verlauf der Partie einmal fehlgreift.

Hier gibt es überhaupt noch keine Idee wie man das im Rahmen eines Stellungstests bewerten könnte, also zu bewerten wie "gut" ein zug ist.

Übrigens ist es - entgegen der Meinung vieler Fans hier im Forum - völlig egal ob die Engine einen Lösungszug per Zufall wählt oder ihn beweiskräftig mit richtiger Variante berechnet hat.
Es ist ausserdem völlig belanglos ob ein einzelner Stellungstest abgebrochen wird 1/100 Sekunde bevor die Engine den Lösungszug anzeigt oder nicht.

Wenn man die Forderung nach einer exakten Berechnung der Spielstärke fallen lässt, so sind Stellungstest natürlich wunderschön.
Vor allem Taktische Stellungstests machen viel spass.
Ich kann mich noch an einem Artikel in der Css erinnern als Frederic Frieden den Mephisto Portorose getestet hat.
Er war von den taktischen Fähigkeiten des Portorose so sehr positiv überrascht dass er gesagt hat, er würde den Mephisto Portorose auch kaufen wenn sich der Stromstecker auf dem Feld E4 befinden würde.

In der täglichen Praxis wird man (also der Mensch) auch kaum ständig gegen die Engine spielen (verliert ja sowieso), sondern man verwendet die Engine um interessante Stellungen zu analysieren oder partien nachzuspielen, oder Abbruchstellungen zu analysieren...

Beim Nachspielen von partien ist es dann interessant wie sehr die Engine einen Zug des Menschen bestraft gegenüber den besten enginezugvorschlag, zb mit nur -0,1 oder -0,4 oder mit einem taktischen fehler -2,5 usw....

By Michael Scheidl Date 2016-02-04 01:59

Zitat:

...Fähigkeit einer Engine positionell gut zu spielen, also Züge zu finden die nicht Material gewinnen sondern die das Potential haben in der Zukunft der Partie der Engine möglichst viele spielbare Züge pro Stellung zu ermöglichen und dem Gegner möglichst wenige und schwer zu findende spielbare Züge pro Stellung zu gewähren, so dass die Wahrscheinlichkeit steigt, dass der Gegner im Verlauf der Partie einmal fehlgreift.

Hier gibt es überhaupt noch keine Idee wie man das im Rahmen eines Stellungstests bewerten könnte, also zu bewerten wie "gut" ein zug ist.

Sehr richtig; das ist ein Grundproblem in dieser Hinsicht.

Es gibt eine "Strategic Test Suite" mit 14 Kapiteln und sehr zahlreichen Stellungen:

https://sites.google.com/site/strategictestsuite/

aber ich weiß nicht wie verläßlich, aussagekräftig oder überhaupt brauchbar sie ist, da ich sie noch nie benutzt habe

Irgendwelche Resultatsübersichten oder so haben sich nicht in den Vordergrund gedrängt oder ich habe sie übersehen. Dennoch sicherlich ein Kandidat um in eine Sammlung (tausender) aufgenommen zu werden.

By Thorsten Czub Date 2016-02-07 12:08

Lass shredder 6 doch mal auf einem 6502 mit 5 MHz rennen und gegen andere Geräte dieser Gattung spielen.
Und dann gucken wir nochmal wie stark das Gerät ist.

By Frank Brenner Date 2016-02-07 13:50

MM 5 ist hochoptimiert auf 8 Bit additionen und kommt ohne multiplikationen aus, weil multiplikationen auf einem 6502 nicht möglich sind.

Shredder 6 macht durchweg 32bit arithmetik. Ein hardwarebereinigender Vergleich ist also recht schwierig.

Ed Schröder hat damals glaube ich den 8 Bit rebel auch auf eine 32 bit chessmachine neu programmiert (maschinencode) , später dann auf intelhardware (maschinencode). Hier könnte man dann anfangen zu überlegen wie groß der Unterschied wäre bei gleicher Hardware.

Ich schätze mal softwaremäßig dürfte shredder 6 etwa 350 elo stärker sein als MM5.

By Thorsten Czub Date 2016-02-07 14:15

???

die Hardware auf der mm5 läuft hat ein 32 KB eprom.
Und 8 KB RAM und alles in 8 Bit.

Ich denke wenn der shredder gezwungen wäre in der programmgrösse und mit dem kleinen Speicher auszukommen würdest du sehen das deine 350 ELO angeblicher Unterschied zu nichts schmilzen würden.

Alles eine Frage der Ressourcen .

Es ist nicht einfach mit wenig Ressourcen viel elo zu erzielen.
Leute wie ed Schröder oder insbesonders frans morsch waren da Meister ihres Faches.

By Frank Brenner Date 2016-02-07 14:34

> ch denke wenn der shredder gezwungen wäre in der programmgrösse und mit dem kleinen Speicher auszukommen würdest du sehen das deine 350 ELO angeblicher Unterschied zu nichts schmilzen würden.

Da liegst du ganz sicher falsch. SMK müsste dann selbstverständlich die chance haben sein shredder 6.0 komplett neu auf 6502 zu entwickeln - um die Software zu vergleichen.

Selbsterständlich müsste der 6502 dann auch mehrere MB arbeitsspeicher vorgezaubert bekommen um die Software verlgleichen zu können, denn shredder 6 unterstützt hashtabellen.

By Benno Hartwig Date 2016-02-07 15:14

> Alles eine Frage der Ressourcen .

Einem alten Programm reichlich Ressourcen zu geben, wird diesem meist aber auch nicht zu echten Höhenflügen verhelfen.
Es ist eben doch meistens deutlich mehr als nur die schnöden Ressourcen.
Benno