Unterschied zwischen CPU und GPU

By Guenter Stertenbrink Date 2019-12-17 03:56 Edited 2019-12-17 04:55

Unterschied zwischen CPU und GPU

mit der CPU kann ich 4 Milliarden einfache Operationen pro Sekunde durchfuehren.
Addieren, Subtrahieren, bit-Vergleiche zwischen Registern, Register ins/aus dem RAM laden,
Sprungverzweigen im Programm.
Mit gewissen Einschraenkungen, Verzoegerungen,Latenzen beim Zugriff
auf den RAM oder Spruengen.

Von der GPU hab ich keine Ahnung, ich nehm an, da kann ich auf allen Tensor-Cores
gleichzeitig einfache Operationen ausfuehren , z.B. 8-bit integer Additionen.
Dafuer allerdings mit grossen Strafen bei Spruengen, RAM-zugriffen.
(wie gross ?)

Anders kann ich es mir im Moment nicht vorstellen
.
----------------------------------------------------

1 Ryzen thread addiert 4e9 Zahlen pro Sekunde = 64e9 8-bit Zahlen mit den 128bit-Registern
RTX2060 addiert ??? int-8 Zahlen pro sekunde ?

--------------------------------------
With CUDA you can program in C but with some restrictions.

•Threads are grouped into blocks.
•Threads in a block can synchronize execution.

Three types of memory in the graphic card:
•Global memory: 4GB
•Shared memory: 16 KB
•Registers: 16 KB
•Latency:
•Global memory: 400-600 cycles
•Shared memory: Fast
•Register: Fast
-------------------------------------------------

CPU version
void vecAdd(int N, float* A, float* B, float* C) { for (int i = 0; i < N; i++) C = A + B; }

GPU version
__global__ void vecAdd(float* A, float* B, float* C) {
int i = blockIdx.x * blockDim.x + threadIdx.x; C = A + B; }

-----------------------------------------------------------
Ryzen Instruction set
AMD64/x86-64, MMX(+), SSE1, SSE2, SSE3, SSSE3, SSE4a, SSE4.1, SSE4.2,
AES, CLMUL, AVX, AVX2, FMA3, CVT16/F16C, ABM, BMI1, BMI2, SHA
---------------------------------------------------------

RTX-2060 , 13 Tflops
Ryzen 2700, CPU , 0.25 Tflops (??) = 8 echte threads*4GHz*(128/16 bit)

-------------------------------------------------------

By dkappe Date 2019-12-17 04:30

GPUs sind massiv Parallele lineare Algebra Maschinen. Die können mit tausenden Matrizen und Vektoren auf einmal umgehen, genau das richtige für grafische Anwendungen und auch neurale Netze. In den NN Engines machen die CPUs alle Schach Sachen und der GPU bewertet die Stellung.

By Guenter Stertenbrink Date 2019-12-17 05:12

ich erinnerere die mmx-Register (64bit) , dann SSE (128-bit).
Also ist die GPU in etwa eine Erweiterung dessen ? Aber ohne all die normalen CPU-Befehle.

Koennte man in dem Sinne nicht weitermachen, also 256-bit,512bit ...
fuer eine kombinierte CPU-GPU ?

RTX-2080ti , 110 Tflops , fp16,tensor
RTX-2060 , 13 Tflops
Ryzen 2700, CPU , 0.25 Tflops (??) = 8 echte threads*4GHz*(128/16 bit)
----------------------------

==> RTX-2080ti ~ 3400 Ryzen-Kerne = 470 Elo = 53 threadrippers

RTX 2080ti = +230 Elo gegen eine 64-threads CPU [wrt. fp16 parallell]

By Thorsten Czub Date 2019-12-17 12:18

Wenn man mal die Tür
aufhalten möchte kann man die Grafik Karten unter die Tür schieben als Keil.
Oder die CPUs mit Motherboard
Im Winter als Schlitten benutzen

By Michael Scheidl Date 2019-12-17 13:19

Ich rieche daß du auf dem richtigen pfad bist, wenn schon sehr stromsparende hardware 8 oder 12 cores hat... schachlich-inhaltlich ist es ja von zweifelhaftem wert was engines über 20 effektive plies hinaus berichten. Das ist meßbar aber nicht in der substanz bewertbar. Was nicht mehr menschlich interpretierbar ist, hat eh keinen wert.

Blöd nur wenn auf solchen Geräten bzw. Betriebssystemen nicht alles läuft was der Computerschachfan schätzt.

By Thorsten Czub Date 2019-12-17 21:15

Habe mit heute einen Thomson to8D angeschaut. Der hat eine Motorola 8 Bit CPU und 1 MHz „speed“.

Jetzt muss ich da nur noch ein Schachprogramm drauf bekommen.

Das da vielleicht...
[url=] https://www.video-games-museum.com/en/game/Cyrus-Echecs/71/3/22911%5b/url%5d

By Guenter Stertenbrink Date 2019-12-18 06:00

aus dem Lc0 -Forum :

-------------------
Both smartphones work well with OpenBLAS engines and embedded weights files like LD2.
Neither have got to work either with OpenCL with embedded networks
such as LD2 or engines with external weights files. They either crash on opening or hang in thinking.
Both Droidfish and Chess for Android UCIs tried with no success with OpenCL but both fine with OpenBLAS.
----------------------------

also, warum opencl, wenn openblas geht ? vermutlich weil opencl schneller ist
benutzt dieses nun die CPU oder die "GPU" (plus 2 threads CPU) des smartphones ?

ARM-GPUs sind meist irgendwie Mali xxx