Quantization efforts are currently underway

By Lothar Jung Date 2024-02-28 10:45 Edited 2024-02-28 10:48 Upvotes 1

Das wird die großen Netze merklich beschleunigen.

Siehe hier:

Big transformer 3. Tentative new network arch using smolgen-augmented self-attention from BT2. The plan is to have embedding size 1024, ffn projection size 1024, 32 heads per layer, and 15 total layers with mish activation. Experiments are currently in progress to quantize the dense layers to INT8 or FP8 precision to improve speed, though the gains only start to show at embedding size 2048+ (there is a 50% speedup at 2048). There are also cuda optimizations available, which should reduce latency by 10 to 15%. More info at https://github.com/Ergodice/lczero-training/blob/attention-net-body/README.md
Last updated: 7/17/23

By Max Siegfried Date 2024-02-28 11:01

Lothar Jung schrieb:

Das wird die großen Netze merklich beschleunigen.

Siehe hier:

Big transformer 3. Tentative new network arch using smolgen-augmented self-attention from BT2. The plan is to have embedding size 1024, ffn projection size 1024, 32 heads per layer, and 15 total layers with mish activation. Experiments are currently in progress to quantize the dense layers to INT8 or FP8 precision to improve speed, though the gains only start to show at embedding size 2048+ (there is a 50% speedup at 2048). There are also cuda optimizations available, which should reduce latency by 10 to 15%. More info at <a class='ura' href='https://github.com/Ergodice/lczero-training/blob/attention-net-body/README.md'>https://github.com/Ergodice/lczero-training/blob/attention-net-body/README.md</a>
Last updated: 7/17/23

Ich freue mich schon auf die großen 10240x320x150 Netze.

By Wolfram Bernhardt Date 2024-03-04 15:10 Upvotes 1

Hi!

Kann jemand kurz erklären, was "smolgen-augmented self-attention" ist?

By Lothar Jung Date 2024-03-04 15:58 Upvotes 2

Aus meinem Unterforum “Schachprogrammierung”:

In der KI bezieht sich der Begriff "Attention policy" normalerweise auf eine Strategie oder ein Regelwerk, das von einem Modell verwendet wird, um zu bestimmen, wie es seine Aufmerksamkeit auf verschiedene Teile der Eingabe richten soll. Das Konzept der Aufmerksamkeit hat sich als nützlich erwiesen, um komplexe Zusammenhänge zwischen Eingabe- und Ausgabedaten besser zu modellieren.

Ein gängiges Beispiel für den Einsatz von Attention ist in der sogenannten "Attention-based Neural Networks" oder "Attention Mechanism". Diese Mechanismen werden häufig in der Verarbeitung natürlicher Sprache, maschinellem Übersetzen und Bildverarbeitung eingesetzt.

Die Attention policy in einem Attention-basierten Modell besteht typischerweise aus Gewichtungen oder Wahrscheinlichkeiten, die den Eingabeelementen zugeordnet sind. Diese Gewichte geben an, wie wichtig oder relevant jeder Eingabevektor für das Modell ist. Durch die Anpassung dieser Gewichte kann das Modell seine Aufmerksamkeit auf die relevanten Teile der Eingabe konzentrieren und wichtige Informationen für die Vorhersage oder die weitere Verarbeitung hervorheben.

Die genaue Berechnung der Attention policy hängt vom spezifischen Modell und der Anwendung ab. Es gibt verschiedene Ansätze und Varianten von Attention-Mechanismen, wie z.B. dot product attention, additive attention, self-attention (auch bekannt als Transformer-Attention) usw. Die Auswahl der geeigneten Attention policy hängt von den Anforderungen der Aufgabe und den verfügbaren Daten ab.

Insgesamt dient die Attention policy dazu, die Modellleistung zu verbessern, indem relevante Informationen stärker berücksichtigt und unwichtige oder irrelevante Informationen reduziert werden.