Qual è la differenza tra apex.amp e torch.amp?

apex.amp è la vecchia libreria di mixed precision di NVIDIA, ora deprecata e non più sviluppata attivamente. torch.amp è il sistema nativo di PyTorch, introdotto con PyTorch 1.6, meglio integrato e supportato. Per la mixed precision moderna usa sempre torch.amp con il GradScaler, senza bisogno di Apex.

Come verifico se i kernel fusi di Apex sono stati installati correttamente?

Dopo l'installazione, prova a importare direttamente i moduli: import apex; from apex.optimizers import FusedAdam; from apex.normalization import FusedLayerNorm. Se l'import funziona senza errori, i kernel CUDA sono disponibili. Un'installazione solo Python (senza compilazione) non solleverà errori ma i kernel fusi mancheranno.

FusedAdam è sempre più veloce di AdamW?

FusedAdam è più veloce quando il numero di parametri è elevato e l'ottimizzatore è il collo di bottiglia, come in modelli con molti layer o batch piccoli. In scenari con pochi parametri o batch grandi, il guadagno può essere trascurabile. Nei nostri test con 60 layer lineari, FusedAdam ha mostrato uno speedup di circa 1.8x.

Come accelerare l'addestramento Transformer con NVIDIA Apex e torch.amp

Accelerare l’addestramento di un Transformer è una sfida concreta. NVIDIA Apex offre kernel fusi come FusedAdam e FusedLayerNorm che ottimizzano la pipeline di calcolo, ma la parte difficile è capire cosa usare oggi e come evitare installazioni che falliscono in silenzio.

In questa guida vediamo come costruire Apex con le estensioni CUDA e C++, testare i kernel disponibili, confrontarli con le versioni PyTorch standard e integrare il tutto con torch.amp per la mixed precision.

Setup dell’ambiente e installazione di Apex

Il primo passo è verificare che CUDA sia disponibile e che il GPU runtime sia attivo. L’installazione di Apex da sorgente con CUDA e C++ extensions richiede circa 10-20 minuti al primo avvio. Se la build fallisce, Apex torna a un’installazione solo Python: in quel caso i kernel fusi non sono disponibili, ma il codice di esempio funziona comunque.

# Controlli iniziali
import torch
assert torch.cuda.is_available()
DEV = torch.device('cuda')

# Build Apex con estensioni
import subprocess, sys
subprocess.run([sys.executable, '-m', 'pip', 'install', '-q', 'ninja', 'packaging'], check=True)
subprocess.run(['git', 'clone', '--depth', '1', 'https://github.com/NVIDIA/apex'], check=True)
env = {'APEX_CPP_EXT': '1', 'APEX_CUDA_EXT': '1', 'MAX_JOBS': '4'}
subprocess.run([sys.executable, '-m', 'pip', 'install', '-v', '--no-build-isolation', '--no-cache-dir', './apex'], env=env)

Dopo l’installazione, controlliamo quali kernel fusi sono effettivamente disponibili con import apex, apex.optimizers.FusedAdam e apex.normalization.FusedLayerNorm.

Benchmark: FusedAdam vs AdamW

Per testare l’ottimizzatore, abbiamo creato un modello con 60 layer lineari e dimensione 512. Il confronto è diretto: stesso modello, stesso learning rate, stesso pattern di passo di ottimizzazione.

AdamW PyTorch: ~12.3 ms per step
FusedAdam Apex: ~6.8 ms per step (circa 1.8x più veloce)

Il guadagno è visibile soprattutto quando l’ottimizzatore è il collo di bottiglia, ad esempio in modelli con molti parametri e batch piccoli. FusedAdam combina più operazioni in un unico kernel CUDA, riducendo la latenza di lancio.

FusedLayerNorm e FusedRMSNorm

La normalizzazione è un altro punto caldo nei Transformer. Abbiamo testato LayerNorm standard di PyTorch contro FusedLayerNorm di Apex su un tensore di dimensione (32, 512, 1024).

nn.LayerNorm: ~1.25 ms per forward + backward
FusedLayerNorm: ~0.72 ms (circa 1.7x più veloce)

Apex supporta anche FusedRMSNorm, la variante usata nei modelli LLaMA, senza la sottrazione della media. Entrambi i kernel fusi producono output numericamente quasi identici agli originali (errore massimo sotto 1e-3).

Mixed precision: apex.amp vs torch.amp

Il sistema di mixed precision legacy apex.amp (con opt-level O0, O1, O2) è stato introdotto anni fa ma oggi è superato. Il codice funziona ancora, ma la documentazione e il supporto si sono spostati su torch.amp.

L’equivalente moderno è semplice:

scaler = torch.amp.GradScaler('cuda')
for data, target in loader:
    optimizer.zero_grad()
    with torch.amp.autocast('cuda'):
        output = model(data)
        loss = loss_fn(output, target)
    scaler.scale(loss).backward()
    scaler.step(optimizer)
    scaler.update()

Non c’è bisogno di Apex per la mixed precision di base. Il vero valore di Apex oggi sono i kernel fusi per ottimizzatori e normalizzazione, non più la gestione dell’ampiezza mista.

Esperimento completo: Transformer con Apex + torch.amp

Nell’esperimento finale abbiamo addestrato un piccolo Transformer con tre configurazioni:

FP32 vanilla: solo PyTorch, precisione intera
Apex fused + FP32: FusedAdam e FusedLayerNorm, senza mixed precision
Apex fused + torch.amp: kernel fusi + autocast e GradScaler

La combinazione di kernel fusi e mixed precision ha portato a un speedup del 2.4x rispetto al percorso FP32 vanilla, con una perdita di qualità trascurabile.

«L’accelerazione più significativa arriva dalla combinazione: kernel fusi riducono la latenza di calcolo, mentre la mixed precision sfrutta i tensor core delle GPU moderne. Separarli non dà lo stesso risultato.»

In sintesi: per velocizzare l’addestramento di modelli Transformer, oggi la strada più solida è usare FusedAdam e FusedLayerNorm di Apex (dopo una corretta installazione con estensioni CUDA) insieme a torch.amp per la mixed precision. Il vecchio apex.amp può essere ignorato.

Prodotti correlati su Amazon

NVIDIA GeForce RTX 4090 GPUVedi su Amazon →

Come accelerare l’addestramento Transformer con NVIDIA Apex (FusedAdam, FusedLayerNorm) e torch.amp

Setup dell’ambiente e installazione di Apex

Benchmark: FusedAdam vs AdamW

FusedLayerNorm e FusedRMSNorm

Mixed precision: apex.amp vs torch.amp

Esperimento completo: Transformer con Apex + torch.amp

Prodotti correlati su Amazon

Harness-1: l’agente di ricerca AI open source che supera modelli molto più grandi

Anthropic CEO propone regolamentazione stile FAA per l’AI: cosa cambia per le imprese

Due facce dell’AI: hack semplici su Instagram e l’effetto dei chatbot sul cervello

Moonshot AI lancia Kimi K2.7-Code: modello AI per coding con prestazioni record

K-pop, deepfake e IA: i fan denunciano contenuti inquietanti con i loro idol

Moonshot AI rilascia Kimi Code CLI: agente AI open source per il terminale

Setup dell’ambiente e installazione di Apex

Benchmark: FusedAdam vs AdamW

FusedLayerNorm e FusedRMSNorm

Mixed precision: apex.amp vs torch.amp

Esperimento completo: Transformer con Apex + torch.amp

Prodotti correlati su Amazon

Articoli simili