Cos'è QLoRA e perché serve per il fine-tuning?

QLoRA (Quantized Low-Rank Adaptation) combina la quantizzazione a 4 bit con adattatori LoRA, riducendo il consumo di memoria GPU fino a 4 volte rispetto al fine-tuning completo. Permette di ottimizzare modelli come LFM2 su hardware consumer, come le GPU di Google Colab, senza perdere significativa qualità nelle risposte.

DPO è migliore del RLHF per il preference tuning?

DPO (Direct Preference Optimization) è un'alternativa più semplice a RLHF: non richiede un modello reward separato, ma allena direttamente il modello su coppie di risposte scelte e rifiutate. È computazionalmente più leggero e spesso produce risultati equivalenti o migliori, soprattutto su dataset di dimensioni contenute come quello usato nel tutorial.

Quanto tempo richiede l'intero workflow su Colab?

Con una GPU come la T4 o V100 di Google Colab, l'intero processo (setup + SFT 60 passi + DPO 40 passi) richiede circa 15-30 minuti, a seconda della velocità della GPU e della larghezza di banda per il download del modello. La quantizzazione a 4 bit e i gradient checkpointing aiutano a mantenere il consumo di VRAM sotto i 16 GB.

Fine-tuning LFM2 con QLoRA e DPO su Google Colab: tutorial

Liquid AI’s LFM2 è un modello linguistico progettato per l’AI on-device, e con questo tutorial puoi ottimizzarlo interamente su Google Colab usando strumenti open source. QLoRA riduce il consumo di memoria GPU, mentre il supervised fine-tuning (SFT) prepara il modello a rispondere in modo strutturato. Aggiungendo il DPO (Direct Preference Optimization), migliori ulteriormente la qualità delle risposte basandoti su coppie scelte/rifiutate.

Il workflow si svolge in quattro fasi principali: installazione delle librerie, caricamento del modello con quantizzazione a 4 bit, addestramento dell’adattatore LoRA con SFT, merge dell’adattatore nel modello base, e infine training DPO con un secondo adattatore. Alla fine ottieni un checkpoint unico, pronto per test o deploy.

Setup e baseline

Inizi installando le dipendenze: transformers, trl, peft, datasets, accelerate e bitsandbytes. Poi importi le classi necessarie e definisci le configurazioni principali: MODEL_ID = "LiquidAI/LFM2-1.2B", attivi la quantizzazione 4 bit, e imposti numero di campioni e passi di training.

Carichi il modello base con BitsAndBytesConfig per la quantizzazione nf4, e allinei il tokenizer impostando il padding token uguale all’eos token. Una funzione chat() ti permette di testare le risposte prima e dopo ogni fase. La baseline iniziale — chiedendo al modello di spiegare l’architettura LFM2 — fornisce un termine di paragone.

Supervised Fine-Tuning con LoRA

Per l’SFT usi il dataset smoltalk da Hugging Face, selezionando 500 campioni e mantenendo solo la colonna messages. Configuri LoRA con rank 16, alpha 32, dropout 0.05, target su tutti i layer lineari. L’SFTConfig imposta batch size 2, gradient accumulation 4, learning rate 2e-5, e 60 passi di training. Dopo l’addestramento, salvi l’adattatore e testi la risposta: il modello ora risponde in modo più strutturato e pertinente.

Per prepararti al DPO, liberi la memoria GPU eliminando trainer e modello, ricarichi il base in fp16/bf16, carichi l’adattatore SFT e lo unisci al modello con merge_and_unload(). Salvi il checkpoint unito.

DPO: ottimizzazione delle preferenze

Se attivi RUN_DPO = True, prepari un dataset di preferenze con tre esempi di prompt, risposta scelta e risposta rifiutata, ripetuti 20 volte. Gli esempi coprono scenari realistici: risposta a reclamo cliente, riepilogo di edge AI, rifiuto educato di riunione.

Configuri un nuovo adattatore LoRA (stessa architettura) e un DPOConfig con learning rate 5e-6, beta 0.1, e 40 passi. Alleni il modello SFT unito con DPO, poi unisci l’adattatore DPO e salvi il checkpoint finale. Un ultimo test mostra il miglioramento rispetto alla baseline e all’SFT: risposte più precise, empatiche e naturali.

Alla fine hai un pipeline completo che trasforma il modello base LFM2 in un checkpoint ottimizzato con SFT e DPO, pronto per test o deploy. Tutto il codice funziona su Google Colab con GPU (assicurati di aver selezionato Runtime > Cambia tipo di runtime > GPU).

Prodotti correlati su Amazon

Google Colab Pro GPUVedi su Amazon →

Come ottimizzare LFM2 con QLoRA e DPO: tutorial completo su Google Colab

Setup e baseline

Supervised Fine-Tuning con LoRA

DPO: ottimizzazione delle preferenze

Prodotti correlati su Amazon

NanoClaw e JFrog lanciano un ‘sistema immunitario’ che impedisce agli agenti AI di scaricare codice malevolo

Analisi pratica di FineWeb: streaming, filtri di qualità, deduplicazione e tokenizer

NVIDIA Cosmos 3: un modello unico per ragionamento fisico, generazione del mondo e azione

Dipendenti Google condividono meme interni sull’AI: «fa schifo e ci rende la vita più dura»

GLM-5.2 di Z.ai: un modello AI open-weight da 753 miliardi di parametri che batte GPT-5.5 nel coding a un sesto del costo

Come usare AgentTrove: streaming di 1.7 milioni di tracce agentiche e creazione di un dataset ShareGPT per SFT in Python

Setup e baseline

Supervised Fine-Tuning con LoRA

DPO: ottimizzazione delle preferenze

Prodotti correlati su Amazon

Articoli simili