Come Funzionano i Large Language Models
I Large Language Models Spiegati
Quando scrivi una richiesta a ChatGPT, Claude o Gemini e ricevi una risposta coerente in pochi secondi, dietro le quinte lavora un Large Language Model (LLM): un sistema statistico addestrato a prevedere il testo. Capire come funziona davvero ti rende un utente molto piu consapevole, ti aiuta a scrivere prompt migliori e, soprattutto, a riconoscere quando l'AI puo sbagliare. In questa lezione vediamo i concetti fondamentali senza matematica complessa, ma con esempi concreti e applicabili al lavoro professionale.
Obiettivi di apprendimento
- Capire cosa sono gli LLM e perche prevedono il testo invece di "capirlo" come un umano.
- Comprendere l'architettura Transformer e il meccanismo di attenzione in modo intuitivo.
- Conoscere le tre fasi di addestramento: pre-training, fine-tuning e RLHF.
- Sapere cosa sono token, finestra di contesto e generazione token-by-token.
- Riconoscere i limiti reali (allucinazioni, knowledge cutoff, bias) per usare l'AI in sicurezza.
Cosa sono i Large Language Models (LLM)?
Un LLM e un modello di intelligenza artificiale addestrato su enormi quantita di testo (siti web, libri, articoli, codice) per comprendere e generare linguaggio naturale. Il termine "Large" si riferisce sia alla mole di dati di addestramento sia al numero di parametri interni, che nei modelli moderni si conta in centinaia di miliardi. Sono la tecnologia alla base di ChatGPT (OpenAI), Claude (Anthropic), Gemini (Google) e molti altri assistenti.
Il punto piu importante da interiorizzare: un LLM, alla base, fa una sola cosa, e la fa benissimo. Prevede il prossimo pezzo di testo piu probabile, dato tutto cio che e venuto prima. Tutto il resto, dialogare, riassumere, scrivere codice, tradurre, emerge da questa capacita fondamentale combinata con un addestramento mirato.
L'Architettura Transformer
I moderni LLM si basano sull'architettura Transformer, introdotta da Google nel 2017 con il celebre articolo "Attention Is All You Need". E stata la svolta che ha reso possibile l'AI generativa odierna.
Il concetto chiave e il meccanismo di attenzione (attention): per ogni parola che elabora, il modello calcola quanto le altre parole del testo siano rilevanti, "prestando attenzione" alle parti significative anche se distanti. Questo gli permette di mantenere il filo del discorso su frasi e paragrafi lunghi.
A differenza dei modelli precedenti, che leggevano il testo una parola per volta in sequenza, il Transformer puo elaborare l'intero contesto in parallelo. E questa la ragione per cui e stato possibile addestrare modelli cosi grandi in modo efficiente.
Il Processo di Training
Un LLM utile non nasce da una sola fase di addestramento, ma da una pipeline in tre tappe, ognuna con uno scopo diverso.
- Pre-training (apprendere il linguaggio e il mondo):
- Il modello legge miliardi di pagine di testo: pagine web, libri, articoli, codice.
- Impara a predire la parola successiva in una sequenza, milioni di volte.
- Cosi acquisisce grammatica, conoscenza del mondo e capacita di ragionamento associativo.
- Fine-tuning supervisionato (imparare a seguire istruzioni):
- Addestramento su esempi di conversazioni e istruzioni ben fatte.
- Il modello impara a comportarsi come un assistente che risponde a comandi, invece di limitarsi a completare testo.
- RLHF - Reinforcement Learning from Human Feedback (allinearsi alle preferenze umane):
- Valutatori umani confrontano e giudicano le risposte del modello.
- Un sistema di ricompensa guida il modello a preferire risposte piu utili, oneste e sicure.
- E la fase che rende l'assistente piacevole, prudente e allineato ai valori desiderati.
Tokenizzazione e Generazione
Gli LLM non leggono lettere o parole intere, ma token (pezzi di parole o caratteri frequenti):
"Automazione" → ["Auto", "m", "azione"]
Come regola pratica, in italiano un token equivale grossomodo a 3-4 caratteri. I modelli recenti (es. GPT-5.x, Claude 4.x, Gemini 2.x/3.x) gestiscono finestre di contesto molto ampie, da centinaia di migliaia fino a oltre un milione di token, permettendo di analizzare interi documenti in un colpo solo.
Il modello genera testo un token alla volta:
- Calcola una probabilita per ogni token possibile.
- Seleziona il prossimo token (con un po' di casualita controllata dalla "temperature").
- Lo aggiunge al contesto.
- Ripete il ciclo fino al completamento.
Ecco perche la stessa domanda puo dare risposte leggermente diverse: c'e un elemento probabilistico nella scelta dei token.
Vedere la previsione in azione
Puoi osservare tu stesso la natura "predittiva" del modello con un prompt che lo costringe a esplicitare il ragionamento sulle probabilita:
Comportati come un tutor che spiega come funziona un LLM.
Prendi la frase incompleta: "Il caffe italiano e famoso in tutto il ___".
1. Elenca le 3 parole piu probabili che un modello linguistico
sceglierebbe per completarla.
2. Per ognuna, spiega in una riga perche e probabile.
3. Concludi spiegando che il modello non "sa" la risposta,
ma stima la continuazione piu probabile dai dati visti.
Limiti e "Allucinazioni"
Limiti da conoscere
- Allucinazioni: gli LLM possono inventare fatti, citazioni o fonti plausibili ma falsi, esposti con grande sicurezza.
- Knowledge cutoff: la conoscenza di base si ferma alla data di addestramento; senza accesso al web non conoscono eventi recentissimi.
- Nessun ragionamento "vero": e pattern matching statistico molto sofisticato, non comprensione umana o coscienza.
- Bias: riflettono i pregiudizi presenti nei dati di addestramento.
- Memoria limitata: ricordano solo cio che rientra nella finestra di contesto della conversazione corrente.
🔑 Concetto chiave
Un LLM non e un database di verita ne un motore di ricerca: e un predittore di testo probabilistico addestrato a essere utile. Trattalo come un collaboratore brillante ma fallibile: usalo per accelerare il lavoro, e verifica sempre i fatti critici (numeri, nomi, normative, citazioni).
In pratica: riassumere un documento aziendale
Immagina di dover sintetizzare un report di 40 pagine per il tuo team. Capendo come funziona il modello, sai che conviene dargli tutto il contesto in un'unica volta (sfruttando la finestra ampia) e chiedere una verifica esplicita per ridurre il rischio di allucinazioni:
Sei un analista. Ti incollo il testo integrale di un report trimestrale.
Compito:
- Riassumilo in 8 bullet point chiari per un dirigente non tecnico.
- Estrai SOLO dati (numeri, percentuali, date) effettivamente presenti
nel testo; se un dato non c'e, scrivi "non indicato" invece di stimarlo.
- Alla fine, elenca eventuali punti ambigui da verificare manualmente.
[testo del report]
Il vincolo "se un dato non c'e, scrivi non indicato" sfrutta la consapevolezza del limite delle allucinazioni per ottenere un output piu affidabile.
📌 Punti chiave
- Un LLM e un predittore del prossimo token: tutto cio che fa nasce da questa capacita.
- L'architettura Transformer e il meccanismo di attenzione permettono di gestire il contesto su testi lunghi.
- L'addestramento ha tre fasi: pre-training, fine-tuning e RLHF.
- Il testo viene scomposto in token e generato uno alla volta in modo probabilistico.
- Conoscere i limiti (allucinazioni, cutoff, bias) e la chiave per usare l'AI in modo professionale e sicuro.