Machine learning nella scienza dei materiali

📚 Parte della guida Impara la chimica › Elementi e materiali

Elementi e materiali

Gli elementi della tavola periodica e i materiali che fanno il mondo.

8 min di letturaAggiornato il 01/06/2026elementi materiali

In sintesi

La DFT calcola le proprietà di una struttura risolvendo le equazioni quantistiche per ogni sistema: è accurata ma lenta (è necessario un calcolo per ogni struttura).
Sì, ma con un caveat: il ML interpola bene tra dati noti, estrapola male.
Dipende dalla complessità del modello e dalla variabilità del fenomeno.
Si addestra un modello su un set di coppie (struttura, proprietà nota): il modello impara la funzione che lega le due.

Scoprire un nuovo materiale utile — più conduttivo, più resistente, più selettivo — ha richiesto per decenni decenni di tentativi empirici o di calcoli quantistici costosi. Il machine learning applicato alla scienza dei materiali offre un terzo percorso: costruire modelli statistici che imparano dai dati già disponibili (simulazioni, esperimenti, banche dati) e predicono con rapidità le proprietà di composizioni ancora non sintetizzate.

Questo articolo è l’introduzione al paradigma data-driven, spiega perché è diverso dalla simulazione classica e dall’approccio sperimentale, e descrive la pipeline tipica che porta dai dati grezzi a una predizione utile.

Il problema: spazio dei materiali e costo esplicitivo

Si stima che i composti inorganici stabili possibili nel diagramma periodico siano nell’ordine di 10⁸–10¹⁰. Calcolare le proprietà di ognuno con la teoria del funzionale della densità (DFT) richiederebbe migliaia di anni di CPU. Il laboratorio classico ne sintetizza alcune centinaia per volta. Il machine learning rompe questo collo di bottiglia: addestrato su migliaia di esempi con proprietà note, predice quelle di milioni di candidati in pochi minuti.

Tre paradigmi a confronto

La scienza dei materiali ha attraversato diverse “ere”: empirica (osservazione, trial-and-error), modellistica (leggi fisiche, equazioni di Schrödinger, dinamica molecolare), computazionale (DFT, calcolo ab initio ad alta fedeltà). Il machine learning apre il quarto paradigma, quello guidato dai dati: non si parte da un modello fisico del materiale, ma da un set di osservazioni etichettate — struttura + proprietà — da cui un algoritmo estrae la relazione nascosta.

Paradigma	Input	Costo tipico	Limite principale
Empirico / sperimentale	sintesi + misura	Alto (mesi/anni)	spazio esplorabile ristretto
DFT / ab initio	struttura cristallina	Medio-alto (ore–giorni/struttura)	non scala su milioni di candidati
Machine learning	dataset etichettato	Basso dopo training (ms/struttura)	limitato ai dati disponibili

Apprendimento supervisionato e non supervisionato

Nel contesto dei materiali, la modalità più usata è il supervised learning: si fornisce al modello un insieme di coppie (struttura, proprietà) e il modello apprende la funzione che le lega. La proprietà può essere continua — temperatura di fusione, conduttività termica, energia di formazione — e il compito si chiama regressione; oppure discreta — stabile/instabile, conduttore/semiconduttore — e il compito si chiama classificazione.

Il unsupervised learning interviene quando non si hanno etichette: si usa il clustering (ad esempio k-means) per raggruppare strutture simili, o la riduzione di dimensionalità (PCA) per visualizzare lo spazio dei materiali in 2D e identificare cluster di composti con caratteristiche affini. Un esempio: applicando k-means a centinaia di leghe ad alta entropia si scopre che i cluster chimici correlano con la fase cristallina formata, senza che nessuno avesse etichettato i dati di conseguenza.

Pipeline tipica del ML per i materiali. I dati grezzi (calcoli DFT o misure sperimentali) vengono convertiti in descrittori numerici; un modello viene addestrato; le predizioni su nuovi candidati vengono validate selettivamente in laboratorio, chiudendo il ciclo e arricchendo il dataset.

La pipeline in cinque passi

Qualunque applicazione di ML ai materiali passa attraverso la stessa sequenza. 1. Dati: si raccolgono proprietà da database computazionali (Materials Project, AFLOW, OQMD) o da letteratura sperimentale. 2. Descrittori: la struttura chimica viene convertita in un vettore numerico che l’algoritmo può elaborare (vedi articolo dedicato). 3. Modello: si sceglie l’algoritmo (regressione Ridge, random forest, rete neurale) e lo si addestra minimizzando l’errore sul training set. 4. Predizione: il modello stima la proprietà di composti mai visti. 5. Validazione: i candidati più promettenti vengono sintetizzati o calcolati con DFT per verificare la predizione.

RMSE = √1/N ⋅ ∑_i(ŷ_i − y_i)²

La metrica più usata per valutare un modello di regressione è la RMSE (Root Mean Square Error): misura l’errore medio tra valori predetti ŷ_i e valori reali y_i su un test set mai visto durante il training. Un RMSE basso non garantisce la bontà del modello se il test set non è rappresentativo: è per questo che si usa la cross-validazione (tipicamente k-fold con k = 5 o 10), che divide il dataset in k parti e valuta il modello k volte, tenendo a turno ciascuna parte come test.

Esempi di successi concreti

Il paradigma data-driven ha già prodotto risultati verificabili. Nella ricerca di materiali termoelettrici efficienti (con alto figure-of-merit ZT), campagne di screening ad alto throughput hanno esplorato oltre 79 000 composti half-Heusler dalla libreria AFLOW identificando in automatico quelli con bassa conduttività termica reticolare. Nel campo delle leghe ad alta entropia, modelli ML addestrati su 550 leghe colate hanno raggiunto oltre l’80% di accuratezza nel predire la fase cristallina (FCC, BCC, FCC+BCC) usando solo 13 descrittori composizionali elementari. Per i perovskiti ABX₃, ML ha previsto la formabilità con accuratezza del 92% partendo da soli due parametri: raggio ionico e fattore di tolleranza.

Perché non è una «scatola nera» da ignorare

Un rischio reale del ML è l’estrapolazione: il modello funziona bene nell’interpolazione tra dati noti, ma può fallire su composizioni molto diverse da quelle del training set. Per questo la validazione sperimentale selettiva non è un optional: è la chiave che trasforma una lista di candidati in una scoperta verificata. Conoscere i limiti del modello — quanta diversità rappresenta il training set, qual è l’incertezza sulla predizione — è altrettanto importante quanto la precisione sul test set.

Dove si colloca rispetto alla chimica computazionale classica

Il ML non sostituisce la DFT o la dinamica molecolare: li usa come generatori di dati. Un flusso di lavoro tipico vede la DFT produrre migliaia di energie e forze su strutture diverse, il ML imparare quella relazione struttura-energia e poi usarla per campionare miliardi di configurazioni in una dinamica molecolare altrimenti impossibile. Il confine tra i due approcci si fa sempre più fluido: i potenziali interatomici da ML (oggetto di un articolo dedicato) sono il caso paradigmatico.

Riepilogo: ML vs DFT vs esperimento

Criterio	Esperimento	DFT	ML
Throughput	Basso	Medio	Molto alto
Accuratezza	Alta (se controllata)	Alta	Variabile
Costo per struttura	Alto	Ore–giorni CPU	Millisecondi (post-training)
Generalizzazione	Non si generalizza	Qualunque struttura	Solo simili al training set

Dalla teoria alla conformità. Se questo argomento riguarda un prodotto che produci, importi o vendi, può tradursi in un obbligo normativo concreto: vedi il nostro servizio di classificazione ed etichettatura CLP e richiedi una verifica del tuo caso.

Domande frequenti

Che differenza c’è tra ML per i materiali e la DFT?

La DFT calcola le proprietà di una struttura risolvendo le equazioni quantistiche per ogni sistema: è accurata ma lenta (è necessario un calcolo per ogni struttura). Il ML impara da un set di calcoli DFT già eseguiti e poi predice le proprietà di nuove strutture in millesimi di secondo. I due approcci si complementano: la DFT genera i dati, il ML li generalizza.

Il machine learning può scoprire materiali completamente nuovi?

Sì, ma con un caveat: il ML interpola bene tra dati noti, estrapola male. Proposte di strutture genuinamente nuove (mai viste nel training set) richiedono validazione sperimentale o DFT. I modelli generativi (reti avversariali, autoencoders variazionali) cercano di spingersi oltre l’interpolazione, ma rimangono un campo di ricerca attivo con molti falsi positivi.

Quanti dati servono per addestrare un buon modello?

Dipende dalla complessità del modello e dalla variabilità del fenomeno. Per regressioni lineari o random forest su descrittori composizionali, anche 500–1 000 esempi possono bastare. Le reti neurali profonde richiedono di solito decine di migliaia di esempi; per questo si usano spesso database computazionali molto grandi (Materials Project ha oltre 140 000 strutture).

Cos’è il supervised learning nel contesto dei materiali?

Si addestra un modello su un set di coppie (struttura, proprietà nota): il modello impara la funzione che lega le due. La proprietà nota è l’“etichetta” (label). Se la proprietà è continua (conduttività termica, energia di formazione) si parla di regressione; se è discreta (fase cristallina, tossicità sì/no) di classificazione.

Come si evita l’overfitting in un modello per i materiali?

Le tecniche principali sono: regolarizzazione (Ridge L2 o LASSO L1, che penalizzano coefficienti troppo grandi), riduzione del numero di descrittori, cross-validazione k-fold per stimare le prestazioni sul set di test, e aumento dei dati di training. Nei dataset piccoli tipici della scienza dei materiali (< 1 000 esempi) la regolarizzazione e la selezione dei descrittori sono spesso più efficaci di modelli complessi.

Argomenti correlati

Potenziali interatomici da machine learning: accuratezza DFT a costo classico

Da esplorare

Vuoi una verifica sul tuo caso?

Raccontaci cosa produci, importi o vendi: ti diciamo con chiarezza cosa serve per essere in regola, senza tecnicismi inutili e senza blocchi di vendita o spedizione.

Risposta entro 24hConsulenti REACH·CLP·ADRVerifica senza impegno

Richiedi una verifica Vedi gli articoli

Avvertenza. Questo articolo ha finalità informative e divulgative e riflette la normativa vigente alla data di pubblicazione; le scadenze indicate possono essere modificate da provvedimenti successivi. Non sostituisce la verifica tecnica del singolo prodotto e del caso specifico. A cura della Redazione di ChimicaConforme.