Descrittori e rappresentazione dei materiali per il machine

Q: Come funziona LASSO per la selezione dei descrittori?

LASSO aggiunge alla funzione di perdita un termine α⋅∑|wj| (penalizzazione L1). L’effetto è che i coefficienti dei descrittori poco rilevanti vengono portati esattamente a zero durante l’ottimizzazione, producendo un modello “sparso”. Il parametro α controlla la forza della penalizzazione: aumentandolo si selezionano meno descrittori, riducendolo si includono più features. È ideale quando si sospetta che solo poche variabili siano davvero importanti.

📚 Parte della guida Impara la chimica › Elementi e materiali

Elementi e materiali

Gli elementi della tavola periodica e i materiali che fanno il mondo.

7 min di letturaAggiornato il 01/06/2026elementi materiali

In sintesi

Perché l’energia e le proprietà di un materiale non dipendono dall’orientamento nello spazio.
SOAP (Smooth Overlap of Atomic Positions) rappresenta l’ambiente locale di un atomo come una densità atomica gaussiana e misura la somiglianza tra due ambienti con un kernel…
Dipende dalla dimensione del dataset.
Un numero adimensionale t = (rA + rX) / [√2(rB + rX)] che misura la compatibilità geometrica tra i siti A, B e X di un perovskite ABX3.

Un algoritmo di machine learning non “vede” atomi o legami: vede un vettore di numeri. La fase di rappresentazione — trasformare una struttura chimica in quel vettore — è forse la scelta più critica di tutto il flusso di lavoro: un descrittore sbagliato o incompleto rende inutile anche il migliore dei modelli.

Questo articolo spiega quali sono le famiglie principali di descrittori usati nella scienza dei materiali, quali requisiti matematici devono soddisfare e quali esempi concreti li rendono efficaci.

Perché i descrittori sono il cuore del ML per i materiali

Un descrittore (o feature) è un numero o un vettore di numeri che cattura una caratteristica rilevante di un materiale: il raggio atomico medio, la differenza di elettronegatività tra i componenti, la distribuzione delle distanze interatomiche. Scegliendo bene i descrittori si “inietta” conoscenza fisica nel modello, riducendo la quantità di dati necessaria per un buon apprendimento. Scegliendo male, si costringono l’algoritmo a estrarre informazioni che non ci sono.

Requisiti di invarianza: ciò che un buon descrittore deve ignorare

Una struttura cristallina è la stessa ruotata di 90°, traslata di 1 Å, o con gli atomi elencati in ordine diverso. Un buon descrittore deve essere invariante per:

Traslazione: spostare tutta la struttura nello spazio non deve cambiare il descrittore.
Rotazione: ruotare la struttura non deve cambiare il descrittore.
Permutazione: scambiare l’ordine degli atomi (dello stesso tipo) non deve cambiare il descrittore.

Se queste invarianze non sono garantite, il modello vede strutture identiche come diverse e non può generalizzare. È un requisito fisicamente motivato: l’energia totale non dipende dal sistema di riferimento né dall’ordine in cui si elencano gli atomi.

Le tre famiglie principali di descrittori. Quelli composizionali usano proprietà degli elementi (elettronegatività, raggio, numero atomico). Quelli strutturali codificano l’ambiente locale (distanze, angoli, SOAP). Quelli globali descrivono la cella unitaria (simmetria, parametri di rete).

Descrittori composizionali: dalla tavola periodica al vettore

I descrittori più semplici si basano sulle proprietà degli elementi che compongono il materiale, senza richiedere la struttura cristallina. Per una lega A_xB_yC_z si calcolano medie ponderate e deviazioni standard di quantità come: raggio atomico, elettronegatività di Pauling, punto di fusione, modulo di bulk, numero di elettroni di valenza (VEC). Per le leghe ad alta entropia esplorate nel libro, i 13 descrittori più efficaci comprendevano: raggio atomico medio (a), differenza di raggi (δ), elettronegatività media e differenza (Δχ), VEC, temperatura di fusione media e sua deviazione standard. Con questi 13 numeri, modelli ML hanno raggiunto accuratezze superiori all’80% nella previsione della fase formata da 550 leghe as-cast.

Fingerprint strutturali: ACSF e SOAP

Quando la struttura cristallina è nota, si può fare di meglio: si descrive l’ambiente locale di ogni atomo, codificando distanze e angoli entro un raggio di cutoff (tipicamente 6–8 Å). Le atom-centered symmetry functions (ACSF), introdotte da Behler nel 2007, combinano funzioni radiali e angolari invarianti per simmetria in un vettore compatto. La componente radiale è della forma:

G^rad_i = ∑_j e^{−η(r_ij−R_s)²} ⋅ f_c(r_ij)

dove η e R_s sono iperparametri che controllano la larghezza e la posizione del picco, e f_c è una funzione di cutoff che riduce gradualmente a zero il contributo degli atomi lontani. La componente angolare aggiunge un termine cos(θ_ijk − θ_s) che cattura le distribuzioni di angoli di legame. Combinando più funzioni radiali e angolari si costruisce un fingerprint completo dell’ambiente locale.

SOAP: similarità tra ambienti atomici

Il Smooth Overlap of Atomic Positions (SOAP) rappresenta l’ambiente di un atomo come una densità atomica gaussiana e misura la sovrapposizione tra due ambienti come kernel di similarità. La chiave è che il kernel è costruito in modo da essere automaticamente invariante per rotazione:

SOAP: K(A, B) = | ⟨P_A | P_B⟩ |²⟨P_A|P_A⟩ ⋅ ⟨P_B|P_B⟩ (misura di similarità tra ambienti atomici)

SOAP è usato in modo prominente nei Gaussian Approximation Potentials (GAP) per il carbonio e altri materiali, dove descrittori a due corpi (distanze), tre corpi (funzioni di simmetria) e molti corpi (SOAP) vengono combinati in modo gerarchico, pesando la loro contribuzione in base all’importanza statistica misurata sui dati.

Descrittori per perovskiti: il fattore di tolleranza generalizzato

Per i perovskiti ABX₃, descrittori specialmente efficaci sono il fattore di tolleranza di Goldschmidt t = (r_A + r_X) / [√2(r_B + r_X)] e il fattore ottaedrico μ = r_B/r_X. Con soli questi due numeri, modelli ML hanno raggiunto il 92% di accuratezza nel predire la formabilità dei perovskiti alogeni. La versione generalizzata τ — sviluppata con l’algoritmo SISSO — include lo stato di ossidazione del sito A e raggiunte il 92% su 576 composti sperimentalmente noti, contro il 74% del fattore di Goldschmidt classico.

Selezione dei descrittori e LASSO

Con un pool di centinaia di candidati, serve un metodo per scegliere quelli più rilevanti. LASSO (Least Absolute Shrinkage and Selection Operator) aggiunge alla funzione di perdita un termine di penalizzazione L1 che spinge a zero i coefficienti dei descrittori irrilevanti, selezionando automaticamente un sottoinsieme sparso. Ridge regression fa la stessa cosa con la penalizzazione L2, ma senza azzerare i coefficienti. SISSO (Sure Independence Screening and Sparsifying Operator) va oltre: cerca la migliore combinazione nonlineare di un pool di proprietà elementari (prodotti, rapporti, logaritmi) per costruire il descrittore minimale più predittivo.

Confronto tra famiglie di descrittori

Famiglia	Input richiesto	Invarianza garantita	Uso tipico
Composizionale (VEC, δ, Δχ…)	Solo composizione	Permutazione	Screening rapido, leghe, ceramiche
ACSF (Behler)	Struttura cristallina	Traslazione, rotazione, permutazione	Potenziali ML, NNP
SOAP	Struttura cristallina	Tutte e tre	GAP, confronto ambienti
Fattore di tolleranza (perovskiti)	Raggi ionici	Permutazione (parziale)	Formabilità, stabilità
CGCNN / GNN	Grafo cristallino	Tutte e tre (per costruzione)	Proprietà generali, reti profonde

Dalla teoria alla conformità. Se questo argomento riguarda un prodotto che produci, importi o vendi, può tradursi in un obbligo normativo concreto: vedi il nostro servizio di classificazione ed etichettatura CLP e richiedi una verifica del tuo caso.

Domande frequenti

Perché i descrittori devono essere invarianti per rotazione?

Perché l’energia e le proprietà di un materiale non dipendono dall’orientamento nello spazio. Se un descrittore cambia valore quando ruoti la struttura, il modello “vede” strutture identiche come diverse e non può imparare nulla di fisicamente corretto. Garantire l’invarianza riduce anche i dati necessari: non servono esempi di ogni orientazione possibile.

Cos’è il SOAP e perché è efficace?

SOAP (Smooth Overlap of Atomic Positions) rappresenta l’ambiente locale di un atomo come una densità atomica gaussiana e misura la somiglianza tra due ambienti con un kernel invariante per rotazione. È efficace perché cattura le interazioni a molti corpi in modo continuo e differenziabile, ed è alla base dei migliori potenziali interatomici da ML per carbonio, silicio e altri materiali.

Quanti descrittori servono?

Dipende dalla dimensione del dataset. Una regola empirica: il numero di esempi dovrebbe essere almeno 10× il numero di descrittori per evitare l’overfitting. Con 500 strutture, 30–50 descrittori ben scelti sono di solito sufficienti. Con dataset più grandi (decine di migliaia) si possono usare centinaia di features o addirittura rappresentazioni apprese in modo automatico dalla rete (come nelle GNN).

Cos’è il fattore di tolleranza di Goldschmidt?

Un numero adimensionale t = (r_A + r_X) / [√2(r_B + r_X)] che misura la compatibilità geometrica tra i siti A, B e X di un perovskite ABX₃. Se t è compreso tra 0.8 e 1.0 circa, la struttura perovskitica è stabile. È uno dei descrittori più potenti per questa classe di materiali, e la sua versione ML-ottimizzata τ raggiunge il 92% di accuratezza su 576 composti noti.

Come funziona LASSO per la selezione dei descrittori?

LASSO aggiunge alla funzione di perdita un termine α⋅∑|w_j| (penalizzazione L1). L’effetto è che i coefficienti dei descrittori poco rilevanti vengono portati esattamente a zero durante l’ottimizzazione, producendo un modello “sparso”. Il parametro α controlla la forza della penalizzazione: aumentandolo si selezionano meno descrittori, riducendolo si includono più features. È ideale quando si sospetta che solo poche variabili siano davvero importanti.

Argomenti correlati

Vuoi una verifica sul tuo caso?

Raccontaci cosa produci, importi o vendi: ti diciamo con chiarezza cosa serve per essere in regola, senza tecnicismi inutili e senza blocchi di vendita o spedizione.

Risposta entro 24hConsulenti REACH·CLP·ADRVerifica senza impegno

Richiedi una verifica Vedi gli articoli

Avvertenza. Questo articolo ha finalità informative e divulgative e riflette la normativa vigente alla data di pubblicazione; le scadenze indicate possono essere modificate da provvedimenti successivi. Non sostituisce la verifica tecnica del singolo prodotto e del caso specifico. A cura della Redazione di ChimicaConforme.