Le gelide distese di lune come Europa ed Encelado, orbitanti attorno ai giganti gassosi del nostro sistema solare, nutrono un segreto affascinante: vasti oceani di acqua liquida nascosti sotto spesse croste di ghiaccio. Questi mondi oceanici (OW) sono diventati obiettivi primari nella ricerca di vita extraterrestre, poiché si ritiene che posseggano gli ingredienti fondamentali per la sopravvivenza microbica: acqua liquida, elementi essenziali, fonti di energia e nutrienti. Le future missioni spaziali, come Europa Clipper e l’ipotizzata Enceladus Orbilander, si preparano a scrutare queste profondità ghiacciate per valutare la loro abitabilità e, soprattutto, per scovare eventuali segni di vita, le cosiddette biosignature.
Tuttavia, la caccia a queste tracce di vita aliena non è affatto semplice. Le missioni dovranno affrontare l’immensa mole di dati che strumenti sofisticati come gli spettrometri di massa (MS) raccoglieranno analizzando i pennacchi espulsi da Encelado o l’esosfera di Europa. Per navigare in questo diluvio di informazioni e identificare segnali di reale interesse, l’adozione di metodi di intelligenza artificiale (IA) e di apprendimento automatico (ML) si rivela cruciale. Questi sistemi intelligenti possono elaborare rapidamente grandi volumi di dati e dare priorità a quei segnali che meritano un’analisi più approfondita e un eventuale invio a Terra.
Uno dei candidati più promettenti per la rivelazione di biosignature è rappresentato dagli isotopi stabili leggeri. I processi biologici, infatti, tendono a favorire l’assimilazione degli isotopi più leggeri degli elementi, portando a significativi frazionamenti isotopici che possono essere rilevati. Tuttavia, la complessità della geochimica abiotica presente in questi ambienti oceanici può generare fenomeni che imitano i frazionamenti isotopici di origine biologica, creando potenziali falsi positivi. Questa mimicria biotica rappresenta una sfida fondamentale: come distinguere un vero segno di vita da un inganno geochimico?
È in questo contesto che un recente studio pubblicato sulla rivista Earth and Space Science introduce un nuovo approccio basato sull’apprendimento automatico interpretabile per la rilevazione di biosignature. I ricercatori hanno sviluppato e testato un modello di ML utilizzando un innovativo set di dati di isotopologhi di CO2 generato in laboratorio, progettato per simulare le condizioni degli oceani ghiacciati e includere proprio questa temuta mimicria biotica.
La vera innovazione di questo lavoro risiede nell’enfasi sull’interpretabilità del modello di ML. Spesso, i modelli di apprendimento automatico più accurati operano come “scatole nere”, rendendo difficile comprendere il ragionamento dietro le loro predizioni. Questa mancanza di trasparenza può minare la fiducia in rilevazioni scientificamente cruciali come quella di una biosignatura extraterrestre. Per superare questo ostacolo, il team di ricerca ha adottato diverse strategie:
- Costruzione di feature (variabili) con significato geochimico e matematico: Invece di alimentare il modello con dati grezzi, sono state create feature che incorporano la comprensione dei processi geochimici e fisici rilevanti per la formazione di biosignature. Queste includono sia caratteristiche derivate direttamente dalle misurazioni dello spettrometro di massa (come i rapporti isotopici di CO2), sia caratteristiche estratte trattando i dati dello spettrometro come serie temporali (TS), analizzando ad esempio la loro entropia o autocorrelazione.
- Selezione delle feature importanti con un metodo sensibile alle interazioni: È stato impiegato un metodo di selezione delle variabili chiamato Nearest-neighbors Projected Distance Regression (NPDR), abbinato a una metrica di distanza basata su Unsupervised Random Forest Proximity (URFP). Questa tecnica è particolarmente efficace nell’identificare non solo le singole variabili importanti (gli “effetti principali”), ma anche le interazioni statistiche tra diverse variabili, che possono essere fondamentali per distinguere segnali biologici sottili dalla mimicria abiotica. Un’interazione statistica si verifica quando la relazione tra due variabili cambia a seconda che il campione sia di origine biotica o abiotica.
- Visualizzazione delle interazioni e degli effetti principali: Per rendere il modello più comprensibile, è stata utilizzata una rete di interazione chiamata Regression-based Association-Interaction Network (RAIN). Questa rete visualizza le variabili importanti come nodi, le cui dimensioni e colori rappresentano l’importanza e la direzione del loro effetto sulla classificazione (biotico o abiotico). I collegamenti (bordi) tra i nodi indicano le interazioni statistiche, con colori e stili diversi a seconda della natura dell’interazione.
- Punteggi di importanza delle variabili a livello di singolo campione: Per diagnosticare potenziali falsi positivi o negativi, sono stati calcolati punteggi di importanza delle variabili specifici per ogni campione analizzato. Confrontando questi punteggi “locali” con l’importanza “globale” delle variabili nel modello, è possibile individuare discrepanze che potrebbero indicare una predizione errata.

Il modello di apprendimento automatico così sviluppato, addestrato su un innovativo set di dati di laboratorio chiamato BOW-δCO2 che simula la chimica degli oceani di Europa ed Encelado e include la mimicria biotica, ha dimostrato un’accuratezza media dell’87.3% nella previsione della presenza di biosignature, indipendentemente dalla chimica della salamoia del campione. Questo risultato sottolinea il potenziale di questo approccio per future missioni astrobiologiche.
L’analisi delle variabili selezionate dal modello ha rivelato l’importanza sia delle caratteristiche tradizionali derivate dai rapporti isotopici del CO2, sia di quelle innovative ottenute dall’analisi della serie temporale dei dati dello spettrometro di massa. In particolare, caratteristiche come la variabilità dei rapporti isotopici e le misure di auto-similarità dei segnali nel tempo si sono dimostrate cruciali per distinguere tra campioni biotici e abiotici. La rete di interazione RAIN ha ulteriormente chiarito come queste variabili interagiscono tra loro per influenzare le predizioni del modello, fornendo preziose informazioni sui meccanismi sottostanti.
Un aspetto particolarmente rilevante è la capacità del modello di fornire strumenti per la diagnosi di false predizioni. L’analisi dei punteggi di importanza delle variabili a livello di singolo campione ha mostrato come, in caso di predizioni corrette, le variabili più importanti a livello globale tendano ad essere importanti anche per quel campione specifico. Al contrario, in caso di false predizioni, si osservano spesso discrepanze significative. Questa capacità di “interrogare” il modello e valutare l’affidabilità di una singola predizione è fondamentale per aumentare la fiducia in una scoperta di vita extraterrestre.
Le implicazioni di questa ricerca per le future missioni spaziali sono significative. La dimostrazione che un modello di apprendimento automatico interpretabile può distinguere con elevata accuratezza tra segnali biotici e abiotici, anche in presenza di mimicria, apre nuove prospettive per l’autonomia scientifica a bordo delle sonde. Sistemi di IA come quello sviluppato in questo studio potrebbero essere integrati negli strumenti analitici delle future missioni, consentendo loro di elaborare i dati in tempo reale, identificare autonomamente i segnali più promettenti e persino adattare le proprie strategie di raccolta dati in base ai risultati ottenuti.
Inoltre, l’aver dimostrato l’importanza delle caratteristiche derivate dall’analisi della serie temporale dei dati dello spettrometro di massa suggerisce nuove modalità di sfruttamento delle informazioni raccolte dagli strumenti spaziali. Anche se spesso i dati degli spettrometri di massa vengono presentati come spettri statici, l’informazione sulla variazione dei segnali nel tempo potrebbe contenere indizi cruciali sulla presenza di processi biologici.
Questo studio rappresenta un importante passo avanti nella ricerca di vita extraterrestre. L’approccio basato sull’apprendimento automatico interpretabile, validato su un set di dati analoghi alle condizioni degli oceani ghiacciati, offre un metodo promettente per districare la complessità dei segnali chimici e identificare con maggiore fiducia le biosignature. La capacità di comprendere il ragionamento del modello e di valutare l’affidabilità delle sue predizioni sarà cruciale per le future missioni che si avventureranno tra le lune gelide alla ricerca delle prime tracce di vita oltre la Terra. Il set di dati e il software sviluppato in questo lavoro sono stati resi pubblicamente disponibili, rappresentando una preziosa risorsa per l’intera comunità scientifica impegnata nella grande sfida dell’astrobiologia.
Stefano Camilloni