Statistical Methods

Le domaine de l’observation radio (sub)millimétrique a connu un profond changement au début des années 2010 avec l’arrivée de nouveaux instruments combinant une haute résolution spectrale (R ~ 2 million) et une grande bande passante (plusieurs dizaines de GHz). Les relevés spectraux de plusieurs centaines de milliers de canaux, qui n’étaient réalisables qu’avec des centaines d’heures de télescope deviennent alors les modes d’observation par défaut de ces observatoires. A partir de 2011, dans le cadre de l’ANR SCHISM, j’ai commencé a developper des approches statistiques bayésiennes permettant d’extraire l’information contenue dans ces relevés spectraux (détection CF+, C3H+, CH3CN/CH3NC, SO/S18O; Guzmán et al. 2012, Pety et al 2013, Gratier et al. 2013, Loison et al. subm) depuis j’ai utilisé ces outils pour analyser des données provenant de diverses source afin de comprendre la variabilité des abondances des espèces chimiques en fonction de différentes classes d’objets du milieu interstellaire: dans des données d’archives d’un prototype de coeur dense froid TMC1 (Gratier et al. 2016), dans un relevé spectral de la protoétoile IRAS16293 (CH3SH, C3HD, HOCO+, CH3CN et CH3CCH; Majumdar et al. 2016, 2017, 2018, Andron et al. 2019). Dans les années qui ont suivies, un saut quantitatif a été réalisé en observant non pas quelques lignes de visées particulières du milieu interstellaire mais en cartographiant de grandes régions du ciel de façon non biaisée, en réalisant un relevé spectral de plusieurs centaine de milliers de canaux spectraux à chaque pixel, créant ainsi de grands jeux de données hyperspectraux. En particulier, je travaille actuellement dans le consortium ORION-B qui vise à cartographier, avec le radiotélescope de 30m de l’IRAM, la moitié du nuage moléculaire Orion B (4.5 degrés carrés) à une résolution spatiale de 30’’ et avec une résolution spectrale de 200kHz sur 40Ghz de bande passante à 3mm. L’analyse de ces nouveaux grand jeux de données nécessite de repenser les approches utilisées. Si cette grande quantité de données ne permet plus d’analyser individuellement “à la main” chaque spectre, elle apporte une quantité d’information suffisante pour pouvoir répondre à de nouvelle questions scientifiques grâce aux outils issus des statistiques, des mathématiques appliquées et du machine learning. En particulier mes dernier travaux dans ce domaine (Gratier et al. 2017) ont permis de montrer qu’il était possible d’obtenir des informations sur les propriétés physiques locales du milieu interstellaire (densité de colonne, densité volumique, champ de rayonnement UV) uniquement à partir de l’émission d’une douzaine de molécules, sans nécessairement avoir besoin d’inverser des modèles de transfert de rayonnement ou des modèles d’astrochimie. Cette information sur les conditions physiques est également accessible à un niveau quantitatif grâce aux méthodes d’apprentissage supervisé: en utilisant des ensembles de forêts aléatoires j’ai pu montrer qu’il était possible d’estimer la valeur de la colonne densité totale de gaz le long d’une ligne de visée à partir de l’émission d’une demi douzaine de molécules seulement (Gratier et al. accepted in A&A). Cette approche astrostatistique passe aussi par la mise en place de collaborations avec des chercheurs en statistique et mathématiques appliquées. J’ai été membre du comité d’organisation scientifique de l’atelier AstroStatistics within PCMI qui a réuni en 2018 une trentaine de participants à Paris pour échanger au sein de la communauté PCMI et au de la vers les autre communautés astro et de mathématiques appliquées et statistique afin d’envisage des collaborations dans les prochaines années. Dans le cadre de l’appel d’offre PEPS Astro-Informatique du CNRS, nous avons monté une collaboration, autour du projet OrionB, avec des chercheurs des écoles centrales de Lille, Nantes et Marseille ainsi que le laboratoire GIPSA-lab de traitement de signal à Grenoble.