科学家建立机器学习模型,能在31秒内搜索数千颗系外行星的光谱
在澳大利亚和南非的沙漠中,天文学家正在部署一大片金属探测器。未来,这些探测器将同时工作,在宇宙中搜寻无线电信号。
在未来五年内,平方公里阵列天文台(SKA,Square Kilometer Array Observatory)将正式启动,寻找有关宇宙第一颗恒星和星系进化不同阶段的新信息。
(来源:AI 生成)
但在数十万个碟形天线和天线全部同步后,天文学家将很快面临一个新的挑战。他们要每年梳理约 300PB 的宇宙数据,足以装满一百万台笔记本电脑。
未来十年,这个问题将在其他天文台不断出现。随着天文学家建造越来越多的巨型摄像头来对整个天空成像,并发射红外望远镜寻找遥远的行星,他们收集数据的规模将是前所未有的。
美国哈佛-史密松天体物理中心的计算天体物理学家塞西莉亚·加拉夫(Cecilia Garraff)说:“我们完全没有做好准备,现在应该焦虑起来了。当你有太多的数据,却没有处理它们的技术时,就像没有数据一样。”
为了应对数据过多的挑战,天文学家们正将目光转向人工智能和优化算法,以在庞大而繁杂的数据集中捕捉隐藏的规律。
一些人现在正致力于建立将计算机科学和天文学结合起来的研究所,并努力构建新型合作关系。
2022 年 11 月,加拉夫在哈佛-史密松天体物理中心启动了 AstroAI 作为试点项目。
从那时起,她组建了一个由 50 多名成员组成的跨学科团队,计划了数十个项目,重点关注宇宙最早的样子,以及我们是否是其中唯一的生命。
在过去几年里,几个类似的合作组织效仿了加拉夫的做法,现在正在争夺资金,以扩张到大型机构。
加拉夫在天文学、物理学和计算机科学的职业生涯中认识到了人工智能模型的潜力。在过去的合作中,语言障碍是她面临的一个主要障碍。
通常,天文学家和计算机科学家很难共同工作,因为他们用不同的词汇来描述相似的概念。加拉夫对翻译挑战并不陌生,她在阿根廷长大,但在一所纯英语教学的学校里读书,有过类似的经历。
她努力从这段经历中汲取经验,试图将来自两个社区的人融合到一起,这样他们就可以确定共同的目标并找到沟通的方式。
天文学家多年来一直在使用人工智能模型,主要是在望远镜数据中对超新星等已知物体进行分类。
当维拉·C·鲁宾天文台在 2025 年启动时,这种图像识别的能力将变得越来越重要,因为每年超新星探测的数量将从数千次迅速跃升至数百万次。
但人工智能应用的新浪潮远远超出了匹配游戏的范畴。最近,算法被优化为执行“无监督聚类”,在这种聚类模式中,它们可以在不被告知具体要寻找什么的情况下捕捉数据中的规律。
这为天文学家找到他们目前不知道的效应和关系打开了大门。加拉夫说,这些计算工具首次为天文学家提供了“系统地寻找未知”的能力。
2024 年 1 月,AstroAI 的研究人员使用这种方法对来自 X 射线源的 14000 多个探测数据进行了分类。如果没有这种方法,他们很难完成这项工作。
人工智能发挥作用的另一种方式是探测其它星球大气的化学成分。天文学家使用望远镜来分析穿过行星大气层并在特定波长下被不同分子吸收的星光。
为了搞清楚剩余的光谱,天文学家通常会将其与他们基于少数感兴趣的分子(如水和二氧化碳)产生的假光谱进行比较。
外行星研究人员希望将他们的搜索范围扩大,涵盖成百上千种可能表明星球上存在生命的化合物,但目前我们需要几周时间才能找到四、五种化合物。
归功于新部署的詹姆斯·韦伯太空望远镜和欧洲航天局定于 2029 年发射的阿里尔太空望远镜,我们探测到的系外行星数量将从几十颗增加到数千颗,而探索化合物的效率瓶颈将变得越来越麻烦。
美国天体物理中心研究系外行星大气层的天文学家梅赛德斯·洛佩斯·莫拉莱斯(Mercedes López Morales)说,处理所有这些观测“原本是我们不可能完成的任务,像 AstroAI 这样的东西出现的时间刚刚好,就在这些数据洪流向我们袭来之前。”
2023 年,洛佩斯·莫拉莱斯与当时在 AstroAI 实习的本科生马耶尔·奥宾(Mayeul Aubin)合作,建立了一个机器学习模型,可以更有效地从光谱数据中提取分子组成。
在两个月内,他们的团队建立了一个模型,可以在 31 秒内搜索数千颗系外行星的光谱,寻找五种不同分子的特征。这一成果为他们赢得了欧洲航天局 Ariel 数据挑战赛的最高奖项。
研究人员希望训练一个模型来寻找数百个额外的分子,从而提高他们在遥远行星上发现生命迹象的几率。
AstroAI 的合作还产生了黑洞的真实模拟和暗物质在整个宇宙中分布的地图。
加拉夫的目标是最终建立一个类似于 ChatGPT 的大型语言模型。该模型基于天文学数据进行训练,可以回答有关观测的问题,并解析文献以获得支持证据。
荷兰空间研究所的天文学家和数据科学家丹妮拉·胡彭科森(Daniela Huppenkothen)说:“这就像是有一个巨大的新游乐场可以探索。我们可以使用人工智能来解决以前无法解决的问题,因为这些问题的计算成本太高。”
然而,正如胡彭科森在最近的预印本中所概述的那样,将人工智能纳入天文学工作流程也有其自身的权衡。人工智能模型虽然高效,但往往以科学家无法完全理解的方式运行。
这种不透明性使它们的调试变得复杂,也很难确定它们是如何引入偏见的。和所有生成式人工智能一样,这些模型容易产生幻觉,产生不存在的关系,最后以毫无根据的自信语气汇报自己的结论。
胡彭科森说:“批判性地审视这些模型的作用和失败是很重要的。否则,我们会以违背事实的视角看待宇宙是如何运作的。”
研究人员正在努力将误差纳入算法响应中,以解释新的不确定性。一些人认为,这些工具可以保证在当前的出版物和同行评审过程中增加一层审查。
“作为人类,我们天然地倾向于相信机器。”美国纽约城市大学的天体物理学家和数据科学家维维安娜·阿夸维瓦(Viviana Acquaviva)说,她最近出版了一本关于机器学习在天文学中应用的教科书。
“我们需要非常清楚地展示往往无法明确解释的结果,同时非常诚实地展示我们的能力。”
研究人员意识到了引入人工智能的伦理后果,即使在天文学这样看似无害的环境中也是如此。
例如,如果只有特定机构能够获得运行这些工具的计算资源,这些新的人工智能工具可能会使该领域现有的不平等现象长期存在。
胡彭科森说,如果天文学家重复利用公司为其他目的训练的现有人工智能模型,他们就会“继承这些模型中固有的许多道德和环境问题”。
加拉夫正在努力解决这些问题。AstroAI 模型都是开源和免费的。该组织还会提供帮助,使模型适用于不同的天文学应用。
她还与哈佛大学 Berkman-Klein 互联网与社会中心合作,正式培训人工智能伦理团队,并学习避免偏见的最佳实践。
科学家们仍在研究人工智能的到来可能会如何影响天文学。如果人工智能模型能够提出全新的想法,并为科学家提供新的研究途径,它将永远改变天文学家在破译宇宙中扮演的角色。
但即使人工智能仍然只是一种优化工具,它也将成为宇宙探索武器库中的利器。
“人工智能将改变游戏规则。”加拉夫说,“我们不能只靠自己了。”
支持:Ren
版权声明
本站所有文章来源于本站原创或网络,如有侵权请联系删除。文章观点并不代表本站观点,请网友自行判断,如涉及投资、理财请谨慎应对!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。