一种标记星系的算法

一个星系。来源:CC0。

目前，星系分类需要人工完成，需要天文学家和公民科学家花费大量时间。但澳大利亚的一个天体物理学家团队现在开发了一种机器学习算法，可以大大加快这一过程。

“星系的形状和大小各不相同，”国际射电天文学研究中心(ICRAR)西澳大利亚大学分部的博士候选人Mitchell Cavanagh说，他是描述该研究的论文的第一作者。发表在皇家天文学会月报．

“对星系的形状进行分类是理解它们的形成和进化的重要一步，甚至可以揭示宇宙本身的性质。”

随着望远镜的改进，关于新星系的数据量越来越大，天文学家无法处理。

“我们说的是未来几年的几百万个星系。有时，市民科学家会被招募来帮助对星系形状进行分类星系动物园但这仍需要时间，”卡瓦纳说。

Cavanagh和他的同事们已经解决了这个问题卷积神经网络,或者CNN。这些神经网络在处理视觉数据时特别有用，因为它们将信息分层的方式。

“每个卷积层对图像应用各种各样的过滤器来创建特征映射，”Cavanagh说。“想想Adobe Photoshop，你可能想要锐化边缘或应用平滑的模糊。”

“cnn如此万能的原因是，用于提取这些特征的过滤器根本不是硬编码的;事实上，它们一开始是完全随机的!”

以前，天文学家曾使用cnn对星系进行分类，但只在二元情况下——例如，一个星系是否为螺旋星系。该神经网络将使用多类分类，使其比现有的网络更准确。

“神经网络的最大优势是速度，”卡瓦纳说。“用一张标准显卡，我们可以在不到3秒的时间里对14000个星系进行分类。”

该网络是根据人类生成的星系数据进行训练的。这意味着它不一定比人类更准确(它的总体准确率是80%)，但它会快得多。

“这种内在的不确定性是任何基于标记数据训练的AI模型的限制因素。”

卡瓦纳补充说，影响该网络准确性的另一个限制因素是，有些星系并不完全属于这些类别。“有许多不同类型(和子类型!)的星系，哈勃音叉将证明这一点。即使我们将它们分为“椭圆”、“透镜”或“螺旋”等主要类别，也总会有一些重叠和分歧。

“CNN最大的障碍是对不规则星系的准确分类。顾名思义，这一类别必然很宽泛，从形状奇特的团块到遭受大规模潮汐破坏的星系，无所不包。因此，CNN将许多非常规人员分类错误就不足为奇了。”

他指出，他们训练星系的数据没有充分代表这些不规则星系，这可能也会影响网络的准确性。

虽然神经网络可以加快速度，但它依赖于公民科学天文学项目的数据。

“正如《银河动物园》及其续集《银河动物园2》的成功所表明的那样，公民科学行动对天文学家非常有用。的ICRAR-ledAstroQuest公民科学项目还旨在帮助检查数万个星系，”卡瓦纳说。

“公民科学的另一个经常被忽视的好处是大规模人口统计的可用性。这样就很容易看出哪些星系的贡献者比较容易分类(几乎一致的选择)，哪些比较难分类(广泛的选择)。然后就可以选择那些难以分类的星系进行更有针对性的分析。随着越来越多的大规模调查在网上展开，这样的举措很有可能会继续下去。”

如果有足够大的数据集来训练，cnn也可以用于其他领域。

“cnn不需要只应用于星系的光学图像，它们也可以很容易地应用于射电图像，这将对即将到来的平方公里阵列(斯卡),”Cavanagh表示。

“cnn将在未来的数据处理中扮演越来越重要的角色，特别是在天文学等领域努力应对大数据的挑战时。”

阅读更多:

最初发布的宇宙作为一种标记星系的算法

Ellen Phiddian是《宇宙》杂志的科学记者。她拥有澳大利亚国立大学化学和科学传播荣誉理学学士学位和科学传播理学硕士学位。

现在是解释事实、珍惜循证知识、展示最新科学、技术和工程突破的最重要时刻。《宇宙》由澳大利亚皇家学会出版，这是一个致力于连接人类与科学世界的慈善机构。财政捐助，无论大小，帮助我们在世界最需要科学信息的时候，提供获得可信科学信息的途径。请通过今天捐款或购买订阅来支持我们。

做一个捐赠