通过马克Ziemann,迪肯大学和Mandhri Abeysooriya,迪肯大学
从互联网搜索到短信应用程序和文字处理器,自动更正或预测文本是许多现代科技工具的共同特征。自动更正可能是一件好事,但当算法出错时,它会以戏剧性的、有时甚至是滑稽的方式改变消息。
我们的研究表明,自动更正错误,尤其是Excel电子表格中的错误,也会在基因研究中造成基因名称混乱。我们调查了2014年至2020年间发表的1万多篇用Excel基因列表发表的论文,发现超过30%包含至少一个被自动修正的基因名。
这项研究是在我们2016年的研究之后发现的大约20%很多论文都有这些错误,所以问题可能会越来越严重。我们相信给研究人员的教训是明确的:停止使用Excel并学习使用更强大的软件的时间已经过去了。
Excel做出了错误的假设
电子表格应用预测文本来猜测用户想要的数据类型。如果您输入一个以0开头的电话号码,它将识别它为一个数字值并删除前导零。如果你输入" =8/2 ",结果将显示为" 4 ",但如果你输入" 8/2 ",它将被识别为日期。
对于科学数据,使用默认设置在Excel中打开一个文件的简单行为可能会由于自动更正而破坏数据。如果在粘贴或导入数据之前对单元格进行了预格式化,就有可能避免不必要的自动修正,但这和其他数据卫生提示并没有被广泛应用。
在遗传学上,这是很早以前就认识到的2004该Excel可能会将大约30个人类基因和蛋白质名称转换为日期。这些名字就像三月一日,九月一日,Oct-4,小君,等等。
几年前,我们在一篇影响很大的期刊文章的补充数据文件中发现了这个错误,并开始对这些错误有多普遍感兴趣。我们2016年的文章指出,这一问题影响中高排名期刊的比例大致相同。这向我们表明,研究人员和期刊很大程度上没有意识到自动更正问题以及如何避免它。
根据我们2016年的报告,负责为人类基因命名的官方机构人类基因名称联盟(Human Gene Name Consortium)重新命名了问题最多的基因。三月一日和九月一日改为MARCHF1和七肽1分别,和其他人有类似的变化。
一个持续存在的问题
今年早些时候,我们重复了我们的分析。这一次,我们将其扩展到更广泛的开放获取期刊,预期研究人员和期刊将采取措施,防止此类错误出现在他们的补充数据文件中。
我们震惊地发现,在2014年至2020年期间,3436篇文章,约占我们样本的31%基因名错误. 这个问题似乎还没有消失,实际上正在恶化。
小错误问题
有些人认为这些错误其实并不重要,因为大约30个基因只是整个人类基因组中大约44000个基因的一小部分,而且这些错误不太可能推翻任何特定基因组研究的结论。
任何重复使用这些补充数据文件的人都会发现这一小部分基因缺失或损坏。如果你的研究项目检查了九月基因家族,但它只是存在的众多基因家族之一。
我们认为这些错误很重要,因为它们提出了关于这些错误如何潜入科学出版物的问题。如果基因名称自动更正错误可以通过同行评审而不被发现进入已发布的数据文件,那么在数千个数据点中还可能潜伏着哪些其他错误?
电子表格灾难
在商业和金融领域,有许多例子表明电子表格错误会导致昂贵而令人尴尬的损失.
2012年,由于一系列交易失误,摩根大通宣布亏损超过60亿美元公式错误在其建模电子表格中。对安然公司(Enron Corporation)2001年惨败前数千份电子表格的分析表明近四分之一的数据包含错误.
哈佛大学经济学家卡门·莱因哈特(Carmen Reinhart)和肯尼斯·罗格夫(Kenneth Rogoff)的一篇如今臭名昭著的文章被用来为全球金融危机后的紧缩政策辩护,但该分析包含了一个错误关键Excel错误这导致他们在模型中忽略了20个国家中的5个。
就在去年,a英国公共卫生局电子表格错误导致约15000例新冠病毒阳性病例的相关数据丢失。在案件数量迅速增长的同时,这影响了长达八天的联系人追踪工作。在医疗领域,临床资料输入错误进入电子表格的比例可以高达5%,而单独的医院管理电子表格的研究显示12个中有11个存在严重缺陷。
在生物医学研究中,制备样本表的错误导致一整套样本标签移动一个位置并完全改变基因组分析结果. 这些结果意义重大,因为它们被用来证明患者将在随后的临床试验中接受的药物是合理的。这可能是一个孤立的案例,但我们不知道这种错误在研究中有多普遍,因为缺乏系统的错误发现研究。
更好的工具是可用的
电子表格用途广泛且有用,但也有其局限性。企业已经从电子表格转向专门的会计软件,当SQL等数据库系统更加强大时,IT部门中没有人会使用电子表格来处理数据。
然而,科学家使用Excel文件在线共享补充数据仍然很常见。但随着科学变得越来越数据密集,Excel的局限性也越来越明显,研究人员也许是时候启动电子表格了。
在基因组学和其他数据密集型科学中,Python和R等脚本计算机语言明显优于电子表格。它们提供的好处包括增强的分析技术、再现性、可审核性以及更好地管理代码版本和来自不同个人的贡献。一开始可能比较难学,但从长远来看,更好的科学所带来的好处是值得的。
Excel适用于小规模数据输入和轻量级分析。微软说Excel的默认设置是为了满足大多数用户在大多数时间的需求而设计的。
显然,基因组科学并不代表一个通用的用例。任何大于100行的数据集都不适合电子表格。
数据密集型领域(尤其是生命科学领域)的研究人员需要更好的计算机技能。倡议,例如软件木工为研究人员提供研讨会,但大学也应该更多地关注于给本科生提供他们所需要的高级分析技能。
马克Ziemann生物技术和生物信息学讲师,迪肯大学和Mandhri Abeysooriya,迪肯大学
最初发布的宇宙作为Excel自动更正错误仍然困扰着基因研究
谈话
对话是一个独立的非盈利媒体渠道,使用来自学术和研究社区的内容。
阅读科学事实,而不是虚构……
现在是解释事实、珍惜循证知识、展示最新科学、技术和工程突破的最重要时刻。《宇宙》由澳大利亚皇家学会出版,这是一个致力于将人类与科学世界联系起来的慈善机构。财政捐助,无论大小,都有助于我们在世界最需要的时候获得可信的科学信息。请通过捐款或购买订阅来支持我们。