导读 一位古生物学家在夏季挖掘后回到她的实验室,并建立了一项比较两种恐龙物种牙齿长度的研究。她和她的团队一丝不苟地工作,以避免对他们的结

一位古生物学家在夏季挖掘后回到她的实验室,并建立了一项比较两种恐龙物种牙齿长度的研究。她和她的团队一丝不苟地工作,以避免对他们的结果产生偏见。他们在测量时对物种保持盲目,样本量大,数据收集和分析严谨。

科学家惊讶地发现这两个物种的犬齿长度没有显着差异。她意识到这些意料之外的结果很重要,于是将论文寄给了相应的期刊。但是期刊拒绝了该论文,因为结果没有显着差异。最终,科学家放弃了,带有所谓负面结果的论文被放在抽屉里,埋在多年的其他工作之下。

这种情况和许多其他类似情况已经在所有科学学科中上演,导致了所谓的“文件抽屉问题”。研究期刊和资助机构通常偏向于显示“积极”或显着不同结果的研究。这种不幸的偏差会导致科学过程中的许多其他问题,例如确认偏差,其中数据被错误解释以支持预期结果。

一种新方法:等价

不幸的是,发表偏倚问题在科学界已经普遍存在很长时间了。由于科学方法的结构,科学家们通常只关注群体之间的差异——比如来自两个不同物种的恐龙牙齿,或者两个不同社区的公共卫生比较。这使得关注相似性的研究完全隐藏起来。

然而,药物试验已经找到了解决这个问题的方法。在这些试验中,研究人员有时会使用一种称为 TOST 的测试,即双面测试,来寻找治疗之间的等效性。

例如,假设一家公司开发的仿制药比名牌药物的生产成本更低。研究人员需要证明新药在统计上与名牌的功能相同,然后才能在市场上销售。这就是等效性测试的用武之地。如果测试显示两种药物的效果等效,那么 FDA 可以批准新药在市场上的发布。

虽然传统的等效性测试对于预先计划和受控的药物测试非常有帮助,但它对于其他类型的研究来说还不够通用。原始 TOST 不能用于测试相同个体在多个处理组中的实验中的等效性,如果两个测试组具有不同的样本量,则它也不起作用。

此外,药物测试中使用的 TOST 通常不会同时处理多个变量。例如,传统的 TOST 将能够分析温度变化前后几个河流位置的生物多样性相似性。然而,我们的新 TOST 将允许同时测试所有河流站点的多个变量的相似性,例如生物多样性、水的 pH 值、水深和水的透明度。

传统 TOST 的局限性和普遍存在的“文件抽屉问题”促使我们的团队开发了一种多变量等价测试,能够解决具有重复测量和不等样本量的系统中的相似性问题。

我们于 10 月发布的新等价检验颠覆了传统的零假设框架。现在,研究人员不再假设相似性,而是假设这两个群体是不同的。现在的举证责任在于评估相似程度,而不是差异程度。

我们的测试还允许研究人员为声明相似性设置他们自己的可接受范围。例如,如果边际设置为 0.2,那么结果将告诉您两组的均值是否在正负 2% 内相似。

在正确方向迈出的一步

我们的修改意味着等效性测试现在可以应用于广泛的学科。例如,我们使用这个测试来证明雄性和雌性东部蓝鸟的歌声中的等效声学结构。等效性测试也已经用于工程和心理学的某些领域。

该方法可以更广泛地应用。想象一下,一群研究人员想要研究两种不同的教学方法。在一个教室里没有技术,而在另一个教室里,所有学生的作业都是在线完成的。等效性测试可能有助于学区决定是否应该在技术上投入更多资金,或者两种教学方法是否等效。

广泛适用的等效性测试的发展代表了我们认为将是科学家在长期努力提供真实和无偏见的结果方面向前迈出的一大步。该测试提供了另一种探索途径,并允许研究人员检查和发布过去未发表或资助的相似性研究的结果。

普遍存在的发表偏倚,包括文件抽屉问题、确认偏倚和意外误报,是科学进步的主要绊脚石。在某些研究领域,已发表的文献中遗漏了多达一半的结果。

等效性测试为科学家提供了工具箱中的另一种工具来呈现“积极”的结果。如果科学界掌握这项测试并充分利用它的潜力,我们认为它可能有助于减轻目前科学实践方式的主要限制之一。