几十年来,心脏病和糖尿病等慢性病呈上升趋势。它们是当今导致死亡和残疾的第一大原因,也是医疗费用失控的原因之一。因此,在生病之前识别有慢性病风险的人很有意义。至少,早期干预通常可以减缓疾病的发展速度并提高患者的生活质量——这样做可能会节省数十亿美元的医疗费用。

这就是为什么许多雇主(根据兰德公司的一份报告显示,大约 50%)为员工提供激励性健康计划的原因。除了健身房折扣外,这些计划通常还包括以实验室测试的形式进行的健康风险评估,用于计算每个人患常见疾病的风险因素。那些有风险的人会得到额外的预防性护理和监督。

不幸的是,预期的收益并不总能实现,斯坦福商学院运营、信息和技术副教授 Mohsen Bayati 说。几项研究发现,此类计划最终花费的资金可能会超过节省的资金。他说,一个可能的原因是风险评估本身并不那么准确。

“如果你错误地将某人识别为高风险——所谓的‘误报’——你就会为不必要的服务付费,”巴亚蒂说。“如果你错过了一个真正处于危险之中的人——一个假阴性——那么你将来仍然会受到那些巨额医疗费用的打击。”

他说,一个解决方案是运行一个更复杂的测试小组。但这也会增加成本。“实验室测试很昂贵。公司为很多员工做这件事,所以他们只看一组相当小的标准生物标志物。然后检测能力不是很强。”

相反,巴亚蒂说,使这些预防计划发挥作用的关键是改进生物标志物的选择。但是,你是怎么做的?更严格地说:你如何选择一组最小的标记来最大化对一系列疾病的诊断能力?

这是 Bayati 在最近的一篇论文中解决的难题,他与两位斯坦福大学的同事合着:Sonia Bhaskar 博士,前斯坦福研究助理,现在在 Netflix 担任数据科学家,以及 Andrea Montanari,统计学和电气工程教授。他们使用机器学习领域的一些技术柔术,开发了一种方法,可用于任何目标疾病组或项目预算水平。

当他们在大约 75,000 名患者的医疗记录上对其进行测试时,他们发现它可以以出乎意料的准确度预测一组九种严重疾病。“我们很惊讶,”巴亚蒂说。与对生物标志物数量没有限制的假设性凯迪拉克护理评估相比,他们的成本要低得多,但具有几乎相同水平的预测能力。

在这个大数据时代,也许这里有一个普遍的教训。“你必须想知道,”巴亚蒂沉思道。“在每个行业,公司都在投入资源来收集越来越多的数据。我们在所有东西上都安装了传感器,只是因为我们可以,而且坦率地说,这并不是全部必要或有用的。”

太多的信息

传统上,健康风险评估是通过单独找出每种疾病的最佳标记并将它们添加到列表中来设计的。“医院在如何识别生物标志物方面变得越来越复杂,有了先进的统计数据和现在的人工智能,”巴亚蒂说。“但它一次完成一种疾病。”

他说,你可以通过这种方式构建一个有效的测试面板,但它需要太多的生物标志物。因此,在实践中,会做出妥协并且准确性会下降。相反,巴亚蒂和他的同事在分析中添加了第二步:“我们说,让我们从完整列表开始,然后看看我们是否可以以更好的方式简化它,以最大限度地减少诊断能力的损失。”

为此,他们借鉴了机器学习中使用的高维统计中的一些技术。“最基本的问题是,如果你有太多的信息,你怎么能把它缩小到最有用的小信息集?你如何减少数据集的维度?”

涉及数学,但基本上,解决“TMI”问题的关键是共同优化生物标志物的选择。与其分别为每种疾病寻找最好的生物标志物,不如先决定你想要多少生物标志物——研究人员确定了 30 个——然后在所有可能的组合中同时最大化对整套疾病的预测能力。

该模型之所以有效,是因为许多生物标志物发出不止一种疾病的信号。例如,高血糖可能是糖尿病的征兆,但也是肾病、肝病或心脏病的征兆。碱性磷酸酶水平异常与心脏病、肝病和癌症有关。“如果你的选择过程没有考虑到这些重叠,你就是在丢弃信息,”巴亚蒂说。

目标没有限制

Bayati 和他的同事概述的方法的强大之处在于它可以用于同时追求多个目标。健康风险评估中哪个更重要:准确性还是成本?当然,两者都是。我们想预测阿尔茨海默氏症或动脉疾病吗?是的。

“进球数没有限制,”巴亚蒂说。“你可以列出 20、30、100 个你想要优化的目标。然后你可以缩小你需要收集的信息的范围——因为在某些时候,添加目标不需要额外的数据。”

如果它有助于实现企业健康计划的承诺,那对医疗保健来说就是一件大事。但这种方法也可用于改善一系列商业和公共政策运作。Bayati 说,关键是要明确目标。计算机可以进行分析,但人类必须告诉他们要优化什么。

他认为,这是一个步骤,公司经常掩饰。“有时,公司似乎只是急于积累数据并稍后提出问题。但更多的信息并不一定更好。重要的是知道该看什么。我们的论文是朝着这个方向迈出的一步。”