Study shows machine learning models outperforming lay evaluations

星期三,2024年3月6日
保罗学院航拍照片.

机器学习模型能帮助公众更好地判断他们所消费的健康新闻的质量吗? 永利app新版本官网地址(University of New Hampshire)两位教授最近的研究表明,他们可以.  

Ermira ZiflaBurcu Eke Rubini, assistant professors of decision sciences at the 彼得?. 保罗经济与商业学院, 最近训练了机器学习模型来评估永利app新版本官网地址新医学治疗的健康新闻报道的质量.  

他们的研究成果发表于 决策支持系统, 发现机器学习模型在评估这些健康故事的质量方面优于非专业人士的评估.     

这项研究解决了一个复杂的挑战,即确定新闻的可靠性,这些新闻可能更微妙,比如整个故事没有被讲述,但不属于假新闻的范畴.

随着有关新疗法的新闻报道和新闻稿的迅速和广泛传播,这一挑战可能更加明显,因为这类报道可能夸大索赔要求,并压制相关风险. 同时, 大多数普通人没有医学专业知识来理解其中的一些复杂性.    

“大多数人对假新闻的看法是完全捏造的, 但, 尤其是在医疗保健领域, 它不需要是假的. It could be that maybe they're not mentioning something,Zifla说. “在这项研究中,我们并没有对发布这些内容的新闻机构的意图提出指控. But if things are left out, there should be a way to look at that.”   

在研究中, Zifla和Eke Rubini使用了来自《永利app新版本官网地址》的数据集,其中包括2013年至2018年在不同媒体上发表的永利app新版本官网地址新医疗保健治疗的新闻报道和新闻稿.     


Ermira Zifla

这些文章已经由一个医疗保健专家小组——医生——进行了评估, 卫生保健记者和临床教授——基于专家们制定的10个不同的评估标准. The criteria included cost 和 benefits of the treatment or test, 任何可能的伤害, 争论的质量, 程序的新颖性和可用性以及来源的独立性.

The researchers then developed an algorithm based on the same expert criteria, 和 trained the machine models to classify each aspect of the news story, matching that criteria as "satisfactory" or "not satisfactory.“专家的评估是机器学习模型训练和测试的基准.    

“我们有这个很棒的数据集,其中有根据不同标准评估的新闻, 这是很罕见的,因为它很昂贵,需要大量的时间和专业知识,Zifla说. “我们认为我们可以利用这些数据集和机器学习来自动化这个过程.”    

他们的方法, 采用多准则专家评价, 与之前的研究形成鲜明对比的是,之前的研究通常依赖于二元真假框架来检测假新闻, Eke Rubini补充道.  

该模型的性能与通过调查获得的外行人评价进行比较,参与者根据相同的标准将文章评为“满意”或“不满意”. 调查显示出一种“乐观偏见”," with most of the 254 participants rating articles as satisfactory, markedly different from the model's more critical assessments. 

“We can speculate as to why, 但 we don't test that in the paper,Zifla说. “It could be a general tendency to trust the news or medical information.”   

As the public continues to consume health news rapidly through social media, 埃克·鲁比尼和兹弗拉认为,使用他们开发的多标准机器学习模型来创建数字推送,帮助消费者评估这些故事,将有利于社交媒体公司.   


Burcu Eke Rubini

“Every time a news article comes in about health news, 它会通过算法运行,然后根据是否满足不同的标准给出结果, 和 that could be incorporated into websites automatically,艾克·鲁比尼说.   

未来的研究可以专注于开发具有不同标准的新模型,或者探索公众对社交媒体平台实施的机器学习评估的接受程度.  

“这是一个非常困难的挑战. 我们希望开启一场基于多种标准评估新闻的对话. 我再怎么强调也不过分,我们应该摆脱假新闻或不假新闻的二元思维,Zifla说. “These models can be adapted with better criteria 和 better features. 这一点总是可以改进的.”