密歇根大学研究人员开发了一种识别假新闻的算法系统ann arbor。它在正确识别假新闻方面比人类做得更好,在测试中它成功地发现了高达 76% 的假货, 而人类的成功率为 70%。此外, 他们的语言分析方法可以用来识别假新闻文章, 这些文章太新了, 无法通过将其事实与其他故事相互参照来揭穿。

该系统已经被Google News等网站用于打击虚假新闻。

项目组的 u-m 计算机科学和工程教授Rada Mihalcea 表示, 对于那些难以应对假新闻冲击的网站来说, 自动化解决方案可能是一个重要的工具。

在假新闻产生真正后果之前抓住假新闻可能会很困难, 因为今天的聚合者和社交媒体网站严重依赖人类编辑, 他们往往跟不上新闻的涌入。此外, 目前的揭穿技术往往依赖于对事实的外部验证, 而最新的故事可能会很难研制。通常情况下, 当一个故事被证明是假的时候, 伤害已经造成了。

语言分析采用不同的方法, 分析可量化的属性, 如语法结构、词的选择、标点符号和复杂性。它的工作速度比人类快, 可以与各种不同的新闻类型一起使用。

"你可以想象, 在新闻或社交媒体网站的前端或后端, 有多少这样的申请。"系统可以为用户提供个人故事或整个新闻网站的可信度估计。这可能是新闻网站后端的第一道防线, 支持进一步审查可疑报道。76% 的成功率留下了相当大的误差, 但当它与人类一起工作时, 将极大提升工作的效率和效果。

Mihalcea 说, 分析书面讲话的语言算法在今天相当普遍。构建假新闻探测器的挑战不在于构建算法本身, 而在于找到合适的数据来训练该算法。

假消息很快就会出现和消失, 这就很难收集到。它还有许多类型, 使收集过程更加复杂。例如, 讽刺新闻很容易收集, 但它的讽刺和荒谬的使用, 使得它在训练假新闻检测方面的算法时没有那么有用。

最终, Mihalcea 的团队创建了自己的数据, 众包一个在线团队, 将反向验证的真实新闻故事转化为假货。

研究人员在Amazon Mechanical Turk的帮助下被招募, 他们被雇来将简短的、真实的新闻报道变成类似但假的新闻。然后, 他们将这些标记的训练数据提供给一个进行语言分析的算法, 教授则自己区分真实新闻和假新闻。最后, 研究小组将算法转向了直接从网络上提取的真实和假新闻的数据集, 获得了 7 6% 的成功率。

新系统的细节和团队用来构建它的数据集是免费提供的, Mihalcea 说, 它们可以被新闻网站或其他实体用来构建自己的假新闻检测系统。她说, 未来的系统可以通过纳入元数据, 如与特定在线新闻项目相关的链接和评论, 进一步磨练。

https://news.umich.edu/fake-news-detector-algorithm-works-better-than-a-human/

声明:本文来自malwarebenchmark,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。