业界动态
ACL 2021 | PENS: 个性化新闻标题生成数据集
2024-11-17 03:43

(本文阅读时间:8 分钟

ACL 2021 | PENS: 个性化新闻标题生成数据集

编者按:数字信息时代人们获取新闻的方式越来越高效,但是获取新闻中关键信息的效率却很低。而 NLP 领域的新闻标题生成任务 (News Headline Generation)则可以基于新闻正文,自动生成包含关键信息的简短标题,使读者可以高效地获知新闻中的重要内容。

为了开展新闻标题生成任务的研究,微软亚洲研究院的研究员们构建了第一个可以离线评测个性化新闻标题生成方法的基准数据集:PENS(PErsonalized News headlineS)数据集;同时还提出了一种个性化新闻标题生成的通用框架,并且对其进行了效果评估。该论文 “PENS: A Dataset and Generic framework for Personalized News Headline Generation” 已被 ACL 2021 收录。欢迎感兴趣的读者积极留言,交流感想

在数字信息时代,由于文本信息的数量、传播速度都以指数形式增长,因此导致信息过载问题日趋严重。以新闻为例,每天新发布的新闻消息不计其数,用户难以在有限的时间内,从海量的新闻中筛选出感兴趣的文章进一步阅读,因而用简明的语言概括新闻的关键信息非常重要。在 NLP 领域,新闻标题生成任务(News Headline Generation)可以基于新闻正文,自动生成包含关键信息的简短标题,使读者高效地获知新闻中的重要内容。由于标题本身是对新闻正文的高度概括,因此生成标题的简洁性、流畅性和事实一致性,对该技术来说是一项挑战。

近年来,随着用户个性化服务的普及与人工智能技术的进步,新闻网站等内容平台希望通过标题来吸引读者的阅读兴趣,但同时又要避免“标题党”现象的发生。因此,生成个性化新闻标题成为标题生成领域的一个全新研究方向。

什么是个性化新闻标题呢?举个例子,有一篇报道篮球比赛的新闻,其潜在的用户受众通常是比赛球队的球迷。如果新闻标题不考虑用户的阅读兴趣,只是客观地描述比赛结果,那么输球一方的球迷进一步阅读这条新闻的概率可能较小,因为当他们看到标题时就已经知道自己支持的球队输了比赛,再具体了解输球过程的意愿就会相对较低。但是,如果考虑用户的阅读兴趣,对不同球队的球迷呈现个性化的标题(如图1所示,那么即使是输球方的球迷,可能也愿意去了解这条新闻的内容。比如,以球迷支持的球星为标题的核心词,突出球员的个人表现。

ACL 2021 | PENS: 个性化新闻标题生成数据集

图1:个性化新闻标题的实例

个性化新闻标题生成任务的定义是:给定用户历史阅读行为数据和候选新闻内容,生成用户专属的不同新闻标题。生成的标题既要引起用户的阅读兴趣,提高用户进一步阅读、获取更高点击和阅读量的可能,又要兼顾新闻标题的事实一致性,保证用户的阅读质量,避免成为标题党。它有两个重点子任务

①学习用户的个性化阅读兴趣:通过用户历史阅读行为信息,可以对用户的个性化阅读兴趣建模,从而学习用户的个性化表示

②生成个性化新闻标题:将用户的个性化表示算法与新闻标题生成算法融合,实现为不同阅读兴趣的用户生成不同的新闻标题。

因此,以个性化标题展示的新闻,由于更能引起用户的阅读兴趣,进而可能获得更高的点击和阅读量,将成为新闻平台关注的新兴研究领域。

ACL 2021 | PENS: 个性化新闻标题生成数据集

可离线评测的数据集 PENS

开展个性化新闻标题生成的研究,需要一个大规模的数据集,以开展离线评测。否则,当测试不同算法的表现时,研究者可能需要不断重复线上 A/B 测试,或者通过组织人工评价的方式来观察算法效果,不但实现成本高,而且公平性及可复现性均难以保证。

为了进一步研究个性化新闻标题的生成,微软亚洲研究院的研究员们构建了PENS(PErsonalized News headlineS)数据集,该数据集是第一个离线评测个性化新闻标题生成方法的基准数据集,且所有数据基于 Microsoft News 用户的匿名化新闻点击记录构建,同时包含了用户行为信息和新闻语料信息。

PENS 的新闻语料库包含了约11万则英文新闻文章,每篇新闻文章都由四部分内容组成:新闻ID、新闻标题、新闻正文和新闻类别标签。所有训练和测试数据中出现的新闻,都与语料库中文章的新闻 ID一一对应。

PENS 的训练数据集则包含了匿名用户的新闻曝光日志(Impression Log,其中包括44万名匿名用户的50万次新闻曝光日志,以及每名用户的历史点击信息。具体而言,每一条训练数据都由五部分内容组成:用户 ID、曝光时间戳、点击新闻列表、未点击新闻列表、用户历史点击新闻列表。所有列表中出现的新闻按首次曝光时间排序。

为了满足离线评测的需求,研究员们邀请了103名以英语为母语的高校学生(以下简称“标注者”,人工创建 PENS 的测试数据集。其构造过程分为两个阶段:第一阶段,每位标注者浏览1000条从新闻语料库中随机抽取的新闻标题,并从中选择至少50个自己感兴趣的标题,视为该用户的历史点击行为;第二阶段,每位标注者为另外200篇新闻正文撰写心中的理想标题。这些人工撰写的新闻标题由专业新闻编辑审查质量。低质量的标题会被删除(例如过长、过短或与正文不符,剩余合格的标题作为相应用户的个性化新闻标题的黄金标准。

研究员们认为,这些标注者虽然不具备专业的新闻编辑素养,但其人工撰写的标题能够充分反映他们的个性化阅读兴趣,因此可以作为测试时的“标准答案”。最终,这103名标注者构建的点击行为数据和撰写的2万多个个性化新闻标题构成了 PENS 的测试数据集。在此数据集上,个性化新闻标题生成方法可以采用文本生成中常采用的评价指标来评估其效果,如 BLEU、ROUGE 等。

ACL 2021 | PENS: 个性化新闻标题生成数据集

表1:PENS数据集统计信息

ACL 2021 | PENS: 个性化新闻标题生成数据集

图2:PENS数据集新闻标题和正文长度分布(a,b

标题和正文中实体数量分布(c,d)、新闻主题分布(e)和用户点击历史长度分布(f

ACL 2021 | PENS: 个性化新闻标题生成数据集

个性化新闻标题生成通用框架

目前,还没有专门的方法来生成个性化新闻标题,为了填补这个空白,微软亚洲研究院的研究员们还提出了一种个性化新闻标题生成的通用框架。研究员们设计了一种以 Transformer 编码器和指针网络解码器为基本模型的新闻标题生成器,并提出了三种通过向基本模型注入用户个性化信息的方法,来生成个性化标题。框架的结构如图3所示

ACL 2021 | PENS: 个性化新闻标题生成数据集

图3:个性化新闻标题生成的通用框架

标题生成器,由 Transformer 编码器和指针网络解码器组成。Transformer 编码器编码候选新闻的文本信息,学习新闻正文单词的隐藏表示 h=[h_(v_1),h_(v_2),⋯,h_(v_n)]。在解码过程的第 t 步,指针网络解码器首先会采用注意力机制来计算当前隐藏状态 s_t 对新闻正文单词的注意力分布 a_t=[a_(v_1),a_(v_2),⋯,a_(v_n)];然后基于此注意力分布,加权求和得到上下文向量 c_t;最后,原始词汇表中每个单词生成的概率分布 P_vocab,以及选择原始词汇或直接复制新闻正文单词的指针 p_gen^t,可由 c_t,s_t 等参数得到。最后第 t 步解码词的总体概率 w_t 分布为

ACL 2021 | PENS: 个性化新闻标题生成数据集

用户个性化注入,所提出的框架共设计了三种形式:①将用户个性化表示( User Embedding ) 作为指针网络解码器的初始隐藏状态,进而实现影响生成词语的总体概率分布 P(w_t);②将 User Embedding 加入到对正文单词注意力分布 a_t 的计算中,区分不同用户对正文单词的关注程度,从而影响解码器从原文复制单词的概率分布 P_copy;③将 User Embedding 加入到 p_gen^t 的计算中,从而影响解码阶段的单词是来自词表生成还是来自正文复制。

研究员们在 PENS 数据集上验证了该框架的效果。为了对比个性化与非个性化的差异,研究员们首先对比了两种代表性的标题生成方法:基本的指针生成网络(用 Pointer-Gen 表示)和用强化学习框架拓展的指针生成网络(用 PG+RL-ROUGE 表示)。由于论文中提出的框架并未限制用户表示的学习方法(它们通常可由个性化新闻推荐算法学习得到,因此研究员们采用了6种代表性的个性化新闻推荐算法:EBNR、DKN、NPA、NRMS、LSTUR 和 NAML。这6种个性化新闻推荐算法按照本文框架中的三种注入方式,分别注入研究员们提出的标题生成器,从而可以得到18种具体的个性化新闻标题生成方法。

评价指标上,实验以 AUC、MRR、nDCG@5 和 nDCG@10 作为用户兴趣建模性能的评价指标,以 ROUGE-1,ROUGE-2,ROUGE-L 的 F1 均值作为个性化标题生成质量的评价指标。这里采用 ROUGE 系列指标是因为研究员们更关注召回率,即用户撰写的标题内容出现在生成结果中的比率。对比结果请见表2。

ACL 2021 | PENS: 个性化新闻标题生成数据集

表2:实验结果(IM指用户个性化表示的注入方式

分析表2可得到以下结论

①所有个性化新闻标题生成方法的表现都优于普通标题生成方法。这是因为该方法能够根据学习到的用户兴趣来生成个性化的新闻标题,个性化标题与用户撰写的新闻标题具有更高的相似度。通过表3的样例所示,该个性化标题生成方法可以从用户的历史点击行为中捕捉到个性化阅读兴趣的信息,并根据不同用户的兴趣,为同一篇新闻生成不同的个性化标题。

ACL 2021 | PENS: 个性化新闻标题生成数据集

表3:个性化标题生成样例

②用户的个性化建模方法在个性化标题生成任务中起到了重要作用。更好的用户建模方法可以从用户行为历史中获得更丰富的个性化信息,进而生成更好的个性化标题。如 NAML 方法在用户兴趣建模的4项指标上均得到了最高分,同时也在3种个性化注入方式中取得了最高的 ROUGE 分数,这意味着该方法生成的个性化新闻标题质量更好。

③第二种用户兴趣注入方式在大多数用户建模方法中表现最好。这可能是因为用户的阅读兴趣很可能具体表现为对正文中的人名、地名、事件等重点信息的关注,这些单词有更大的概率是通过指针网络解码器中的拷贝机制生成至标题中的,所以让用户兴趣表示直接去影响从正文复制单词的概率分布,也许是最直接、有效的一种方法。但是第二种方式并没有在所有用户建模方法中达到最佳效果(如 NPA、LSTUR)。因此,更好的用户个性化注入方式还有待进一步探索。

ACL 2021 | PENS: 个性化新闻标题生成数据集

总结

本文针对个性化新闻标题生成进行了研究,并构建了名为 PENS 的数据集,这是第一个可以采用离线方式评测个性化新闻标题生成方法的基准数据集;此外,研究员们还提出了一个通用的个性化新闻标题生成方法框架,以三种不同的方式将用户兴趣注入到编码器-解码器结构的标题生成器中,用于生成个性化新闻标题。最后,研究员们也比较了用户建模和标题生成的 SOTA 方法,用以提供 PENS 的基准分数。结果表明,该提出的方法及通用框架均达到了满意的效果,不过目前仍存在一些问题,更好的用户个性化注入方式还有待进一步探索。

了解更多信息,请访问

论文链接

https://www.microsoft.com/en-us/research/publication/pens-a-dataset-and-generic-framework-for-personalized-news-headline-generation/

GitHub主页

https://msnews.github.io/pens.html 

 

本文作者

敖翔、王希廷、罗玲、乔颖、何清、谢幸

智能推荐

个性化推荐技术与产品社区

长按并识别关注

ACL 2021 | PENS: 个性化新闻标题生成数据集

    以上就是本篇文章【ACL 2021 | PENS: 个性化新闻标题生成数据集】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/9784.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
没有对手的李子柒,迟早会“上链接”?
原创 李觐麟 锌刻度每日一篇科技财经深度调查撰文/ 李觐麟编辑/ 李 季排版/ Annalee“白月光”的杀伤力,在李子柒这里得到了最充
李子柒回归后的真相:三年沉淀,热爱与韧性的完美结合
李子柒,一个曾经红遍网络的名字,因与公司纠纷而停更了整整三年。然而,时隔已久,她的强势归来却丝毫没有被遗忘的迹象,反而激
2025年行业前景分析与发展趋势分析
2025年是乙巳蛇年,许多行业将迎来新的发展机遇和挑战。下面将详细分析2025年的行业前景与发展趋势,介绍不同行业的潜在机会与风
警方通报北电赵韦弦事件:其涉嫌违法犯罪 已被刑拘
警方通报北电赵韦弦事件:其涉嫌违法犯罪 已被刑拘:21日晚,海淀警方通报:针对网传某高校学生赵某某(男,20岁)违法情况,经警
2025年运势简析!
天时地利人和,每年都承载着不同的天时和运势。2025乙巳蛇年,不仅是一个时间标记,更承载着深厚的文化内涵。在中国传统文化中,
创维集成灶400全国统一联保电话《2025汇总》
创维集成灶维修服务24小时热线《2025汇总》(2025已更新)创维集成灶维修服务维修电话:(1)400-9963-901(2)400-9963-901创维集成
离开1217天后,李子柒“熹妃归来”被平台疯抢
停更1217天,李子柒终于回来了。归来仍是顶流11月12日下午4时30分,李子柒在微博、抖音、快手、B站等平台发布了一条以中国非物质
计划2025年12月通车!沁伊高速建设如火如荼
原创 伊川县融媒体中心 伊川新闻伊川县广播电视台 伊川县融媒体中心新闻发布官方平台总监制 郭明杰 监 制 胡幸凡编 审 赵伊曼 制
2025年不一般,2个立春2个六月4人躲春,有啥预兆?要躲几次春?
2025年不一般2025年乃是乙巳蛇年,也就是属蛇的本命年,古书籍当中有提到,十二地支,对应着十二生肖,而十天干,则对应着季节。
热搜第一!李子柒身份证已改名
11月12日,李子柒发布视频官宣回归。李子柒更新道:这个大漆视频迟到了四年,“漆”同“柒”,我给这幅雕漆隐花的漆器作品取名“