业界动态
关键词提取算法-TextRank
2024-11-04 12:49

  今天要介绍的TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。

关键词提取算法-TextRank

1.PageRank算法

  PageRank设计之初是用于Google的网页排名的,以该公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。PageRank通过互联网中的超链接关系来确定一个网页的排名,其公式是通过一种投票的思想来设计的:如果我们要计算网页A的PageRank值(以下简称PR值),那么我们需要知道有哪些网页链接到网页A,也就是要首先得到网页A的入链,然后通过入链给网页A的投票来计算网页A的PR值。这样设计可以保证达到这样一个效果:当某些高质量的网页指向网页A的时候,那么网页A的PR值会因为这些高质量的投票而变大,而网页A被较少网页指向或被一些PR值较低的网页指向的时候,A的PR值也不会很大,这样可以合理地反映一个网页的质量水平。那么根据以上思想,佩奇设计了下面的公式:

该公式中,Vi表示某个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示网页Vi的PR值,In(Vi)表示网页Vi的所有入链的集合,Out(Vj)表示网页,d表示阻尼系数,是用来克服这个公式中“d *”后面的部分的固有缺陷用的:如果仅仅有求和的部分,那么该公式将无法处理没有入链的网页的PR值,因为这时,根据该公式这些网页的PR值为0,但实际情况却不是这样,所有加入了一个阻尼系数来确保每个网页都有一个大于0的PR值,根据实验的结果,在0.85的阻尼系数下,大约100多次迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时,需要的迭代次数会陡然增加很多,且排序不稳定。公式中S(Vj)前面的分数指的是Vj所有出链指向的网页应该平分Vj的PR值,这样才算是把自己的票分给了自己链接到的网页。

 2.1 TextRank算法提取关键词

  TextRank是由PageRank改进而来,其公式有颇多相似之处,这里给出TextRank的公式:

可以看出,该公式仅仅比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度。TextRank用于关键词提取的算法如下:

  1)把给定的文本T按照完整句子进行分割,即

  3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

  4)根据上面公式,迭代传播各节点的权重,直至收敛。

  5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

  6)由5得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

2.2 TextRank算法提取关键词短语

  提取关键词短语的方法基于关键词提取,可以简单认为:如果提取出的若干关键词在文本中相邻,那么构成一个被提取的关键短语。

2.3TextRank生成摘要

  将文本中的每个句子分别看做一个节点,如果两个句子有相似性,那么认为这两个句子对应的节点之间存在一条无向有权边。考察句子相似度的方法是下面这个公式:

公式中,Si,Sj分别表示两个句子,Wk表示句子中的词,那么分子部分的意思是同时出现在两个句子中的同一个词的个数,分母是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。

    以上就是本篇文章【关键词提取算法-TextRank】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/9071.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
门店管理拓客小程序系统开发助力门店业务腾飞的创新利器
门店管理拓客小程序系统:助力门店业务腾飞的创新利器**一、引言**在当今数字化的商业环境中,门店管理面临着前所未有的挑战和机
百度ai人工智能写作免费吗
那么,为什么百度AI人工智能写作是免费的呢?首先,从商业角度来看,百度作为一家知名的互联网公司,自然不会将收费作为其主要盈
原创第一次用DeepSeek写文章:解锁高效创作的新篇章
初次接触DeepSeek,最直观的感受是其简洁明了的用户界面。平台设计直观,功能布局合理,即使是初次使用的创作者也能迅速上手。通
AI 技术的入门级教程有哪些?
我在这里与大家分享我所有Adobe Illustrator初学者应该学习的10个基本技巧和工具,并将您链接到一两个教程,这将有助于您学习如
节后健身计划哪家强?DeepSeek、豆包、文小言测评对比!
别再穿你的睡衣了!拿出你的牛仔裤向下滑的查看向下滑的查看向下滑的查看向下滑的查看向下滑的查看你觉得哪个AI最靠谱?注意以上
看袁泉的这组照片后,明白夏雨会放弃高圆圆而选她了
  前一段时间《我的前半生》热播,剧中袁泉饰演的“骨灰级好闺蜜”和职场女强人唐晶受到了观众的喜爱,齐刘海短发,穿着职业装
京东自营怎么申请入驻流程?京东入驻审核
京东自营是指商家通过京东平台直接销售商品,享受京东提供的仓储、物流、售后等服务。申请入驻京东自营需要经过一系列审核流程,
DeepSeek创始人火了!业内称他是“极致的80后技术理想主义者”
在人工智能领域,一场激烈的竞争正在上演。随着DeepSeek推出新模型DeepSeek-R1,1月27日,Deepseek应用登顶苹果中国地区和美国地
你觉得 DeepSeek 不好用,真的是你不会用啊!这篇学会了,写作效率提升90%!
小白再也不怕不懂AI你好啊~我是夏至。持续分享实用AI教程,我的教程主打拿来就用,有手就会!IOS和Android系统都能下载。手机和