新闻文档关键词抽取技术的研究.docVIP

下载本文档

4
0
约4.21千字
约 10页
2018-10-26 发布于福建
举报
版权申诉

新闻文档关键词抽取技术的研究.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

新闻文档关键词抽取技术的研究

新闻文档关键词抽取技术的研究　　摘要关键词抽取是从文档中筛选出核心的词语，简要概括文档的主题。对于新闻文档来说，有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容，提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征，使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频，这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成，而这些词语并不存在于候选的关键词列表当中，这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集，进行关键词抽取技术研究，通过构建“文档-关键词”翻译器，并对机器翻译的方法进行训练，提高文档词和关键词之间的翻译概率；把训练的模型进行抽象模型化，实现关键词抽取，取得良好的效果。同时，通过引入维基百科词条库进行词语合并，使得关键词抽取效果得到更进一步的提升。　　关键词关键词抽取；新闻网页处理；机器翻译；短语合成　　中图分类号 G2 文献标识码 A 文章编号 1674-6708（2015）136-0085-02 　　1 关键词特点和原理分析　　关键词作为一篇文档的简要概括，通常是由几个词语组成。合适的关键词可以作为文档的高度概括，帮助读者快速浏览了解文档的主题内容。　　关键词在期刊和会议论文当中通常是由作者自己标注，然而，对于大量的新闻文章往往没有关键词。因此如何自动地从新闻文档中抽取出合适的关键词具有很重要的实际应用及研究价值。　　关于关键词抽取的大多数方法主要集中在对文档词的统计特性研究。这些方法有很大的局限性，特别是对于简短的文本内容，这些方法会表现出很差的效果。这样会产生文档词和关键词之间显著的词汇差异现象。　　另外，关键词可能是一个单独的词语，也可能是由多个词语组合而成。因此如果不对文档分词后的词语进行适当词语合并，也会造成文档词与关键词之间的词汇差异。　　从以上的分析当中我们可以看出，如何解决文档词与关键词之间的词汇差异是关键词抽取技术的关键。因此在本文中我们通过两种方式去解决词汇差异现象。　　1）通过引入维基百科词条库，对分词后的词语进行词语合并处理，解决文档分词后不包括关键词的情况。　　2）通过机器翻译模型，训练文档和关键词的转化概率模型，解决文档与关键词的词汇差异现象。　　2 抽取算法　　关键词抽取的方法大致可以分为监督和非监督　　两种。　　监督的方法把关键词抽取的问题当作一个二分问题，即将每一个候选的关键词分为关键词和非关键词。主要是将关键词出现的频率和位置信息当作特征来进行关键词分类。将更多的语义信息特征融合到分类算法当中。基于监督的关键词抽取算法需要人工标注数据作为训练集，这是非常耗时的。非监督的算法通常根据各种特征值给每一个关键词计算相应的得分，然后根据得分排序的结果筛选出前K个作为文档的关键词。因此，基于非监督的算法在实际当中往往更受研究者关注。　　由于有些关键词在文档中出现并不多，甚至没有出现过，这种关键词和文档之间的词汇差异现象是一种常见现象。对于某一特定文档，除了考虑文档本身词与词的共现关系，还利用文档集中与其相似的k个文档的词语相关信息来构建词项图，使得图中有更丰富的语义信息。这种方法一定程度上缓解了词汇差异，但由于算法是在文档层次上引入外部信息，这样往往会引入噪音。给结果带来一定的偏差。　　3 关键词抽取策略　　关键词抽取算法流程　　1）文档预处理　　?利用分词工具进行分档分词处理得到文档的词序列集合　　?利用维基百科词条对词序列作词语合并处理　　2）基于机器翻译的关键词抽取算法（MTKE）　　?准备翻译对集合　　对于任意一篇文档，构建“文档-关键词”翻译对　　?根据翻译对训练翻译模型　　对于给定的翻译对，利用词对齐模型，训练词到词之间的翻译模型　　?文档关键词抽取　　对于给定的文档，根据训练好的翻译对模型进行关键词抽取　　3.1文档预处理　　对于任意一篇文档，我们首先需要对其进行分词处理得到一组词序列来代表文档。在本文中，我们使用基于层次隐马尔科夫模型ICTCLAS分词系统，功能包括中文分词、词性标注、命名体识别等。　　对于某些特定的词语，分词工具并不能完整地得到，因此我们利用维基百科的词条库对分词后的词序列做进一步合并处理。　　3.2基于机器翻译的关键词抽取　　我们利用统计机器翻译当中的词对齐模型（WAM）进行关键词抽取，WAM模型基于翻译对数据集学习两种语言词语之间的翻译概率。利用这个概率模型我们就能从某种程度上消除词汇差异，选出合适的关键词。　　3.2.1 准备翻译对训练数据　　词对齐模型需要从大量翻译对数据中学习词语之间的翻译概率，为了得到翻译对训练