互联网新闻话题特征选择与构建.docVIP

下载本文档

6
0
约3.55千字
约 7页
2018-08-15 发布于湖北
举报
版权申诉

互联网新闻话题特征选择与构建.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

互联网新闻话题特征选择与构建　　摘要：新闻话题的特征表示是建立话题模型以及进行话题聚类（融合）的基础，传统的特征构建一般采用关键字构成的向量表示模型，未对特征的选取、分类以及质量等方面进行完整的研究，因此本文拟针对互联网新闻文档进行特征提取、特征构建以及话题聚类质量分析等方面的系统研究，阐明话题特征的选择与构建对文本话题研究的影响，为后续的话题检测与追踪等应用提供更科学的特征理论模型。实验结果表明经过话题特征优选后的聚类效果有助于提高话题模型的准确性，避免噪声特征带来的话题歧义。　　关键词：话题特征；话题模型；话题聚类；特征选择　　中图分类号：TP391 　　文献标识码：A 　　DOI： 10.3969/j.issn.1003-6970.2015.07.004 　　0 引言　　信息技术的快速发展以及互联网的迅速普及，在线新闻文档数据成爆炸式增长。然而，这些文档数据大部分是半结构化或者非结构化的文本数据，人们要想从中快速、准确地找到自己所想要的内容极其困难。因此，如何合理、有效地组织和管理这些信息，从而提高人们检索数据的速度和准确程度，已经成为信息检索和数据挖掘领域中的热点课题，文本聚类和分类作为处理这一难题的有力手段，已经成为研究的热点课题。文本聚类、分类等针对互联网新闻的分析和挖掘技术在推荐系统、信息过滤、舆情分析和个性化推荐等领域具有较高的应用价值。实现对新闻话题的挖掘应用，需要首先对新闻报道构建话题模型，将话题转化为可进行计算和比较的信息表示模型，因此，如何有效选择话题特征构建话题模型将对互联网的新闻话题挖掘研究产生重要影响。　　有效的特征选择方法不仅可以降低文本的特征向量维数，删除冗余特征，保留类别区分能力较强的特征，而且在处理非平衡数据集分类时，也应该能够克服类别当中特征分布不平衡的问题，提高正类样本的识别率，从而有助于提高分类器的整体性能；合理的特征加权方法可以扼制噪声特征对分类的负面影响，并将特征代表文档属于某个类别的能力差别最大化。从话题模型的类别来看，目前话题特征的选择主要采用三种方式。首先，作为信息检索领域一种重要的文本表示模型，向量空间模型（Vector Space Model， VSM）以其结构简单、方便计算等特点得到了诸多学科和应用的广泛关注，该模型主要采用词项作为话题特征，而概率主题模型（Probabilistic Topic Model，PTM）则根据词项、文档和话题三者的贝叶斯概率来表示话题特征，具有扎实的数学基础。词项与词项之间的语义关联体现了话题的线索，因此，采用词汇链的方式构建话题特征也具有一定代表性。然而，传统的话题特征选择方法未阐明特征选择与构建对话题挖掘性能的影响，没有考虑特征的分类和选择策略，针对该问题，本文拟针对互联网新闻文档进行特征提取、特征构建以及话题聚类质量分析等方面的系统研究，建立面向互联网新闻话题的话题特征选择和构建机制，为话题挖掘研究提供科学的特征模型。　　1 话题特征提取　　对于新闻文档，我们采用报道中的词项作为话题特征的基本对象，通过对词项的选择构建新闻报道的话题特征。因此，本文首先利用自然语言处理技术对新闻文本进行话题特征提取。　　1.1 停用词过滤和命名实体识别　　在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。对于一个给定的目的，任何一类的词语都可以被选作停用词。通常意义上，停用词大致分为两类。一类是人类语言中包含的功能词，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如the、iS、’at’、which、on等。另一类词包括词汇词，这些词应用十分广泛，但是对词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率，所以通常会把这些词从文本中移去，从而提高搜索性能。中文中常见的停用词包括“一下”，“一直”，“三番两次”，“不仅…而且”，“具体地说”等等。　　而命名实体识别（NER）是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。本文正是基于不同命名实体的类别，并结合词项的其余特征，进行话题特征的选择，因此，命名实体的识别性能将影响话题特征的选择。命名实体识别的过程通常包括两部分：（1）实体边界识别；（2）确定实体类别（人名、地名、机构名或其他）。英语中的命名实体具有比较明显的形式标志（即实体中的每个词的第一个字母要大写），所以实体边界识别相对容易，任务的重点是确定实体的类别。和英语相比，汉语命名实体识别任务更加复杂，而且相对于实体类别标注子任务，实体边界的识别更加困难。　　1.2 词性标注　　词性标注即判定给定句子中每个词的