基于Weka和LDA主题模型的跨文本人名聚类研究.docVIP

下载本文档

8
0
约2.87千字
约 5页
2019-07-12 发布于北京
举报
版权申诉

基于Weka和LDA主题模型的跨文本人名聚类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 1 基于Weka和LDA主题模型的跨文本人名聚类研究　　Abstract:ChinesePersonalNameClusteringiskeyprobleminpeoplesearchandthebaseofmulti-documentsummarizationandinformationfusiontechnology.Accordingtothetopiccorrelationofnewsandthefeatureoflow-noiseinname’scontext,wedidsomeresearchaboutusingclusteringalgorithminWekaandtopicmodeltosolvetheproblemofPersonalNameClusteringfromthepointviewoftextclustering.Experimentalresultsshowthatthismethodisfeasibleandefficient. 　　Keywords:personalnameclusterLDAmodelWeka 　　摘要：人名聚类是人物搜索技术中的核心问题，是多文本摘要、信息融合技术的基础。根据新闻类语料的主题相关性及人名上下文噪音小等特性，本文从文本聚类的角度研究了将Weka中的聚类算法及主题模型用于人名聚类。实验结果表明将人名聚类的问题转化为文本聚类的问题是可行且有效的。　　关键字：人名聚类LDA模型Weka 　　中图分类号：O141.4文献标识码：A文章编号：　　1引言　　由于字少人多、文化趋同、迎合时尚、家谱限制等原因，中国人重名现象十分普遍[1]。据网络查询[/shengri/]，在中国叫张伟的人有三十多万人，叫王刚的有十五多万人。随着社交网络的发展，包含相同人名但人物不同的网络数据也会越来越多，如何快速、准确从这些海量数据中搜索到特定人物的相关信息变得极为困难。例如：在搜索人物时，像百度、Google等全文搜索引擎返回的大多是特定领域里名人的相关信息，即使是全球最大的中文搜人引擎Ucloo优库[/]，返回的也只是同名不同人物地理位置的分布，并没有返回人物的其他相关信息。面对人物搜索领域的这一难题，提出了人名聚类这一关键技术。　　人名聚类经过多年的研究，已经使用的方法有：用指代链提取摘要并聚类的方法[2]；用最大熵的方法进行初步分类然后采用概念-实例对聚类的方法[3]；基于社会网络的重名消解方法[4]；基于主题模型和上下文摘要相结合的人名聚类方法[5]；基于多阶段的中文人名聚类的聚类技术[6]；引入社会角色知识库，再进行聚类的方法[7]。　　本文主要研究了将SimpleKMeans算法、sIB算法、EM算法、FarthestFirst算法、HierarchicalClusterer算法、LDA主题模型应用于人名聚类。为了能更好的了解人名聚类，分别用基于文本空间向量模型和主题模型两种不同模型的6种算法，对提取出的与人名相关的信息进行了聚类，并对实验的结果进行了分析。　　基本思想　　2.1向量空间模型　　向量空间模型(VectorSpaceModal，VSM)是由哈佛大学的GerardSalton等于20世纪60年代提出的。是目前应用最广泛的一种文本信息特征表示模型。该模型的主要思想是：以一个规范化的特征向量来表示文本。其相关的概念如下：　　文档(Document)：定义为一篇文章或文本片断。文档集表示如下：D={D1,D2,…,Dn}。　　项(Term)：定义为表达文档的特征项，一般用文档中的词来表示。　　权重(Weight)：定义为特征项在文本中的重要程度。常用的计算方法是TF-IDF方法。　　TF(TermFrequency)：定义为词项t在文档中出现的次数。对于在特定文档中的词项ti其重要性可表示为：　　(表示该词项在文档中出现的次数)(1) 　　DF(DocumentFrequency)：定义为待处理文档集中出现词项t的文档数。　　IDF(InverseDocumentFrequency)：定义为文档的总数除以DF，再将得到的商取对数得到,其表达式为：　　(2) 　　(||：文档集中的文件总数，||指包含词的文件数目)。　　这样，特征项在文档中的权重即可用下面的公式计算出来。　　(3) 　　对于某一特定文档中的高频率词语，以及该词语在整个文档集合中的低文档频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的特征项，保留重要的特征项。　　空间向量：舍弃了各个特征项的顺序后，一个文本就可以表示成一个向量。　　文本特征向量：在向量空间模型中，每个文档都可映射为此空间中的一个特征向量。用来表示。