- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE \* MERGEFORMAT10
杜坤,刘怀亮,王帮金
(西安电子科技大学 经济与管理学院,陕西 西安 710126)
基于语义相关度的中文文本聚类方法研究*
*本文为国家自然科学基金项目“基于复杂网络的中文文本语义相似度研究”的研究成果,项目编号The?Research?on?Chinese?Text?Clustering?Method?Based?on?Semantic?Relevancy
摘要:[目的/意义] 基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。 [方法/过程] 新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限] 语义相关度的计算没有对词语进行消歧处理。
关键词:维基百科 语义相关度 文本相似度 文本聚类
Abstract: [Objective/significance] This paper proposes an improved semantic text similarity computation method to solve the problem of feature terms semantic association deficiency in text similarity computation for text clustering based on Vector Space Model. [Methods/process] Firstly, the feature terms semantic relevancy is computed with Wikipedia. Secondly, combining the weight of feature item in the text, a text similarity semantic weighting factor is constructed. Finally, K-means clustering method is used for text clustering experiment. [Results/conclusion] By comparing with the traditional cosine similarity, experimental results show that the improved semantic text similarity used in the text clustering can effectively improve the accuracy of clustering. [Limitations] Word sense disambiguation is ignored in the process of the feature terms semantic relevancy computation.
Keywords: Wikipedia semantic relevancy text similarity text clustering
1 引 言
随着网络通信技术的不断发展以及计算机的普及应用,网络社会产生了海量的数据信息。作为国内互联网文档信息的主要内容形式,中文文本的信息处理能够帮助用户快速、准确获得所需信息。通过聚类可以有效地管理文本数据,而文本间相似性度量是文本聚类的重要基础。文本相似度通过计算来量化两个文本间的相似程度,相似度数值越大,说明文本相似程度越高,反之文本相似程度越低,其在信息检索[1]、文本分类[2]、舆情分析[3]等领域中有着广泛应用。
目前大部分的文本相似性度量都是基于向量空间的文本表示模型,把文本表示成对应高维空间中的向量,利用向量之间的夹角余弦计算文本间相似度。实践证明这种模型简单高效并且得到了广泛的应用,但向量空间模型没能充分考虑不同特征项之间的语义关联,余弦相似度只能对文本间相同的特征项进行计算分析,影响了文本相似度计算的准确性。尤其是在文本聚类中,即使文本的特征项之间具有极强的相关性,但若两个文本之间没有相同的特征项,则余弦相似度仍会判定这两个文本相似度为0,不会划归一类。
许多学者为解决文本相似度计算语义缺失的问题,提出了不同的改善方法。如文献[4]在计算特征权重时引入语义信息,把文本表示成语义向量空间模型,但仍使用余弦相似度度量文本相似程度;文献[5]根据知网计算词汇语义相似度,利用二部图最大权匹配算法计算
您可能关注的文档
最近下载
- 《建设工程设计优化服务标准》.pdf
- 12J926-无障碍设计标准图集.pdf VIP
- (完美版)动物营养学第五章碳水化合物的营养.课件文档.ppt VIP
- 初始设计评审检查表.docx VIP
- 浅谈产品研制“三化”工作.docx VIP
- 安全隐患排查治理活动实施方案01290.doc VIP
- 第十五章 精斑检验解析.ppt VIP
- 近三年(2020-2022)高考题•再开发•通用版课时卷(16)练习 2023届高考英语一轮复习.docx VIP
- 部编版五年级语文上册《1 白鹭》PPT优秀课件.pptx VIP
- 《AI公文写作范例大全:格式、要点与技巧》课件 第7、8章 运用AI润色公文、 法定类公文的写作.pptx
文档评论(0)