基于语义相似度的群智能文本聚类方法分析-analysis of group intelligent text clustering method based on semantic similarity.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义相似度的群智能文本聚类方法分析-analysis of group intelligent text clustering method based on semantic similarity
江苏科技大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于:(1)保密□,在年解密后适用本授权书。(2)不保密□。学位论文作者签名:指导教师签名:年月日年月日摘要摘要当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。关键词文本聚类;语义相似度;K-均值算法;蚁群算法;模拟退火算法江苏科技大学硕士学位论文ABSTRACTABSTRACTNowadays,wordisinaneraofinformationexplosion.Usersareoftenoverwhelmedbyinformationwhentheysearchinginfo,whichreducestheefficiencyofsearchgreatly.Howfastandefficientistheclassificationandorganizationoftheinformation,andhowtoprovideaccurateandusefulinformationforusersisaproblemwhichisurgenttobesolved.Underthisbackground,thetextminingtechnologyisgettingmoreandmoreattention.Textclusteringisanimportantcomponentoftextmininganditistheapplicationofclusteringmethodusedintextprocessingfield.Textclusteringcancompletegroupingthetextwithouttheinformationofclass.Basedonthisadvantage,textclusteringhasbeenusedwidely,suchasmulti-documentsummarizationsystems,searchengines,digitallibraryandsoon.Atpresentmostoftheclusteringalgorithmsarebasedonthevectorspacemodel,whichmakesthetextclusteringfacingsomecommonproblems,suchashighdimensional,highsparseandignoringthesemanticinformation.Theseproblemsaffecttheperformanceandtheaccuracyofthealgorithm.Thispaperintroducessomeconceptsandmethodsoftextclustering,includingcalculationofthedistancebetweenthetext,thetextrepresentationmodel,textpr
您可能关注的文档
- 基于移动终端用户情境需求的营销分析-marketing analysis based on mobile terminal users' contextual needs.docx
- 基于移动终端用户访问内容的服务推荐模型分析-analysis of service recommendation model based on mobile terminal users' access to content.docx
- 基于移位反迭代的非协调crouzeix-raviart有限元自适应方法求laplace特征值问题-a non-coordinated crouzeix - ravi art finite element adaptive method based on shift inverse iteration for solving la place eigenvalue problem.docx
- 基于移相全桥的多模块acdc并联变换器分析-analysis of multi-module acdc parallel converter based on phase-shifted full bridge.docx
- 基于移动终端的手势识别分析与实现-analysis and implementation of gesture recognition based on mobile terminal.docx
- 基于移动用户体验的手机游戏设计研究——以《格萨尔王》手机游戏为例-research on mobile game design based on mobile user experience - taking.docx
- 基于遗传的文本软聚类研究与实现研究-research and implementation of soft text clustering based on genetics.docx
- 基于移相全桥-倍流整流的双向dcdc变换器的分析-analysis of bi-directional dcdc converter based on phase-shifted full bridge - double current rectification.docx
- 基于遗传和声算法的高土石坝施工方案综合优化分析-comprehensive optimization analysis of high earth-rockfill dam construction scheme based on genetic harmony algorithm.docx
- 基于遗传神经网络的流域日径流预报模型分析-analysis of daily runoff forecast model of river basin based on genetic neural network.docx
- 2025年香格里拉县辅警招聘考试备考题库附答案.docx
- 2025年福建莆田市市场监督管理局公开选聘下属事业单位工作人员4人备考题库附答案.docx
- 2025年赣州市体育局下属事业单位赣州市全民健身服务中心招聘特殊专业技术人员5人备考题库附答案解析.docx
- 2025江西省通信产业服务有限公司南昌分公司班主任岗位招聘1人笔试历年题库带答案解析.docx
- 2025江苏省体育局训练中心招聘专业技术人员1人备考历年题库带答案解析.docx
- 2024年兴县辅警招聘考试真题附答案.docx
- 2025江苏常州纺织服装职业技术学院长期招聘42人历年参考试题附答案解析.docx
- 渣石合同模板(3篇).docx
- 展柜订单合同模板(3篇).docx
- 债券合同模板(3篇).docx
最近下载
- 病态窦房结综合征护理查房.pptx VIP
- 《生物监测》教学课件—01利用水生生物监测水质.ppt VIP
- 光伏工程建设标准强制性条文实施计划方案-范本.pdf VIP
- 青海省西宁市2024-2025学年八年级上学期期末调研测试物理试卷.docx VIP
- JB/T7688.1-2008冶金起重机技术条件第1部分:通用要求.pdf VIP
- 中储粮-内环流控温储粮技术标准-2017.pdf VIP
- 电竞场馆建设规范.pdf VIP
- LST-粮油储藏 内环流储粮技术规程.pdf VIP
- JGJ215-2010:建筑施工升降机安装、使用、拆卸安全技术规程.pdf VIP
- 入党志愿书(全电子版).pdf VIP
原创力文档


文档评论(0)