- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hSync算法的文本聚类方法研究-计算机软件与理论专业论文
独 创 性 声 明
本人声明,所呈交的论文是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。
签 名: 日 期:
学位论文使用授权书
本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即学校有权保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅。本人承诺所提交的学位论文(含电子学 位论文)为答辩后经修改的最终定稿学位论文,并授权武汉理工大学 可以将本学位论文的全部内容编入有关数据库进行检索,可以采用 影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武 汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论 文,并向社会公众提供信息服务。
(保密的论文在解密后应遵守此规定) 研究生(签名): 导师(签名): 日 期:
武汉理工大学硕士学位论文
摘 要
传统的聚类算法,如 k-means 算法、EM 算法等,都是建立在凸形分布的样 本空间上,若样本空间不为凸,算法将会陷入局部最优,因此不能对任意形状 分布的样本聚类。hSync(Synchronization-Inspired Hierarchical Clustering)算法 作为一种基于同步动力学模型的聚类算法,不用对数据的全局分布做假设,可 以发现任何形状的簇,为求解中文文本聚类问题提供了一个很好的选择。
本文针对文本聚类问题,在文本表示模型和文本聚类算法两个方面展开一 系列的研究,主要包括以下内容:
(1)分析和研究基于双词关联的文本表示模型和基于词共现的文本表示模 型,提出了基于双词关联和词共现的文本混合表示模型,并设计了对应的特征 抽取方法、特征权重计算方法和文本相似度计算方法。实验显示使用基于双词 关联和词共现的文本混合表示模型求解文本聚类问题的结果相对传统向量空间 模型在 F-measure 值方面有所提高。
(2)研究并改进了 hSync 算法。将 hSync 聚类算法应用到文本聚类中,解
决了传统聚类算法不能很好处理非凸形分布文本数据的问题。并针对传统 hSync 算法运算效率低的问题,使用基于?-邻域闭包的方法判断数据同步的趋势,并使 用不断增大邻域半径增量的方法增大邻域半径,从而提高数据局部同步的效率, 进而提高了 hSync 的聚类效率。
(3)通过文本聚类实验,验证了基于双词关联和词共现的文本混合表示模 型的有效性及改进的 hSync 算法的有效性。采用改进后的文本表示模型和改进 后的 hSync 算法相结合的方法对 SOUGOU-C 文本数据集进行聚类,实验结果显 示改进后的文本聚类方法在运行效率和 F-measure 值上都有提高。
关键词:双词关联,词共现,文本聚类,hSync 算法
I
Abstract
Traditional clustering algorithms, such as k-means algorithm, EM algorithm, etc., are all based on the sample space of convex distribution. However, these algorithms cannot perform sample clustering on distribution of arbitrary shapes when the algorithms are trapped in local optimization caused by sample spaces which are not convex. As one kind of clustering algorithms based on synchronous dynamics model, hSync (Synchronization-Inspired Hierarchical Clustering) algorithm doesn’t make an assumption of the global distribution of data. Therefore, it can find out clusters of any shapes and provide a good option for solving Chinese text clustering problem in this thesis.
Focusing on the problems of text clustering, this thesis launc
您可能关注的文档
- 基于HLA的海洋工程作业安全模拟系统研究-船舶与海洋结构物设计制造专业论文.docx
- 基于HLA的空间网络可视化仿真平台研究-电子与通信工程专业论文.docx
- 基于HLA的汽车总装联邦成员的研究与设计-系统工程专业论文.docx
- 基于HMM-ANN混合模型的咳嗽音识别研究-计算机软件与理论专业论文.docx
- 基于HLA的集装箱港口多式作业仿真方法研究-管理科学与工程专业论文.docx
- 基于HLA的通信星座系统分布式仿真研究-通信与信息系统专业论文.docx
- 基于HMM和PNN的混合语音识别模型研究-计算机应用技术专业论文.docx
- 基于HMM和BP网络混合模型的web文本信息抽取研究-计算机应用技术专业论文.docx
- 基于HMIPV6域内路由优化的研究-计算机应用技术专业论文.docx
- 基于HLS的多轴控制系统的设计和实现-控制理论与控制工程专业论文.docx
- 基于HSV颜色空间的低照度图像增强技术研究-模式识别与智能系统专业论文.docx
- 基于HTK的连续蒙古语语音识别系统的研究-计算机应用技术专业论文.docx
- 基于HT46的仓储监测管理系统-软件工程专业论文.docx
- 基于HTML5的全景漫游系统制作平台的设计与研究-计算机技术专业论文.docx
- 基于HTEMPO的嵌段聚合物的合成-材料学专业论文.docx
- 基于HTML5的前端效率机制及Web应用模式研究-计算机软件与理论专业论文.docx
- 基于HTML5的电网图形软件研究与开发-计算机技术专业论文.docx
- 基于HTML5的矢量地图发布关键技术研究-地理学;地图学与地理信息系统专业论文.docx
- 基于HTML5和CSS3的网易WAP站触屏版移动产品研究-软件工程专业论文.docx
- 基于HTML5的移动化妆品销售系统前端设计与实现-软件工程专业论文.docx
文档评论(0)