- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
硕士学位论文面向文本聚类的特征选择方法及应用研究
硕士学位论文
面向文本聚类的特征选择方法及应用研究 Research on Feature Selection Methods and Its Applications in Text Clustering
学 号:大连理工大学
Dalian University of Technology
万方数据
大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究
大连理工大学学位论文独创性声明
作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。
若有不实之处,本人愿意承担相关法律责任。
学位论文题目:鱼鱼垫塞壅鱼竖堡丝监查姿氐塑翌鱼
作者签名: 耄海破 日期:丕丛年—L月么L日
万方数据
大连理工大学硕士学位论文摘
大连理工大学硕士学位论文
摘 要
文本挖掘已经成为一个重要的研究领域,研究由各种数据源组成的文本数据,帮助 人们挖掘、分析文本内容,挖掘文本数据模式等。文本聚类是文本挖掘领域的重要任务 之一,可以帮助企业或用户对文本进行归纳和总结。文本特征的高维稀疏性降低了文本 聚类的性能,而有效的特征选择方法是提升文本聚类效果的关键环节。因此,本文主要 研究文本聚类中的特征选择方法,并将其应用于电信行业客户投诉记录的聚类分析,具 体研究内容如下:
本文提出了一种基于文本聚类结果的特征选择方法(Feature Selection Method based on Cluster Result,FS.CR)。该方法首先对原始文本语料库进行聚类,得到文本的初始 聚类结果,然后将初始聚类结果作为类别标签,计算文本中全部特征的信息增益并排序, 从中选出重要的特征,最后用选出的特征进行文本聚类,得到最终的聚类结果。本文将 FS—CR特征选择方法同已有的文档频数,单词贡献度两种特征选择方法进行对比实验, 用F.measure和特征压缩率来评价,实验结果表明本文方法用少量有效特征得到更高的
F.measure值,说明了FS.CR特征选择方法的优越性。 传统的权值计算方法只考虑了特征频数和文档频数,而文本数据中包含了大量的语
义信息,因此本文引入了位置因子和段落同现因子,提出了一种基于文本语义信息和聚 类结果的特征选择方法(Feature Selection Method based on Semantic Information and Cluster Result,FS.SI.CR)。该方法将语义信息与FS.CR结合,使反映文本主题的特征 权重得到加强,改善FS—CR特征选择方法的初始聚类效果,进而提高最终的文本聚类效
果。本文将FS.SI.CR方法、FS.CR方法和基于语义的单词贡献度方法进行比较,对比
实验表明FS.SI.CR特征选择方法优于其他两种方法。 现有电信行业客户投诉数据是无类别标签信息的文本数据,该文本数据内容较短,
本文引入的段落同现语义因子在投诉文本中修正为句子同现因子。首先提出了电信行业 客户投诉文本挖掘框架,然后在此框架下将FS.SI—CR特征选择方法应用于电信行业客 户投诉文本中,最终得到文本聚类结果。通过分析每一文本类别的特征,发现FS.SI-CR 方法可以选出少量有效特征,同时这些特征可以很好地代表客户投诉问题,得到良好的 聚类效果。根据聚类结果将同类客户投诉问题交由相关部门处理,可以提高处理效率, 降低人工成本,为电信企业管理者提供决策支持。
关键词:数据挖掘;文本聚类;特征选择;客户投诉
万方数据
面向文本聚类的特征选择方法及应用研究Research
面向文本聚类的特征选择方法及应用研究
Research on Feature Selection Methods and Its Applications
in Text Clustering
Abstract
Text data mining has become an important area of research.Its research object iS text data from various data sources.It Can help people mine,analyze text content and discovery text mode.Text clustering is a vital task in the field of text mining.It can he
您可能关注的文档
- 面向网络的视频业务优化及qos保证-通信与信息系统专业毕业论文.docx
- 面向小微企业的信用社信贷管理系统的设计与实现-软件工程专业毕业论文.docx
- 面向中国学习者的韩国语否定句教育研究-亚非语言文学专业毕业论文.docx
- 马克斯·格拉克曼的社会人类学-人类学专业毕业论文.docx
- 民航机场动态分级预警模式的研究-安全技术及工程专业毕业论文.docx
- 面向产业链协同SaaS平台的表单定制系统研究-计算机应用技术专业毕业论文.docx
- 面向智能水电站的远程监测与分析系统-水利水电工程专业毕业论文.docx
- 面向微波应用的铊系高温超导薄膜研究-电子科学与技术;物理电子学专业毕业论文.docx
- 绿色贸易措施的政治经济学研究-世界经济专业毕业论文.docx
- 慢城玉壶旅游规划及可行性研究-旅游管理专业毕业论文.docx
- 美国传媒集团国际化经营研究-国际商务专业毕业论文.docx
- 黄骅盐土区玉米品种筛选与肥料效应研究-土壤学专业毕业论文.docx
- 蒙元西夏遗民唐兀崇喜及其家族历史文化变迁散论-中国古代史专业毕业论文.docx
- 慢性粒细胞白血病早期疗效预测及CFL1在其治疗中的作用-内科学专业毕业论文.docx
- 棉籽无机元素含量的近红外测定方法研究-作物学专业毕业论文.docx
- 民办博物馆发展政策研究-考古学及博物馆学专业毕业论文.docx
- 空间网壳结构动力稳定性研究-建筑与土木工程专业毕业论文.docx
- 面向多视点加深度编码的视频重采样方法研究-通信与信息系统专业毕业论文.docx
- 面向MC的客户关系管理理论研究及实践-机械电子工程专业毕业论文.docx
- 酶法制备小麦麸皮低聚糖工艺及理化性质研究-粮食、油脂及植物蛋白工程专业毕业论文.docx
原创力文档


文档评论(0)