- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能结课论文
题目: 文本挖掘方法研究 摘要如今互联网世界大数据日益发酵,各种数据一起奔涌而出,其中半结构化和非结构化数据所占比例明显增加,这是由于在信息传递的载体中文本发挥着越来越重要的作用。与之相对应,文本处理得到了众多学者和商业应用的关注。通过文本挖掘可以让用户在浩如烟海的文档中找到隐藏的信息,完成文本分类和聚类等各项功能,通过机器学习等自动化方法简化处理流程提高准确率和精确率。本文首先介绍了向量空间模型的文本表示和基于统计学及信息量的特征选择方法,然后介绍了基于本体的文本语义相似度度量方法,主要有基于信息量的概念相似度计算方法和基于本体结构的概念相似度计算方法,紧接着针对文本分类和聚类两个领域的机器学习方法进行分析,对其存在的问题提出了改进意见。最后介绍了这两类挖掘方法的评估标准,并提出了文本挖掘存在的问题及建议。关键词:文本挖掘,特征选择,本文相似度,文本分类,文本聚类AbstractNowadays big data is increasingly across the entire Internet. Various data surges up together of which the proportion of half structured and unstructured data has increased because texts play an more and more important role in the information transfer process. As a result, the text processing attracts the attention of many researchers and enterprises. With the help of text mining users can find voluminous information hidden in the document, finish the text classification and clustering and other functions. By the means of automation such as machine learning method can simplify process and improve the rate of accuracy and precision. First part of the paper introduces the vector space model of text representation and feature selection method based on statistics and information, secondly introduces the text semantic similarity measurement method based on ontology, which are mainly based on the concept of information similarity calculation method and based on the concept of ontology structure similarity calculation method. Then the paper analyze two methods of machine learning of text classification and clustering to find out the existing problems and put forward the improvement opinion. Finally introduces the criteria for the assessment of the two types of mining method, and puts forward the problems existing in the text mining and suggestion.Key words: text mining, feature selection, text similarity, text categorization, text clustering一、概述互联网的发展给人们提供了更快捷地了解世界,更高效地完成工作,更科学地进行组织的方式,用户通过文本、音频、视频等显性的表达形式完成与互联网的交互,尤其以文本为主。但由于文本的非结构化特征,有用信息需要进行深度挖掘与过滤
您可能关注的文档
- 01-需求响应基本资料.docx
- 01安全文明施工标准做法之施工出入口设置.doc
- 04-承台及系梁施工作业指导书.doc
- 05-连续梁钢筋施工技术交底书.doc
- 04225经济预测方法.doc
- 05临近营业线涵洞施工安全技术交底.doc
- 05广州市高中生物必修1分子与细胞模块考试(正).doc
- 09-二次接线作业指导书.doc
- 10kV线路(设备)故障抢修标准作业流程.doc
- 10kV电流互感器交接试验作业指导书.doc
- 建设工程质量安全管理标准化图集(安全篇2024版)ppt230页.pptx
- 《油气储存企业安全风险评估细则(2025年修订)》解读.pptx
- 2025年《危大工程专项施工方案严重缺陷清单专题培训》ppt120页_1230.pptx
- 中建分部分项检验批划分方案、资料目录策划编制要点ppt75页.pptx
- 某项目智慧工地示范项目应用成果介绍75页_5843.pptx
- 2025年中国风筝无人机LED夜光编队编程师应聘面试模拟题及答案.doc
- 2025年中国鞍钢集团招聘笔试题库附答案.doc
- 2025年中国鞍钢集团招聘面试预测题及答案.doc
- 临床器械实验培训试题及答案2025年版.docx
- 中石化《两个责任》解读分析.ppt
文档评论(0)