大数据环境下文本信息挖掘方法.docVIP

下载本文档

52
0
约3.98千字
约 8页
2018-09-01 发布于福建
举报
版权申诉

大数据环境下文本信息挖掘方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据环境下文本信息挖掘方法

大数据环境下文本信息挖掘方法　　摘要：文本信息挖掘有利于提高文本信息的查找和利用效率，针对传统方法存在的问题，提出文本信息挖掘方法。首先提取文本信息术语，估计信息内容与文本类别间的余弦距离，结合模糊规则推理和余弦距离得到隶属度，然后根据均值密度的中心估计方法得到文本数据集合的平均密度，确定文本信息聚类中心，删除远离文本信息聚类中心的奇异数据点，实现大数据环境下文本信息挖掘。实验结果表明，该方法能够有效提高文本信息挖掘的查准率，而且具有较强的可扩展性。　　关键词：大数据；文本信息；信息挖掘；查准率　　中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）23?0123?04 　　Abstract： The text information mining is helpful to improve the efficiency of text information retrieval and utilization. Aiming at the problems existing in the traditional methods， a text information mining method is proposed. The term of text information is extracted to estimate the information content and the cosine distance between test categories. The fuzzy rules reasoning and cosine distance are combined to obtain the membership. And then the central estimation method based on mean value density is used to get the average density of the text dataset， determine the clustering center of text information， delete the singularity data point far away from the clustering center of text information， and realize the text information mining in big data environment. The experimental results show this method can improve the precision ratio of text information mining effectively， and has strong scalability. 　　Keywords： big data； text information； information mining； precision ratio 　　0 引言　　在当今社会中人们获取外界信息的渠道更加丰富且获取方式更加简单，使得人们每天需要浏览以及面对大量的各色信息[1?2]。因此，需要对用户进行文本信息的筛选，挖掘出用?粽嬲?感兴趣的文本信息。　　现阶段的文本信息挖掘技术不能根据用户查询目的有效地对查询内容进行扩展，且没有考虑用户的兴趣爱好以及用户的技术层次等差别，不能为用户提供具有个性化需求的动态服务。导致文本信息挖掘对知识理解能力和处理能力较差的问题，致使文本信息挖掘的精度不高以及文本信息过载和淹没[3?4]。在这种情况下，如何有效、快速地从海量信息中挖掘出用户真正需要的信息，成为业内人士亟需解决的重要技术难题，受到许多有关专家学者的高度关注[5?6]。文献[7]提出基于用户兴趣的大数据环境下文本信息挖掘方法，该方法挖掘能力的准确性较高，但存在计算过程消耗时间较长的问题。文献[8]提出基于句法规则的文本信息挖掘方法，该方法计算过程较为简单，但存在文本信息挖掘过程受控于核函数选择的问题。文献[9]提出基于决策树的大数据环境下文本信息挖掘方法。该方法可以从侧面了解用户感兴趣的文本信息，但存在挖掘能力局限性较大的问题[10?11]。　　针对上述问题，本文提出文本信息挖掘方法，结果表明，该方法能够有效提高文本信息挖掘的查准率，同时具有较强的可扩展性。　　1 大数据环境下的文本信息挖掘方法　　2 实验结果与分析　　为了证明提出大数据环境下文本信息挖掘方法的有效性，在Eclipse Standard 4.3.2下搭建大数据环境下文本信息挖掘实验平台，