基于细菌觅食优化的k-medoids文本聚类方法-k - medoids text clustering method based on bacteria foraging optimization.docxVIP

基于细菌觅食优化的k-medoids文本聚类方法-k - medoids text clustering method based on bacteria foraging optimization.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于细菌觅食优化的k-medoids文本聚类方法-k - medoids text clustering method based on bacteria foraging optimization

1护知识产仪声 FI} J 本人为「hM HVfJttk 义 是去个人在导师费剧毒)招呼并与 HF 合作下 IiX:yL; lí iíJl究成果 11吁立了it 及取得的巨177L成果旦在河北大字户Yft{{ 资助下完成的本人元全了解 TFFf 恪迫守中华人只共和J [i-:I,?J 保护生Ih只沪权所 :[;1) 走 的各项注{亨、行政坛 11吧以及河北大学的 1日:f(;w 定。 本人声明如下:本论文的成果归河北大学听 J白.才三兰证fq 指导学;:Ll币和」河北大 去的书而同忘和授权,本人印证不以任何形式尘?和传括科研成果和斗研工作内 吝 c 如l主iU圭反本卢明,本人 RE:在承担相应注件茧任。 声明人: 正当A 日期:711/ 年 月一l 日 f1712722 名 :3」是主k 11 1;JJ: ]旦LI 6 ;J J I1 \J I)iji安名: 去 且 虽  门jyj:J卫( ;f _j_/)-, 3 H 第 1 章 引 言 河北大学管理学硕士学位论文  PAGE 11  PAGE 12 第 1 章 引 言 1 1背. 景研究义 及意 二十一世纪是信息网络的时代,以计算机为代表的信息技术对各个领域产生了巨大 影响。并由此产生了大量的信息,从信息中迅速准确地获得知识成为决定企业成败的关 键。而网络成为人们获取信息的主要手段之一,而从网络这个大量的信息库中获得知识 成为要解决的首要任务。目前中国上网人数已经超过 1 亿户, 互联网上各种数据以空 前的速度增长,如电子邮件,Web 网页,视频,声音等。而又以文本数据占最大比例, 仅仅依靠人工整理和统计已经远远不能满足现实了1[] 。信息检索系统往往搜索出成千上 万条纪录(Google 和 yahoo 都宣称自己索引了上百亿的网页),非常不便于查看,远没有 达到想要的知识的形式。文本挖掘就是从大量文本数据中获取潜在模式和知识的过程。 如何有效地组织这些数据,如何从如此浩瀚的数据中获得想要的知识,文本聚类是一种 最有效的文本挖掘方法之一2[] 。是目前非常活跃的研究课题,正在吸引着众多学者的关 注。 互联网产生的大量的网页要从这大量文本堆里获得想要的文本知识非常难,要耗费 大量的人力财力,但是这些网页作一个适当而全面的类归并,这不但有利于信息资源的 合理存储,而且还为使用者提供了方便。文本聚类主要是针对大量的文本对象,分析它 们的相似性然后根据相似性做聚类,聚集成一个个类,从中找到想要的知识,已经应用 在了很多系统中。应用了文本聚类技术的系统,便于按照类别浏览和查看相关文本3[] 。 文本聚类技术对于搜索引擎搜索结果的改善非常明显,方便用户搜索相关信息。例如如 果在百度中输入关键词“地震”会出现相关的上万条与之相关的信息,不利于用户浏览 所需的信息。但是如果搜索出来的是已经聚好类的信息,就可以点击相关类别信息,方 便查找。 文本的聚类是管理文本的很好的策略,包括对文本信息进行有效地组织、摘要和导 航的重要手段4[] 。著名的 yahoo 网站就是应用类似的技术对文档进行聚类。通过对各大 论坛的帖子聚类,是一种发现热点话题的重要方法。对新闻网页主题聚类,可以很好的 发现新闻焦点。文本聚类在信息检索上广泛的应用,如在检索系统中把检索结果聚类, 直接到相应类中查找,提高检索效率 。此外,利用聚类技术对用户的行为进行分析, 按着用户行为的相似性进行聚类,有相似行为的人可以推送相似的产品,发现用户的兴 趣偏好,从而实现对用户的主动信息推送 。例如可以对经常光顾淘宝网的客户进行聚 类,从而在下次这些相似的客户在登录时就直接推送以前看的相似的网店,方便用户查 找。为了提高这门技术,需要研究高效的聚类算法,好的聚类算法能带来查全率和召回 率质的提高,具有很重要的研究意义。 1.2 国内外研究现状 国外较早地对英文文本的聚类进行了研究。并得到了很好的应用开发出了许多文本 挖掘软件,许多已经应用在实践中。开始时学者对大量文本集合的浏览研究的比较多[4] 主要是把大量文本通过聚类能快速查看到想要的信息,便于查取。现在文本聚类已经被 应用在文本查阅和文本知识发现等许多方面。文献 [5]主要研究了通过建立文本结构树 分析文档之间的逻辑结构然后再对文本进行聚类等各种分析。Bellot. P 等提出了用于 文本聚类的非常基础的聚类假设,为文本的聚类打下基础,使聚类有了依据。 Salton 教 授 提 出 了 能 在 文 本 聚 类 中 应 用 的 非 常 普 遍 的 向 量 空 间 模 型 VSM (Vector Space Model),向量空间模型已经被许多学者用来表示文本。

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档