内容挖掘在信息处理中的应用探讨.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ECHNOLOGY lNr0RMATl0N 图书馆论坛 内容挖掘在信息处理中的应用探讨 严 晓媛 (北方民族大学图书馆 银川 750021) 摘 要:本文对内容挖掘在信息处理中的应用进行 了有益的探讨。 关键词:内容挖掘 信息 中图分类号;G250.7 文献标识码:A 文章编号 :1672-379l(2008)1l(b)一0254—02 现代信息社会里 ,由于 Internet技术和 获得相对高质量的信息 ,从中可能发现更 后和每个类别 的词频 向量作相似度比较 , 通讯技术 的迅速发展 ,信息 以几何级数迅 多地知识 ,将简单的信息和数据转变为知 最后把最接近的类别作为新网页的所属类 速增长 ,各种文献信息资源 、数字信息资 识 ,传递给需要知识的用户,为他们提供知 别。为 了减少计算量 ,同样可以对词频 向 源和 网络信 息资源遍布我们 的视野 ,数量 识服 务 。 量降维 。该分类方法的精确性依赖于训练 上 已远远超出了人类当初预想 的情境 。虽 2.1文本总结 集和预设类 别的质量 ,以及词频 向量的计 然我们徘徊于信息的海洋之 中,充分感受 文本总结也称文本摘要 ,一方面仅仅 算 。 着信息获取的快捷和便利 ,但事实上正是 通过 位置进行 自动文 摘实际上很不准 确 , 2.3文本聚类 如此多的信息为我们选择和利用信息布下 很难真正反映出Web文档 中的信息内容 ; 搜索 引擎面临的一个 巨大的问题在于 了难题 ,每 个人每天要接受和处 理的信息 另一方面 ,固定字数 的文摘有时会使得信 网络是一个动 态增长的网络 ,如何对一些 不仅没有想象中的丰富和可用 ,反而被各 息反映不完整。而 Web文档挖掘中文本总 新出现的信息进行分类就成 为一个很复杂 种信息拖累需要花 费精力和时间来检索和 结技术相对更加完善 ,它是根据 web文档 的问题 。文本聚类也是一种文本挖掘 ,是 筛选 ,起初 的狂喜和欣慰也逐渐淡化 ,“信 本身的内容而不是位置来进行文本内容的 一 类典型的无导师(UnsupervisedInduction) 息饥渴 ”状态 已经 出现 了。正如 美国未来 总结 ,它是指从文档 中抽取关键信息 ,用简 的机器学习问题 。文本聚类是根据各聚集 学家奈斯 比特在Ⅸ大趋势》中指 出,“我们淹 洁的形式对文档 内容进行摘要和解释 ,使 内部数据对象 间的相似度最大化和各聚集 没在信 息中,但是却渴求知识 。原 因何 用户无需浏览全文即可了解文档或文档集 内部数据对象间的相似度最小化的基本聚 在?怎样才能保证信息获取的质量 ,而不至 合的总体 内容 。其 目的是对文本信息进行 类 分析 原则 ,以及度量数据 对象之间的相 于被淹没在信息之中呢 。尽管各种检索技 浓缩,给出其紧凑的描述 ,因此它更能够反 似度的计算公式 ,将 聚类分析的数据对象 术和搜索 I擎技 术已经发展的相对 成熟 , 映出Web文档中的真正信息。通过借鉴文 分为若干组。通过 反复不断地对所获得的 而且在信息的获取和处理上也有很多值得 本总结技术 ,搜索gI擎可 以改善其 自动文 聚类组进行聚类分析 ,可以获得初始数据 可圈可点的地方 ,但是挖掘技术的出现 ,更 摘的质量 ,同时提高效率。 集合的一个层次结构模型 。其 目标是将文 为解决这一问题提供 了新的思路 。 2.2文本分类 档集合分成若干个簇 ,要求同一簇 内文档 目前 ,搜索 引擎 中的 自动分类还很不 内容的相似度尽可能地大 ,而不 同簇 间的 1数据挖掘的发展和结构体系 成熟 ,搜索 引擎分类绝大部分依靠手工操 相似度尽可能地小

您可能关注的文档

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档