内容挖掘在信息处理中的应用探讨.pdfVIP

下载本文档

3
0
约 2页
2017-08-09 发布于北京
举报
版权申诉

内容挖掘在信息处理中的应用探讨.pdf

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ECHNOLOGY lNr0RMATl0N 图书馆论坛内容挖掘在信息处理中的应用探讨严晓媛 (北方民族大学图书馆银川 750021) 摘要：本文对内容挖掘在信息处理中的应用进行了有益的探讨。关键词：内容挖掘信息中图分类号；G250．7 文献标识码：A 文章编号：1672-379l(2008)1l(b)一0254—02 现代信息社会里，由于 Internet技术和获得相对高质量的信息，从中可能发现更后和每个类别的词频向量作相似度比较，通讯技术的迅速发展，信息以几何级数迅多地知识，将简单的信息和数据转变为知最后把最接近的类别作为新网页的所属类速增长，各种文献信息资源、数字信息资识，传递给需要知识的用户，为他们提供知别。为了减少计算量，同样可以对词频向源和网络信息资源遍布我们的视野，数量识服务。量降维。该分类方法的精确性依赖于训练上已远远超出了人类当初预想的情境。虽 2．1文本总结集和预设类别的质量，以及词频向量的计然我们徘徊于信息的海洋之中，充分感受文本总结也称文本摘要，一方面仅仅算。着信息获取的快捷和便利，但事实上正是通过位置进行自动文摘实际上很不准确， 2．3文本聚类如此多的信息为我们选择和利用信息布下很难真正反映出Web文档中的信息内容；搜索引擎面临的一个巨大的问题在于了难题，每个人每天要接受和处理的信息另一方面，固定字数的文摘有时会使得信网络是一个动态增长的网络，如何对一些不仅没有想象中的丰富和可用，反而被各息反映不完整。而 Web文档挖掘中文本总新出现的信息进行分类就成为一个很复杂种信息拖累需要花费精力和时间来检索和结技术相对更加完善，它是根据 web文档的问题。文本聚类也是一种文本挖掘，是筛选，起初的狂喜和欣慰也逐渐淡化，“信本身的内容而不是位置来进行文本内容的一类典型的无导师(UnsupervisedInduction) 息饥渴 ”状态已经出现了。正如美国未来总结，它是指从文档中抽取关键信息，用简的机器学习问题。文本聚类是根据各聚集学家奈斯比特在Ⅸ大趋势》中指出，“我们淹洁的形式对文档内容进行摘要和解释，使内部数据对象间的相似度最大化和各聚集没在信息中，但是却渴求知识。原因何用户无需浏览全文即可了解文档或文档集内部数据对象间的相似度最小化的基本聚在?怎样才能保证信息获取的质量，而不至合的总体内容。其目的是对文本信息进行类分析原则，以及度量数据对象之间的相于被淹没在信息之中呢。尽管各种检索技浓缩，给出其紧凑的描述，因此它更能够反似度的计算公式，将聚类分析的数据对象术和搜索 I擎技术已经发展的相对成熟，映出Web文档中的真正信息。通过借鉴文分为若干组。通过反复不断地对所获得的而且在信息的获取和处理上也有很多值得本总结技术，搜索gI擎可以改善其自动文聚类组进行聚类分析，可以获得初始数据可圈可点的地方，但是挖掘技术的出现，更摘的质量，同时提高效率。集合的一个层次结构模型。其目标是将文为解决这一问题提供了新的思路。 2．2文本分类档集合分成若干个簇，要求同一簇内文档目前，搜索引擎中的自动分类还很不内容的相似度尽可能地大，而不同簇间的 1数据挖掘的发展和结构体系成熟，搜索引擎分类绝大部分依靠手工操相似度尽可能地小