- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ECHNOLOGY lNr0RMATl0N
图书馆论坛
内容挖掘在信息处理中的应用探讨
严 晓媛
(北方民族大学图书馆 银川 750021)
摘 要:本文对内容挖掘在信息处理中的应用进行 了有益的探讨。
关键词:内容挖掘 信息
中图分类号;G250.7 文献标识码:A 文章编号 :1672-379l(2008)1l(b)一0254—02
现代信息社会里 ,由于 Internet技术和 获得相对高质量的信息 ,从中可能发现更 后和每个类别 的词频 向量作相似度比较 ,
通讯技术 的迅速发展 ,信息 以几何级数迅 多地知识 ,将简单的信息和数据转变为知 最后把最接近的类别作为新网页的所属类
速增长 ,各种文献信息资源 、数字信息资 识 ,传递给需要知识的用户,为他们提供知 别。为 了减少计算量 ,同样可以对词频 向
源和 网络信 息资源遍布我们 的视野 ,数量 识服 务 。 量降维 。该分类方法的精确性依赖于训练
上 已远远超出了人类当初预想 的情境 。虽 2.1文本总结 集和预设类 别的质量 ,以及词频 向量的计
然我们徘徊于信息的海洋之 中,充分感受 文本总结也称文本摘要 ,一方面仅仅 算 。
着信息获取的快捷和便利 ,但事实上正是 通过 位置进行 自动文 摘实际上很不准 确 , 2.3文本聚类
如此多的信息为我们选择和利用信息布下 很难真正反映出Web文档 中的信息内容 ; 搜索 引擎面临的一个 巨大的问题在于
了难题 ,每 个人每天要接受和处 理的信息 另一方面 ,固定字数 的文摘有时会使得信 网络是一个动 态增长的网络 ,如何对一些
不仅没有想象中的丰富和可用 ,反而被各 息反映不完整。而 Web文档挖掘中文本总 新出现的信息进行分类就成 为一个很复杂
种信息拖累需要花 费精力和时间来检索和 结技术相对更加完善 ,它是根据 web文档 的问题 。文本聚类也是一种文本挖掘 ,是
筛选 ,起初 的狂喜和欣慰也逐渐淡化 ,“信 本身的内容而不是位置来进行文本内容的 一 类典型的无导师(UnsupervisedInduction)
息饥渴 ”状态 已经 出现 了。正如 美国未来 总结 ,它是指从文档 中抽取关键信息 ,用简 的机器学习问题 。文本聚类是根据各聚集
学家奈斯 比特在Ⅸ大趋势》中指 出,“我们淹 洁的形式对文档 内容进行摘要和解释 ,使 内部数据对象 间的相似度最大化和各聚集
没在信 息中,但是却渴求知识 。原 因何 用户无需浏览全文即可了解文档或文档集 内部数据对象间的相似度最小化的基本聚
在?怎样才能保证信息获取的质量 ,而不至 合的总体 内容 。其 目的是对文本信息进行 类 分析 原则 ,以及度量数据 对象之间的相
于被淹没在信息之中呢 。尽管各种检索技 浓缩,给出其紧凑的描述 ,因此它更能够反 似度的计算公式 ,将 聚类分析的数据对象
术和搜索 I擎技 术已经发展的相对 成熟 , 映出Web文档中的真正信息。通过借鉴文 分为若干组。通过 反复不断地对所获得的
而且在信息的获取和处理上也有很多值得 本总结技术 ,搜索gI擎可 以改善其 自动文 聚类组进行聚类分析 ,可以获得初始数据
可圈可点的地方 ,但是挖掘技术的出现 ,更 摘的质量 ,同时提高效率。 集合的一个层次结构模型 。其 目标是将文
为解决这一问题提供 了新的思路 。 2.2文本分类 档集合分成若干个簇 ,要求同一簇 内文档
目前 ,搜索 引擎 中的 自动分类还很不 内容的相似度尽可能地大 ,而不 同簇 间的
1数据挖掘的发展和结构体系 成熟 ,搜索 引擎分类绝大部分依靠手工操 相似度尽可能地小
您可能关注的文档
- 南海北部海域柱状沉积的孢粉、藻类及其古环境意义.pdf
- 南海东北部及邻区深部结构的综合地球物理研究.pdf
- 南海中建南盆地地震地层分析.pdf
- 南华北下古生界海相碳酸盐岩评价标准研究.pdf
- 南疆城市化发展中的生态环境问题与反贫困研究.pdf
- 南京地区不同季节水泥下垫面辐射特征的对比分析.pdf
- 南京地区高校硕士研究生择业取向分析.pdf
- 南京广播电视台全台网建设(下).pdf
- 南京市白下区构建“权力阳光”机制的实践与思考.pdf
- 南京市交通网络的分形特征.pdf
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)