基于K-means的网页信息检索的聚类分析及实现Based on the K - means of clusering analysis and realization of the web information retrieval.docxVIP

  • 7
  • 0
  • 约8.05万字
  • 约 47页
  • 2018-12-23 发布于福建
  • 举报

基于K-means的网页信息检索的聚类分析及实现Based on the K - means of clusering analysis and realization of the web information retrieval.docx

基于K-means的网页信息检索的聚类分析及实现Based on the K - means of clusering analysis and realization of the web information retrieval

基 于 基 于 K -m ean s 的 网 页 信 息检 索 的 聚类 研 究及 实 现 约束的关键词和短语之后可 以迅速 的定位文档⑷。然而简单的基于关键词的搜索 仍 然 存 在 一 些 问题 。任 何 主 题 都 有 可 能 包 含 数 量 巨大 的 页 面 或 文 档 ,这 可 能 导 致 搜 索 结 果 中含 有 大 量 的条 目,其 中 的 很 多 结 果 与 搜 索 的主 题 关 系 并 不 大 ,或 者 包 含 的 内 容 质 量 不 高 。其 次 ,很 多 与 主 题 关 联 紧 密 的页 面 或 文档 可 能 并 不 包 含 用 户 所 提 供 的 用 来 搜 索 的 关 键 词 。与 基 于 关 键 词 的 网 页 搜 索 相 比 ,对 网 页 进 行 挖 掘 (W eb 挖 掘 )则 显 得 更 具 有 挑 战 性 。它 需 要 搜 索 网页 的结 构 ,确 定 网 页 内 容 的重 要性和 相关性 ,发现 网页 内容的规律性和 动态性⑸。而且 Web 挖掘可 以对搜 索 引 擎 的 能 力 提 供 支 持 ,因为 We b 挖 掘 可 以用 来 识 别 网 页 内容 的重 要 性 ,对 网 页 进 行 相 关 性 分 类 等 等 。一 般 地 ,W eb 挖 掘 可 以 分 为 三 类 :W eb 内容 挖 掘 (W eb co n tent m in in g ) ,W eb 结 构 挖 掘 (W eb stru c tur e m in ing ) ,和 W eb 使 用 挖 掘 (W eb u sage m in in g ) 自从 20 世 纪 90 年 代 以来 ,人 们 尝 试 从 网 页 上 获 取 结 构 化 信 息 的方 式 主 要 有 : 一 、人 工 方 式 。通 过 人 工 选 择 编 辑 等 方 式 获 取 有 用 的 信 息 。但 是 面 对 互 联 网 上 的 众 多 站 点 ,人 工 方 式 的局 限 性 很 大 。二 、包 装 器 归 纳 。通 过 从 人 工 标 注 的 网 页 和 数 据 中 学 习 提 取 信 息 的规 则 ,随 后 将 这 组 规 则 应 用 于 目标 网页 中 去 获 取 信 息 。这 是 一 种 有 监 督 学 习方 法 ,是 半 自动 的 。三 、自动 获 取 ,这 是 一 种 无 监 督 式 的 方 法 。 目前 主 流 的方 法 就 是 通 过 自动抓 取 网页数 据 的方 式抽 取 结 构化 数 据 [7]。 通 过 自动 获 取 的 方 式 得 到 的 信 息 仍 然 含 有 大 量 的 噪 声 ,人 们 的 目标 是 如 何 从 中得 到 感 兴 趣 的 、潜 在 的 有 用 的 信 息 。而 数 据 挖 掘 技 术 就 是 从 大 量 的 、不 完 全 的 、 有噪声 的、模糊 的、随机 的等数据 中提取 或 “挖掘 ”出有用的知识[8]。数据 挖掘 功 能 用 于 指 定 数 据 挖 掘 任 务 要 找 到 的模 式 类 型 。有 时 人们 并不 清 楚 数 据 源 中 哪 些 模 式 是 他 们 感 兴 趣 的 ,因此 可 以 同时使 用 多种 不 同的模 式 数据 可 以与 概 念 相 关 ,用 简 洁 的方 式 描 述概 念 可 能 是 有 用 的 。也 可 以挖 掘 数 据 中 的频 繁 模 式 ,将 事 务 数 据 中频 繁 出现 的项 集 或 记 录 集 中在 一 起 用 以发 现 其 中有 趣 的 关 联 和 相 关 。还 可 以用 聚 类 的 方 式 最 大 化 数 据 集 中类 内部 的相 似 性 、最 小 化类 之 间 的相 似 性 从 而 将 数 据 集 进 行 聚 类 或 分 组 。数 据 挖 掘 中 的 聚 类 分 析 技 术 就 是 将 信 息 划 分 成 有 意 义 的 或 有 用 的 组 (藤 ) ,其 中 的 m ea n s 算 法 是 聚 类 分 析 中典 型 的基 于 原 型 的 、 划 分 的 硬 聚 类 算 法 ,并 且 此 算法 可 以用 于 多种 类 型 的数 据 。 1 .2 . 研 究 现 状 本 节 将 主 要 介 绍 在 W eb 数 据 挖 掘 领 域 国 内外 研 究现 状 ,同 时 介 绍 W eb 数 据 挖 掘 技 术 在 工 程 项 目中 的应 用 情 况 。主 要包 括 数 据 挖 掘 概 述 ,W eb 数 据 挖 掘 概 述 , W eb 数 据 挖 掘 流 程 ,W eb 挖 掘 分 类 及 各 自研 究 现 状 与 发展 。 2 基 于 基 于 K -m eans 的 网 页 信 息 检 索 的 聚 类 研 究及 实 现 1.2

文档评论(0)

1亿VIP精品文档

相关文档