面向领域的Web文本采集与分类-计算机软件与理论专业毕业论文.docxVIP

面向领域的Web文本采集与分类-计算机软件与理论专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
西安建筑科技大学硕士论文 西安建筑科技大学硕士论文 西安建筑科技大学硕士论文 西安建筑科技大学硕士论文 PAGE PAGE 20 PAGE PAGE 11 (4) 经过前三步的处理之后 ,通过构建领域本体 J卒 ,对文档进行概念抽取 、 关系抽取军1]语 义分析 ,从而抽取出专业 的领域产品用户需求,推理出可能的 产 品 设计方案 。 本论文研究涉及整 个项目研究的前三个部分 ,主要包括领域产品信息的网络 资源发现与采集 、网页解析与信息分析 以及领域文本文档分类 。 随着信息技术、计算机网络技术的迅速发展 ,社会信息化 日益探入, 对各行 各业的发展都 产生了重要影响 。互联网具有 开放性 、发散性 、渗透性和l虚拟性的 特点 ,可 以快速获取信息,人们也越来越喜欢在网络上发表对 事物的其实看法 。 鉴于网络资源的日益 丰富,现代产品设计试图建立一种新型的基于网络环境的产 品设计方法 。如何从海量的网络资源中快速查找并获取最新领域 产品信息,客户 对产品的信求 ,客户满意度如何 ,对产品如何评价 ,对产品有何期望等等 ,对产 品的概念设计 ,有着十分重要的意义。 领域产品信息的网络资源发现 与采集方法 ,主要研究利用网络 主题爬虫技术 和文本主题分析技术,快速 、准确的发现和l采集大盐散落在互联网上 的领域相关 产品信息,从而获取产品设计的市场需求和发展动态 。Web 资源中蕴含了大盐 的 潜在的相关领域信息 ,这些信息 是动杰的 ,多样的 . t13,息-蟆糊的, 同时这些坚信息 大多是非结构化或半结构化的,缺乏统一的结构, 查找起来较为困难,采用何种 方法对这些包含潜 在领域相 关信息的网络资源进行采集 ,是研究的关键点之 一。 采集到这些隐含有用信息的领域网页文本后如何进行处理, 以便于用户需求信息 的准确抽取,是项 目研究的另一个难点和关键点 。两个 问题的研究,对整个项 目 方案的f解决和实现具有十分重要 的意义。 1.2 国内外研究现状 本文研究面向领域的 Web 信息采集与分类,涉及到的关键技术有 :信息采集 技术、网页分析处理技术及文本预处理和文本分 类技术等。 研究从本质上来说, 属于 Web 数据挖掘范畴 ,是当前研究的热点 问题。Web 数据挖掘就是使用数据 挖掘技术从与 WWW 相关的资源和用户浏览行为中自动抽取用户感兴趣的 、有用 的模式和隐含的信息。 | W伪挖掘 | Web 内容挖掘 Web结构拢掘 Web 日忿挖掘 剧 1.2 Web 数据挖掘的分类 有关 Web 文本挖掘系统的开发,国外研究比较多,都是基于英文环境的 。例 如, IBM 公司推出的 In telligent Miner for Text[1],该工具,提供了 高效的文本信息挖 掘功能,可以实现金文检索、文本分析 、Web 文档查询和l检索等 。美国 Megaputer 公司开发的 TextAna lyst ,Textractol 等 ,可以为用户提供文本总结、分类、聚类 、 信息抽取等各种功能 。 基于中文的 Web 文本挖掘系统还处在研究阶段 。文献[2]在对基于 SVM 的中 文网页分类器性能研究的基础上,实现了一个性能较好的中文 W eb 文本挖掘系统 [2]。文献 [3]介绍了 Web 文本挖掘系统 WTMS 的系统总体结构阁,实现了其核心 算法一一基于距离 测度函数的分类 f:l.法 ,并结合现代远程教育背最设计了 Web 文本挖掘系统的原型系统 ,实现了对各类远程教育站点上收集的文本资料信息自 动进行分类挖掘 ,从而帮助 人们快速进行文本 信息导航 ,获取重要知识l坷。 1.网页信息采集与分析技术 Web 信息采集技术,是项目研究的关键技术之 一。根据来集技术的不同,分 为基于整个 Web 的信息采集和基于主题的 W eb 信息采集。基于主题网络爬虫的 信息采集是当前研究的热点和难点 。 文献 [4]介绍了一个典型的基于主题的 Web 采集器 ,由印度理工大学和 IBM 研究中心人员开发,它的主题集用样本文件来描述,并设计了两个文本挖掘的部 件分类器和精筋、器来指导采集。分类器评价采集文本是否与主题相关,精炼器用 于识别具有大:w相关页面链接 的 URL[4j 。文献[5]将边传算法引入 主题爬虫搜索策 略中 ,将A lIthority 页面和 H lIb 页面用于种群 的初始构造和l变异操作中。通过变 异操作引入新的 UR L,通过 交叉操作产生大量 UR L,通过选择操作逃出适应度高 的个体作为下一代 U RL 利子l匀。 Chakrabati 等人L6]提出了分别基于两种不同的模 型来计算网页主题相关度和 URL 访问次序。傅向华等人L7]

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档