面向领域的Web文本采集与分类-计算机软件与理论专业毕业论文.docxVIP

下载本文档

7
0
约6.01万字
约 72页
2019-05-11 发布于上海
举报
版权申诉

面向领域的Web文本采集与分类-计算机软件与理论专业毕业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

西安建筑科技大学硕士论文西安建筑科技大学硕士论文西安建筑科技大学硕士论文西安建筑科技大学硕士论文 PAGE PAGE 20 PAGE PAGE 11 (4) 经过前三步的处理之后，通过构建领域本体 J卒，对文档进行概念抽取、关系抽取军1]语义分析，从而抽取出专业的领域产品用户需求，推理出可能的产品设计方案。本论文研究涉及整个项目研究的前三个部分，主要包括领域产品信息的网络资源发现与采集、网页解析与信息分析以及领域文本文档分类。随着信息技术、计算机网络技术的迅速发展，社会信息化日益探入，对各行各业的发展都产生了重要影响。互联网具有开放性、发散性、渗透性和l虚拟性的特点，可以快速获取信息，人们也越来越喜欢在网络上发表对事物的其实看法。鉴于网络资源的日益丰富，现代产品设计试图建立一种新型的基于网络环境的产品设计方法。如何从海量的网络资源中快速查找并获取最新领域产品信息，客户对产品的信求，客户满意度如何，对产品如何评价，对产品有何期望等等，对产品的概念设计，有着十分重要的意义。领域产品信息的网络资源发现与采集方法，主要研究利用网络主题爬虫技术和文本主题分析技术，快速、准确的发现和l采集大盐散落在互联网上的领域相关产品信息，从而获取产品设计的市场需求和发展动态。Web 资源中蕴含了大盐的潜在的相关领域信息，这些信息是动杰的，多样的 . t13，息-蟆糊的，同时这些坚信息大多是非结构化或半结构化的，缺乏统一的结构，查找起来较为困难，采用何种方法对这些包含潜在领域相关信息的网络资源进行采集，是研究的关键点之一。采集到这些隐含有用信息的领域网页文本后如何进行处理，以便于用户需求信息的准确抽取，是项目研究的另一个难点和关键点。两个问题的研究，对整个项目方案的f解决和实现具有十分重要的意义。 1.2 国内外研究现状本文研究面向领域的 Web 信息采集与分类，涉及到的关键技术有 :信息采集技术、网页分析处理技术及文本预处理和文本分类技术等。研究从本质上来说，属于 Web 数据挖掘范畴，是当前研究的热点问题。Web 数据挖掘就是使用数据挖掘技术从与 WWW 相关的资源和用户浏览行为中自动抽取用户感兴趣的、有用的模式和隐含的信息。 | W伪挖掘 | Web 内容挖掘 Web结构拢掘 Web 日忿挖掘剧 1.2 Web 数据挖掘的分类有关 Web 文本挖掘系统的开发，国外研究比较多，都是基于英文环境的。例如， IBM 公司推出的 In telligent Miner for Text[1]，该工具，提供了高效的文本信息挖掘功能，可以实现金文检索、文本分析、Web 文档查询和l检索等。美国 Megaputer 公司开发的 TextAna lyst ，Textractol 等，可以为用户提供文本总结、分类、聚类、信息抽取等各种功能。基于中文的 Web 文本挖掘系统还处在研究阶段。文献[2]在对基于 SVM 的中文网页分类器性能研究的基础上，实现了一个性能较好的中文 W eb 文本挖掘系统 [2]。文献 [3]介绍了 Web 文本挖掘系统 WTMS 的系统总体结构阁，实现了其核心算法一一基于距离测度函数的分类 f:l.法，并结合现代远程教育背最设计了 Web 文本挖掘系统的原型系统，实现了对各类远程教育站点上收集的文本资料信息自动进行分类挖掘，从而帮助人们快速进行文本信息导航，获取重要知识l坷。 1.网页信息采集与分析技术 Web 信息采集技术，是项目研究的关键技术之一。根据来集技术的不同，分为基于整个 Web 的信息采集和基于主题的 W eb 信息采集。基于主题网络爬虫的信息采集是当前研究的热点和难点。文献 [4]介绍了一个典型的基于主题的 Web 采集器，由印度理工大学和 IBM 研究中心人员开发，它的主题集用样本文件来描述，并设计了两个文本挖掘的部件分类器和精筋、器来指导采集。分类器评价采集文本是否与主题相关，精炼器用于识别具有大:w相关页面链接的 URL[4j 。文献[5]将边传算法引入主题爬虫搜索策略中，将A lIthority 页面和 H lIb 页面用于种群的初始构造和l变异操作中。通过变异操作引入新的 UR L，通过交叉操作产生大量 UR L，通过选择操作逃出适应度高的个体作为下一代 U RL 利子l匀。 Chakrabati 等人L6]提出了分别基于两种不同的模型来计算网页主题相关度和 URL 访问次序。傅向华等人L7]