Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文.docxVIP

下载本文档

4
0
约5.53万字
约 72页
2018-09-06 发布于上海
举报

Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文.docx

Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文

万方数据万方数据西安电子科技大学学位论文独创性声明秉承学校严谨的学风和优良的科学道德，本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果；也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切法律责任。本人签名：日期：西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件，允许查阅和借阅论文；学校可以公布论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证，毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。（保密的论文在解密后遵守此规定）本学位论文属于保密，在年解密后适用本授权书。本人签名：导师签名：日期：日期：摘要摘要随着网络普及，电子商务的迅猛发展，出现了很多类型的电子商务网站。为了给用户提供便捷的商品导购比价服务，让用户在短时间内找到高质量、低价格、售后完备的商品，购物导航网站的开发势在必行。而 Web 网页已成为购物导航网站一个丰富的数据源，因此，如何从 Web 中抽取出完整的商品记录并进行合并去重已成为一个极具价值的问题。本文通过研究已有的 Web 记录抽取方法和系统，从中选择了使用 DOM 树模型的 Webharvest 工具作为数据抽取工具；接着，在分析了已有数据去重方法之后，在现有字符串距离度量的基础上，加入了前期的数据处理阶段，提出了基于距离度量的中文数据去重方法，并在实际数据中测试效果良好；最后，在数据去重方法的基础上设计并实现了两种将 Web 数据抽取和数据去重集成到一起的自动化方法，包括基于搜索引擎过滤的自动化方法和基于语义分词标注的自动化方法。通过对两种自动化方法的测试，基于搜索引擎过滤的自动化方法结果满足设计要求，实现了将 Web 数据抽取并去重，并存入本地数据库，为购物导航系统提供后台数据支持。关键词：Web 记录抽取数据去重字符串距离度量 Abstract Abstract With the popularity of Internet and the rapid development of Electronic Business, there arise kinds of e-commerce website. In order to offer a convenient navigation and price comparison service to customers, allow customers to find the products with high quality, low price, and perfect after-sale in a short period of time, the development of shopping navigation website development is imperative. And Web page has become a rich data source for sites. Therefore, how to extract complete product records and deduplicate has become a valuable issue. In this paper, firstly, the existing approaches and systems for extracting Web records have been studied and the tool Webharvest using DOM tree model is chosen for data extraction. Secondly, after analyzing the web record matching methods, adding a prophase data processing stage, a record matching method for Chinese data is proposed on the basis of the existing string distance metric, and the t

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文.docxVIP