- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向电子商务网站的深度搜索与信息抽取研究管理科学与工程专业论文
优秀毕业论文
精品参考文献资料
L
L 独创性声明
i
本人声明所呈交的学位论文是本人在导师指导下进行的研究工
i 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表 示谢意。
学位论文作者签名:闰坼 签字日期:矽f/年6月分日
学位论文版权使用授权书
本学位论文作者完全了解江西师范大学研究生院有关保留、使用 学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人授权江西师范大学研究生院 可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后适用本授权书)
学签 位字 日 文期 : 矽签W 名年 6 同月 ,分 鬻壁隋日
~
。 沦 作 利
r、,i飞,; ,0 飞_o一
、,,,≯噎寥
-
I◆摘
I◆
摘 要
随着网络技术和数据库技术的飞速发展,互联网已成为海量信息的载体,如 何从海量信息中准确、快速地抽取出有价值的信息已成为人们迫切需要解决的一 大难题。电子商务网站具有动态Web页面、页面结构化程度高以及信息数量巨 大且内容丰富等特点。实际上,电子商务网站属于Deep W曲,Deep W曲指的是 存储在数据库中、不能通过静态超链接访问而需要通过动态网页技术访问的信 息,用户需要向特定的查询接口提交查询请求后才能访问数据库中的数据。深度 搜索就是针对Deep Web进行搜索。Deep W|eb不仅信息量大,而且具有面向某一 领域、结构化程度较高且可以公开访问等特点。本文选择电子商务网站作为深度 搜索的对象,研究商品信息的抽取。电子商务网站的站内搜索引擎为研究人员对 网站进行深度搜索提供了便利,它可以根据用户输入的关键词,将与之相关的数 据库内容以网页的形式动态呈现出来。我们可以利用这类查询接口进行深度搜 索,通过模拟关键词的填充和提交,来获取我们需要的页面。
通过深度搜索所获得的页面内含有大量商品信息,我们以此为信息源进行信 息抽取。信息抽取研究中最关键的技术在于如何生成抽取规则,生成的方法有很 多,但从生成的手段来说可以分为两种,一种是自动生成抽取规则,另一种是人 工编写抽取规则,两种方法各有优缺点,有着各自的适用范围。自动生成的方法 有利于针对不同结构的网站,但准确率较低;而人工编写的方法虽然需要人工参 与,但抽取结果较为精确。本文针对电子商务网站进行信息抽取,抽取商品的各 种信息,主要包括商品名称、价格、运费、商品相关信息等内容。由于同一网站 下的子页面结构大体相同,因此,为了获得更为精确的抽取结果,我们采用了人 工编写抽取规则的方法。
本文的主要内容及创新点如下: l、设计一个关键词库接口,使得系统可以接受关键词库文件(文本文件,
关键词之间以回车符隔开),将关键词库文件内的关键词一一导入至系统中,用 于表单的自动填充和提交。另外,考虑到了效率问题,让系统在导入新关键词库 文件时与旧关键词库进行对比,判断出新关键词,最后只接受更新的那一部分关 键词,即达到关键词增量更新的目的。
2、提取电子商务网站的HTML源码,通过对HTML源码进行分析,提取 出网站中包含查询表单的那部分HTML源码。根据这部分HTML源码,利用 WebBrowser控件方法对这些查询表单自动模拟关键词的填充和提交,用以获得 每一个关键词所对应的初始页面。
3、选择性的提取链接,只提取初始页面中的商品信息链接,而不提取广告
和友情链接。另外,由于商品信息链接有多页,因此还需要通过获取下一页 链接来得到更多更全的商品信息链接。本文介绍了多种获取下一页链接的方 法,并提出了一个通用性较好的方法。
4、通过正则表达式来定义抽取规则,根据不同的页面结构编写相应的正则
表达式,从而进行信息抽取。抽取的结果以文本文件的格式保存,便于对关键词 库文件进行更新。
关键词z 深度搜索; Deep Web; Web 信息抽取 :URL 提取:正则表达式
A‘
11
AbstractWith
Abstract
With the rapid development of network and database technology,Interact has become a carrier of a great deal of information,how to extract the meaningful information accurately and rapidly from the mass of web info
您可能关注的文档
- 城市居民的公民参与结构与测量应用心理学专业论文.docx
- 常染色体显性遗传非综合征型耳聋家系基因突变研究耳鼻咽喉科学专业论文.docx
- 高校学生管理法治化与大学生权利的法律保护马克思主义理论与思想政治教育专业论文.docx
- 风力发电机组液压变桨距系统的建模以及故障诊断控制理论与控制工程专业论文.docx
- 肥胖相关基因在儿童皮下和网膜脂肪组织中的表达以及肥胖相关基因部位特异性调控的研究儿科学专业论文.docx
- trim13参与hek293t细胞自噬及表达变化的研究临床检验诊断学专业论文.docx
- 大口径光学元件生产项目进度计划与控制研究工商管理专业论文.docx
- 半滑舌鳎摄食机理的研究捕捞学专业论文.docx
- 阐释人类学给翻译研究的启示外国语言学及应用语言学专业论文.docx
- 凡纳滨对虾litopenaeusvannamei幼虾铬和锰营养生理研究水产养殖专业论文.docx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第2课时 点的坐标特征.pptx
- 北师大版(2024)八年级数学上册课件 3.2 平面直角坐标系 第3课时 建立适当的平面直角坐标系.pptx
- 北师大版(2024)八年级数学上册课件 4.3 一次函数的图象 第1课时 正比例函数的图象及性质.pptx
- (人教A版数学选择性必修三)讲义第15讲7.1.1条件概率(学生版+解析).docx
- (人教A版数学选择性必修三)讲义第19讲8.1成对数据的统计相关性(8.1.1变量的相关关系+8.1.2样本相关系数)(学生版+解析).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第2课时 加减消元法.pptx
- (人教A版数学选择性必修一)2025年秋季学期讲义第01讲1.1.1空间向量及其线性运算(学生版+教师版).docx
- 北师大版(2024)八年级数学上册课件 5.2 二元一次方程组的解法 第1课时 代入消元法.pptx
- 北师大版(2024)八年级数学上册课件 5.3 二元一次方程组的应用 第3课时 二元一次方程组的应用(3).pptx
- 北师大版(2024)八年级数学上册课件 5.4 二元一次方程与一次函数 第2课时 用二元一次方程组确定一次函数表达式.pptx
最近下载
- 内蒙古自治区矿产资源储量.doc VIP
- 高三英语语法填空题20套(带答案)含解析.docx VIP
- 冠脉分叉病变并严重钙化的pci处理_陈竹君.ppt VIP
- 939_98G359-3悬挂运输设备轨道.pdf VIP
- 危险化学品目录(2025版) .pdf VIP
- 2025年全国预防接种技能竞赛【决赛】考试题库(含答案).docx VIP
- GB 50345-2012 屋面工程技术规范.docx VIP
- 中国铀矿山绿色安全的现状与发展思路参考.pdf VIP
- 2025年云南省投资控股集团有限公司人员招聘笔试备考试题及完整答案详解一套.docx VIP
- 冠脉分叉病变并严重钙化的PCI处.pptx VIP
文档评论(0)