- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图书领域的语义标注.doc
图书领域的语义标注
摘要:语义标注是Deep web数据集成系统中一个非常重要的模块,它是实体识别和结果合并这两模块的基础,语义标注的效果直接影响着整个Deep web数据集成系统的结果。本文提出了在图书领域,利用本体对web数据库查询结果通过属性值进行语义标注,通过对不同网站的测试,该方法具有较高的准确率和召回率。
关键词:deep web;本体;语义标注
1、引言
随着Word Wide Web的飞速发展,Web中的文本和超链接构成了丰富的网页信息,同时,Web中出现了越来越多可以访问的在线数据库,其中蕴含的海量信息可供我们利用。整个Web按照信息蕴含的“深度”可以划分为Surface Web和Deep Web两大部分。Surface Web是可以被传统搜索引擎索引到的页面集合。Deep Web目前还没有比较明确的定义,通常是指Web中可访问的在线数据库,简称为Web数据库。Deep Web中蕴含的数据量更大,结构化程度更高,覆盖领域更广,内容更加专业化,因此对Web数据库的访问逐渐成为获取信息的主要手段。
DeepWeb数据的集成是对结构化信息的集成,以尽可能自动的方式来完成对Web数据库中信息的有效利用。目前,Deep Web数据集成框架共分为两大模块:集成查询接口生成模块和对集成查询接口上查询的处理,其中后者又包括领域的映射、Web数据库的选择、查询分派、结果抽取、结果注释、实体识别和结果合并七个模块。
2、deep web语义标注
2.1 语义标注的定义
语义标注是指利用一组语义明确的词汇,标注web数据库查询结果中的每个数据,使查询结果不但人容易理解,而且是机器可处理的。这是一个对web数据库查询结果添加机器可处理的语义标记的过程。
领域知识指的是在某一特定领域内的概念与概念之间的相互关系,以及具有相关性概念间的约束的集合。一般来讲,领域知识是指人们在日常生活中长期积累、社会流通度高、众所周知的一些动态的语义知识,往往与具体领域相关。
2.2 查询结果语义标注
基于Deep Web数据库的查询,返回的结果是通过提交的查询词,利用后台数据库中预先定义好的模板动态生成,这些模板结构清晰,可读性强,因此对同一个Deep Web数据库提交同一个领域内不同的查询,返回结果页面的模式也是相同,主数据区中的各个数据记录相同的位置描述相同的属性信息,基于这一点,本文利用实例对象建立本体模型,然后通过训练本体中的实例生成标注模板。
查询结果的模式中包含查询词和接口中的部分属性名称,因此将对象的标注转化为对其属性的标注。对将标注的对象进行属性选取时,主要根据两点进行选取:第一是根据查询接口和返回结果页面中各属性出现的次数;第二是根据某特定领域的特征选择领域对象的属性。本文对标注对象进行抽象概括后,给出标注模型:ObjectModel={U,AN,A,T}u是网站的域名集,AN是该领域对象要标注的属性名称集;A是领域对象的属性值集合,是该领域对象的所有属性值;T是领域对象的数据特征集合,它是领域对象所对应属性的基本特征集合。语义标注就是对于任何一个Ui(Ui∈U)中的结果记录的属性值Aj(Aj∈A),都要从AN中找到一个明确的词汇并对其添加必要的语义信息,使得计算机可以识别、处理。
在基于本体的Deep Web数据集成系统的实现过程中,领域本体的构建关系着整个系统的效率,本文构建的本体以图书领域为背景,给出本体中相关概念的定义和模型。图书领域本体主要用于描述说明图书领域知识的概念集,它是该领域中实体概念、相互关系以及该领域所具有的特征信息。因此本文认为图书领域本体由概念、关系、属性和实例组成。在本体的构造过程中,本文应用斯坦福大学开发的本体开发工具Protege,选取图书的“ISBN”、“TITLE”、“AUTHOR”、和“PUBLISHER”四个属性构造了一个小型的图书领域本体。
通过统计与观察大量的图书网站,本文选取了几个最为常用的属性名称:书名、作者、出版社、出版时间、原价和折扣价,即标注模型中的取值定位AN={书名、作者、出版社、出版时间、原价和折扣价}。本文的标注方法分为训练阶段和标注阶段,训练阶段主要是根据样本结果集生成某特定网站的标注规则,由于图书领域的数据特征和特性,生成标注规则分为两种:一种是对于书名、作者和出版社这三个属性应用本体中的实例模板生成,另一种是对于出版时间、原价和折扣价这三个属性应用数据特殊格式形成标注规则。标注阶段的任务是根据训练阶段形成的标注规则对抽取结果进行标注。标注过程如下:
Step1:从的处理结果文档中随机选取若干个处理结果记录,存入本体中,作为该网站的实例样本,也是语义标注的训练标注模板,由多
您可能关注的文档
- 四大类抗哮喘药如何合理应用.doc
- 四川凉山州失依儿童现象及对策研究.doc
- 四川电网厂站运行值班人员调度联系资质管理系统的设计与实现.doc
- 四川盆地北缘大巴山前陆构造中―新生代构造隆升史.doc
- 四川藏区输电线路运维风险分析与对策.doc
- 四改实现柑橘省力化栽培.doc
- 四株虫生真菌代谢产物对植物真菌性病害的抑制作用.doc
- 四职业团战详解《远征OL》无差别竞技赛.doc
- 四驱越野的“群众路线”.doc
- 回合制还能这么玩!《九天神话》独特成长之路.doc
- 2025年中国锻铁围栏市场调查研究报告.docx
- 2025年中国椭圆型市场调查研究报告.docx
- 2025年中国无蔗糖原味豆浆市场调查研究报告.docx
- 2025-2031年中国泛在电力物联网行业发展运行现状及投资潜力预测报告.docx
- 2025年中国制袋机零件市场调查研究报告.docx
- 2025年中国智能除垢型电子水处理仪市场调查研究报告.docx
- 2025-2031年中国甘肃省乡村旅游行业市场深度研究及投资策略研究报告.docx
- 2025-2031年中国干海产品行业市场发展监测及投资战略规划报告.docx
- 2025年中国全铝图解易拉盖市场调查研究报告.docx
- 2025年中国人造毛皮服装市场调查研究报告.docx
文档评论(0)