- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
应用于网上图书域的deep web实体识别
摘 要
摘 要
建立 Deep Web 集成系统是目前的研究热点,但由于不同网站对同一实体的数据描
述在表现形式上存在着差别,导致冗余信息多,给用户的查询带来不便。实体识别是
Deep Web 集成系统中一个至关重要的环节,它的目的就是去掉结果中的重复数据,即
降低数据的冗余度。本文主要对Deep Web 数据集成中的实体识别进行了深入的研究。
针对中文图书领域 Deep Web 实体识别,通过分析各个网站对图书信息的描述形式,
发现不同的网上书店对同一本书的描述通常存在着差别,而对不同图书的描述又可能非
常相近。由于上述情况的存在,本文提出了基于改进 Jaccard 系数和领域本体的 Deep Web
实体识别方法。在图书文本属性中,直接应用 Jaccard 系数进行计算,不能解决在文本
属性中出现的某一属性值非常相近而其他各个属性都完全相同的情况。本文在实体识别
的过程中对 Jaccard 系数进行了两点改进,一是为文本分词后的单词增加权重系数,二
是字符串匹配时的包含关系用系数 m 来确定。利用改进 Jaccard 系数法计算文本相似度,
能很好的解决上述情况。本文结合领域本体中的同义词库进行图书属性匹配,来解决作
者属性中存在中英文以及出版社属性中存在简写的情况。由于各个属性在识别时所占的
重要程度不同,所以本文利用层次分析法获得各个属性的权重,然后加权相加计算实体
相似度,从而整合重复实体。实验表明,该方法对中文图书领域的 DeepWeb 实体识别
具有较高的准确率。
关键词 Deep Web 实体识别 Jaccard系数 领域本体 层次分析法
I
Abstract
Abstract
The establishment of the deep web integration system is the current research focus,
however, different sites on the same entity data describing the existence of differences in the
expression form, lead to the having numerous redundant information, and put the user to
inconvenience in inquiring information of data. The entity identification is a vital link in the
deep web integration system, its purpose is to eliminate duplicate data results, that reduces
data redundancy. This article makes an in-depth research at the entity identification of deep
web data integration.
For the Chinese book field of the deep web entity recognition, by analyzing carefully
each site description of book information form, we find the form of the description for the
same book is often difference and the form of the description for the different book may be
very similar on the different online bookstores,. In light of the above, this p
您可能关注的文档
最近下载
知传链电子书
- 目 录-[共5页]-11-H5和WebGL 3D开发实战详解-人民邮电出版社-吴亚峰 于复兴 索依娜.pdf
- 前 言-[共3页]-8-H5和WebGL 3D开发实战详解-人民邮电出版社-吴亚峰 于复兴 索依娜.pdf
- a-fy-[共6页]-1-H5和WebGL 3D开发实战详解-人民邮电出版社-吴亚峰 于复兴 索依娜.pdf
- 结束语-[共7页]-266-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 小结-[共4页]-262-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 身份鉴别及管理技术-[共3页]-252-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 国内标准化组织及工作进展情况-[共4页]-245-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 国外标准化组织及工作进展情况-[共3页]-242-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 推进网络身份认证管理,国内取得了长足进展,但仍有明显不足-[共3页]-236-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
- 政务信息资源代码结构-[共6页]-146-互联网+政务-人民邮电出版社-Aisit网信研究院.pdf
文档评论(0)