- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据空间实体模式匹配方法研究经典
摘要
摘要
随着数字化技术和互联网的发展,各种信息资源迅速膨胀,数据
呈现出多样化的新特点。这些多样的数据已不再适合存储在单一的数
据模型或传统的关系数据库系统中,因此人们引入一个新的数据管理
模式——数据空间。用户可通过数据空间管理系统所提供的服务功能
来对数据空间进行管理,如数据分类、查询、更新、索引等。数据空
间不仅要能支持不同形式的数据的有效管理,还应具有自我进化能
力,自动抽取数据模式,发现数据资源间的关联,使数据空间的操作
更加高效。与数据库管理系统不同,数据空间采用 pay-as-you-go 的
进化方式,逐步形成数据空间的模式,这个过程也是数据不断被交换
和集成的过程。
本文研究数据空间实体模式匹配问题,首先介绍了课题组提出的
一个数据空间管理系统的框架和它所采用的基于刻面描述的数据模
型。为了在汉英双语的语言环境中分析数据空间中各资源的语义关
系,本文提出了一个基于中文 WordNet 的中英文词义相似度计算方
法,在 WordNet 同义词集(synset )的上下位关系图中,引入了距离、
密度、深度三个因素来估计同义词集之间的相似度,并采用一个自适
应的方案来解决候选同义词集组合的权重和取舍问题,实现了一个可
以计算英-英、汉-英、汉-汉词语之间相似度的算法。实验结果表明:
本方法得到的结果比较符合人们对词语的理解。
当用户将各种数据源加入到数据空间后,有些数据资源或许存在
着语义关联,描述同一类型的实体可能存在着不同的模式。因此我们
i
摘要
利用词义相似度算法和中文分词工具,从列名距离、数据类型、数据
内容的词性成份等角度来建立同类实体不同模式之间的映射关系,增
强数据空间的语义凝聚力。
关键词:数据空间;WordNet ;词语相似度;语义相似度;模式匹配;
模式进化;
ii
Abstract
Abstract
Nowadays, data with various new features has been shown with the
rapid expansion of information resources as well as the development of
digital technology and the Internet. As a response, in order to solve the
new-arising storage problem, a new data management mode, Data Space,
is introduced while conventional ways to store data in a single data model
or a relational database system are no longer feasible. Users can manage
it by the functions provided by Data Space Management System (DSMS),
such as data classification, querying, updating, indexing, so on and so
forth. Moreover, Data Space can not only provide strong support to
effective management of various data, but also has its own self-evolving
capabilities, such as automatic extraction of data schema, finding the
association between data sources.ect.
文档评论(0)