- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
上
上海海洋大学硕士学位论文
万方数据
万方数据
列名与数值不确定情况下的模式匹配问题研究
摘 要
数据的集成会造成数据的不确定性。模式匹配是数据集成的基础,在匹配时 降低数据的不确定性有助于数据集成效果的提升。但是传统的基于语义的匹配效 率不高,且经常出现错误。因此,人们考虑利用专业的工具来进行匹配。然而对 于语义解析的匹配方式,其准确性还有待考量,且无法直观的描述,因此也增大 了匹配过程中的不确定性。
在模式匹配不确定性情形下,经常会有不透明模式的问题出现,这会给原来 的语义匹配方法带来难度。例如在实际列表中的值或属性名(列名)没有明确给 出,而是用一些代码表示。列名与数据值不确定在模式匹配中较为常见,目前大 多数的算法都是基于互信息及欧式空间距离,但是并没有将属性相似度相同或相 近导致匹配错误的问题考虑在内。在模式匹配不确定性研究中,本文主要研究的 是一种错误匹配问题,即属性值差异性较大的问题。针对不确定模式匹配中属性 值差异性较大导致的错误匹配问题,本文提出了混合匹配的方式进行解决,首先 提出了多重迭代筛选方法,寻找关系模式中以此匹配成功的属性对,并从中继续 寻找最优属性对,接着利用条件互信息进行匹配,并利用最优属性对未匹配属性 的条件互信息进行计算,进而得出属性间的欧式距离,最终得出结果,在上述的 过程中,提升了匹配的效率,减少了匹配的错误。
同时,为了进一步提高不确定模式匹配的准确度,进一步解决不确定模式匹 配中同一表属性值相似度分布相同情况下的特殊模式匹配问题,以及多属性关系 模式的高复杂度匹配问题,本文又提出了基于贝叶斯信息的匹配方法,构建关系 模式的贝叶斯网络,分别计算得到最优属性对的马尔科夫毯,在马尔科夫毯中使 用确定与最优属性对关系最紧密的为匹配属性对,并使用欧式距离通过加权平均 的方法确定各属性与最优属性之间的权重,计算最优属性与各属性之间的影响力, 确定剩余未匹配的匹配情况,进一步提升匹配的准确性。
I
关键词:模式匹配,不确定性,条件互信息,多重迭代筛选,贝叶斯信息, 马尔科夫毯
II
Study on Schema Matching with Uncertain Column Names and Data Values
ABSTRACT
Data integration is a major source of uncertainty generated data. Pattern matching is a crucial step in data integration. In the pattern matching process to reduce the uncertainty of the data is important for data integration. The traditional model is based on semantic matching needs to consume a large amount of manpower and time, and error-prone. Therefore, modern people start using a semi-automatic pattern matching tools to assist the completion of pattern matching. However, it relies on the specific context of the field pattern matching cannot determine whether correct or similar standard is difficult to accurately describe the uncertainty, so that the uncertainty is inherent in the pattern matching process, unavoidable.
In the case of the uncertainty of pattern matching, will encounter opaque pattern matching problem, i.e. the actual table column names (property name) or value is not given directly, but expressed some code, which gave the original semantic matching The method makes it difficult. Column names and data values ar
您可能关注的文档
- 冷等离子体脱除分子筛模板剂研究-化学工程与技术;化学工艺专业论文.docx
- 冷硬铸铁及CFRP切削过程的离散元模拟机械制造及其自动化专业论文.docx
- 冷膨宫液在宫腔镜手术中的临床应用研究-妇产科专业论文.docx
- 冷等离子体强化合金熔体精炼的基础研究-钢铁冶金专业论文.docx
- 冷自体血心脏停搏液对离体兔心肌缺血再灌注损伤心肌细胞凋亡的影响-儿科学专业论文.docx
- 冷蒿次生代谢防御系统对机械损伤的响应机制-植物学专业论文.docx
- 冷藏及短时高低温胁迫对烟蚜茧蜂发育及生殖的影响植物保护;植物检疫专业论文.docx
- 冷藏保存对紫贻贝匐足面盘幼虫生长和变态的影响-捕捞学专业论文.docx
- 冷蒿抗氧化防御系统对机械损伤的响应机制-植物学专业论文.docx
- 冷蒿种子生物学及生殖生物学特性的研究-野生动植物保护与利用专业论文.docx
- 列宁党内民主思想建设研究-马克思主义理论专业论文.docx
- 列宁关于党的纯洁性建设思想研究-马克思主义基本原理专业论文.docx
- 列宁垄断理论及当代价值研究-马克思主义基本原理专业论文.docx
- 列宁农业思想研究-马克思主义理论专业论文.docx
- 列宁思想政治教育理论及其 当代价值研究-马克思主义理论专业论文.docx
- 列宁执政伦理思想探析-伦理学专业论文.docx
- 凌霄花总黄酮对小鼠脑缺血模型的影响-中药学专业论文.docx
- 列宁提高党应对国际局势能力的思想-马克思主义基本原理专业论文.docx
- 列宁党内民主思想及其当代价值研究-科学社会主义与国际共产主义运动专业论文.docx
- 列宁人才思想研究-马克思主义基本原理专业论文.docx
文档评论(0)