海洋漁业信息集成平台的构建.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
海洋漁业信息集成平台的构建

海洋渔业信息集成平台的构建 于 红 大连海洋大学 工作背景 我国的海洋渔业信息化工作比较落后 有效利用各种渔业相关信息对渔业发展至关重要 构建海洋渔业信息集成平台可以方便用户利用信息 研究内容 研究内容 基于数据存在形态的集成方案 完全非结构化数据:领域搜索引擎 完全结构化数据:接口集成 有模式的非结构化数据:基于模板的结构化处理 渔业领域搜索引擎 基于模板的结构化处理 对于静态网页: 目前比较有效的方法是微软的基于视觉的网页划分 我的想法:基于视觉的网页分块,是否可以从网页设计的角度划分结构,找到几种网页设计的模板,利用模板进行结构提取? 对于动态网页 目前大多数方法依然是从动态生成的网页中抽取结构 我的想法:是否可以制定数据共享标准,建立共享机制,考虑利用后台数据库的结构? 接口集成(deep web) 接口抽取 接口模式匹配 接口模式匹配 匹配类型 1:1 1:n n :1 m:n 接口模式匹配 已有工作 Dhamanker提出IMAP系统 基本思想:要提取每一个候选属性或属性组的数据实例并根据属性名、属性数据实例的取值范围等信息对属性进行分类 存在问题:提取属性的数据实例开销大,而且不是所有的应用都能提取出源模式和目标模式中所有相关属性的数据实例 接口模式匹配 已有工作 He提出DCM(Dual correlationMining)框架 基本思想:该框架利用正相关(彼此相关)属性同时出现.负相关(同义词)属性不可能同时出现这一特点,进行正相关和负相关属性组挖掘,正相关挖掘属性组,负相关挖掘匹配。 存在问题 算法的平均查全率为80%一85%,平均查准率在80%左右,实际应用中略显不足 对所有的属性同等对待,没考虑属性的权重 接口模式匹配 基于划分的匹配模式发现算法 相关度衡量标准 Lift衡量标准: Jaccard衡量标准 H一衡量标准 接口模式匹配 基于划分的匹配模式发现算法 相关度衡量标准 C-衡量标准: 接口模式匹配 基于划分的匹配模式发现算法 算法基本思想: 基于任务分解的思想,将属性集划分成pn个互不相关的子集.统计每个划分中属性对共现次数及交叉出现次数做为计算相关CIDA计算其候选相关属性组集.每个划分中包含的属性与划分中发现的属性组合并起来作为新的划分,将发现的属性组加入到每一个相关模式中,同时计算新加入的属性组出现次数及与其他属性或属性组共现次数.然后对所有划分调用CIDA算法. 对每一个问题域,定义一个最小属性组,该属性组中的属性的权重高于其他属性,在进行属性匹配得时候优先考虑最小属性组中的属性。 接口模式匹配 实验 实验环境:为检验算法性能,用C++实现了DcM框架的算法和我们提出的算法PBPDF,实验环境为1.6GHz CPU,256MB内存和80GB硬盘,Microsoft windows XP操作系统.为综合评价算法的性能,实验用数据集选用通用的TEL一8数据集,选择了其中automobile、Airfare、books、moovie、music五组数据 接口模式匹配 存在问题:机器学习的方法本身的局限性使得基于机器学习的方法发现模式其准确性不能满足真实系统运行的要求,因此该类方法必须有人工参与才能使用。 下一步工作:解决问题的思路上突破传统的方法 * * 集成平台的数据分类 完全结构化数据 完全非结构化数据 有模式的非结构化数据 * *

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档