清华方案要点_信息共建共享服务网引文链接和服务搜索引擎知识元数据库.ppt

清华方案要点_信息共建共享服务网引文链接和服务搜索引擎知识元数据库.ppt

  1. 1、本文档共109页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* Internet Search Engine 潜在应用 * 新型界面: 网络地图 200万网站多级可视目录 以不规则多边形表现等级类目 可放大观看细节 以符号表现网站 两篇文献或两个类目内容上越近, 地图上距离也越近 以地形表现等级 * 新型界面:双曲线树 便于查找等级分类数据 重点 + 上下文 直观、互动 Xerox PARC 发明 * Themescapes, Cartia PNL Mountain height = Cluster size * M /start * 信息挖掘 * 数据方块建造 (http://db.cs.sfu.ca/sections/publication/slides/slides.html) sum 0-20K 20-40K 60K- sum Comp_Method … ... sum Database 数量 省份 专业 40-60K B.C. Prairies Ontario All Amount Comp_Method, B.C. 每维包含一个属性的层次值。 一个方块存储集合值, 如计数、总计、最大值等。 一个 “总计” 单元存储总计值。 稀疏—方块技术与MOLAP/ROLAP结合。 “Chunk”-based 、多向集合和单路计算。 * 网络挖掘体系结构模型 (http://db.cs.sfu.ca/sections/publication/slides/slides.html) 通过Web log 过滤, 产生 关系数据库 从数据库产生数据方块(data cube) 用OLAP 切隔数据方块 用OLAM 挖掘所需知识 1 数据清理 2 数据方块创建 3 OLAP 4 数据挖掘 网络信息 数据库e 数据方块 方快切割 知识 * 网络挖掘基本体系结构 网站1 网站2 网站3 广义数据 概念层次关系 高位层次 资源挖掘 知识挖掘 (WLM) 特征规则 判别规则 联想规则 * 信息抽取 * 信息抽取与文献分类 ? * Intranet 信息抽取 提问处理 数据库 Web IE ontology * 传统 IE 体系结构 标识化 词形和句法处理 解析 话语分析 文本分段和过滤 词类 标识 词意标识 片段处理 片段联结 情景模式匹配 共参分辨率推理 模版合并 本地文本分析 * 信息抽取体系结构 rund 60 bis 70 Prozent: percentage-NP bis: adv Steigerungsrate: steigerung+[s]+rate bis: prep|adv rund 60 bis 70 Prozent: NP der Steigerungsrate: NP ASCII 文献 标识器 句法分析 POS-过滤 有名实体 片语识别 句子边界探测 XML-输出接口 语言知识库 XML 文件 rund: lowercase 60: two-digit-integer EXAMPLE: rund 60 bis 70 Prozent der Steigerungsrate (about 60 to 70 percent increase) 文本图 * 结束语:从头越 重视知识管理发展战略研究 发展知识内容开发技术 信息技术与传统方式相结合 把基础研究和基础建设提到应有高度 培养创新型跨学科人才 * * * * * * 知识组织与存取 (3) 数据库与XML标记之间的转换和兼容 用文献类型定义来产生数据库结构 用数据库结构来产生文献类型定义 !ELEMENT article (title, description, (section (P+))+ !ELEMENT title (#PCDATA) !ELEMENT description (#PCDATA) !ELEMENT section (P+) !ATTLIST section id CDATA #REQUIRED !ELEMENT P (#PCDATA) !ATTLIST P id CDATA #REQUIRED Article ID Title Description Article ID Section ID Section title PID Paragraph I M 转换 数据库 文献类型定义 * 知识组织与存取 (4) 分类表 (taxonomies) 侧重于领域知识(domain knowledge) 领域知识可以表述成知识图(knowledge map)或分类表 分类表是具有等级结构的一组类别,并包括一些类别之间的相互关系 分类表的作用: 提供浏览便利而无需检索 可通过将文献置于特定范畴内帮助用户判定文献的相关性

文档评论(0)

benzei244572 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档