武汉大学专家检索系统的设计与实现.pptVIP

武汉大学专家检索系统的设计与实现.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
武汉大学专家检索系统 的设计与实现 基本结构 1.引言 2.现有系统介绍 3.WHU-ES的设计与实现 4.总结及不足 1.引言—需求与挑战 越来越多的组织意识到对自身知识,尤其是员工头脑中的隐性知识和员工的专长知识进行有效管理的必要性。然而识别这些知识并加以直接利用却非易事 专家的技能和知识存在着分布性、难以量化、难以分级、不断变化 1.引言—组织专家检索 组织专家检索,是指利用组织内外能够表征专家专长的各种文档和资源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低排序显示专家结果列表的过程。 2.研究现状—已有系统 专家专长描述数据库 MITRE Expert Finder CSIRO在P@NOPTIC Expert基础上构建的 People Finder 系统 IBM SmallBlue系统 3.系统设计与实现 系统功能 体系结构 模块划分 模块的实现 初步评价 3.系统设计与实现—系统功能 采用何种数据挖掘专家专长 如何获取这些数据集合 如何解决专家专长动态变化特点 呈现什么给用户 如何呈现 3.系统设计与实现—系统功能 通过对已有系统分析研究,对专家专长动态变化特点的考虑,以及对上述的问题解答,我们认为WHU-ES的主要功能: 定义表征专家专长数据集类型 动态构建及更新专家数据集 专家专长(领域)的动态识别 检索针对特定查询主题的相关专家 专家共现和聚类关系的可视化呈现 专家档案自动生成(学院、性别、简介、照片等) 3.系统设计与实现—模块划分 Spider模块 Assistant模块 Indexer模块 Searcher模块 3.系统设计与实现—体系结构 3.系统设计与实现—模块实现 Assistant模块 资源列表文件 --组织内部网页 --搜索引擎中关于专家的信息 --学术数据库中关于专家的信息 专家列表文件 主题词列表文件 Assistant模块 专家列表文件 Hir_Lab :哈工大分词系统 NumTime=1 #数词时间词识别 Person=1 #人名识别 Location=1 #地名识别 POSTag=1 #词性标注 ExtendedDict=1 #扩展词表,可以手工加词 识别效果:人名识别 手工结果/自动识别的结果:2585/70194 识别准确度:2533/2585*100%=97.99% 3.系统设计与实现—模块实现 Spider模块 采集组织内部网页信息(子域名,23万网页) 采集搜索引擎中关于专家信息(专家名 and 机构名,21万记录) 采集万方数据库中关于专家的论文信息(作者机构:武汉大学,5万记录) Spider模块 组织内部网页抓取 3.系统设计与实现—模块实现 Indexer模块 规整为网页格式(数据格式不尽相同) 解析网页(利用HTMLParser) 建立索引(利用Lucene) 3.系统设计与实现—模块实现 Searcher模块 Web UI获取用户查询式; 返回排序的专家列表(如何排序?); 生成专家共现关系图(利用NetDraw); 聚类关系分析; 专家档案自动生成; 查询式构建 Lucene检索接口 StandardAnalyzer AND OR NOT 支持bool查询 专家排序模型 聚类关联分析 SNA(社会网络分析) 按学院(系)聚类 聚类关系提取 专家档案生成 基于和候选关键词共现抽取检索结果 学院、系;(学院和系列表) 性别;(男、女) 职称;(教授、副教授等) 基于特定规则抽取搜索引擎返回结果 研究方向;(…研究方向…) 个人简介;(…专家名…男…武汉大学…) 基于图片检索(Expert Pic Extractor) 专家照片提取 (图片采集+文本分析+人脸识别) Expert Pic Extractor 3.系统设计与实现—效果评价 效果评价—续 3.系统设计与实现—效率 4.总结 实现了从不同数据集层面挖掘和评价专家专长 实现数据集的动态采集和更新 实现专家共现聚类关系的呈现 4.总结 系统的功能进一步予以完善,不仅要考虑专家与文档级的映射关系,还要考虑其与具体的章节甚至段落等片断信息的映射,以提高专家识别的准确度 在系统中引入实体识别技术及本体技术等,不断提高专家检索系统的自动化程度 4.总结 关于专家识别效果的深入评价是未来研究工作的一个重点,将进一步考虑引入能表征专家专长的其他数据集(如专利数据集等),并对所采用的各种数据集

文档评论(0)

kaku + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档