- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
Internet 的快速发展和互联网相关技术的不断成熟,使得企业(组织)的相
关资源纷纷上网,TREC(文本检索国际会议)也因此提出了企业检索任务,主要
目标是帮助用户实现在对企业相关数据进行检索的基础上完成特定任务。企业检
索的内容既可以是组织外部的数字资源也可以是组织内部的数字资源,这些数字
资源通常以异构的形式存在,如邮件、数据库记录、文档、共享文件等。
组织(企业)专家检索是企业检索的很重要的分支,也是当前垂直信息检索
研究的热门领域。本文总结了目前国内外组织专家检索的研究现状,分析了构建
组织专家检索系统的需求和挑战,并以此为基础,利用组织内外部的网页和期刊
论文数据库等信息,设计了从数据资源采集、规整、索引、检索到可视化等整个
过程的组织专家检索系统模型及以武汉大学为例的专家检索系统平台——
WHU-ES。该系统通过动态定义组织内外表征专家信息的资源列表,设定资源动态
更新周期,可实现资源的动态采集、专家专长的智能识别、专家共现聚类关系图
的动态生成和分析、专家个人档案信息自动抽取(包括专家肖像提取、专家简介
自动识别等)等功能。此外,本文也分析了构建专家检索系统存在的网页正文抽
取、专家姓名重叠、社会网络关系分析等难点,提出了可能的解决方案,最后对
WHU-ES 专家检索系统做了初步评价。
关键词:专家检索;专长识别;组织检索;专家聚类
目 录
中文 摘 要 Ⅲ
ABSTRACT …….Ⅳ
1 绪论 1
1.1 引言 1
1.2 本文研究的内容 1
1.3 研究的创新点 2
1.4 本文篇章结构 2
2 国内外研究现状 4
2.1 TREC 企业专家检索子任务 4
2.2 现有专家检索系统介绍 5
2.2.1 MITRE Expert Finder 6
2.2.2 People Finder 6
2.2.3 IBM Small Blue 7
2.3 专家检索其他相关研究 7
3 组织专家检索系统的分析与设计 9
3.1 系统总体思路 9
3.2 系统体系结构 11
3.2.1 Spider 模块 11
3.2.2 Indexer 模块 13
3.2.3 Searcher 模块 14
3.2.4 Assistant 模块 16
3.3 专家检索系统的难点及对策 16
3.3.1 网页数据噪音剔除 16
3.3.2 专家姓名重叠问题 17
3.3.3 专家社会网络分析 17
4 WHU-ES 的实现与评价 20
VI
4.1 相关软件介绍 20
4.1.1 Lucene 全文检索系统 20
4.1.2 NetDraw 社会网络软件 20
4.1.3 HttpClient 开源项目 20
4.1.4 CMU 的FaceDetect 工具 21
4.2 WHU-ES 的实现 21
4.2.1 初始辅助文档库的定义 21
4.2.2 专家数据集的动态采集和更新 21
4.2.3 数据集的规整及索引 22
4.2.4 专家档案自动生成的实现 22
4.2.5 Web 检索接口的实现和使用 23
4.3 WHU-ES 的初步评价 25
5 结语和展望 28
参 考 文 献 29
本科期间的相关科研成果 34
附 录 36
1 绪论
1.1 引言
组织的竞争优势源于其自身知识的集合及学习能力[1]。根据Delphi Group的调
查,组织中最大部分(42%)的知识是存在于员工头脑中的隐性知识[2]。这使得越来
越多的组织意识到对自身知识,尤其是员工头脑中的隐性知识进行有效管理的必
要性。然而识别这些知识并加以直接利用却非易事。
随着Internet的发展,企业、科研教学机构等纷纷构建起自己的网站,使得
员工的专长信息及员工头脑中的隐性知识可以通过组织的相关网页(如组织官方
网页、相关项目网页、员工主页等)、内部交流和共享的邮件记录等一系列相关文
档逐渐间接显化。因此如何从这些文档中识别出员工的专长进而辅助发现特定专
长的专家,促进组织内外部人员的协作、为项目或团队挑选合适的人选、选择项
目评审专家、快速发现和寻找合作者等就成为一个现实需要解决的研究课题。在
国际上,该研究属于组织专家检索研究的范畴。
与人工智能领域的专家系统不同,本文所谓组织专家的检索(Expert Search
或 Expertise Retrieval),是指利用组织内外能够表征专家专长的各种文档和资
源,识别专家在某给定查询主题(领域)的专长(相关性)程度,并按程度高低
排序显示专家结果列表等的过程。早期组织内专家检索的方法主要是通过建立描
述组织内人员专长信息的数据库[3],然而该方法不仅耗费人力财力,而且由于专家
的技能和知识存在着分布性、难以量化、难以分级、
文档评论(0)