- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业内部邮件中话题讨论检索的研究
企业内部邮件中话题讨论检索的研究
摘 要:随着信息技术的发展,企业检索已成为人们越来越关注的一个新的应用领域。作为企业检索的一个典型任务,企业?炔康挠始?检索是在企业中常常遇到的一个问题。企业内部存在着大量的可以公开访问的电子邮件,这些是企业重要的信息资源,如何高速有效地从这些邮件中检索到需要的信息具有很大意义。本文根据电子邮件本身具有的格式化特征和语义拓扑结构提出了基于电子邮件特征的检索模型。实验表明,该模型对电子邮件可以进行有效的检索,并且使用该模型在TREC2006电子邮件话题检索评测中取得了优异的性能成绩。
关键词:计算机应用;中文信息处理;企业信息检索;邮件检索;话题讨论检索
中图分类号:TP391 文献标识码:A
文章编号:1003-0077(2008)02-0081-06
1 引言
以企业检索为代表的Intranet信息检索是近些年来越来越得到大家关注的一个检索方向。从20世纪50年代开始,各种ERP、TPS、MRP以及CRM等系统都给企业积累了大量宝贵的数据,但是这些数据并没有得到充分的利用。Delphi公司做出的一项调查表明,有60%的被调查者发现在企业中找寻工作所需的相关信息相当困难。企业内部数据与传统广域网上检索的一个很大的不同点在于数据存储的格式多样,各种形式的文本文件、二进制文件等等。其中电子邮件往往占据着企业中大份额的信息,如在组织wac中,其内部的数据有一半以上都是电子邮件,如何从这些信息中检索到人们关心的内容已经成为一个亟待解决的问题。
与以往的电子邮件中检索的需求不同,企业邮件中检索更关注的是相关话题讨论的检索。在过去的电子邮件检索任务中,电子邮件作为用户私有的信息,邮件检索的数据集往往是用户的个人邮件,他人不能访问。用户使用邮件检索往往将其作为导航工具,寻找包含特定发信人或者特定关键字的已知邮件。这与在企业内部检索的任务完全不同,企业内部存在着公开的邮件列表组,人们通过这个列表组使用电子邮件进行讨论,这些邮件信息每个人都可以访问,事实上邮件列表组为企业内部人员讨论搭建了一个交流的平台。在企业内部邮件检索任务中,数据集是企业内部的所有邮件,这些邮件每个人都可以访问,而人们想从这些邮件中检索到他们感兴趣的讨论信息,比如关于某个技术细节的讨论。所有这些特点说明在企业内部的邮件检索是一个由新需求主导的检索任务。
传统的一些信息检索技术对于企业内部邮件检索任务并不十分适用,因为相比于网页,邮件有其自己的格式化特征。因此我们研究了在企业中邮件的本身特点与人们在企业内部通过邮件交流的行为特征。根据分析结果,我们提出了基于电子邮件多特征域的检索模型与邮件树的改进权值计算模型。
本文按照如下方式组织:第二部分给出传统邮件检索和企业检索的相关工作,第三部分介绍邮件结构特点与人们使用公开邮件列表交流的行为分析,第四部分介绍基于邮件特征的话题检索模型实验,第五部分给出相关实验,最后是结论与未来研究方向。
2 相关工作
过去关于电子邮件检索的大部分工作集中在检索个人邮件集合,人们把检索作为一个管理个人信件的工具,研究如何更好的判断邮件中格式化信息来寻找包含特定发信人或者特定关键字的已知邮件。Carvalho使用机器学习的方法在电子邮件集合中自动识别署名区域和引文区域。Culotta则致力于从邮件中抽取邮件人姓名和电子邮箱。而另外一些人使用检索来帮助邮件的分类和管理。
电子邮件同网页有不同的语义拓扑特征,有收发关系的邮件在同主题下表现为一棵邮件树的形式,这与文档检索中的段落检索很相似。Hearst等将文档看作是一系列的局部集中的讨论段落并且自动将段落根据主题汇聚起来。他们在这些段落下进行检索。结果显示其性能比单独抽取文档和单独抽取段落都好。他们的方法也可以考虑应用到邮件检索中来,将每一封信件看作一个段落,而将整个信件所处的邮件树看作一些话题集中的文档,但是与他们不同的地方在于,所有的邮件是由不同的人书写的,而他们将同一文档的相关段落聚集起来。在另外Mittendorf的段落检索工作中,他们使用隐马尔科夫模型来判断每一个段落是否查询相关,他们的结论也是段落检索可以提高检索性能。
邮件可分为不同的域,而一棵邮件树又包含多封邮件,因此我们需要考虑将在不同的域或集合上检索的结果融合起来。在数据融合方面,最早由Fox和Fuhr展开。Lee将来自不同计算方式的结果使用权值合并融合起来,得到了很好的结果。Vogt将来自两个系统的检索结果以加权的方式合并,结果显示这种融合结果的性能比单独使用其中之一的性能要好。在Xi的工作中,他们考虑从网络社区中抽取特征,然后将特征融合进行检索。他们的工作为我们采用检索结果融合的方法提供了经
原创力文档


文档评论(0)