医药信息检索中用户多兴趣处理技术.docVIP

下载本文档

0
0
约7.57千字
约 16页
2018-11-30 发布于福建
举报
版权申诉

医药信息检索中用户多兴趣处理技术.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

医药信息检索中用户多兴趣处理技术

医药信息检索中用户多兴趣处理技术　　摘要：人类个体差异等因素使得医药信息检索需要用户多兴趣的个性化服务。基于这个思路，结合医药领域的特点，提出了一种面向求医问药应用的用户多兴趣描述方式，并给出了相应的多兴趣更新算法。实验表明，该多兴趣模式比单兴趣模式能更好地表达用户兴趣的内涵和变迁，具有更高的检索精度。　　关键词：医药信息检索；用户描述文件；多兴趣描述和更新　　中图分类号：TP39文献标志码：A 　　文章编号：1001－3695(2008)03－0799－04 　　　　Internet的普及使得越来越多的人选择通过网上的医药信息检索平台进行足不出户的求医问药，从检索返回的相关网页中获取专家解答或同类患者的治疗经历。医药信息检索系统和开放式搜索引擎一个显著的区别是：其设计需要充分考虑到医药领域的特点。正所谓因人而异、对症下药，对于不同的求医者，由于个体的差异，即使是患同样的病，其用药和治疗方式都不尽相同。医药检索系统有必要结合用户查询请求以及用户背景档案，提供个性化的检索服务。　　个性化检索考虑了用户的区别，通过收集和更新用户兴趣，建立用户背景档案，从而对用户的再次检索进行结果过滤以及主题推荐[1，2]。但是，仅仅单兴趣模式的个性化检索还不够，面向医药领域的信息检索系统由于患者个体差异等领域特点，需要用户多兴趣处理技术。一个用户可能同时染上多种疾病，或者同时关注多种疾病。如果将不同疾病的信息放在一个兴趣中，不仅使得兴趣描述冗长，而且兴趣内容不清晰，检索精度偏低。　　在实现过程中，用户多兴趣主题的描述方式以及多兴趣主题的更新是两个关键技术。传统的加权词条的兴趣表示方式[3，4]不能满足用户的多兴趣信息描述，领域无关的概念空间描述[2]无法有效地结合领域知识，提高检索效率。　　而传统的基于向量[3,4]和概率模型[4，5]的兴趣更新算法在医药信息检索系统中也存在缺陷。　　　　1实验系统框架　　　　一个检索系统主要包括索引、请求处理和搜索三个模块。在此基础上，本文的医药信息检索系统加入了领域本体和兴趣管理两个模块。图1为系统的概要框架，给出了这五个模块的分工及模块间的关联。其中医药领域本体的用途体现在：可以利用领域本体在建索引时进行文本分类；在请求处理时分析问题的概念类型，以及在多兴趣更新算法中提供领域知识。　　多兴趣管理模块提供用户的个性化服务，通过用户对检索结果的评价来收集用户感兴趣的主题和内容，从而为用户的再次检索提供过滤和推荐。本文提出的面向医药检索的多兴趣描述方式以及相应的多兴趣更新算法在该模块中得到了实现。　　　　2医药领域本体的构建　　　　提高检索系统的效率和精度需要领域知识的辅助。因此，领域本体的构建是本文系统实现的前提。在实验系统中，笔者构建了一个简单的医学本体，使得可以提高系统的语义分析和处理能力，改进检索性能。　　本体是对特定领域中概念及概念之间关联的明确形式化表示, 其作用是实现领域概念的可理解性和可重用性[6，7]。在第1章中指出了医学领域本体在实验系统中三个方面的运用，它包括概念树、领域词典、实例、实例间的关联。　　概念树是对领域概念之间上下位关系的形式化描述。本文中的概念树满足多继承关系，其建立方式是为了适应医药领域中概念的多种分类方法的需要。医药学是一个蕴涵丰富知识的领域，疾病和药材是其中非常重要的两个部分，因此本文的概念树以这两个概念为根节点展开。以概念树为依据，可以进行概念的泛化和特化、概念的相似度比较等操作。领域词典用于分词及词性标注，主要包括疾病词典、药材词典、属性词典和同义词词典。　　实例是概念树上概念节点的实体化对象。一个实例有若干个属性，每个属性均是由一个或多个满足约束条件的确定的值填充。在本体中，采用〈 SubjectPredicateObject 〉三元组的集合来描述一个实例。实验系统中的3 000多个各类疾病和药材实例是通过对相关网页进行信息抽取而生成的。在生成实例之后，通过关联规则挖掘技术[8]来计算实例属性之间及实例之间的关联度。　　　　3面向医药检索的用户多兴趣管理　　　　个性化检索结合用户背景，通过收集和更新用户的兴趣信息，实现检索结果的过滤及相关信息的推荐。个性化检索系统设计的关键部分是用户兴趣描述方式和兴趣更新算法。本文提出了一种面向医药领域信息检索的用户多兴趣描述方式，以及相应的多兴趣更新算法。实验系统对多兴趣模式和单兴趣模式的检索性能进行了实验和比较。　　3．1兴趣描述方式　　3．1．1传统的兴趣描述方式　　用户兴趣描述也被称为用户描述文件。到目前为止，用户描述文件还没有一个统一的标准。对于应当收集哪些用户兴趣信息，如何组织存储、收集以及更新都没有达成共识。用