生物医学文本挖掘目前研究工作综述18.pptVIP

  • 10
  • 0
  • 约1.54万字
  • 约 62页
  • 2018-06-25 发布于浙江
  • 举报

生物医学文本挖掘目前研究工作综述18.ppt

生物医学文本挖掘目前研究工作综述18

未来的发展方向 首先,必须更容易获取全文及文档集合 期刊论文中的一些科技信息在摘要和MeSH主题词中并未提到,目前的文本挖掘研究已经从标题和摘要转向全文,但是全文的获取仍受版权的限制。 因此,研究团体必须与出版者合作获取各种各样的内容用于文本挖掘 未来的发展方向 接下来,在解决特定的文本挖掘任务时,需要更多的研究工作来测定什么特征和什么类型的特征是有用的。 用于文本挖掘的特征空间是一个巨大的特征类型数组,特征类型包括(但不限于)词、概念、主题词、格式、作者、参考文献和链接。 流行已久的词袋方法可以应用到各种不同来源的文本,但忽略了文档的位置以及段落信息,可能无法从提供位置以及段落信息的全标记文本中产生最有鉴别能力的特征集 由于各种各样的潜在特征和特征类型的存在,因此需要额外的分析方法为特定应用选择最优特征集。 未来的发展方向 最后,生物医学领域共同挑战任务的一致评价方法必须继续研究 基于实际需求来选择任务和评价结果必须取得更多的进步。最近这种类型合作的例子包括2004年的BioCreative和TREC Genomics Track,两者都利用生物学数据库管理者日常工作过程中做出的评价作为金标准 结论 很明显,未来发展的主要主题是学科间协调与合作 文本挖掘研究者必须一起合作,出版者和生物医学研究者通过提供能产生一致的、可测量的、可证实的结果的系统来满足用户需求 研究人

文档评论(0)

1亿VIP精品文档

相关文档