科技文档中化学结构描述与搜索.pdfVIP

  • 6
  • 0
  • 约6.42万字
  • 约 47页
  • 2017-08-31 发布于江苏
  • 举报
摘 要 Internet 中存在着大量的化学信息资源,在这些海量信息面前,用户要查找自己 需要的信息,必须要借助于搜索引擎。目前,很多化学结构信息采用了系统命名法、 线性码等方法进行描述,但是这些化学结构描述方法本身难以实现化学结构的检索, 且 Google、百度等通用搜索引擎目前只能按文本关键词进行检索。如要有效地利用 Internet 中这些化学资源,必须要建立针对这些资源的化学结构搜索引擎。 在分析化学结构不同描述方法的基础上,为方便化学结构的检索,科技文档描 述语言 ScienceML 中采用了CML (Chemical Markup Language )作为描述化学信息 的标记语言;结合现代信息检索技术和化学结构检索的特点,设计了一个化学结构 搜索引擎(Chem Search ),实现了化学结构的全结构、子结构、结构相似性检索。 为了在检索时可以快速地查找化学结构,化学结构在数据库中的存储位置采用 Hash 函数来定位;网络机器人采用“关键词匹配算法”来指导其爬行,以减少搜索范围, 提高网页采集性能;化学结构相似性检索采用了改进的基于图特征矩阵索引的检索 算法,进一步提高了相似性检索的效率;用户可以通过浏览器直接访问 Chem Sea

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档