系统描述和相关方法.DOC

下载文档 降价啦

7
0
约1.19万字
约 11页
2017-08-04 发布于天津
举报
版权申诉
保障服务

系统描述和相关方法.DOC

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

系统描述和相关方法.DOC

面向专利的化合物和生物实体识别系统（中国科学技术信息研究所信息技术支持中心　北京　100038）摘要：探索专利文献中的化合物和生物变得至关重要。为了实体和生物实体，了专利的化合物和生物实体识别系统开源的机器学习和自然语言工具进行开发系统流水线模式进行，详细阐述其主要过程：预处理句子分割、词条化），（基于条件随机场的方法），后处理（基于规则的方法），利用系统在标注的化合物专利语料库进行大量实验，十折交叉验证，得到了.20%的F值。，结果可以看到，在专利文献上的实验表现，要和新闻语料库中的表现。化合物和生物实体交叉验证 Chemical and Biological Entity Recognition System from Patent Documents LAI Hongchang, ZHU Lijun, XU Shuo (Center of Information Technical Support, Institute of Scientific and Technical Information of China, Beijing 100038, China) Abstract：It is crucial to explore the chemical and biological space covered by patent documents. In order to recognize chemical and biological entities, a recognition system is developed on the basis of open-source machine learning and natural language processing (NLP) toolkits. The system processing pipeline consists of three major components: pre-processing (sentence detection, tokenization), recognition (conditional random field (CRF) based approach), and post-processing (rule-based approach). The paper introduces each part in detail. Finally, extensive experiments on annotated chemical patent corpus are conducted, and the balanced-F measure is 69.20% with 10-fold cross validation. The results indicates that the performance on patent documents is slightly lower than that of counterpart on paper and news corpus. Keywords: Conditional Random Field (CRF)，Chemical and Biological Entity Recognition，Patent Mining， Cross Validation 中图分类号：G350，TP311 引言探索专利文献中的化合物和生物变得至关重要。早期的化学活动的，能很好的加速作用[1] [2]。文献中大量有价值的和生物实体，一些化合物、、药物、药物。，面向文献的识别系统非常有限然而，针对论文语料和新闻已经提出了很多识别方法，开发较多识别系统专利语料库、新闻语料库的反差，认为可能存在两个原因：标注的专利文献对公众而言不获取；文献具有法律效应，难于理解专利兴趣的不断提升，文献命名实体识别的情况正在不断好转专利的也越来越多，例如BIOINFORMATICS [3] [4], JNLPBA [5] 和 iPaMin [6]。Akhondi等人发布了已标注的专利语料[8]进行和生物实体的开发专利语料进性自动预标注，人工不同的、疾病、、方式等分类。全集Full Set）包含198篇专利文档共标注，Harmonized Set）包含47篇专利文档37,776个标注专利文档具有相当的复杂性内容可能上百页。环境下，无文档尤其是专利文档，识别其中的化合物和生物实体是非常具有挑战性的任务。采取了和Xu S的方法，面向的化合物和生物实体系统文章第二部分概述，介绍的构成和所的方法第四部分了实验的相关信息介绍了实验所的数据集数据概述 Akhondi发布了标准的化合物专利语料包含两个集：（h