- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统描述和相关方法.DOC
面向专利的化合物和生物实体识别系统
(中国科学技术信息研究所信息技术支持中心 北京 100038)
摘要:探索专利文献中的化合物和生物变得至关重要。为了实体和生物实体,了专利的化合物和生物实体识别系统开源的机器学习和自然语言工具进行开发系统流水线模式进行,详细阐述其主要过程:预处理句子分割、词条化),(基于条件随机场的方法),后处理(基于规则的方法),利用系统在标注的化合物专利语料库进行大量实验,十折交叉验证,得到了.20%的F值。,结果可以看到,在专利文献上的实验表现,要和新闻语料库中的表现。化合物和生物实体交叉验证 Chemical and Biological Entity Recognition System from Patent Documents
LAI Hongchang, ZHU Lijun, XU Shuo
(Center of Information Technical Support, Institute of Scientific and Technical Information of China, Beijing 100038, China)
Abstract:It is crucial to explore the chemical and biological space covered by patent documents. In order to recognize chemical and biological entities, a recognition system is developed on the basis of open-source machine learning and natural language processing (NLP) toolkits. The system processing pipeline consists of three major components: pre-processing (sentence detection, tokenization), recognition (conditional random field (CRF) based approach), and post-processing (rule-based approach). The paper introduces each part in detail. Finally, extensive experiments on annotated chemical patent corpus are conducted, and the balanced-F measure is 69.20% with 10-fold cross validation. The results indicates that the performance on patent documents is slightly lower than that of counterpart on paper and news corpus.
Keywords: Conditional Random Field (CRF),Chemical and Biological Entity Recognition,Patent Mining, Cross Validation
中图分类号:G350,TP311
引言
探索专利文献中的化合物和生物变得至关重要。早期的化学活动的,能很好的加速作用[1] [2]。文献中大量有价值的和生物实体,一些化合物、、药物、药物。,面向文献的识别系统非常有限
然而,针对论文语料和新闻已经提出了很多识别方法,开发较多识别系统专利语料库、新闻语料库的反差,认为可能存在两个原因:标注的专利文献对公众而言不获取;文献具有法律效应,难于理解专利兴趣的不断提升,文献命名实体识别的情况正在不断好转专利的也越来越多,例如BIOINFORMATICS [3] [4], JNLPBA [5] 和 iPaMin [6]。Akhondi等人发布了已标注的专利语料[8]进行和生物实体的开发专利语料进性自动预标注,人工不同的、疾病、、方式等分类。全集Full Set)包含198篇专利文档共标注,Harmonized Set)包含47篇专利文档37,776个标注专利文档具有相当的复杂性内容可能上百页。环境下,无文档尤其是专利文档,识别其中的化合物和生物实体是非常具有挑战性的任务。
采取了和Xu S的方法,面向的化合物和生物实体系统文章第二部分概述,介绍的构成和所的方法第四部分了实验的相关信息介绍了实验所的数据集
数据概述
Akhondi发布了标准的化合物专利语料包含两个集:(h
您可能关注的文档
- 糖试验技术模块教案.DOC
- 系科别-台南应用科技大学-服饰设计管理系.DOC
- 系统分析与设计第四版.PDF
- 系统动力学2多目标规划整合模型在秦皇岛水资源规划-水科学进展.PDF
- 系统发生分析-东南大学生物电子学国家重点试验室.PPT
- 系统实施技术方案-江苏食品生产安全协会.DOC
- 系统生物学第二次试验.PPT
- 素白与极简满足多变优雅的品味生活-原晨室内设计.PDF
- 素调节TRH受体基因的.PDF
- 索尼NEX-5R液晶屏更换 - iFixit.PDF
- 2023咸阳职业技术学院招聘笔试真题参考答案详解.docx
- 2023四川化工职业技术学院招聘笔试真题及参考答案详解.docx
- 2023哈尔滨职业技术学院招聘笔试真题及参考答案详解.docx
- 2023商洛职业技术学院招聘笔试真题及答案详解1套.docx
- 2023呼伦贝尔职业技术学院招聘笔试真题参考答案详解.docx
- 2023南阳农业职业学院招聘笔试真题参考答案详解.docx
- 2023天津公安警官职业学院招聘笔试真题带答案详解.docx
- 2023年上海电机学院招聘笔试真题参考答案详解.docx
- 2023年四川艺术职业学院招聘笔试真题参考答案详解.docx
- 2023安徽体育运动职业技术学院招聘笔试真题及答案详解一套.docx
最近下载
- 北京市海淀区六年级下册期末卷及答案.pdf VIP
- 石家庄市2025年高三年级教学质量检测(一)数学试卷(含答案).pdf
- 4.1树与二叉树教学设计2023—2024学年浙教版(2019)高中信息技术选修1.docx
- 如何上好一堂美术课课件.pptx
- 商法学 课件( 马工程) 第8--11章 证券法---破产法.pptx
- 济宁三号煤矿8.0 Mt-a新井设计 综采工作面沿空掘巷技术浅析.docx VIP
- ASUS华硕ROG - 玩家国度机箱ROG Z11 OLED editionROG Z11 user's manual for multiple languages.pdf
- T-CAQ 10204-2017 质量信得过班组建设准则.pdf
- 2025年山东省实验中学高三一模高考英语试卷试题(含答案详解).pdf VIP
- 医学免疫学(第7版)PPT课件 第二章 免疫器官和组织.pptx
文档评论(0)