新能源汽车领域中文术语抽取方法.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用论文 新能源汽车领域中文术语抽取方法* 何 宇 1 吕学强 1 徐丽萍 2 1(北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101) 2(北京城市系统工程研究中心 北京 100089) 摘要: 【目的 】为提高新能源汽车领域中文术语抽取结果的准确率和召回率, 提出一种适合该领域的术语抽取方 法。【方法 】在总结前人工作基础上, 提出利用条件随机场模型作为抽取模型, 选取词、词长、词性、依存关系、 词典位置、停用词等特征作为特征模板。【结果 】实验结果正确率为93.12%, 召回率为90.47%。正确率比Baseline 方法提高 7.73%。【局限 】该方法只提高较短术语抽取结果的正确率。【结论 】依存关系作为条件随机场模型的 一项特征可以提高新能源汽车领域中文术语抽取结果的正确率和召回率。 关键词: 术语抽取 新能源汽车领域 条件随机场 依存句法关系 分类号: TP391.41 1 引 言 梁颖红等[3]将C-value 和互信息相结合构造了C-MI 参 数, 通过与单独使用互信息和 C 值的方法比较, 证明 专利文献是指各专利管理机构在受理、审批、注 该方法提高了长术语识别的正确率。屈鹏等[4]对候选 册专利过程中产生的记述发明创造技术及权利等内容 术语计算卡方检验、互信息、TF-IDF 值, 然后根据特 的官方文件及其出版物的总称[1] 。有效地利用专利文 征值对候选术语进行排序, 同时还提出生僻术语的识 献可以节省开发时间和研究经费。专利文献检索是快 别算法, 但在术语定义时限定术语长度为2-3 词, 术语 速有效利用专利文献的重要方法, 并且专利文献中的 覆盖范围不够大。董丽丽等[5]先使用停用词表去掉语 术语又是文献检索的一个组成部分, 因此术语抽取问 料中的停用词, 再利用互信息获取合成词串作为候选 题越来越受到相关研究者的重视。 术语, 最后利用似然比获取低频术语加入候选集合, 目前, 国内外相关学者对特定领域的术语抽取做 但该方法的准确率和召回率受语料规模的影响较大。 了大量研究, 主要有基于语言学规则的方法、基于统 计的方法和两者相结合的方法。周浪等[2]根据术语的 基于机器学习的方法, 主要采用条件随机场模型进行 构词规律提出构词法, 并根据构词法识别候选术语。 术语抽取: 郭剑毅等[6]使用低层条件随机场模型以字 基于语言学规则的方法主要缺点是识别的结果受制于 为单位识别旅游景点名、特产小吃名等, 然后使用高 规则模板的质量, 不能灵活适应语料的变化。基于统 层条件随机场模型识别嵌套实体。该方法的识别结果 计的方法分为基于统计量的方法和基于机器学习的方 优于仅使用单层条件随机场模型识别的结果, 不足之 法。基于统计量的方法中, 参数有频率(TF-IDF、词语 处在于没有考虑语义信息, 并且层叠条件随机场模型 在背景语料中的频率等)、似然比、信息熵、互信息等。 识别效率低于单层条件随机场模型。 通讯作者: 何宇, ORICD: 0002-8314-5525, E-mail: solocode@。 *本文系国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:、北京市教委科技发展计划重点项目暨北京市自然 科学基金 B 类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号: KZ201311232037)和北京市科学技术研究院科技创新 工程项目“基于CGE-TIMES 模型的交通对大气环境综合影响评价方法

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档