- 8
- 0
- 约7.52千字
- 约 13页
- 2018-08-17 发布于湖北
- 举报
基于专利发明人人名消歧的研发团队识别研究
摘要:[目的/意义]技术研发的核心是人才。研发团队是各领域技术发展的重点关注对象,也是机构研发实力的重要体现。[方法/过程]以德温特创新索引(DII)专利文献为分析对象,明确发明人人名消歧规则,利用发明人共现聚类确定主要研发团队,然后以3D打印的数字光处理相关专利来进行人名消歧后研发团队识别的实证分析。[结果/结论]证明专利发明人人名消歧有利于发明人专利数量的准确分析。
关键词:专利 发明人 研发团队识别 人名消歧
分类号:G353.1 G306
技术研发的核心是人才,信息环境下信息量的爆炸式增长使得技术研发更加离不开研究团队的通力协作,在人才引进等具体政策制定上除了关注首席专家,更应关注在研发团队中起到核心作用的关键人才。研发团队识别作为专利分析的重要内容之一,有利于甄别核心团队成员,发现非首席的关键人才,能为政策制定和关键研发人员识别提供更好的支持。但是研发人员姓名具有很强的歧义性,存在同名多指及同人不同写法的歧义问题,因此研发团队识别研究最首要的问题就是进行人名消歧,此时人名消歧的核心目标为保障准确率。
1 人名消歧研究进展
人名消歧主要是对姓名表述相同或相近的两个姓名是否指向同一人作出判断。A. Bagga等[1]于1998年就开始把跨文本人名消歧作为一种人名共指问题进行探索。2007年、2009年和2010年WePS评测研讨会进行了针对网络人名消歧的评测。在国内,CIPS-SIGHAN-2012会议[2]对中文人名识别与消歧的研究也越来越多。
基于网页等资源进行人名相关的实体特征抽取、聚类,以进行人名消歧的相关研究较多,同时社会网络、阈值或概率确定原则等也都是人名消歧研究中探索使用的方法。如G. Mann等[3]在2003年通过定制模板来提取网页个人传记特征来构造特征向量的方法对人名进行“消歧”。M. B. Fleischman等[4]在2004年抽取名字特征、网页特征、重叠特征、语义特征等,使用最大熵模型来计算两个名字指向同一实体的概率。B. Malin[5]于2005年提出基于社会网络来进行人名消歧。K. Balog等[6]于2007年通过训练好的语言模型计算网页中人名指向某个实体的概率,再确定阈值以实现人名消歧。Y. Chen等[7]在2007年通过抽取基于名词短语的特征和命名实体的特征,再使用层次凝聚聚类方法进行聚类。S. Ono等[8]在2008年基于命名实体共指、关键词以及主题信息的混合特征来对文档进行聚类。L. Romano等[9]于2009年提出XMedia系统采用质量阈值聚类算法。章顺瑞等[10]于2010年采用层次聚类算法对中文人名进行消歧。陈晨等[11]在2011年利用不同社会网络边权值和不同图划分准则对人名消歧效果的影响进行了中文人名消歧的研究。
随着人名消歧研究的不断深入,为提高准确性,针对特定数据源的人名消歧、多种方法结合的分步式研究开始增多。2012年,杨欣欣等[12]利用网络资源用搜索引擎四类查询规则扩展特征文档,利用二层聚类算法[13]来进行人名消歧。2013年李广一等[14]根据特征类型来设置权值,进行多次聚类。2014年S. Christian等[15]利用数据库文献间的引用构建社会网络图来实现特定数据源的人名消歧。2015年,阳怡林等[16]通过上下文特征、实体特征、社会关系特征,利用3种不同的聚类算法得到不同的聚类划分,再最终集成来提高人名消歧的准确性。D. H. Han等[17]采用极限学习机提出了针对每一个姓名及姓名集合的两种聚类算法来进行人名消歧。M. Song等[18]针对PubMed数据库构建了专门的训练集,并提出新的出版特征集合以提高准确性。
整体来看,当前研究的主要对象以网络资源或论文著者为主,具体方法上以通过改进算法获取更多人名相关特征,或采用多次/多层聚类的方法来进行比对判断为主。这些方法均存在一定程度的人名消歧误差,且这部分误差为算法直接判定得出的结果,分析人员并不确定误差可能涉及的人名范围,因此存在一定的“黑箱”问题。
当前针对专利文献的具体特征进行发明人人名消歧的相关研究较少。而专利发明人的著录方式在不同数据库中有所不同,基本都同时涉及中国人名及外国人名的消歧问题。另外,作为政策支撑的专利发明人人名消歧工作需要在确保准确的核心目标下提高效率。因此基于专利文献的人名消歧需要在明确专利数据库发明人姓名结构特征的基础上进行具体探索,以提升准确性,并减少“黑箱子”问题带来的误差不确定性。
2 专利发明人人名消歧
德温特创新索引(DII)是经过人工智力加工后的专利数据,具有可以批量获取、自然语言检索及不同来源专利数据统一再分类的优势,是专利分析的常
您可能关注的文档
- 福建省闽侯第二中学、连江华侨中学等五校教学联合体2017-2018学年高一下学期期中考试政治试题word版含答案.docx
- 基于“计算思维”能力培养的教学改革探索与实践.doc
- 福建省闽侯第二中学等五校教学联合体2017-2018学年高二下学期期中考试英语试题word版含答案.docx
- 基于“技能大师工作室”的精英工匠培养模式研究.doc
- 基于“进化教育论”的高职学生文化素质提高途径研究.doc
- 基于“间隙―接受”的环岛十字交叉口优化模型研究.doc
- 基于“课堂、网络、实践三位一体”的“汽车理论”教学模式研究.doc
- 基于“雷达图原理”的职业院校人才培养质量第三方评价体系研究.doc
- 基于“课证融通”的高职口语教学考核评价体系探究.doc
- 基于“目标―评价―教学”一致性的《温度》教学设计.doc
原创力文档

文档评论(0)