- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题模型的专利竞争情报分析以通信产业LTE技术领域为例.docx
基于主题模型的专利竞争情报分析——以通信产业LTE技术领域为例王博,刘盛博,丁垫,刘则渊(大连理工大学人文社会科学学院暨WISE实验室,辽宁大连116024)摘要本文提出一种基于主题模型的专利分析方法。通过对专利文献中名词短语的抽取及主题模型分析,深入专利文本内部实现专利文献内容的计量研究。进而揭示出某领域的专利技术研究热点及子领域研究方 向,挖掘专利知识间的结构和内在关系。将机构一一主题概率层次加入主题模型中,实现主题模型改进。可以清楚的辨识出各个热点主题中的主要竞争企业。并以通信产业4G核心技术领域LTE专利为案例,进行了实证研究。关键词名词短语抽取:主题模型(LDA):专利内容分析;通信技术;LTE;1.引言专利是科学研究成果的一种表现形式,也是科技创新的源泉。专利文献作为专利知识 传播的载体是一种重要的科技、商业、经济及法律信息资源。据世界知识产权组织统计,世界上90%--95%的发明只能在专利文献中查到,通过对专利文献数据的分析,可以弥补产业研发信息赤字,揭示技术的研究现状及研究热点,识别出核心技术及关键技术,分析出技术研究力量的布局,进而获取重要的战略性信息和创新性信息。近年来基于Web的专利数据库层出不穷,专利情报分析被越来越多的应用到技术监测 和研发战略规划中,研究人员通过统计或计量的方法对这些专利数据库进行竞争情报分析。Ernst最早提出了将专利信息用于技术战略管理的研究框架,对数控机床产业CNC核心技术进行了技术预测心1;Park旧’通过专利情报分析绘制专利网络地图,识别技术的发展趋势同时进行新技术监测:IgamiH1通过专利引用分析,绘制出纳米技术领域的专利图谱,进而探索出纳米技术领域的演化历程等。但是深入专利文本内部的研究还不多见。本文的研究基于英国德温特公司与ISI公司合作开发的基于ISI统一检索平台的 DerwentInnovationIndex(DII)专利数据库。美国情报研究所提供的德温特分析家软件可以对德温特专利信息进行挖掘,获得合作信息、引用信息等,这些信息基本可以满足 对专利的宏观分析。但是一个企业想要更详细的了解自己领域内的前沿技术及当前热点技 术时,专利分类号只提供了宏观的专利研究方向,而在此研究方向上具体有哪些前沿技术 和关键技术还无法获得,因此必须进一步深入专利文本内部对专利内容信息进行挖掘,才 能更加准确的满足企业及情报工作人员要求。同时,信息爆炸也使得专业领域被细分为越来越窄的子领域,跨专业知识的缺失和不足导致知识过于分散瞄1。一个技术领域里的专家可能无法意识到另一领域里面的有价值的信息。从明确引用关系角度来看,两个领域内的 专利文献间可能是相互独立的,但从文本内容层次来看,他们之间可能存在一些隐式的和 潜在的关系。因而深入专利文本的研究就显得尤为必要了,尤其是对非交互专利文献(从来没有显著的共同引用关系)间缺失的链接的识别更为关键。近年来,文本挖掘技术已经被广泛用于文献计量学研究晦喝1,主题模型作为文本挖掘技 术的一种,可以用来识别大规模文档集或语料库中潜藏的主题信息。主题模型方法在很多领域中都有应用姻1“。后来,人们根据不同的研究需求,对LDA模型进行很多改进研究,71例如作者一主题模型¨“、动态主题模型“、HDP模型“钔等。这些模型根据是否需要监督和分层可以划分为4类。所谓监督指的是训练数据集中的数据是否被标注或分类。而分层指的是生成的主题模型是否具有层次结构。第一类主题模型是没有监督且没有分层的主题模型,例如LDA主题模型。第二轮是有分层结构,但没有监督的主题模型,例如HDP主题模 型。第三类是有监督,但没有分层结构的主题模型,例如LLDA(1abeledLDA)模型H引。第四类是有监督且有分层结构的主题模型,例如HSLDA模型u。本文主要讨论企业间的竞争关系,因此在传统LDA模型基础上,加入一层机构一一主题分析,期望可以更好的揭示出各个主题中企业的竞争关系。·专利文献与期刊论文文献相比一方面缺少关键词信息,另一方面摘要信息过长,深入 专利文本内部的分析相对困难,本文通过名词短语抽取将一篇专利文档转换成由多个技术词所构成的向量,进而采用主题模型对其进行分析。LDA模型用于发现离散数据中隐含的主题结构,它假设文档生成过程中由不同主题组成。将每个专利文档转换为技术词表达时, 它们形成了一个离散数据集合,因而可以采用主题模型实现专利数据的专利内容分析。2.数据处理方法2.1专利中的名词短语抽取根据语言学句子构成可知,一个句子中的主要信息均来源于句子中的名词及名词短语, 而通常专利文献题目和摘要涵盖了专利的大部分信息,因此对专利文献内容分析的重点应为文献题目和摘要中名词短语的抽取,目前计算机信息检索领域对名词短语抽取研究较多,名词短语识别也是计算机自然语言处理研究中的一顼重要任
您可能关注的文档
最近下载
- 19个护理专科质量指标.pptx VIP
- 土壤导则出台背景与关键要点解析(HJ 964-2018)环保部环评中心主讲.pdf VIP
- 大学生心理健康教育:战胜压力、应对挫折——大学生挫折心理调适PPT教学课件.pptx VIP
- 六年级数学下教学计划六年级数学下教学计划.doc VIP
- 高中生物教师评职称个人专业技术工作小结.docx VIP
- 2024秋新部编版一年级语文上册全册教案.docx VIP
- 2025年国家开放大学(电大)-金融学(本科)考试近5年真题集锦(频考类试题)带答案.docx
- 人工智能辅助下的高中地理个性化学习路径构建与效果评价教学研究课题报告.docx
- 跨文化传播学导论教学课件(完整版).ppt
- 培训德高强效瓷砖背胶上市说明.pdf VIP
文档评论(0)