基于统计和知识产品部件信息抽取.docVIP

下载本文档

3
0
约2.46千字
约 5页
2018-10-27 发布于福建
举报
版权申诉

基于统计和知识产品部件信息抽取.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于统计和知识产品部件信息抽取

基于统计和知识产品部件信息抽取　　摘要：随着社会产品的多样变化和大数据时代的发展需求，产品信息抽取有着重要的研究意义。针对抽取过程中过多的人工参与和抽取准确度不高的情况，提出一种基于统计和知识相结合的产品部件信息自动抽取方法。为确保抽取的相关性，采用词频剪枝过滤干扰词，使用双向长短期记忆模型将词进行分布式表示并计算语义相关度；为确保抽取的完整性，引入知网知识库，根据?~语首义原的分类来验证抽取结果是否为部件类概念词。实验在120万篇产品专利摘要上进行词向量训练，分别对运输交通设备、通讯电子设备、仪器仪表和机械器材四类产品进行测试，证明了模型的可行性和算法的有效性。　　关键词：信息抽取双向长短期记忆模型分布式表示知网　　中图分类号：V263 文献标识码：A 文章编号：1003-9082（2018）04-00-03 　　引言　　我们随着科学技术的蓬勃发展、新产品的不断涌现，使得描述产品部件信息的词汇集合处于不断扩大并更新的状态，因此以往靠人工收集产品部件信息的方式显然已经满足不了人们的需求，利用计算机自动抽取这些信息已成为必然。信息抽取[1]是对文本中包含的信息进行结构化处理，再对其进行存储的过程，在这个信息爆炸的时代，信息抽取能够帮助我们完成对信息的快速整理和分析，提高工作效率。　　产品部件信息抽取，是信息抽取的一种形式，其是将不同文本对于某一产品的部件信息集中起来，能从不同的角度反映产品的相关组成信息，对产品的部件进行抽取有助于全面地了解这些产品。例如，有关介绍电脑的文本中提到“一种用于电视游戏机的电脑控制器，是利用电脑主机的插头嵌设在游戏机的主体上的插槽中”，在描述中可知，“控制器”和“主机”是电脑的组成部件，如何在文本中，准确高效的获取到产品的组成部件信息，就是本文的主要解决的问题。　　一、相关研究　　目前产品部件信息抽取的方法主要分为三种：基于语言规则的方法[2]、基于统计的方法，以及规则和统计相结合的方法。基于语言规则方法具有明显的缺陷，即难以用少量规则覆盖复杂的存在规律，以及当规则数达到一定数量时产生的相互冲突问题。基于统计的方法主要的统计策略有互信息[3，4]、词频、连续指数、左右熵[5]、log-likehood、TF-IDF等。这些统计策略各有优缺点和适用对象，没有一个方法能独立使用即可抽取出各种类型的信息并达到良好的效果，因此融合多统计特征的统计模型是目前比较主流的统计方法。而基于规则和统计相结合的方法则[6-10]可以取长补短，是目前广泛采用的方法。结合的方式通常有两种，即先规则后统计和先统计后规则，采用何种方式需要根据具体应用和算法效果而决定。　　本文提出了一种基于统计和知识相结合的抽取方法，为了可以全面准确的获取产品部件信息，本文在众多的信息源中，选择专利文献为抽取对象，为获取与产品相关的候选词，采用基于统计的方法，利用词频剪枝和双向长短记忆模型计算语义相关度；为从相关候选词中准确获取产品部件概念词，采用基于知识的方法，引入知网知识库，根据对词语首义原的分析进一步验证抽取结果，两种方法相结合，为产品部件信息的抽取提供一个新的思路。　　二、基于统计和知识的产品信息抽取方法　　本文实现一种基于统计和知识相结合的产品部件信息抽取方法，本文第一步是对产品专利摘要进行分词，词性标注和去停用词的预处理；第二步是过滤非名词词性和词长为1的干扰词；第三步是通过词频剪枝，保留词频较高的候选词；第四步是利用双向长短记忆模型方法将词表示成向量形式，计算产品与候选词的余弦值，过滤相关度较低的干扰词；第五步是引入知网知识库，通过验证候选词在知网中首义原的定义，来判断其是否为产品部件概念词，本文方法框架如图1所示。　　1.基于统计的方法　　1.1 词频剪枝　　词频剪枝是一种词汇分析研究方法，通过对一定长度文本的词频进行统计、分析，进而描绘出词汇规律。词频从一定程度上可以描述词汇的重要程度，在抽取产品部件概念词过程中，依照词频的排序去除干扰词是很基础但是效果很好的一种方法。词频计算公式如下2-1所示，本文设定了一个词频阈值，高于阈值的候选词，表示是该产品专利的重要词；低于阈值的候选词，表示是该产品专利的非重要词，通过词频剪枝，过滤掉非重要的干扰词。　　其中：di是计算词频的目标词；count（di）：是统计目标词di的出现频数；dict：是候选专利中所有词汇的字典；P（di）：则是最终得到目标词的概率。　　1.2 双向长短记忆模型实现Word Embedding 　　本文使用深层神经网络中双向长短记忆模型[12]（Bi-LSTM）实现Word Embedding的训练， Bi-LSTM是一个多层的神经网络，采用随机初始权重，每次训练只得到一个局部最优解，直接