面向电子商务关键信息抽取方法.docVIP

下载本文档

4
0
约3.21千字
约 9页
2018-06-16 发布于福建
举报
版权申诉

面向电子商务关键信息抽取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向电子商务关键信息抽取方法

面向电子商务关键信息抽取方法　　[摘要]本文以知网知识库为基础，运用语义分析方法，通过语义的相似度计算实现在电子文档中抽取到有用的关键句和关键信息。　　[关键词]电子商务语义关键信息抽取　　一、前言　　近年，我国电子商务投资规模和发展处于快速增长和爆发时期，电子商务已经成为企业和个人商务活动中不可或缺的组成部分。面对海量的商品信息，消费者如何从这些电子文档中快速有效的找到有用的信息，成为信息检索领域的重要研究方向。信息抽取是一个有效的解决方法，是具有较高实用价值的关键技术。从已有研究看，运用语义方法做信息抽取还相对较少，而信息抽取不可能完全摆脱自然语言模型的影响，语义关系仍然是实现信息抽取的基础，比较其他信息抽取技术，能够提高查全率和查准率，并降低复杂度。本文将通过语义分析方法，对电子商务网站的自由文本做相应处理和语义相似度计算，实现关键信息抽取。　　二、相似度计算　　大部分基于语义做自然语言处理的研究，都是以知网为基础。知网是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。在知网中，词汇语义的描述被定义为义项（概念），每一个词可以表达为几个义项，义项又是由一种知识表示语言来描述的，这种知识表示语言所用的词汇称作义原。其语义树并不涵盖所有词语，而将描述词汇语义的义原用树状结构组织起来，义原根据义原之间的属性关系分为多棵义原树，树与树之间存在一定的关系，形成网状知识结构。其义原数量很少，但组合起来可以表达数以万计词语。所以将词语相似度计算转换为义原相似度计算可以提高计算效率，有利于知识库的扩展。　　1.词语相似度计算　　根据知网的义项描述和义原结构，算法可做如下表达，设定两个词语■有n个义项表示■，…，■，■有m个义项表示，■…，■，本计算中默认所有义项的相似度最大值为词语之间相似度，具体表达式为：　　■ （1）　　其中■为■和■的相似度，■为■和■的相似度。这样就通过计算义项的相似度值得到义项所对应的词语之间的相似度，最后由计算义原相似度来实现。这样就将相似度计算由词语转换为义项最终转换为基本单位义原。通过计算语义距离及义原之间相对位置关系得到义原相似度。知网结构中，语义距离是影响义原相似度的基本因素，于是得到经验公式通过语义距离计算义原之间相似度：　　■（2）　　其中p为义原；d为义原层次结构中路径长度；为可调节参数。　　分析发现，义原的相对位置也是义原之间相对关系的很大影响因素，对（2）式做出改进，加入义原相对位置的影响因素h（义原在义原树中的深度）：　　■（3）　　具体处理文本时总结发现，实词在文本中表达本质含义，而虚词主要作为词语之间的连接等。所以，为提高效率，本文在计算相似度时只计算实词部分。　　依据知网结构，将实词相似度计算用下面的计算完成。　　（1）第一独立义原计算：对两个义项计算第一独立义原相似度可由式（3）的计算方法算出，这里记第一独立义原为：■。　　（2）其他独立义原计算：相似度记作■，计算表达式如下：　　■（4）　　（3）关系义原计算：两个义项的相似度记为■，计算表达式如下：　　■（5）　　（4）符号义原计算：相似度记作■，基于在义原结构中表示形式相同的原因，符号义原计算与关系义原计算相近，如下式：　　■（6）　　于是，两个义项语义表达式的整体相似度记为　　■（7）　　鉴于知网结构和描述，第一独立义原之外的其他义原相似度是相对独立的，对公式进行改进：　　■（8）　　至此可计算出两个实词的相似度。　　2.句子相似度计算　　这里计算句子相似度计算时只计算实词，包括动词（Verb）、名词（Noun）、代词（Pron）、副词（Adv）、形容词（Adj）、数词（Num）、量词（Quan）等。即，一个句子可根据上述分类得到如下集合：{Verb，Noun，Pron，Adv，Adj，Num，Quan} 　　设句子Sen经过分词之后包含m 个词：　　■（9）　　再根据实词分类，得到分类集合：　　■（10）　　根据各个实词在句子中所做的成分及作用分析，句子之间相同词性的词汇之间相似度可以衡量句子之间的相似度，这里设两个句子的实词分类集合分别为：　　■。　　设动词集合V的两个集合为：　　■（11）　　■（12）　　设句子■和■的相似度矩阵为■，　　■（13）　　其中■为两词相似度。　　两句子动词集合的相似度：　　■（14）　　根据这种方法，即可得到其他分类集合的相似度。那么全句的相似度如下表示（为权系数）：　　■（15）　　三、关键句抽取算法　　对于目前我们所遇到的绝大多数电子商务网页中的电子文本都具有一定的模式，它的特点是基本符合对商品描述的