基于语义产品分类刻面自动抽取.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义产品分类刻面自动抽取

基于语义产品分类刻面自动抽取   [摘要] 科学的产品分类体系是企业信息化成功的基础,可显著提高企业采购管理、陈列管理、销售管理等日常经营活动的效率。我们借鉴信息科学中的刻面分类方法,对产品进行多刻面分类,以表达产品丰富的和不同侧面的信息。我们采用基于语义的刻面划分方法来克服传统刻面分类方法需要人工建立和维护术语空间的缺陷,减少了工作量并增加了分类的客观性。   [关键词] 产品分类 刻面 语义 本体      一、引言      科学的产品分类体系可显著提高企业采购管理、陈列管理、销售管理等日常经营活动的效率,是企业信息化成功的基础。产品的分类指为满足某种需要选择适当的分类标志和特征,将产品系统地划分为不同的类别。我们借鉴信息科学中的刻面分类方法,尝试对产品进行多刻面分类,以表达产品丰富的和不同侧面的信息。传统刻面分类方法的缺???是需要人工建立和维护术语空间,工作量大且含有主观成分。我们采用的基于语义的刻面划分方法有效地克服了这一缺陷。      二、多刻面的产品分类方法      现代刻面分类检索法是 Prieto-Diaz 和 Freeman 在 1987 年提出的,它通过反映对象本质特性的视角(刻面)对对象进行精确的分类。一个刻面分类模式 (Faceted Scheme) 由一组描述对象本质特征的刻面组成,每个刻面从不同的侧面对待分类对象进行分类。每个刻面由一组术语 (Term) 构成,术语间由一般特殊关系和同义词关系而形成结构化结构关系,称为术语空间 (Term Space),在术语空间中游历可以帮助访问者理解特定领域。   构件的描述术语仅限在给定的刻面之中选取,称为对象的描述子 (Descriptor),见定义1。通过用户构造描述子形成的查询条件,可在对象库中检索符合条件的对象。   定义1.对象描述子其中,D为描述子,T为术语。   刻面分类检索方法能否取得较好的检索效果,相当程度上取决于刻面的划分,但目前刻面分类模式的制定还是凭借领域专家的经验或通过开发者反复的测试修改,工作量十分巨大。而且由于专家的知识是语境相关的,功能强大但难免比较片面,不可避免地具有主观性。      三、词汇间语义相似度      词网(WordNet)是一个词汇关系数据库,词网所描述的基本概念被称为词位(Synset),词网是以揭示词位之间关系为基本内容的常识知识库,WordNet 的词位 (Synset) 构成一个树状结构,如图 1 所示。从知识本体的角度来看,词网是一个语言知识本体。如果WordNet中的两个词位中,一个词位是另一个词位的次类,那么就说它们之间存在上下位关系(hyponymy)。例如,car (小汽车) 是 vehicle (交通工具)的下位词,而 vehicle 是 car 的上位词。   图1 语义分类树形图   本文基于WordNet来计算术语间的语义距离,采用的是概念距离计算词汇语义相似度的算法。定义词语距离为0时,其相似度为1;词语距离为无穷大时,其相似度为0;相似度为词语距离的单调递减函数。若将两词语O1和O2的相似度记为Sim(O1,O2),其词语间距离记为Dis(O1,O2),可得以下定义:   定义2.词汇语义相似度   其中l1,l2是O1,O2分别所处的层次,α是相似度为0.5时 ,之间的距离,α是可调参数,一般有α0。   由定义可知,词语的语义距离越大,其相似度越低,如图1 所示,O10与O16的相似度为,而O12与O3的相似度为。因α0,所以。   另外,由定义知词语所处的节点的深度和该深度上节点密度对相似度计算也有影响,同样距离的两个词语间相似度随着他们所处层次总和的增加而增加。假设根节点为“酒”,O1为“葡萄酒”,O2为“白酒”,O10为“红葡萄酒”,O12为“白葡萄酒”。虽然,Dis(O10,O12)和Dis(O1,O2)同为2,但O10和O12间的相似度更大,即。层次总和的增加意味着分类趋向细致,和同样词语距离层次总和较小的词语对比较,其相似程度更高。      四、基于语义聚类的产品刻面划分      我们采用基于语义聚集的刻面划分方法和基于语义的产品检索技术来克服传统刻面分类方法需要人工建立和维护术语空间的缺陷。      1.刻面评价指标   通过借鉴信息领域刻面分类模式的开发经验,并结合商业领域的特点,我们制定了基于刻面产品分类模式应满足的几个一般性原则;①一致性原则;②精简的原则;③刻面正交的原则;④完备性原则;⑤易于理解的原则。依照上述分类原则,结合本文利用语义网络进行刻面抽取方法的技术特点,主要通过下列指标对待选刻面进行评价。   (1)刻面覆盖率:目标集合中共有N个对象,假如该待选刻面能够对其中K

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档