网站大量收购独家精品文档,联系QQ:2885784924

本体构建与学习小组 - DB-IIR LAB.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本体构建与学习小组 - DB-IIR LAB

本体构建与学习小组 1. 本体进化 BM25是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数 所要回答的基本问题是:某个文档与某个查询相关的概率是多少? 应用BM25计算每个关键词和所在论文的分类号的相关程度 关键词作为候选概念的条件 至少与一个分类号的相关程度足够大 1.1 实验(1) 内容:将候选关键词按BM25值从大到小排序,考察被手工剔除的词 实验结果表明:与第一次进化(采用tf)的方法相比,手工剔除的词中有50%的排名在倒数1/3 排在前面的大部分是和某分类号有相关关系的,即手工剔除有误。 1.1 实验(2) 发现第一次进化时不够准确的对应关系 例如:导游人员 第一次进化:按频率计算,应与F592对应 采用BM25:应与F590.63对应 1.2 结果分析 绝大多数情况下,计算关键词的BM25公式值能准确反映出它和某分类的相关程度,从而在本体中找到该概念的位置。 这种方法相对于以前的进化方法,能更准确的发现新概念及其与本体中已有分类的对应关系,减少通用词等噪音,从而减少专家手工剔除时的工作量。 问题:对于一些通用概念,由于某些分类下的论文数很少,导致BM25值计算偏高的现象。 1.3 下一步工作的展望 利用已有的本体结构和文献资源,对相同分类下的主题词(术语)进行有监督的聚类,聚集相似术语,发现同义词关系和概念间的父子关系。 利用获取到的一些资源,进行文本挖掘和模式匹配的工作,发现其它更多的关系。 本体进化主要是语义一致性的检测和维护,开发相关的工具是比较现实的工作。 目标:完成相关工作的论文1篇。 3.3 若干尝试性实验 产品特征抽取 意见抽取 极性判断 实验(1) 对原始评论语料不分词标注,直接尝试进行产品特征词提取。 方法(比较): 对语料不做任何处理,直接按词或短语共现率输出大于sup值以上的词; 用停用词对语料断句预处理,然后输出词或短语。 结果: 噪音短语(不一定是真正的词)太多 因为缺乏词性标注,无法将特征和意见分开,无法进行后面的处理 实验(2) 对评论语料进行词性标注预处理。 将[Liu 2004]中用的方法适当改进一下,用到我们的中文语料中 结果1: 实验(2)结果分析: Precision:6/16 ≈ 37% Recall:6/13 ≈ 46% Ranking: 合并Frq list 跟 Infrq list的结果,记录其分别在两个list中出现的次数(未出现的次数按对应表中的最小值给出) 比较两次出现次数的比值,S2/S1(比值的意义是:由frq表找出的ow一般修饰fw,接着由ow找出的infrq表中若是fw,则其S2应与其S1差不多,故此值越接近1,表示其是fw的概率越大) 正在进行的实验工作(3) 基于前一次尝试的召回率太低,目前尝试加入信息检索中的idf的方法。 另外搜集一些其它产品的评论网页 按词频排序的词表 计算每个词的idf值 原则: 词频越高,在其它文档中出现越少,越可能是feature 词频高,在其他文档中出现的也高,则不太可能是feature(如果其它文档也是评论文档,则这一类中的形容词很可能就是opinion word) 3.4 下一步工作的展望 根据对系统的设计设想,分模块进行试验,实现一个相对完整的原型系统 收集更多的数据集 提高系统识别的准确率、召回率 目标:完成1-2篇相关工作的论文,开发一个中文产品评论的原型系统。 4. 数据挖掘基础算法研究 多关系特征选择(Feature selection) 目的: 提高分类算法的准确度 提高分类算法的执行效率 提出了适合于多关系环境下进行特征选择的方法 做了一系列实验,结果基本满意 进一步工作:继续改进 目标:完成相关论文1篇。 5. 总结 完成4-5篇会议或期刊论文 Waim08(Abstracts:Jan 8, 2008, Full paper:Jan 15, 2008, LNCS) ADMA08(Submission: Feb 26, 2008, LNAI) DEXA 2008(Feb 28, 2008. LNCS) EC-Web 2008(Feb 29, 2008. LNCS) PKDD 2008(Paper Sub: April 25th, 2008) 软件学报,计算机研究与发展,清华学报 完成2个原型系统 SIGIR 2008(Demo Sub: February 24 , 2008) VLDB 2008(Demonstration Sub: March 14, 2008) 专利申请:?? 本体构建与本体学习 在本体构建方面,研究了利用WordNet和中国分类主题词表(CCT)构建双语本体的方法。通过将WordNet

文档评论(0)

zhuliyan1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档