- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本体构建与学习小组 - DB-IIR LAB
本体构建与学习小组 1. 本体进化 BM25是基于概率检索模型,它是按照文档与所给查询相关的概率而对文档进行排序的一个函数 所要回答的基本问题是:某个文档与某个查询相关的概率是多少? 应用BM25计算每个关键词和所在论文的分类号的相关程度 关键词作为候选概念的条件 至少与一个分类号的相关程度足够大 1.1 实验(1) 内容:将候选关键词按BM25值从大到小排序,考察被手工剔除的词 实验结果表明:与第一次进化(采用tf)的方法相比,手工剔除的词中有50%的排名在倒数1/3 排在前面的大部分是和某分类号有相关关系的,即手工剔除有误。 1.1 实验(2) 发现第一次进化时不够准确的对应关系 例如:导游人员 第一次进化:按频率计算,应与F592对应 采用BM25:应与F590.63对应 1.2 结果分析 绝大多数情况下,计算关键词的BM25公式值能准确反映出它和某分类的相关程度,从而在本体中找到该概念的位置。 这种方法相对于以前的进化方法,能更准确的发现新概念及其与本体中已有分类的对应关系,减少通用词等噪音,从而减少专家手工剔除时的工作量。 问题:对于一些通用概念,由于某些分类下的论文数很少,导致BM25值计算偏高的现象。 1.3 下一步工作的展望 利用已有的本体结构和文献资源,对相同分类下的主题词(术语)进行有监督的聚类,聚集相似术语,发现同义词关系和概念间的父子关系。 利用获取到的一些资源,进行文本挖掘和模式匹配的工作,发现其它更多的关系。 本体进化主要是语义一致性的检测和维护,开发相关的工具是比较现实的工作。 目标:完成相关工作的论文1篇。 3.3 若干尝试性实验 产品特征抽取 意见抽取 极性判断 实验(1) 对原始评论语料不分词标注,直接尝试进行产品特征词提取。 方法(比较): 对语料不做任何处理,直接按词或短语共现率输出大于sup值以上的词; 用停用词对语料断句预处理,然后输出词或短语。 结果: 噪音短语(不一定是真正的词)太多 因为缺乏词性标注,无法将特征和意见分开,无法进行后面的处理 实验(2) 对评论语料进行词性标注预处理。 将[Liu 2004]中用的方法适当改进一下,用到我们的中文语料中 结果1: 实验(2)结果分析: Precision:6/16 ≈ 37% Recall:6/13 ≈ 46% Ranking: 合并Frq list 跟 Infrq list的结果,记录其分别在两个list中出现的次数(未出现的次数按对应表中的最小值给出) 比较两次出现次数的比值,S2/S1(比值的意义是:由frq表找出的ow一般修饰fw,接着由ow找出的infrq表中若是fw,则其S2应与其S1差不多,故此值越接近1,表示其是fw的概率越大) 正在进行的实验工作(3) 基于前一次尝试的召回率太低,目前尝试加入信息检索中的idf的方法。 另外搜集一些其它产品的评论网页 按词频排序的词表 计算每个词的idf值 原则: 词频越高,在其它文档中出现越少,越可能是feature 词频高,在其他文档中出现的也高,则不太可能是feature(如果其它文档也是评论文档,则这一类中的形容词很可能就是opinion word) 3.4 下一步工作的展望 根据对系统的设计设想,分模块进行试验,实现一个相对完整的原型系统 收集更多的数据集 提高系统识别的准确率、召回率 目标:完成1-2篇相关工作的论文,开发一个中文产品评论的原型系统。 4. 数据挖掘基础算法研究 多关系特征选择(Feature selection) 目的: 提高分类算法的准确度 提高分类算法的执行效率 提出了适合于多关系环境下进行特征选择的方法 做了一系列实验,结果基本满意 进一步工作:继续改进 目标:完成相关论文1篇。 5. 总结 完成4-5篇会议或期刊论文 Waim08(Abstracts:Jan 8, 2008, Full paper:Jan 15, 2008, LNCS) ADMA08(Submission: Feb 26, 2008, LNAI) DEXA 2008(Feb 28, 2008. LNCS) EC-Web 2008(Feb 29, 2008. LNCS) PKDD 2008(Paper Sub: April 25th, 2008) 软件学报,计算机研究与发展,清华学报 完成2个原型系统 SIGIR 2008(Demo Sub: February 24 , 2008) VLDB 2008(Demonstration Sub: March 14, 2008) 专利申请:?? 本体构建与本体学习 在本体构建方面,研究了利用WordNet和中国分类主题词表(CCT)构建双语本体的方法。通过将WordNet
您可能关注的文档
- 春酒课件优质课.ppt
- 春风吹课件(PPT 20页).ppt
- 春风吹课件(PPT 24页).ppt
- 時間與生活規劃--普化.ppt
- 晋灵公不君11.ppt
- 晋级领导人的十大认识.ppt
- 晨早通讯美债问题继续僵持,港股周初仍无方.doc
- 晨会资讯报告.doc
- 晨读励志散文.doc
- 普定县定南新城广场.doc
- 英语丨湖南省2025届高三下学期2月一轮复习收官联考英语试卷及答案.pdf
- 八年级数学下册常见几何模型全归纳之模型解读与提分精练(苏科版)专题09 特殊的平行四边形中的图形变换模型之旋转模型(解析版).docx
- 数学丨湖南省2025届高三下学期2月一轮复习收官联考数学试卷及答案.pdf
- 生物丨江苏省扬州市高邮市2025届高三下学期2月开学考试生物试卷及答案.pdf
- 政治丨广西壮族自治区邕衡名校·广西2025届高三春季开学考试政治试卷及答案.pdf
- 真核细胞的细胞器细胞核.ppt
- 程益基:特殊教育国家课程标准解读.ppt
- 综合性实验一质粒DNA的小量制备和电泳鉴定.ppt
- 英语初二上册unit2讲解、对话和练习.ppt
- 眼视光行业的现状及展望.ppt
文档评论(0)