本体构建与学习小组 - DB-IIR LAB.ppt

下载文档 降价啦

2
0
约 37页
2017-05-27 发布于江西
举报
版权申诉
保障服务

本体构建与学习小组 - DB-IIR LAB.ppt

1、本文档共37页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

本体构建与学习小组 - DB-IIR LAB

本体构建与学习小组 1. 本体进化 BM25是基于概率检索模型，它是按照文档与所给查询相关的概率而对文档进行排序的一个函数所要回答的基本问题是：某个文档与某个查询相关的概率是多少？应用BM25计算每个关键词和所在论文的分类号的相关程度关键词作为候选概念的条件至少与一个分类号的相关程度足够大 1.1 实验（1）内容：将候选关键词按BM25值从大到小排序，考察被手工剔除的词实验结果表明：与第一次进化（采用tf）的方法相比，手工剔除的词中有50%的排名在倒数1/3 排在前面的大部分是和某分类号有相关关系的，即手工剔除有误。 1.1 实验（2）发现第一次进化时不够准确的对应关系例如：导游人员第一次进化：按频率计算，应与F592对应采用BM25：应与F590.63对应 1.2 结果分析绝大多数情况下，计算关键词的BM25公式值能准确反映出它和某分类的相关程度，从而在本体中找到该概念的位置。这种方法相对于以前的进化方法，能更准确的发现新概念及其与本体中已有分类的对应关系，减少通用词等噪音，从而减少专家手工剔除时的工作量。问题：对于一些通用概念，由于某些分类下的论文数很少，导致BM25值计算偏高的现象。 1.3 下一步工作的展望利用已有的本体结构和文献资源，对相同分类下的主题词（术语）进行有监督的聚类，聚集相似术语，发现同义词关系和概念间的父子关系。利用获取到的一些资源，进行文本挖掘和模式匹配的工作，发现其它更多的关系。本体进化主要是语义一致性的检测和维护，开发相关的工具是比较现实的工作。目标：完成相关工作的论文1篇。 3.3 若干尝试性实验产品特征抽取意见抽取极性判断实验（1）对原始评论语料不分词标注，直接尝试进行产品特征词提取。方法（比较）：对语料不做任何处理，直接按词或短语共现率输出大于sup值以上的词；用停用词对语料断句预处理，然后输出词或短语。结果：噪音短语（不一定是真正的词）太多因为缺乏词性标注，无法将特征和意见分开，无法进行后面的处理实验（2）对评论语料进行词性标注预处理。将[Liu 2004]中用的方法适当改进一下，用到我们的中文语料中结果1：实验（2）结果分析： Precision：6/16 ≈ 37% Recall：6/13 ≈ 46% Ranking：合并Frq list 跟 Infrq list的结果，记录其分别在两个list中出现的次数（未出现的次数按对应表中的最小值给出）比较两次出现次数的比值，S2/S1(比值的意义是：由frq表找出的ow一般修饰fw，接着由ow找出的infrq表中若是fw，则其S2应与其S1差不多，故此值越接近1，表示其是fw的概率越大）正在进行的实验工作（3）基于前一次尝试的召回率太低，目前尝试加入信息检索中的idf的方法。另外搜集一些其它产品的评论网页按词频排序的词表计算每个词的idf值原则：词频越高，在其它文档中出现越少，越可能是feature 词频高，在其他文档中出现的也高，则不太可能是feature(如果其它文档也是评论文档，则这一类中的形容词很可能就是opinion word) 3.4 下一步工作的展望根据对系统的设计设想，分模块进行试验，实现一个相对完整的原型系统收集更多的数据集提高系统识别的准确率、召回率目标：完成1-2篇相关工作的论文，开发一个中文产品评论的原型系统。 4. 数据挖掘基础算法研究多关系特征选择（Feature selection) 目的：提高分类算法的准确度提高分类算法的执行效率提出了适合于多关系环境下进行特征选择的方法做了一系列实验，结果基本满意进一步工作：继续改进目标：完成相关论文1篇。 5. 总结完成4-5篇会议或期刊论文 Waim08(Abstracts：Jan 8, 2008, Full paper：Jan 15, 2008, LNCS) ADMA08(Submission: Feb 26, 2008, LNAI) DEXA 2008(Feb 28, 2008. LNCS) EC-Web 2008(Feb 29, 2008. LNCS) PKDD 2008(Paper Sub: April 25th, 2008) 软件学报，计算机研究与发展，清华学报完成2个原型系统 SIGIR 2008(Demo Sub: February 24 , 2008) VLDB 2008(Demonstration Sub: March 14, 2008) 专利申请：？？本体构建与本体学习在本体构建方面，研究了利用WordNet和中国分类主题词表(CCT)构建双语本体的方法。通过将WordNet