- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于伪相关反馈模型领域词典生成算法
基于伪相关反馈模型领域词典生成算法
摘要:本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程:假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。
关键词:计算机应用;中文信息处理;有意串;领域词典;大规模语料;伪相关反馈
中图分类号:TP391
文献标识码:A
1 引言
领域词典(Domain Dictionary)是指特定领域特有的术语或表达方式的集合,领域词典的自动生成是通过对特定领域的相关语料进行处理,自动识别出该领域特有术语或表达方式的过程。人工编撰领域词典不仅要做大量的统计工作,而且缺乏实时性;领域词典的自动生成可以弥补人工编撰领域词典的缺点,同时作为中文信处理的基础技术,还可以直接应用到信息检索、舆情分析、语料库建设、索引词优化等领域。领域词典的自动生成问题可形式化描述为:
给定特定领域语料C,通用词典Dcom,自动生成C的术语集合Ddom,使得Ddom的任意元素T都具有特定语义,在C上出现一次或若干次,且不是Dcom的元素。
领域词典的每一个元素称为领域术语。领域术语具有特定的语义,专属于某个特定的领域,一般都采用有意义串挖掘的方式获得候选领域术语。所谓“有意义串”是指那些具有特定语义、能够独立使用的字符串。有意义串具有以下几点特征:
1.具有一定的流通度,在真实语料中较频繁出现;
2.内部结构稳定,具有一定的凝固性;
3.使用环境灵活,能够在多种语言环境中出现。
现在已有不少学者针对某些特定应用领域进行了有意义串识别的研究工作,如将有意义串的识别结果用于检索、分类领域,以提高检索和分类的效率;将有意义串识别应用到频繁关键模式抽取中,以提取文本的分类或聚类特征等。
本文将领域词典的自动生成过程视为一个信息检索过程,采用检索模型中常用的伪相关反馈技术提高领域词典生成的准确率,将检索结果的前若干个加入领域词典中,重新检索,如此迭代,直到生成术语的数量达到预先设定的阈值。在专利数据和BBS标题两个语料上的实验都表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。
2 相关工作
信息检索(Information Retrieval,IR)的过程就是给定一个大规模的文档集合D和用户输入的查询集合Q,针对Q中的每一个查询qi,给D中的每一个文档d,关联一个排序函数值R(qi,dj),R(qi,dj)越大,表示di与qj越相关。在搜索引擎等实际的信息检索应用中,用户提交的查询通常只包含很少的几个关键词,这会引起相关文档与用户查询之间的词不匹配问题(Word Mismatch),给检索性能带来比较严重的负面影响。伪相关反馈是一种常用的查询词扩展方法。它假设初始检索结果的前面若干篇文档是相关的,然后利用标准的相关反馈技术,如Rocchio方法等,对用户提交的查询词进行扩展。多次TREC评测结果表明,伪相关反馈是一种简单但十分有效的查询扩展技术。
领域词典中的每一个领域术语首先是具有特定意义的、可以独立使用的语义单元,因此领域词典是特定领域语料中有意义串的集合,有不少有意义串挖掘的工作应用于领域词典的自动生成。Feng提出邻接类别的概念来描述字符串的使用灵活性。字符串的左邻接类别是指在该串左边出现的字或词的种类数量,同样字符串的右邻接类别是指在该串右边出现的字或词的种类数量,而字符串的邻接类别则定义为其左邻接类别和右邻接类别的较小值。字符串的邻接类别越大,表明其使用越灵活,越有可能独立使用,因而成为有意义串的概率越大。例如令BBS标题语料中包含5个标题如下:
招聘版主
申请版主须知
各位版主请看
请教版主一个启动的问题
请教版主关于还原卡的问题
则字符串“版主”的左邻接集合为{招聘、申请、各位、请教},右邻接集合为{E、须知、请看、一个、关于},其中E是标志句子的结束,因此字符串“版主”在该语料上的左邻接类别为4,右邻接类别为5,邻接类别为4。
邹刚在大规模Web语料上,通过重复串统计得到候选有意义串,再经过一定规则过滤掉部分垃圾串,从而得到最终有意义串。贺敏在邹刚和Feng等人的工作基础上提出一种互联网有意义串发现的解决方案,实现一种互联网新词发现算法。字符串的上下文环境用来表征字符串的使用灵活性,内部构件结构用以表征字符串的凝固性。该方法采用了字符串的邻接类别来表示串的灵活性,使用成词概率来表示串的凝固性,其中成词概率和位置成词概率分别定
文档评论(0)