- 3
- 0
- 约6.6千字
- 约 6页
- 2023-08-31 发布于湖北
- 举报
基于最大熵的短语识别模型研究
1 中小型企业设计案例主要是利用三网融合的方式进行查询词
随着计算机网络的广泛普及和各个领域资源的复杂性,人们获得知识和信息的方式也从纸质资源转移到网络渠道。正因为人们的这种需求, 使得搜索引擎服务质量的高低成为当前搜索引擎行业竞争的主要环节。针对搜索引擎日志的统计分析, 可以帮助人们更好地了解用户的行为特征及兴趣喜好, 为搜索引擎服务质量的提高提供可能。当前对搜索引擎日志的分析主要趋于两个方向:一是基础性研究;二是扩展性研究。文章涉及面是第一种方向中的查询词研究。
当前的中文搜索引擎按是否采用词语切分技术, 分为基于字的搜索引擎和基于词的搜索引擎。这两种方法均是利用分词词典将网页分词, 切分后出现的词汇作为索引项建立索引, 这两种方法只是切分的颗粒度不同。据分析用户查询词普遍不长, 一般由2~5个词语组成, 通常情况下, 用户的查询本意是把查询词作为一个整体进行查询。若将这些查询词切分为几个独立的词, 而这些单独的词所表达的信息和原本查询词自身信息可能截然不同。短语具有结构稳定、语义完整和较强的统计意义的特点, 并且短语作为索引项能够提高信息检索的准确率及其响应时间, 所以采用短语形式研究搜索引擎日志查询词, 成为人们分析用户行为的一种高效手法。
短语识别是建立在不需要进行深层次语法分析的前提下, 识别出句子中一些特定的短语。短语边界识别是自然语言应用的预处理步骤之一, 识别结果为进一步分析短语功能类别及其短语结构类别提供基础, 同时可以简化句子结构, 降低句法分析的难度和复杂度, 对信息检索, 信息抽取等自然语言处理具有重要的应用价值。
在人类语言发展里程中, 有一类比较多产的短语——“N+V+N”、“V+N+N”型短语, 其中N代表名词, V代表动词, 这类短语具有语言精炼简洁极具修饰作用而被人们所使用。在搜狗日志语料中该类型短语占有相当数量的比例, 这也充分体现了短语本身所具特点。
2 搜查日志集合
2.1 查询评论员量库
本文所用语料为搜狗实验室网上发布的用户查询日志语料。该语料库包含2006年8月份的Sogou搜索引擎部分网页查询请求以及用户点击情况。用户查询日志中一个完整的记录为:
2.2 查询词词串的长度分布
统计分析2006年8月份的全部搜狗日志用户查询语料, 表2列出了查询词中词语个数处于 (1~18) 的查询串的分布情况, 图1更清晰地显示了查询词词串长度分布, 其中X轴代表查询串包含的词语个数, Y轴代表8月份语料中包含指定词语个数的查询串数。从图表数据可以得出, 大多数查询串的词语数目小于6, 占全部查询串的97.66%。除去词语个数上的特点外, 用户查询词还具有以下特点:
(1) 查询用户, 在检索信息时, 并没有完全依据语法规则进行词语检索。
(2) 用户查询词中包含一些错误词语。
3 确定相关树库
当前对“N+V+N”、“V+N+N”型短语的研究, 主要涉及该类型短语的名词短语研究, 并且进行的研究主要是针对一些中文树库中已经明确标注的短语进行的研究。针对搜索引擎日志语料的现有树库并不存在, 所以确定短语边界是进行研究的第一步。短语边界识别是一种变向的分类问题, 本文用最大熵分类方法实现搜索引擎日志中“N+V+N”、“V+N+N”型短语识别。
3.1 最大熵模型下的相关信息
1996年Adam L.Berger把最大熵方法应用到自然语言处理中。最大熵方法遵循的原则:“对已知建模, 对未知不做任何假设”。对于给定的分类样本, 最大熵模型应该选一个和分类样本保持一致的概率分布, 对于分布在观察值之外的情况, 模型给予均匀的概率分布。满足上述情况的概率分布即为最大熵分布。匈牙利数学家Csiszar曾经证明 (/s/blog_69c975890100kod9.html) , 对任何一组不自相矛盾的信息, 最大熵模型不仅存在, 而且是惟一的。本文进行短语边界识别时, 将训练数据的每个词作为一个事件, 假设有一个样本集合为 (x1ue0a8y1) | (x2ue0a8y2) |ue02a| (xnue0a8yn) , 其中xi (1ue08diue08dn)表示一个将被短语边界识别的词的上下文;yi (1ue08diue08dn)表示该词语被标注的结果。利用最大熵模型计算出特征限制下最优的概率分布, 即概率值p (y|x) 。根据最大熵原理, 概率值p (y|x) 的取值符合简单的指数函数:
其中为一个二值的特征函数, 用于描述某一个特定的事实, λi指示特征fi(xue0a8y) 对于模型的重要程度, Zλ(x) 在x一定的情况下为一个范化常数。以上公式使模型由求概率值转化为求参数值λi。采用Della Pietra (/s/blog_69c975890100kod9.ht
您可能关注的文档
最近下载
- 前列腺等离子电切术护理查房.pptx VIP
- Pyris软件操作介绍.pdf VIP
- 长沙市一中2026届高三月考试卷(四)英语试题(含答案).pdf
- 2025年全国高校辅导员结构化面试题50题(含答案).docx VIP
- 小流域划分规范DB43T 3319-2025.docx VIP
- 行政法与行政诉讼法讲座.ppt VIP
- EPS-3133T1-GCN[V1.00][83A6]变压器保护测控装置使用说明书.pdf VIP
- 房地产开发企业会计科目设置(含明细).pdf VIP
- 《四川省小流域划分技术规程》DB51T 3254-2025.docx VIP
- 高中数学平面向量基础提高练习题含答案【选择填空精选50题难度分类】(最新).doc VIP
原创力文档

文档评论(0)