语义分析报告地一些方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文档 语义分析的一些方法 ( 上篇 ) 人工智能 林 17 小时前 70℃ 0 评论 作者: 火光摇曳 语义分析的一些方法(上篇) 语义分析的一些方法(中篇) 语义分析的一些方法(下篇) 语义分析, 本文指运用各种机器学习方法, 挖掘与学习文本、 图片等的深层次概 念。wikipedia 上的解释: In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images) 。 工作这几年,陆陆续续实践过一些项目,有搜索广告,社交广告,微博广告,品 牌广告,内容广告等。要使我们广告平台效益最大化,首先需要理解用户, Context( 将展示广告的上下文 ) 和广告,才能将最合适的广告展示给用户。而这 其中,就离不开对用户, 对上下文,对广告的语义分析, 由此催生了一些子项目, 例如文本语义分析,图片语义理解,语义索引,短串语义关联,用户广告语义匹 配等。 接下来我将写一写我所认识的语义分析的一些方法, 虽说我们在做的时候, 效果 导向居多, 方法理论理解也许并不深入, 不过权当个人知识点总结, 有任何不当 之处请指正,谢谢。 本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语 义分析小结。 先讲述文本处理的基本方法, 这构成了语义分析的基础。 接着分文 本和图片两节讲述各自语义分析的一些方法, 值得注意的是, 虽说分为两节, 但 文本和图片在语义分析方法上有很多共通与关联。 最后我们简单介绍下语义分析 在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。 1 文本基本处理 在讲文本语义分析之前, 我们先说下文本基本处理, 因为它构成了语义分析的基 础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及 Term Weighting 。 1.1 中文分词 拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种: 基于字符串匹配的分词方法。 此方法按照不同的扫描方式, 逐个查找词库 进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最 大匹配,最小切分 ( 即最短路径 ) ;总之就是各种不同的启发规则。 文案大全 实用标准文档 全切分方法。 它首先切分出与词库匹配的所有可能的词, 再运用统计语言 模型决定最优的切分结果。 它的优点在于可以解决分词中的歧义问题。 下图 是一个示例,对于文本串“南京市长江大桥”,首先进行词条检索 ( 一般用 Trie 存储 ) ,找到匹配的所有词条(南京,市,长江,大桥,南京市,长江 大桥,市长,江大桥,江大,桥),以词网格 (word lattices) 形式表示, 接着做路径搜索,基于统计语言模型 ( 例如 n-gram)[18] 找到最优路径,最 后可能还需要命名实体识别。 下图中“南京市 长江 大桥”的语言模型得分, 即 P(南京市,长江,大桥 ) 最高,则为最优切分。

文档评论(0)

fkh4608 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档