- 1、本文档共85页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
条件随机场.ppt
条件随机场conditional random fields IIS算法: 重新定义: 将每个对观察序列和标记序列对(x,y)起作用的特征值的和近似等于对于观察序列x的最大可能的观察特征的和 使用牛顿一拉夫森方法求解 L-BFGS算法: Jorge Nocedal用Fortran语言实现了L-BFGS工具包来进行条件随机场的参数估计与训练,该数学工具包可从 /~nocedal/下载。 另外,Taku Kudo实现了L-BFGS算法的c语言版本,该工具集成在了其开发的CRF++工具包中,网址为 /~taku/software/CRF++/。 Dong C. Liu and Jorge Nocedal : 【On The Limited Memory BFGS Method For Large Scale Optimization】 2、梯度算法 3.模型推断 第二个问题通过Viterbi算法解决。Viterbi算法是一种动态规划算法,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。 二、对于未标记的序列,求其最可能的标记。 常见的两个问题:一、在模型训练中,需要边际分布 和 ; 第一个问题采用前向后向法解决; 最大熵马尔科夫模型举例——基于文本的网络地址信息抽取 任务:完成地址,电话,传真,E-mail 等信息的识别和抽取 流程图 页面预处理 页面文本中加入#用于保留结构信息和页面内容的自然划分,便于对文本页面的进一步处理。 模型建立 确定状态集合Y ,观察值(特征)集合 X 状态集合包含:邮编、电话、电邮、地址、联系人、账号、手机、网址、传真,对于其他可能出现的状态定义了“other”来代表。 特征集合包含:“具有@符号” “最大数字串长度为6” “最大数字串长度为11” “最大数字长度大于15” “最大数字长度小于6,字符串总长度介于8到30” “最大数字长度小于6, 字符串总长度小于6”,…… “最大数字串长度介于6到11” “最大数字长度小于6,字符串总长度大于30” 特征函数 表示数据集X, Y的特性: 如果x只含有6位数字y=邮编 其他 进一步引入一系列的特征函数 参数学习 用上述的状态和特征集对初步抽取样本进行统计,得到每个状态所对应的样本集,通过对于每个这样的样本集合采用 GIS算法进行参数学习,最终得到 MEMM。 说明: GIS算法要求对于每一个x,y,特征之和达到一个常数C,即有 如果不满足,则令 并加入一个修正函数,使得 1.初始 2. (a)计算每个特征的 (b) (c)用当前的 值计算 (d)更新 (e)满足收敛条件,结束;否则转到(b) GIS算法的步骤: 通过GIS算法得到状态转移函数,这些状态转移函数的集合组成了MEMM模型 识别和抽取 (1)输入观察值序列 (2)递归 (3)结束 改进的Viterbi算法 评测指标 召回率(Recall)= 正确识别出的实体个数 标准结果中实体的总数 精确率(Precision)= 正确识别出的实体个数 识别出的实体总数 关键:特征的选择 ╳100% ╳100% 在中文信息处理领域,命名实体识别是各种自然语言处理技术的重要基础。 命名实体:人名、地名、组织名三类 条件随机场模型举例——中文命名实体识别 模型形式 关键:特征函数的确定 适用于人名的特征模板 “上下文”,指的是包括当前词w0及其前后若干个词的一个“观察窗口”(w-n,w-n+1,…w0…,wn)。理论上来说,窗口越大,可利用的上下文信息越多,但窗口开得过大除了会严重降低运行效率,还会产生过拟合现象;而窗口过小,特征利用的就不够充分,会由于过于简单而丢失重要信息。 通过一些模板来筛选特征。模板是对上下文的特定位置和特定信息的考虑。 还建立了若干个资源列表,包括:中国人名姓氏用表、中国人名名字用表、欧美俄人名常用字表、日本人名常用字表。 “人名的指界词”:主要包括称谓词、动词和副词等,句首位置和标点符号也可。 根据指界词与人名同现的概率的大小,将人名的左右指界词各分为两级,生成4个人名指界词列表: 定义了用于人名识别特征的原子模板,每个模板都只考虑了一种因素: 当特征函数取特定值时,特征模板被实例化就可以得到具体的特征。 “当前词的前一个词w-1在人名1级左指界词列表中出现” If PBW1(w-1)=ture and y=person else 类似的,做地名、组织名的特征提取和选择,并将其实例化,得到所有的特征函数。 模型训练流程图 评测指标 正确识别的命名实体首部(尾部)的个数 标准结果中命名实体首部(尾部)的的总数 召回率(Recall)= ╳100% 精确率(Precision)= 正确识别的命名实
您可能关注的文档
- 有机物的水解.ppt
- 有机物练习.doc
- 有机物绪论.ppt
- 有机物苯的教学.ppt
- 有机物起始课烃.ppt
- 有源晶振选型.doc
- 有理系数多项式.ppt
- 有裂缝的水罐.ppt
- 有趣的分形图.ppt
- 有限元上机.doc
- 东南亚小厨电电商行业市场洞察报告(2025年6月版)-TMO探谋.docx
- 合成生物学:2024年专题信息合辑-上海市生物工程学会.pdf
- 2024-2025学年江苏省东南中学高三高考考前精品卷英语试题含解析.doc
- 2024-2025学年吉林省通榆县第一中高考语文试题三模试卷含解析.doc
- 2024-2025学年湖南省浏阳一中、株洲二中重点中学高三下学期第一次统一考试(1月)英语试题含解析.doc
- 2024-2025学年吉林省长春市外国语学校高三第二次联考考语文试题理试题含解析.doc
- 2024-2025学年江苏省大丰市实验初级中学下学期高三英语试题3月考前密卷考试试卷含解析.doc
- 2024-2025学年吉林汪清县第六中学普通高中毕业班高考适应性测试英语试题含解析.doc
- 2024-2025学年江苏省高三毕业班第十七模语文试题含解析.doc
- 2024-2025学年江苏省七校联盟第二学期期末检测试题高三语文试题含解析.doc
最近下载
- 浙江省杭州市八县区2023-2024学年八年级下学期期末考试道德与法治试卷(含答案).pdf VIP
- 串联盘式励磁磁力制热系统及其制热方法.pdf VIP
- 西安交通大学23春“法学”《科技法学》平时作业试题库附答案.docx VIP
- 2025最新消毒技能竞赛个人竞赛试题(+答案).docx VIP
- 2025年班组长综合管理技能竞赛理论考试题库500题(含答案).doc VIP
- 《高性能纳米保温材料》课件.ppt VIP
- 学龄前儿童感觉处理测量量表的汉化及信度与效度研究.PDF VIP
- 跨学科项目式学习背景下,人工智能在小学科学教育中的应用教学研究课题报告.docx
- 霍兰德职业兴趣测试量表及答案对照表.docx VIP
- 浙江省消防技术规范难点问题操作技术指南-2025修订稿(定稿).pdf VIP
文档评论(0)