数理言语-r.dl.itc.u.ppt

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数理言语-r.dl.itc.u

左隅解析法: アルゴリズム search-left(Y, β(=X1...Xk), i,j) if( β is empty ) edges := edges ∪ i, j, Y forall h,i,Xk ∈ Chart search-left(Y, X1...Xk-1, h, j) left-corner-parsing(w1,...,wn) for j = 1 to n Queue := L(wj) ## j-1, j, wjの非終端記号 while(Queue is not empty) i, j, X := shift(Queue) forall (Y→X1 ... Xk X) ∈ P edges := {} search-left(Y, X1...Xk, i, j) Chart := Chart ∪ edges; Queue := Queue ∪ edges チャートにエッジを格納するときにファクタリングをする * フルパージングまとめ 動的計画法(dynamic programming) チャートに部分構文木を残しているため、一度計算された部分構文木は二度計算されない 同じ位置の同じ非終端記号を一つにまとめる(ファクタリング) 同じ計算を2回以上しないようにするため 出力は畳みこまれた構文木集合 (packed forest) AND, ORで表現されるグラフ構造 * DECODING * ビタビアルゴリズム (viterbi algorithm) フルパージングを行うと同時に構文木の確率を計算する手法 各エッジやリンクに部分木の確率値を格納 ファクタリングの際には最大確率のリンクのみ残す c.f. maxの代わりにsumを求めると、全ての構文木の確率の和が求まる 最適解 効率は悪い * ビタビアルゴリズム:基本的なアイデア あるi, jに対し、 を満たすk, Zが存在するなら、 * w1, w2, w3, w4 w1, w2, w3, w4 w1, w2, w3, w4 w1, w2, w3, w4 X Y Z X Y X Y pXpYθZ→XY pXpYθZ→XY pXpYθZ→XY ビタビアルゴリズム Si,j: X, pの集合 X: 非終端記号 p: 部分木の確率 Si,jの求め方 (CKY法の場合) for k = i+1 to j-1 forall X, pX∈ Si,k forall Y, pY∈ Sk,j forall Z ∈ G(X, Y) Si,j := Si,j ∪ Z, pX×pY×θZ→X Y ファクタリング(同じ非終端記号が出現した場合の畳込み)の際には確率の高い方を選ぶ * ビタビアルゴリズム 例 0,1 1,2 2,3 3,4 0,2 1,3 2,4 0,3 1,4 0,4 4,5 5,6 3,5 4,6 2,5 3,6 1,5 2,6 0,5 1,6 0,6 John sees Mary with a telescope 0 1 2 3 4 5 6 NP,0.1 NP, 0.2 NP, 0.2 DT, 1.0 P, 1.0 V, 0.5 VP, 0.008 NP, 0.05 PP, 0.008 NP, 0.00016 VP,0.03 VP, 0.008 S, 0.0008 VP, 0.03 VP, 0.008 をファクタリングする際は VP, 0.03 と確率値の高い方を残す 0.5×0.2×θVP→V NP =0.01×0.8 =0.008 * ビームサーチパージング (beam search parsing) ビタビアルゴリズムで解析する途中で、確率値の低いエッジを除去する 最適解は保障されない 効率は良い * ビームサーチ 2つの刈り方 上位N個のみ残す トップの確率×W以上の確率のみ残す VP,0.03 NP, 0.002 S, 0.001 NP-S, 0.0005 NP-O, 0.0002 DT, 0.000001 WH, 0.... 上位N個のみ残す 0.03×W以上のエッジのみ残す Nや1-Wのことをビーム幅と呼ぶ Si,j sort * ビームサーチ N: 数による閾値 W: 幅による閾値 Si,jの求め方 (CKY法の場合) for k = i+1 to j-1 forall X, pX∈

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档