- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ppt-奥村研究室
文書横断文間関係の特定 奥村研究室 宮部 泰成 目次 研究背景 文書横断文間関係 研究の目的 「同等」、「推移」という2つの関係に着目 機械学習を用いて、文書横断文間関係の「同等」「推移」の特定を目的 目次 機械学習に基づく「同等」の特定 2文が与えられたとき、「同等」か否かを特定する2値分類問題 「同等」の特定規則の獲得は人手でなく機械学習を使用 学習器:Support Vector Machine 「同等」の特定における問題点(1/2) 「同等」の特定における問題点(2/2) 「同等」特定の問題点の解決策(1/2) クラスタ例 「同等」特定の問題点の解決策(2/2) 本研究のモデル 「同等」の特定で使用する素性 基本素性(14種類) unigram類似度,bigram類似度,trigram類似度, 固有表現類似度,意味類似度 新聞記事の掲載日の差,文の位置,固有表現が係る一致した格助詞,etc fineクラスの特定で使用する素性(19種類) 基本素性 主題の一致 主動詞の一致,etc 目次 「同等」特定の実験環境 コーパスとデータ テキスト自動要約タスク2,3、動向情報の抽出と可視化のワークショップ 文書横断文間関係が付与してある 1文対1文で関係が付与されたデータのみ扱う 471586 個の文ペアから798 個の「同等」を特定 評価尺度 精度、再現率、F値 10分割交差検定で評価 目次 クラスタ分けの閾値の推定 閾値を推定するデータと評価 訓練データの10分割交差検定 閾値 「upクラスタ」と「midクラスタ」の閾値 「midクラスタ」と「downクラスタ」の閾値 「upクラスタ」と「midクラスタ」の閾値の推定(1/2) 2つのクラスタの違い 自立語(名詞、動詞、形容詞)+機能語(助詞、格助詞)の連接レベルで似ているかどうか 素性を省くことによって、精度と再現率が良くなった例 「midクラスタ」と「downクラスタ」の閾値の推定(1/2) コサイン類似度の値が減っていくにつれて 「同等」の数は減っていく 「同等」以外の関係の数が非常に多くなっていく 「midクラスタ」と「downクラスタ」の閾値の推定(2/2) 目次 各モデルの説明 ベースライン コサイン類似度0.84以上を同等とみなす div 推定した閾値でクラスタに分けて特定 Notdiv クラスタに分けない単純な学習モデル 旧Mixモデル(宮部[05]) 0.5と0.7でクラスタに分けて、coarse-to-fine特定法を組み合わせたモデル 新Mixモデル 本モデル,推定した閾値でクラスタに分けて、coarse-to-fine特定法を組み合わせたモデル 「同等」特定の実験結果 目次 「推移」特定において着目する点 「推移」 2文間で数値が変化している関係 下記の例の場合「推移」関係ではない S1:4月の女性の完全失業率は逆に0?3ポイント改善し、4?5%となった。 S2:完全失業率は3、4月に連続して4?8%を記録した。 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 「数値を値として持つ名詞句」の抽出 6月末の 携帯電話の 加入台数は 3407万7000台と なった。 「推移」特定で使用する素性(20種類) 素性 「数値を値として持つ名詞句」の名詞のunigram,bigram,trigram類似度 2文で数値が変化したかどうか 2文に相対表現(難波ら[05])があるかどうか,etc (例)前年より10%増加 前日比210円安 「同等」特定結果の利用 「同等」関係である2文は、ほとんどの場合で「数値を値として持つ名詞句」は似ている S1:子羊の体重は二?七キロ。 S2:子羊の体重は2.7キログラム。 実際は「同等」であるのに,誤って「推移」と特定することが生じる可能性がある 目次 各モデルの説明(1/2) ベースライン 数値を値として持つ名詞句の類似度0.7以上 数値が変化していて、2文に相対表現がある場合 562個の推移を特定 難波らの手法(難波ら[05]) 2文のコサイン類似度0.42以上 2つの文の単位が等しく、2文に相対表現がある場合 各モデルの説明(2/2) NotUseEqResult 「同等」結果を利用しないで特定したモデル UseEqResult 「同等」結果を利用して特定した本研究のモデル UseMan 人手で付与された「同等」結果を利用して特定したモデル 「推移」特定の実験
文档评论(0)