- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PPT(slide)-ChaSen.org.ppt
言語情報を利用したテキストマイニング 奈良先端科学技術大学院大学 情報科学研究科 工藤 拓 山本 薫 坪井 裕太 松本 裕治 データマイニング 膨大なデータから有益,興味のある,思いがけないデータを明示的な知識として発見 膨大なデータから頻出する部分パターンの発見 膨大なデータに対してスケーラブルである必要性 バスケット分析 顧客の購買分析 (ソーセージを買う人はロールパンを買いやすい) テキストマイニング(1/2) 文書分類,クラスタリング,単語共起の抽出 これまでのテキストマイニングの多くは… テキストマイニング(2/2) 松澤00 企業のコールセンターにおけるテキストを対象 単語間の係り受け関係を考慮したマイニング手法 用言とそれに係る体言のタプルの集合で表現 目標 シーケンシャルパターンマイニング(Agrawal94) マイニングの手法 幅優先 (Apriori) 候補生成-テスト データーベースを何回も捜査する必要がある 深さ優先 (FP-Tree, PrefixSpan) 分割統治法 並列性,メモリの使用量が少ない PrefixSpan (Peiら 00) 集合を単位とするPrefixSpan (Peiら 00) PrefixSpan の拡張(1/2) PrefixSpan の拡張(3/3) 集合, N-gram 集合 2つのアイテムが同一集合内だと IN, 異なる集合の場合は OUT を返す N-gram 2つのアイテムが連続するときに定数,それ以外はεを返す チャンク 係り受け(1/2) 日本語は比較的語順が自由 係り受けを考慮することで,意味的に同一で語順の異なる文を同一視 係り関係木の正規化 係り受け(2/2) 係り先からみて k(k=0)代目の子孫であるとき関係名を k と定義, それ以外はε 係り受け木→系列 係り受け(3/3) 実験 新聞記事 (京都大学コーパス3.0 約38,000文) 小説 (「我輩は猫である」 約 9,000文) ChaSen,CaboChaを用いて形態素,係り受け解析 構造 N-gram (アイテムは単語) チャンク (アイテムは文節) すべての文節をチャンク名,アイテムはチャンク名に係る文節 チャンク名,チャンクの中身は辞書式にソート 係り受け (アイテムは文節) 実験結果(1/2) 実験結果(2/2) N-gram ロシア 南部 チェチェン 共和国 の 首都 グロズヌイ これ が 鈴木 君 の 心 の 平均 を 破る 第 チャンク (震度は,{各地の}), (通り, {次の,震度は}) (ないから, {我輩は,仕方が}) 係り受け ((ついて 述べ,) (記者会見で 明らかにした)) (休養を (また (我輩は 要する))) 応用例1: 機械学習の素性抽出 応用例2: 対訳パターン抽出(1/2) 応用例2: 対訳パターン抽出(2/2) 実験 日英対訳コーパス 9268文 構造: 系列, N-gram (機能語相当は考慮しない) 系列 52分, N-gram 7秒で全候補パターンを生成 系列にて発見されたパターン earliest convenience 都合 つき 次第 let …..know お知らせ thank ….letter 手紙 ありがとう 連続しない単語の翻訳パターンが抽出 まとめ 自然言語処理ツールを利用し,その結果得られた半構造化テキストデータに対するマイニング手法を提案 PrefixSpanに対し,「関係関数」を導入, 種々の言語的な情報を反映した半構造化データに対するマイニング手法の提案 機械学習の素性選択,対訳パターンの抽出に利用できる可能性を提示 今後の課題 抽出されたパターンの客観的有効性の評価 対象とする構造,関係関数の違いにより,具体的な応用でどういった差があるか評価 木構造,グラフ構造といった一般的なデータ構造に対する関係関数の記述方法 完全性,健全性の議論 ご静聴ありがとうございました チャンク(2/3) 実験結果 * * 映像 良い 音声 悪い テキストを単語の 集合として表現 (Bag of Words) 映像は良いが 音声は悪い 映像は悪いが 音声は良い ? テキストが持つ意味のある構造 が捉えられない 映像は悪いが 音声は良い (悪い, {映像}) (良い, {音声}) テキスト 形態素解析 単語同定 単語の集合 マイニング アルゴリズム 知識 (頻出する単語の共起) マイニング アルゴリズム 形態素解析 単語同定 チャンキング 係り受け解析 構造化された
文档评论(0)