言語情報資源-r.dl.itc.u.pptVIP

  • 7
  • 0
  • 约2.22千字
  • 约 13页
  • 2016-12-12 发布于天津
  • 举报
言語情報資源 コーパス 言語モデル 辞書 文法 シソーラス コーパス(Corpus,Corpora) コーパスとは電子化され大量の音声、テキストデータ 音声コーパス    1 一人 vs 多人数    2 目的発話か自然発生的か    3 書き起こしテキストの有無    4 書き起こしテキストにタグがついているか テキストコーパス    1 生コーパス    2 タグ付コーパス(形態素解析され品詞タグがついている)    3 括弧付コーパス    4 解析済みコーパス 単言語コーパス vs 多言語コーパス(対訳コーパス) 分野、ジャンル    新聞、雑誌、インターネット、専門的な学問分野 コーパスに基づく確率、統計を基礎にした言語処理の長短 二言語コーパス( bilingual corpus ) 辞書 辞書の記載項目 辞書記述の例(IPAL辞書 部分) 辞書の記載項目 意味や文法に係わる詳細 その1 辞書の記載項目 意味や文法に係わる詳細 その2 シソーラス 概念間の関係 WordNet * accurate broad-coverage robust data-driven vs rationalism コーパスの収録範囲を越えた分野への適用可能性に問題あり sparseness あるいは ゼロ頻度問題 二言語コー

文档评论(0)

1亿VIP精品文档

相关文档