コーパス言語学実践 ufs.ac.jp.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
コーパス言語学実践 ufs.ac.jp

コーパス言語学実践 2006年度2学期 第5回 本日の内容 第4回で途中だったところまでの確認 続き Kaigyo01.pl → Kaigyo02.pl への変更 cabocha のインストール 単語の取り出し tangotoridasi.pl 整形 seikei01.pl MS Excelでの読み込み 前回:本文の加工( [#] ) 内容を見て対応するため手作業 ということで,内容を見ながら手作業 エディタで*02.txtを開く 検索で[#を探す 該当個所の扱いを検討 (統一基準を決めながら進める) 作業後→ *03.txtとして保存 Kaigyo01.pl → Kaigyo02.pl 前回のKaigyo01.pl は破棄 新しくKaigyo02.pl をダウンロード  y:\corpus perl kaigyo02.pl gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt 前回:1行1文へ kaigyo01.pl をダウンロード y:\corpus perl kaigyo01.pl gingatetsudo04.txt これで粗くは改行されている もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt ChaSenとCabocha ChaSenのインストール 日本語形態素解析ツール Cabochaのインストール 日本語係受け解析ツール 文節の作成に使用 ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_031208.exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする! ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) http://chasen.naist.jp/hiki/ChaSen/ へアクセスし,「茶筌の配布」に進む WinCha をクリック chasen233_031208.exeをダウンロード ダブルクリックする. インストール先を y:\corpus にする! ChaSen(ディレクトリ変更) Cabocha(南瓜) プログラムをダウンロード /~taku/software/cabocha/ から,cabocha-0.53.exeをダウロード ダブルクリックする インストール先を y:\corpus にする! 祈る ソフトウェアのダウンロード CaboChaのセットアープwizard License Agreement インストール先の変更 アイコンは作らない 確認してインストール開始 ChaSenとCaboCha インストール後の確認 コマンドプロンプト上で, Y:\corpus cabocha gingatetsudono_yoru05.txt が実行できるか? ChaSenとCaboCha インストール後の確認 コマンドプロンプト上で, Y:\corpus cabocha gingatetsudono_yoru05.txt が実行できるか?多分無理なので, y:\corpus CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか? 文節の作成 cabochaの利用で文節を作る y:\corpus CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt gignatetsudo06.txt 今日は良い天気でした. * 0 -1O 今日 キョウ 今日 名詞-副詞可能 B-DATE は ハ は 助詞-係助詞 O * 1 -1O 良い ヨイ 良い 形容詞-自立 形容詞?アウオ段 基本形 O * 2 -1O 天気 テンキ 天気 名詞-一般 O でし デシ です 助動詞 特殊?デス 連用形 O た タ た 助動詞 特殊?タ 基本形 O . . . 記号-句点 O EOS 文節の中から自立語を取り出す tangotoridasi.plの利用 その前に 文字コードの変換 perlでは内部でutf-8という文字コードを使用 *06.txtの文字コードをutf-8にしておく必要あり. TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コ

文档评论(0)

maritime5 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档