基本编用语说如明13.pptVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基本编用语说如明13

基本編の用語説明 その2 エディタと日本語入力 エディタ エディタ(editor):文書を作成、編集するアプリケーションソフトウェア 教育用計算機システムのエディタは、    テキストエディット 基本的な編集方法はここ カーソル:文字が入力される位置を表している目印 カッペ、コピペ 検索と置換 編集結果の保存 文系のみなさんには興味はないだろうがemacsというエディタもある さて、いよいよ日本語入力だが。。。 文字コード:  コンピュータの内部 ?対応?画面やキーボードで見える文字   (2進数で表現)   文字コード  (人間に読める:フォント) フォント:画面にみえる字の形 Unicode: 世界の主な文字を文字集合として 16ビットの文字コード詳しくはここ アスキーコード:7ビットで英数字を表す文字コード ビット:2進数1桁のこと。計算機で情報を表す最小単位 漢字コード:漢字は8ビットでは表現できないので、16ビット以上使うコードになる ShiftJIS(SJIS), EUC, JISなどが混在。    これらのコードが混在した状態でいったいどうやって文字コードを認識するのだろうか?          ISO 646 (ASCII) 文字セット MacOSでの日本語入力はここ 全角と半角 半角カタカナや全角英文字は避けましょう。 ここから先は難しいので、根性の無い人は、これ以上進んではいけません: コードの歴史 ASCII(American Standard Code for Information Interchange) ? ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など JISX0201ではASCIIの特殊文字の一部が異なる(¥の使用など) 日本語コードの話 1バイトでは最大256文字 字種の多い言語では多バイトコード 1バイトコードで事足りる欧米言語と多バイトコードが必要なアジアの言語とのバトルグランド 文字コードのような基本的情報インフラの標準化は社会への影響莫大 ISO2022 エスケープシーケンスにより文字を拡張するための各種のメカニズム 各国のISO646 (アメリカならASCII、日本ならJIS X 0201) を別個の文字集合として指定し切り替えて使える。 ちなみに西ヨーロッパの文字では、ISO8859/1 ISO2022 エスケープシーケンス JISコードの歴史 JISX0208(1978) 当時はJISC6226 カタカナ(いわゆる半角カタカナ)および全角英字はいまや無用の長物ないしは有害 半角カタカナと全角英字は97JISでは使わないことに決めた シフトJIS 78JIS ? 83JIS ? 90JIS ? 97JIS 内部状態を持つ文字コードと 持たない文字コード 1バイトコードのASCIIは内部状態なし 2バイトの内部状態なしコードを目指したのがユニコード エスケープシーケンスのある文字コード ISO2022 に則るコードは内部状態を持つ。 内部状態を持つと何がまずいのか? JISコードにおける漢字 78JISの第1水準 2965文字=都道府県     名、市町村名を全て記述できる。      第2水準 3384文字 JISX 0212 の補助漢字 5801文字 日本語EUC Unixで常用される2バイトコード 第1バイト最上位ビット=0 ? JIS X0201(ASCII対応部分) 第1バイト最上位ビット=1 かつ第2バイト最上位ビット=1 ? JIS漢字 第1バイト=8E かつ第2バイト最上位ビット=1 ? JISカタカナ 第1バイト=8E かつ第2バイト最上位ビット=1かつ第3バイト最上位ビット=1 ? JIS補助漢字 上位ビットを見るだけで字種を判別できる シフトJIS JISX0208で使用していない文字を漢字の1バイト目に使う。すなわち、 1バイト目、 最上位ビット=0 ?JIS X0201(英数字など ASCII対応部分) 最上位ビット=1 ?JISカタカナ #x81-9F(JIS X 0201では未使用), E0-EF(ISO2022の制御符号部分) ?漢字 2バイト目は#x40-EF 合計24576文字 台湾、中国、韓国版として Big5, GBK,UHC 漢字の形 「包摂」 とは 異なる字形を同一視の基準のこと。 例えば、「高」や「富」や「国」のふたつの字形など そもそも字形のぶれをきちんと定義できるのか? 計算機技術によって解決できる種類の問題? 文字と文字コードと字形の関係 情報検索という目的だとどうなるか 人名を

文档评论(0)

173****1616 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档