简介AI文字处理技术与应用.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
簡介AI文字處理技術與應用 淡江大學資訊管理學系 魏世杰副教授 sekewei@.tw 1 大綱 語料前處理 文字的向量表示法 文字的比對法 文字檢索的技術與應用 文字探勘的技術與應用 文字生成的技術與應用 現況與未來 2 語料前處理  語料集(Corpus)  單語系(Monolingual)  雙語系(Bilingual): 平行語料(Parallel Corpus)  網頁蒐集工具: scrapy, Beautiful Soup  單語化工具 → 系統字彙(Lexicon)  英文: nltk  中文: Jieba, MMSeg, CKIP斷詞系統  日文: MeCab, ChaSen, Juman++ 3  詞性 (POS, Parts of Speech) 文字的向量表示法  詞向量  單熱向量(One Hot Vector): 稀疏向量,每個維度代表某詞有無。只有代表該詞維度為1 ,其餘維度皆為0  內嵌向量 (Embedding Vector): 稠密向量,每個維度代表某綜合成份意義。很少維度值為0  文件向量  布林向量  TF-IDF向量  內嵌向量 (Witten, 1999) 4 如何訓練內嵌詞向量(Embedding Word Vector) (Thanaki, 2016)  以下3種詞向量表示法皆提供預先訓練好的詞向量供下載使用 • Google Word2vec: Skip Gram (SG) or Continuous Bag of Words (CBoW) • Stanford Glove • Facebook Fasttext 5 Word2Vec訓練法 利用神經網路 (Thanaki, 2016) 6 Word2Vec訓練資料 假設視窗大小為前後1個字 7 (Thanaki, 2016) 詞向量訓練結果1: 群聚性(Clustering) (Thanaki, 2016) 8 詞向量訓練結果2: 類推性(Analogy)  king – queen + princess = ?  computer_programmer – man + woman = ?  doctor – father + mother = ?  發現偏見與去除偏見 (Jurafsky, 2018) 9 文字的比對法 詞向量或文件向量可利用向量內積, 計算向量相似度,又稱餘弦相似度 兩向量夾角θ ↓,內積

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档