- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
簡介AI文字處理技術與應用
淡江大學資訊管理學系
魏世杰副教授
sekewei@.tw
1
大綱
語料前處理
文字的向量表示法
文字的比對法
文字檢索的技術與應用
文字探勘的技術與應用
文字生成的技術與應用
現況與未來
2
語料前處理
語料集(Corpus)
單語系(Monolingual)
雙語系(Bilingual): 平行語料(Parallel Corpus)
網頁蒐集工具: scrapy, Beautiful Soup
單語化工具 → 系統字彙(Lexicon)
英文: nltk
中文: Jieba, MMSeg, CKIP斷詞系統
日文: MeCab, ChaSen, Juman++
3
詞性 (POS, Parts of Speech)
文字的向量表示法
詞向量
單熱向量(One Hot Vector): 稀疏向量,每個維度代表某詞有無。只有代表該詞維度為1 ,其餘維度皆為0
內嵌向量 (Embedding Vector): 稠密向量,每個維度代表某綜合成份意義。很少維度值為0
文件向量
布林向量
TF-IDF向量
內嵌向量
(Witten, 1999) 4
如何訓練內嵌詞向量(Embedding Word Vector)
(Thanaki, 2016)
以下3種詞向量表示法皆提供預先訓練好的詞向量供下載使用
• Google Word2vec: Skip Gram (SG) or Continuous Bag of Words (CBoW)
• Stanford Glove
• Facebook Fasttext 5
Word2Vec訓練法
利用神經網路
(Thanaki, 2016) 6
Word2Vec訓練資料
假設視窗大小為前後1個字
7
(Thanaki, 2016)
詞向量訓練結果1:
群聚性(Clustering)
(Thanaki, 2016)
8
詞向量訓練結果2:
類推性(Analogy)
king – queen + princess = ?
computer_programmer – man + woman = ?
doctor – father + mother = ?
發現偏見與去除偏見 (Jurafsky, 2018)
9
文字的比對法
詞向量或文件向量可利用向量內積,
計算向量相似度,又稱餘弦相似度
兩向量夾角θ ↓,內積
原创力文档


文档评论(0)