- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
BYYUSHENPython中文分词jieba库主讲老师:任越美
jieba库在自然语言处理过程中,为了能更好地处理句子,需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫做分词。pipinstalljieba安装:importjieba使用:
jieba库分词模式精确模式全模式搜索引擎模式任务一:使用jieba库精确模式对文本“河小青具有团队协作精神及创新能力”进行分词操作。
jieba库—精确模式是精确模式分词:试图将句子最精确地切开,适合文本分析。cut和lcutimportjiebas=河小青具有团队协作精神及创新能力words1=jieba.cut(s)#jieba.cut()返回的是一个可迭代类型words=jieba.lcut(s)#jieba.lcut()返回的是一个列表print(精确模式:+/.join(words1))print(精确模式:,words)运行结果:精确模式:河小青/具有/团队/协作/精神/及/创新能力精确模式:[‘河小青’,’具有’,’团队’,’协作’,’精神’,’及’,’创新能力’]
jieba库—全模式通过设置参数cut_all=true将中文文本进行全模式分词,找出所有的词语。cut和lcut区别1.精确模式是将句子最精确的切分,不存在冗余数据。2.全模式把所有可能是词的词语都切分出来,存在冗余数据。
jieba库—搜索引擎模式为搜索引擎模式,在精确模式的基础上,对长词再次切分。lcut_for_search任务二:使用搜索引擎模式对文本“河小青是一名品学兼优的合格大学生”进行分词操作。
jieba库—搜索引擎模式搜索引擎模式是将精确模式中的长词,再次按照全模式切分。精确模式:[‘河小青’,‘是’,‘一名’,‘品学兼优’,‘的’,‘合格’,‘大学生’]搜索引擎模式:[‘河小青’,‘是’,‘一名’,‘品学’,‘兼优’,‘品学兼优’,‘的’,‘合格’,‘大学’,‘学生’,‘大学生’]
BYYUSHEN函数描述jieba.cut(s)精确模式,返回一个可迭代的数据类型jieba.cut(s,cut_all=True)全模式,输出文本s中所有可能单词jieba.cut_for_search(s)搜索引擎模式,适合搜索引擎建立索引的分词结果jieba.lcut(s)精确模式,返回一个列表类型jieba.lcut(s,cut_all=True)全模式,返回一个列表类型jieba.lcut_for_search(s)搜索引擎模式,返回一个列表类型jieba.add_word(w)向分词词典中增加新词w中文分词jieba库——jieba库主要函数
jieba库分词任务三:使用jieba库增加新词和自定义词典1.使用jieba.add_word()添加新词2.自定义词典自定义词典用法:jieba.load_userdict(filename)#filename为文件类对象或自定义词典的路径。
jieba库分词1.向分词词典增加新词语法格式:jieba.add_word(“想加入的新词”)2.自定义词典语法格式:jieba.load_userdict(filename)#filename为文件类对象或自定义词典的路径。
总结添加新词的方法02jieba库分词的三种模式01总结
BYYUSHENPython谢谢大家
文档评论(0)