自然语言处理2 词典分词.docxVIP

下载本文档

11
0
约6.18千字
约 6页
2023-08-14 发布于江苏
举报

自然语言处理2 词典分词.docx

2. 词典分词中文分词：指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。 2.1 什么是词在基于词典的中文分词中，词的定义要现实得多：词典中的字符串就是词。词的性质--齐夫定律：一个单词的词频与它的词频排名成反比。 2.2 词典互联网词库(SogouW， 15万个词条)、清华大学开放中文词库(THUOCL)、HanLP词库(千万级词条) 这里以HanLP附带的迷你核心词典为例(本项目路径)：上升 v 98 vn 18 上升期 n 1 上升股 n 1 上午 t 147 上半叶 t 3 上半场 n 2 上半夜 t 1 HanLP中的词典格式是一种以空格分隔的表格形式，第一列是单词本身，之后每两列分别表示词性与相应的词频。 2.3 切分算法首先，加载词典： def load_dictionary(): dic = set() # 按行读取字典文件，每行第一个空格之前的字符串提取出来。 for line in open(CoreNatureDictionary.mini.txt,r): dic.add(line[0:line.find( )]) return dic 完全切分指的是，找出一段文本中的所有单词。 def fully_segm

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自然语言处理2 词典分词.docxVIP