- 11
- 0
- 约6.18千字
- 约 6页
- 2023-08-14 发布于江苏
- 举报
2. 词典分词
中文分词:指的是将一段文本拆分为一系列单词的过程,这些单词顺序拼接后等于原文本。
中文分词算法大致分为基于词典规则与基于机器学习这两大派。
2.1 什么是词
在基于词典的中文分词中,词的定义要现实得多:词典中的字符串就是词。
词的性质--齐夫定律:一个单词的词频与它的词频排名成反比。
2.2 词典
互联网词库(SogouW, 15万个词条)、清华大学开放中文词库(THUOCL)、HanLP词库(千万级词条)
这里以HanLP附带的迷你核心词典为例(本项目路径):
上升 v 98 vn 18
上升期 n 1
上升股 n 1
上午 t 147
上半叶 t 3
上半场 n 2
上半夜 t 1
HanLP中的词典格式是一种以空格分隔的表格形式,第一列是单词本身,之后每两列分别表示词性与相应的词频。
2.3 切分算法
首先,加载词典:
def load_dictionary():
dic = set()
# 按行读取字典文件,每行第一个空格之前的字符串提取出来。
for line in open(CoreNatureDictionary.mini.txt,r):
dic.add(line[0:line.find( )])
return dic
完全切分
指的是,找出一段文本中的所有单词。
def fully_segm
您可能关注的文档
- java高级开发-基于TCP协议的聊天室程序实验报告.doc
- java高级开发-留言板开发实验报告.doc
- java综合性设计性实验要求说明书(Java高级开发实验二 留言板设计).doc
- 自然语言处理1 新手上路.docx
- 自然语言处理3 二元语法与中文分词.docx
- 自然语言处理4 隐马尔可夫模型与序列标注.docx
- 自然语言处理5 感知机分类与序列标注.docx
- 自然语言处理6 条件随机场与序列标注.docx
- 自然语言处理7 词性标注.docx
- 自然语言处理8 命名实体识别.docx
- GB/T 12690.13-2026稀土金属及其氧化物中非稀土杂质化学分析方法 第13部分:钼、钨含量的测定.pdf
- 《GB/T 12690.13-2026稀土金属及其氧化物中非稀土杂质化学分析方法 第13部分:钼、钨含量的测定》.pdf
- JJF 2396-2026高通量基因测序仪校准规范.pdf
- 《JJF 2396-2026高通量基因测序仪校准规范》.pdf
- 计量规程规范 JJF 2396-2026高通量基因测序仪校准规范.pdf
- 计量规程规范 JJF 2392-2026超声猝发音信号源校准规范.pdf
- JJF 2392-2026超声猝发音信号源校准规范.pdf
- JJG 1078-2026医用数字摄影系统(DR)X射线辐射源检定规程.pdf
- 《JJF 2392-2026超声猝发音信号源校准规范》.pdf
- 《JJG 1078-2026医用数字摄影系统(DR)X射线辐射源检定规程》.pdf
原创力文档

文档评论(0)