自然语言处理技术与应用手册
第一章自然语言理解原理与基础架构
1.1词法分析与分词策略
词法分析(LexicalAnalysis)
词法分析,又称词法扫描,是自然语言处理流程的起始阶段,其核心任务是将原始文本流转换为计算机可理解的符号序列。这一过程主要执行两种操作:一是去除非语言字符(如标点符号、换行符),二是识别单词的边界。例如,在输入句子“你好,世界”中,词法分析器首先过滤掉逗号,将其视为分隔符,随后将连续的字母序列识别为独立的单词token,最终输出为“你好”、“世界”两个token。这一步骤类似于人类阅读时停顿的地方,为后续的词义理解奠定基础。
②分词策略(Tok
原创力文档

文档评论(0)