文本信息处理预备知识绪论.ppt

向量的单位化 * 实验数据 * ?训练集Training Set – 用来获得模型参数 ?测试集Test Set –从训练集以外独立采样 –反映系统面对真实世界的处理能力 ?封闭测试与开放测试 ?交叉验证Cross-Validation –将数据集分为k个子集 –用k-1个子集作训练集,1个子集作测试集,然后k 次交叉验证 ?公开测评数据集 -LDC, Chinese-LDC 性能评价 * 性能评价 * 编程工具 编程语言:Python, java, C++ 编程工具:NLTK * 什么是Python? * Python的特点 历史短(不到10年),但应用广泛 –大范围应用,尤其在AI和Web领域 非常容易学习 –很多学校用把Python作为入门语言 编程方便 –相比C、C++、Java代码短得多 容易阅读与维护 –类似于自然语言和数学公式的语法 * “Hello World!” * NLTK工具 NLTK:Natural Language Toolkit NLTK是用Python实现的一套自然语言处理软件工具 NLTK包括: –与NLP相关的基本数据类型 –NLP的标准函数接口:切词、标注、句法分析等 –NLP中常见任务的具体实现

文档评论(0)

1亿VIP精品文档

相关文档