人工智能通识基础与应用8.3 NLP的预处理.pptx

人工智能通识基础与应用8.3 NLP的预处理.pptx

8.3NLP的预处理

预处理流程语料库构建获取文本数据文本清洗去除噪音数据分词切分词汇单元标准化统一文本格式特征提取转为数值特征NLP的核心目标是让计算机具备理解、解析和生成人类语言的能力。

数据收集:语料库构建开源语料库最常见的方式是直接下载已有的开源语料库,这些语料库由研究机构、开发者社区或公共资源提供,涵盖广泛的文本类型和领域。维基百科定向数据爬取通过编写爬虫脚本,抓取来自新闻网站、论坛、博客等特定网站的内容,满足特定领域或个性化需求。企业自有数据企业内部数据更贴合实际应用,能为特定业务场景提供高质量语料,包括客户反馈、产品评论、技术支持对话等。数据来源统计:开源语料库占40%,爬虫

文档评论(0)

1亿VIP精品文档

相关文档