- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE1
项目4基于SVM实现新闻文本分类
——基于肘部法则与k-means算法的新闻文本聚类
学习目标
掌握文本聚类的基本概念和流程。
熟悉轴点法的使用及其在新闻文本聚类中的作用。
学会使用K-means算法进行文本聚类。
培养学生关注时事新闻和社会热点问题的意识,提高运用数据挖掘方法分析新闻信息的能力。
提高学生新闻文本聚类分析的能力,让学生认识到数据科学在新闻传播领域的重要价值和作用。
案例要求
对原始文本数据进行清洗和预处理。
使用TF-IDF提取特征。
使用轴点法从文本数据中选择一组具有代表性的轴点。
使用k-means算法对文本数据进行聚类。
使用轮廓系数等指标对聚类结果进行评估。
使用t-SNE方法对聚类结果进行降维可视化。
案例内容
本案例旨在通过实际的新闻文本数据集进行文本聚类任务,以培养学生在数据预处理、特征工程、轴点选择、模型训练等方面的能力。通过使用轴点法和k-means算法,学生将能更好地理解文本聚类的原理及其在实际问题中的应用。
新闻文本聚类分析可以帮助新闻媒体和公众更好地发现、关注和理解社会热点问题。通过对大量新闻文本进行聚类分析,学生可以挖掘出隐藏在海量信息中的共性特征和潜在规律,发现新闻传播规律,从而为新闻生产、传播和消费提供依据和支持,提升信息处理能力。
案例步骤
数据预处理
首先,将对原始文本数据进行清洗和预处理,以便后续的特征工程和模型训练,如REF_Re\h代码41所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s11数据预处理
importpandasaspd
importre
importjieba
fromsklearn.feature_extraction.textimportTfidfVectorizer
defclean_text(text):
#移除标点符号和特殊字符
text=re.sub(r[^\w\s],,text)
#转为小写
text=text.lower()
returntext
#读取数据
data=pd.read_csv(../data/news.csv)
print(新闻内容:\n,data.head())
#清洗文本
data[cleaned_text]=data[text].apply(clean_text)
print(清洗文本后的新闻内容:\n,data[cleaned_text].head())
#对清洗后的新闻文本进行分词
data[seg_texts]=data[cleaned_text].apply(
lambdax:.join(jieba.cut(x)))
print(清洗后的新闻文本分词结果:\n,data[seg_texts].head())
#使用with语句和open函数以只读模式(r)打开名为stopwords.txt的停用词表文件,指定文件编码为utf-8
withopen(stopwordsHIT.txt,r,encoding=utf-8)asf:
#使用文件对象的readlines方法将文件内容逐行读取到一个名为stopwords的列表中
stopwords=f.readlines()
#遍历停用词列表,使用strip方法去除每个停用词的换行符,得到一个新的停用词列表
stopwords=[word.strip()forwordinstopwords]
#使用列表推导式过滤分词结果seg_words中的停用词
#只保留不在停用词列表stopwords中的词
filtered_words=[wordforwordindata[seg_texts]ifwordnotinstopwords]
data[filtered_words]=filtered_words
print(清洗后的新闻文本分词去除停用词的结果:\n,data[filtered_words].head())
运行REF_Re\h代码41,得到新闻内容、清洗文本后的新闻内容、清洗后的新闻文本分词结果、清洗后的新闻文本分词去除停用词的结果如下。
新闻内容:
textlabel
0作者:姜鹏飞夜班越来越不好值,急诊越来越让人捉急。哪怕去洗手间五分钟,也不敢...健康
1作为马来西亚霹雳州首府,怡保的名字常泯然于吉
您可能关注的文档
- 自然语言及语音处理项目式教程 实训指导汇总 实训1--20 配置NLP环境 ---基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 习题库 01--5 单选题 ---实操题.doc
- 《自然语言处理技术》 高阶案例 基于改进PANNs的环境音识别.docx
- 《自然语言处理技术》高阶案例】基于网格搜索与LightGBM的情感分类V1.0.docx
- 《自然语言处理技术》基础案例】从PDF文件中读取文本V1.0.docx
- 《自然语言处理技术》基础案例】对数据集划分测试集和训练集V1.0.docx
- 《自然语言处理技术》基础案例】基于pyhanlp文本依存句法分析V1.0.docx
- 《自然语言处理技术》基础案例】基于TF-IDF的文本向量化V1.0.docx
- 《自然语言处理技术》基础案例】基于Word2Vec的文本向量化V1.0.docx
- 《自然语言处理技术》基础案例】基于欧式距离的文本相似度计算V1.0 .docx
- 《自然语言处理技术》基础案例】基于余弦距离的文本相似度计算V1.0.docx
- 《自然语言处理技术》基础案例】生成字典存储路径信息和存储标签信息V1.1.docx
- 《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx
- 《自然语言处理技术》基础案例】使用jieba库进行词频统计V1.0.docx
文档评论(0)