《文本挖掘技术》教学大纲（本科）.docxVIP

下载本文档

7
0
约1.74千字
约 2页
2022-04-03 发布于河南
举报

《文本挖掘技术》教学大纲（本科）.docx

PAGE PAGE 103 文本挖掘技术一、课程简介本课程是一门理论性和实践性兼备的课程。在理论方面，要熟悉文本挖掘体系架构；了解生物数据文本表示，包括生物数据术语集、数据库组织文献的方式等；掌握文本挖掘相关算法及应用，包括分类、聚类、关联规则推理等领域相关算法。在实践方面，要掌握文本挖掘相关工具，包括可扩展标记语言解析、句子切分、分词、命名实体识别、词性标注、词形归并、词组划分等工具。本课程的学习有利于加深对生物数据文本的理解、提高对生物数据文本挖掘的认识，为今后提取具体领域的实体、挖掘实体关联等打下良好、扎实的基础。本课程的教学目的在于：培养学生分析问题和解决问题的能力；帮助学生熟悉常用的生物数据文本挖掘软件；引导学生体会文本挖掘在生物数据领域的应用。二、理论教学内容文本挖掘概述了解内容：了解文本挖掘产生的背景；了解文本挖掘概念及任务；了解文本挖掘系统的体系架构；了解生物数据文本挖掘面临的问题和挑战：命名实体识别、句子切分、分词等。文本表示掌握内容：文本表示的定义；文本表示的模型（如向量空间模型）；特征选择，如基于权重的特征选择、布尔权值、词频权值-TF-IDF权值等、信息增益法；生物数据文本表示，如生物医学术语集、生物医学本体、掌握可扩展标记语言的格式。了解内容：信息检索相关算法（如内积、夹角余弦等）。文本分类掌握内容：文本分类的定义、缩写、特点等相关概念，以及文本分类的方法与基本步骤；文本分类的评价指标，包括精确率、召回率、准确率、错误率、F-score、宏平均、微平均；基于机器学习的文本分类方法，包括决策树算法（ID3、C4.5、CART）与Boosting算法；剪枝方法，包括预剪枝方法与降低错误剪枝、悲观错误剪枝、代价-复杂度剪枝等后剪枝方法。了解内容：基于知识工程的文本分类方法。文本聚类掌握内容：文本聚类的定义、缩写、特点等相关概念；数据标准化方法，包括总和标准化、标准差标准化、极大值标准化、极差标准化；距离函数，包括简单匹配系数、Jaccard系数、Rao系数等离散型特征样本的距离度量方法，以及最短距离法、最长距离法、类平均法、中心法等类间距离度量方法；三种聚类算法，包括划分聚类算法、层次聚类算法、密度聚类算法。了解内容：文本聚类的应用领域；文本聚类的方法类型，连续型特征样本的距离度量方法。关联分析掌握内容：Apriori算法；基于文献的术语关联推理方法，包括NMD（Normalized MEDLINE Distance）方法、ABC原则。了解内容：关联分析相关概念、基于本体的术语关联推理方法。三、实验教学内容可扩展标记语言解析基本内容：解析可扩展标记语言。基本要求：了解生物数据文本的表示形式以及相应的信息提取方式。句子切分与分词基本内容：切分句子以及分词。基本要求：了解句子切分工具及分词工具，从而对MEDLINE文献进行句子切分及分词。词性标注基本内容：标注词性（名词、动词等）。基本要求：了解词性标注工具，实现对MEDLINE文献的词性标注任务。词形归并及词组划分基本内容：划分词组以及归并词形。基本要求：了解词形归并及词组划分工具，实现对MEDLINE文献的词形归并及词组划分任务。生物数据命名实体提取基本内容：提取命名实体。基本要求：了解生物数据命名实体提取软件；体会基于Web服务的概念提取过程。基于文本的术语关联推理基本内容：术语关联推理。基本要求：掌握并实现关联分析算法，计算基于文本的术语关联程度。四、参考资料 1.参考书《文本挖掘技术及其应用》.谢邦昌朱建平李毅.厦门大学出版社.2016 《预测性文本挖掘基础》.Sholom M.Weiss.西安交通大学出版社.2012 2.网络资源 https:// /， / 五、学时分配序号教学内容参考学时总学时理论学时实验学时 1 生物数据文本挖掘概述 2 2 0 2 文本表示 10 6 4 3 文本分类 14 6 8 4 文本聚类 10 6 4 5 关联分析 12 4 8 合计 48 24 24

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

《文本挖掘技术》教学大纲（本科）.docxVIP