《文本挖掘技术》教学大纲(本科).docxVIP

  • 7
  • 0
  • 约1.74千字
  • 约 2页
  • 2022-04-03 发布于河南
  • 举报

《文本挖掘技术》教学大纲(本科).docx

PAGE PAGE 103 文本挖掘技术 一、课程简介 本课程是一门理论性和实践性兼备的课程。在理论方面,要熟悉文本挖掘体系架构;了解生物数据文本表示,包括生物数据术语集、数据库组织文献的方式等;掌握文本挖掘相关算法及应用,包括分类、聚类、关联规则推理等领域相关算法。在实践方面,要掌握文本挖掘相关工具,包括可扩展标记语言解析、句子切分、分词、命名实体识别、词性标注、词形归并、词组划分等工具。本课程的学习有利于加深对生物数据文本的理解、提高对生物数据文本挖掘的认识,为今后提取具体领域的实体、挖掘实体关联等打下良好、扎实的基础。 本课程的教学目的在于:培养学生分析问题和解决问题的能力;帮助学生熟悉常用的生物数据文本挖掘软件;引导学生体会文本挖掘在生物数据领域的应用。 二、理论教学内容 文本挖掘概述 了解内容:了解文本挖掘产生的背景;了解文本挖掘概念及任务;了解文本挖掘系统的体系架构;了解生物数据文本挖掘面临的问题和挑战:命名实体识别、句子切分、分词等。 文本表示 掌握内容:文本表示的定义;文本表示的模型(如向量空间模型);特征选择,如基于权重的特征选择、布尔权值、词频权值-TF-IDF权值等、信息增益法;生物数据文本表示,如生物医学术语集、生物医学本体、掌握可扩展标记语言的格式。 了解内容:信息检索相关算法(如内积、夹角余弦等)。 文本分类 掌握内容:文本分类的定义、缩写、特点等相关概念,以及文本分类的方法与基本步骤;文本分类的评价指标,包括精确率、召回率、准确率、错误率、F-score、宏平均、微平均;基于机器学习的文本分类方法,包括决策树算法(ID3、C4.5、CART)与Boosting算法;剪枝方法,包括预剪枝方法与降低错误剪枝、悲观错误剪枝、代价-复杂度剪枝等后剪枝方法。 了解内容:基于知识工程的文本分类方法。 文本聚类 掌握内容:文本聚类的定义、缩写、特点等相关概念;数据标准化方法,包括总和标准化、标准差标准化、极大值标准化、极差标准化;距离函数,包括简单匹配系数、Jaccard系数、Rao系数等离散型特征样本的距离度量方法,以及最短距离法、最长距离法、类平均法、中心法等类间距离度量方法;三种聚类算法,包括划分聚类算法、层次聚类算法、密度聚类算法。 了解内容:文本聚类的应用领域;文本聚类的方法类型,连续型特征样本的距离度量方法。 关联分析 掌握内容:Apriori算法;基于文献的术语关联推理方法,包括NMD(Normalized MEDLINE Distance)方法、ABC原则。 了解内容:关联分析相关概念、基于本体的术语关联推理方法。 三、实验教学内容 可扩展标记语言解析 基本内容:解析可扩展标记语言。 基本要求:了解生物数据文本的表示形式以及相应的信息提取方式。 句子切分与分词 基本内容:切分句子以及分词。 基本要求:了解句子切分工具及分词工具,从而对MEDLINE文献进行句子切分及分词。 词性标注 基本内容:标注词性(名词、动词等)。 基本要求:了解词性标注工具,实现对MEDLINE文献的词性标注任务。 词形归并及词组划分 基本内容:划分词组以及归并词形。 基本要求:了解词形归并及词组划分工具,实现对MEDLINE文献的词形归并及词组划分任务。 生物数据命名实体提取 基本内容:提取命名实体。 基本要求:了解生物数据命名实体提取软件;体会基于Web服务的概念提取过程。 基于文本的术语关联推理基本内容:术语关联推理。 基本要求:掌握并实现关联分析算法,计算基于文本的术语关联程度。 四、参考资料 1.参考书 《文本挖掘技术及其应用》.谢邦昌 朱建平 李毅.厦门大学出版社.2016 《预测性文本挖掘基础》.Sholom M.Weiss.西安交通大学出版社.2012 2.网络资源 https:// /, / 五、学时分配 序号 教学内容 参考学时 总学时 理论学时 实验学时 1 生物数据文本挖掘概述 2 2 0 2 文本表示 10 6 4 3 文本分类 14 6 8 4 文本聚类 10 6 4 5 关联分析 12 4 8 合计 48 24 24

文档评论(0)

1亿VIP精品文档

相关文档