总复习_情报分析技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化柏林 huabolin@istic.ac.cn 中国科学技术信息研究所 中国科技信息研究所 化柏林 1/50 总复习 中国科技信息研究所 化柏林 2/50 内容结构安排 总复习 中国科技信息研究所 化柏林 3/50 课程目标 熟练掌握结构化信息计量分析的实现与应用。 掌握搜索引擎工作原理与机制,包括爬行程序、标引入库及检索程序,了解全文数据的索引、排序与查找算法。掌握中文分词算法。 跟踪情报前沿技术,特别是文本分析相关专题的概念辨析、主要方法、系统架构与关键技术等。 总复习 中国科技信息研究所 化柏林 4/50 四大板块 文本信息分析通用技术 结构化信息计量分析技术 网络全文检索技术 文本信息分析技术应用专题 总复习 本课知识分类 中国科技信息研究所 化柏林 5/50 补充型主要为知识做一些铺垫与支撑,不属于本书所讲的范畴。 学习型主要是已经成熟的技术、算法等,是学习的重点。 研讨型主要讲最新进展以及发展趋势,旨在找到研究的切入点以及突破口。 总复习 补充型知识 中国科技信息研究所 化柏林 6/50 补充型知识的掌握程度以识记为标准,补充型知识是预备知识与基础条件,主要包括计算机程序设计方面的知识与人工智能基础方面的知识。 程序设计方面的知识:如VBA、SQL 、HTML、JAVA语言,Oracle、JDK、Eclipse、Tomcat等工具。 VBA是更像结构化程序设计语言、 Java是完全的面向对象程序设计, HTML是标准的标记语言, SQL结构化查询语言。 人工智能方面的知识:人工智能的模型、算法,包括向量空间模型、互信息、支持向量机、潜在语义索引、神经网络、遗传算法、决策树、粗糙集、模糊集、隐马尔科夫模型。 总复习 学习内容 中国科技信息研究所 化柏林 7/50 学习型知识的掌握程度要达到理解运用,学习型知识是本书的重要组成部分。 按照介绍程度的不同又分为介绍型、工程型、实验型。 介绍型内容主要介绍其核心思想与基本原理:如向量分词算法、搜索引擎工作原理等。 工程型指已进行完整的工程开发,成熟完善的功能实现,如结构化信息的计量分析。 实验型指已进行基本功能实现(亦称小规模实验)部分:如爬行程序、向量分词、倒排索引等,通过实验揭示基本原理。 总复习 学习内容 中国科技信息研究所 化柏林 8/50 工程型需要考虑各种复杂的情况,包括边界错误等,能够经受得住测试。 实验型只是实现基本功能,不考虑性能与健壮性等指标。 介绍当前的先进技术与算法:网页分析中的正则表达式、数据映射的hibernate、倒排索引中的哈希表、逆波兰式等,另外还有提高算法效率进行程序优化,如二分查找等。 总复习 研究内容 中国科技信息研究所 化柏林 9/50 研究型内容主要指前沿领域的现状评述以前创新性研究的分析与预测,属于启发学习与自由探讨。 现状评述型,分析现状(包括原始文献、会议组织、重要著作、成功项目等),主要评述专题分类、系统架构、关键技术等。 旨在找到切入点:自动问答、信息抽取、自动分类、聚类分析、机器翻译等。前瞻创新与展望,大胆创新,有望实现突破。 发展趋势类属于探讨型;系统架构类;如计量分析的发展趋势、搜索引擎的发展趋势、全文数据库商的发展趋势、知识管理的发展趋势,并创新性提出一些新的系统,设计其系统结构、剖析关键技术与主要难点。 包括知识抽取、列表式搜索、文献自动综述、文献创新性自动评价、对联自动生成系统、辅助写诗系统、学者谱系构建与导师自动评价系统。 总复习 研究内容 中国科技信息研究所 化柏林 10/50 总复习 中国科技信息研究所 化柏林 14/50 总复习 三大重点 中国科技信息研究所 化柏林 爬行程序、 向量分词、 倒排索引 11/50 计量分析技术实验 爬行程序系统实验 全文检索系统实验 总复习 三大实验 中国科技信息研究所 化柏林 19/50 总复习 十组概念辨析 中国科技信息研究所 化柏林 信息检索、信息抽取、知识抽取、知识获取、数据挖掘、数据库知识发现之间的区别 知识管理与知识工程之间的区别 信息查询、信息查寻、信息检索、信息搜索之间的区别 自然语言处理、自然语言理解、文本信息分析、计算语言学之间的区别 自动分类、自动聚类之间的区别 12/50 总复习 十组概念的辨析 中国科技信息研究所 化柏林 114/50 自动问答、自动摘要、文献自动综述之间的区别 词法分析、语法分析、语义分析、语用分析、形态分析、句法分析之间的区别 支持向理机VSM、向量空间模型SVM、潜在语义标引LSI之间的区别 自组织特征映射网络与神经网络之间的区别 模糊集与粗糙集之间的区别 总复习 十大思想 中国科技信息研究所 化柏林 1.分类何其难,分

文档评论(0)

宝贝计划 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档