- 5
- 0
- 约1.34千字
- 约 12页
- 2017-08-31 发布于安徽
- 举报
基于信息提取的面向行业应用的文本分类算法 郭 峰 兰州大学 信息科学与工程学院 2005年8月 提纲 背景介绍 课题来源 实现功能 整体流程 CIETC算法简介 相关数学定义 算法流程说明 总结 背景介绍 课题来源 对人名专用搜索引擎的需求 传统搜索引擎的不能解决的问题 更方便的查找 查找结果的分类 自然语义的提取 要求产品化 申请项目 甘肃省自然科学基金 背景介绍 实现功能 按人名的重要属性对搜索结果进行分类 背景介绍 整体流程 元搜索引擎的实现 分布式并行元搜索引擎的实现 信息提取和自然语意理解 CIETC算法 前台显示 CIETC算法简介 补偿式信息抽取的主题文本分类算法(compensated information extraction text classification,CIETC) 有指导的、不需要建立训练集的 通过信息抽取和文本聚类循环增加类的数目和类内项的 通过聚类补偿文本属性的一种文本分类算法 CIETC算法简介 相关数学定义 I/P :划分P ={A1,A2,…,Am} (Ai∈A,Ai∩Aj=null)构成了I的一个特定划分,记为I/P 。A是属性的集合 core(P ) :核知识 ,不可省略划分 文档D 是可区分的 : 对于主题文档D,AD={A1,A2,…,Am}是文档D 拥有的属性集,如果core(P ) ∈AD,则称文档D是可区分的。
原创力文档

文档评论(0)