文本挖掘技术.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
课题01-4 文本挖掘技术实现思路 研究内容 命名实体识别 关键点 实体识别算法+工程应用 行业知识库支撑 基于行业应用场景的实体识别机制(公文、案件、物品等) 难点 绰号、网名、小名、笔名、艺名、指标名称 …… 同名排歧 人物多重社会角色分析 实体关系的抽取 关键点 语境、上下文关系分析 关系引擎构建 面向行业的主题词典 角色关系词典 与RDBMS结合的联动挖掘 难点 类属关系识别(粮食:大豆) 隐含关系发现(股东关系) 关系链深度、广度挖掘 基于图论的可视化关联展示 自动分类 关键点 统计与规则相结合的混合分类引擎 分类体系的科学化 基于中文新闻信息分类体系的分类模板构造 支持多语言混合分类 难点 针对差异化对象数据,模板参数的合理化设置 分类模板的反馈学习机制 提供较实用的分类可信度评价指标,供应用参考 关键词标引与自动摘要技术 关键点 基于位置、频度和背景词库等多维度的标引和摘要引擎 行业词典支持 词性、短语类型、长度、特殊符号标识 基于关键句的权值运算与筛选的摘要策略 关键词驱动的偏重摘要 难点 基于语义的隐含标引 自动过滤与自动消重 关键点 垃圾广告信息的识别(群发) 转载文章相似度比对技术 不同阈值的相似文章聚合 变异信息的识别与比对(篡改) 难点 千万级数据消重的亚秒级响应机制 违规非法内容的判定与识别 跨语言的新闻信息转载识别 话题检测与追踪技术 关键点 海量信息片段的聚合机制 话题相关度运算 难点 基于遗忘因子机制的话题演化跟踪 敏感话题的及时发现 情感分析 关键点 主观情感色彩语句、要素识别 倾向性语义模型库的构建 语义倾向性词典的倾向强度划分 情感持有者、情感极性与情感对象的关联判定 难点 复句的句法逻辑与情感词汇的潜在情感极性判断(并列复句、转折复句、条件复句、递进复句等) 语气、语境与情感词汇融合的情感分析(否定句、感叹句、疑问句) 文本挖掘体系架构 申请本课题的优势总结 国内第一套成熟的文本挖掘软件工具 具有大规模真实环境下文本挖掘成功实践经验(新华社、央视、外交部等) 在国家专利局、新华社等第三方独立机构主导的工程应用评测(非学术评测)中处于绝对优势。 文本挖掘系列软件在互联网舆情监测领域得到广泛应用,有丰富的多组件集成经验。 头衔(主席、教授)、从属关系(工人、)、人际关系(兄弟、父母) * 新华社---图 * 时间联想 相关度 话题逐渐变化:飞机—飞机失事-?搜救—原因调查—赔偿 识别话题,增加话题,类向量 * 头衔(主席、教授)、从属关系(工人、)、人际关系(兄弟、父母) * 新华社---图 * 时间联想 相关度 话题逐渐变化:飞机—飞机失事-?搜救—原因调查—赔偿 识别话题,增加话题,类向量 *

文档评论(0)

+ 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档