文本挖掘技术.ppt

下载文档

3
0
约1.16千字
约 10页
2023-10-09 发布于湖北
举报
版权申诉
保障服务

文本挖掘技术.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

课题01-4 文本挖掘技术实现思路研究内容命名实体识别关键点实体识别算法+工程应用行业知识库支撑基于行业应用场景的实体识别机制（公文、案件、物品等）难点绰号、网名、小名、笔名、艺名、指标名称 …… 同名排歧人物多重社会角色分析实体关系的抽取关键点语境、上下文关系分析关系引擎构建面向行业的主题词典角色关系词典与RDBMS结合的联动挖掘难点类属关系识别（粮食：大豆）隐含关系发现（股东关系）关系链深度、广度挖掘基于图论的可视化关联展示自动分类关键点统计与规则相结合的混合分类引擎分类体系的科学化基于中文新闻信息分类体系的分类模板构造支持多语言混合分类难点针对差异化对象数据，模板参数的合理化设置分类模板的反馈学习机制提供较实用的分类可信度评价指标，供应用参考关键词标引与自动摘要技术关键点基于位置、频度和背景词库等多维度的标引和摘要引擎行业词典支持词性、短语类型、长度、特殊符号标识基于关键句的权值运算与筛选的摘要策略关键词驱动的偏重摘要难点基于语义的隐含标引自动过滤与自动消重关键点垃圾广告信息的识别（群发）转载文章相似度比对技术不同阈值的相似文章聚合变异信息的识别与比对（篡改）难点千万级数据消重的亚秒级响应机制违规非法内容的判定与识别跨语言的新闻信息转载识别话题检测与追踪技术关键点海量信息片段的聚合机制话题相关度运算难点基于遗忘因子机制的话题演化跟踪敏感话题的及时发现情感分析关键点主观情感色彩语句、要素识别倾向性语义模型库的构建语义倾向性词典的倾向强度划分情感持有者、情感极性与情感对象的关联判定难点复句的句法逻辑与情感词汇的潜在情感极性判断（并列复句、转折复句、条件复句、递进复句等）语气、语境与情感词汇融合的情感分析（否定句、感叹句、疑问句）文本挖掘体系架构申请本课题的优势总结国内第一套成熟的文本挖掘软件工具具有大规模真实环境下文本挖掘成功实践经验（新华社、央视、外交部等）在国家专利局、新华社等第三方独立机构主导的工程应用评测（非学术评测）中处于绝对优势。文本挖掘系列软件在互联网舆情监测领域得到广泛应用，有丰富的多组件集成经验。头衔（主席、教授）、从属关系（工人、）、人际关系（兄弟、父母） * 新华社---图 * 时间联想相关度话题逐渐变化：飞机—飞机失事-?搜救—原因调查—赔偿识别话题，增加话题，类向量 * 头衔（主席、教授）、从属关系（工人、）、人际关系（兄弟、父母） * 新华社---图 * 时间联想相关度话题逐渐变化：飞机—飞机失事-?搜救—原因调查—赔偿识别话题，增加话题，类向量 *