Comparisonofonlinesocialrelationsinvolumevsinteraction.pptVIP

Comparisonofonlinesocialrelationsinvolumevsinteraction.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Comparisonofonlinesocialrelationsinvolumevsinteraction.ppt

* * * * * * * @ 表格的表头居中。见表格。 * * * * * * 模板优先队列 ⑴中国科学院.*?所; ⑵中国科学院.*?院; ⑶中国科学院.*?中心; ⑷中国科学院.*?台; ⑸^.*?大学; ⑹^.*?学院; ⑺^.*?学校; ⑻^.*?研究院; ⑼^.*?院; ⑽^.*?公司; ⑾^.*?厂; ⑿^.*?部队; ⒀^.*?所; ⒁^.*?中心; ⒂^.*?局。 算法有效性 不需要人工事先整理出机构规范化表 不需要有很厚语文素养的专家参与 不需要复杂的规则模板 仅依赖数据的自学习和自校验能力 总结 从处理前后数据量的变化来看文本挖掘系统的有效性 从实验数据的评测指标上来看文本挖掘系统的有效性 从知识服务网络平台的用户体验上来看文本挖掘系统的有效性 从知识服务网络平台与其他平台的对比来看文本挖掘系统的有效性 总结 文本挖掘系统在知识要素抽取上的效果 原始数据(条) 处理后数据(条) 题录信息 116,642(知网)/58,235(万方) 109,788 关键词中英对照组 148,825 83,602 作者 299,823 135,969 机构 60,874 10,865 总结 论文中提出的算法及性能评价 论文成果 评价 基于卡方拟合优度的特征词选择算法 低维优势显著、选词更具代表性 关键词的形态语义聚类算法 AverageP=92.14% 人物机构对齐算法 AvarageP=87.6837% 同名消歧算法 AverageP=98.14% 机构名称抽取算法 Reduction:82.15% 自动化学科知识服务网络平台的特色功能 与知网、万方知识服务平台的对比 展望 同名消歧算法无法处理同机构的人物同名问题;可融入共发文关系、论文发表期刊、论文发表时间等特征进一步改进算法 构建知识族谱之前,可加入话题聚类步骤对现有术语进行粗粒度聚类 知识族谱的结构形式可以借鉴有向图的马尔科夫毯进行改进 在学期间工作 项目 负责科技部创新方法工作专项“自动化学科创新思想与方法研究”的知识要素提取工作 自动化学科知识服务网络平台 / 项目数据专区 /member/5878 专利 “知识谱系的可视化方法”,申请号:2012100220479,申请人:刘禹,刘禹,杨一平 * * 自动化学科知识服务网络平台包括知识检索、作者检索、机构检索等知识服务。 * 简而言之,本论文的研究目标就是开发用于知识要素提取的文本挖掘系统,为自动化学科知识体系以及学科知识服务网络平台的建立,提供“血肉”和“骨骼”。 * 以下是本文设计的文本挖掘系统 * 面向具体工程应用的算法和系统;要求知识要素尽量准确,无论是采用已有算法还是自行设计的算法都要给出算法实验和结果分析、算法有效性和局限性分析。 * * 为了深入探讨chifit特征词选择算法的特性,本人在中英文两种新闻分类语料,利用朴素贝叶斯、多项式贝叶斯、KNN,决策树、SMO等分类器做了大量对比实验。见论文第三章所示,这里仅附两图做说明示例。(中:点明哪条曲线表示哪种方法) * * * * * * * * * * * * * * * 文本挖掘系统 --面向自动化学科中文期刊论文 报告人:刘禹 指导教师:杨一平研究员 日期:2012年5月20日 主要内容 需求概述 研究目标 系统概述 关键技术 总结及展望 需求概述 自动化学科创新方法课题的三个目标是: (1)建立学科知识体系;(2)开发学科知识服务网络平台;(3)提供知识服务,推动知识创新。 研究目标 获得论文的题录信息 初步分离作者、机构、文章题目、关键词、摘要等知识要素 利用文本挖掘技术实现对知识要素的精细化处理 系统概述 数据获取 知识获取 垂直爬虫技术 特征词选择算法 关键词语义聚类 同名消歧算法 机构名称归一化 数据获取 构建学科知识体系 关键词语义重复 学者姓名歧义 规范机构名称 文本分类技术 数据清洗 关键技术 基于卡方拟合优度的特征词选择算法 关键词的形态语义聚类算法 人物机构对齐算法 同名消歧算法 机构名称抽取算法 基于卡方拟合优度的特征词选择算法(chifit) 理论背景 皮尔逊卡方检验主要应用在检测两个随机变量是否独立和检验分布的拟合中 chifit特征词选择算法从分布拟合的角度对词汇和类别之间的独立性进行假设检验 chifit计算公式 实验结果 结论 chifit特征词选择算法和卡方、信息增益等特征词选择算法效果相当,好于点互信息特征词选择算法 chifit特征词选择算法可以在较低的特征维度上获得较好的分类效果,因此适用于计算资源有限的应用场景 应用场景 采用chifit特征词选择算法从关键词中挑选出属于自动化学科的专业术语,交给编辑人员筛

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档