- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理与数据挖掘研究的应用
唐杰 李涓子
清华大学计算机系知识工程研究室
清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程,研究室融合自然语言处理、
社会网络分析与挖掘和语义Web 技术,研究Web 信息处理的基础理论和关键技术。研究者社会网络挖
掘与搜索系统ArnetMiner II 和面向事件的新闻挖掘与搜索系统Newsminer 是实验室应用多年的研究
成果建立的在学术研究和新闻领域的应用系统。
一、研究者社会网络的挖掘与搜索系统
ArnetMiner II (简称AMiner, )是通过研究者合作关系建立起来的社会网络
挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面
向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会
网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者
提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。
(a) 专家搜索。 (b) 会议分析。
搜索数据挖掘领域专家、权威机构和相关学术 近10 年国际会议SIGIR 引用次数最高的100 篇
论文。用户可以个性化的定制搜索结构。 文章在各年的分布,作者国籍(原籍)分布等。
图1: 系统部分功能截图 ( )
图 1 举例列举了 AMiner 系统的两个功能:(a) 专家搜索和 (b) 会议分析。其中在专家搜索中,
用户输入查询词(例如:data mining),系统返回该领域专家、重要的国际会议和权威期刊或者权威
机构以及相关学术论文。在该搜索中,用户还可以个性化的定制返回结果。在会议分析功能中,用户
可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、
以及引用次数最高的作者排序情况等。
目前AMiner 系统共收录 103 万研究者、314 万篇论文信息和8,046 多个会议信息,累积数据规模
已经达到2.35 TB,系统在线运行7 年多以来,吸引了220 个国家2,766,356 个独立 IP 的访问。吸引
了218 个国家210 万个独立IP 的访问(1 亿3 千460 万访问日志),访问量还在以每月平均20%左右
的速度增长。并且,系统 API 还得到全球最大出版社 Elsevier 和 KDD’10-’12, PKDD’11,
ICDM’11, WSDM’11, ISWC’10 等 20 余个重要国际会议进行论文-审稿人自动分发和提供语义信息服
务。同时,ArnetMiner 系统为社会网络挖掘的科学研究提供大量科研数据,已成为学术搜索和社会网
络挖掘研究的实验平台。
二、面向事件的新闻挖掘与搜索
NewsMiner ()是一个采用中文信息处理和文本挖掘技术实现的面向事件的
新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关
联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和
搜索服务。NewsMiner 包含4 个组件:
1. 数据采集:数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件,为系统
提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库,目前主要
从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相
关的用户生成内容并抓取百度百科、互动百科和Wiki 等公共的大规模知识库。
2. 新闻挖掘:新闻挖掘是 NewsMiner 中核心组件,为系统提供面向事件的新闻分析和挖掘算法。
主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻
文档识别命名实体(人物、地点、组织机构和时间)的过程,回答Who、Where 和When 的问
题;话题建模与分析是通过话题模型发现同一事件下的隐含话题,并通过概率分布分析事件、
话题和实体之间关系,是发现媒体和用户关注点的过程;知识链接是将新闻事件和实体和外
您可能关注的文档
最近下载
- 牛奶过敏的诊断、管理和预防意见书(2024).pdf VIP
- 西安2初一新生分班(摸底)数学模拟考试(含答案).doc VIP
- 2025年新版人教版四年级上册英语 四上Unit 4 Helping in the community单元整体教学设计.pdf VIP
- 中国碳化钨项目创业投资方案.docx VIP
- 内能的利用的学案.doc VIP
- 建筑与市政工程防水通用规范试题(含答案).doc
- 《中国儿童生长激素使用情况研究》.pdf VIP
- 万华化学经营分析报告.docx VIP
- 2025年中国PVB中间膜项目商业计划书.docx VIP
- 政府间国际科技创新合作重点专项2017年第二批项目.doc VIP
文档评论(0)