自然语言处理与数据挖掘研究的应用.pdfVIP

下载本文档

9
0
约3.92千字
约 4页
2017-09-16 发布于重庆
举报
版权申诉

自然语言处理与数据挖掘研究的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

自然语言处理与数据挖掘研究的应用唐杰李涓子清华大学计算机系知识工程研究室清华大学计算机系知识工程研究室研究方向为网络环境下的知识工程，研究室融合自然语言处理、社会网络分析与挖掘和语义Web 技术，研究Web 信息处理的基础理论和关键技术。研究者社会网络挖掘与搜索系统ArnetMiner II 和面向事件的新闻挖掘与搜索系统Newsminer 是实验室应用多年的研究成果建立的在学术研究和新闻领域的应用系统。一、研究者社会网络的挖掘与搜索系统 ArnetMiner II （简称AMiner, ）是通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术，提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能，能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息，为科研的更好发展提供服务。 (a) 专家搜索。 (b) 会议分析。搜索数据挖掘领域专家、权威机构和相关学术近10 年国际会议SIGIR 引用次数最高的100 篇论文。用户可以个性化的定制搜索结构。文章在各年的分布，作者国籍(原籍)分布等。图1: 系统部分功能截图（）图 1 举例列举了 AMiner 系统的两个功能：(a) 专家搜索和 (b) 会议分析。其中在专家搜索中，用户输入查询词（例如：data mining），系统返回该领域专家、重要的国际会议和权威期刊或者权威机构以及相关学术论文。在该搜索中，用户还可以个性化的定制返回结果。在会议分析功能中，用户可以查看指定国际期刊或者国际会议近年引用次数最高的文章在各年的分布、作者国籍(原籍)分布、以及引用次数最高的作者排序情况等。目前AMiner 系统共收录 103 万研究者、314 万篇论文信息和8,046 多个会议信息，累积数据规模已经达到2.35 TB，系统在线运行7 年多以来，吸引了220 个国家2,766,356 个独立 IP 的访问。吸引了218 个国家210 万个独立IP 的访问（1 亿3 千460 万访问日志），访问量还在以每月平均20%左右的速度增长。并且，系统 API 还得到全球最大出版社 Elsevier 和 KDD’10-’12, PKDD’11, ICDM’11, WSDM’11, ISWC’10 等 20 余个重要国际会议进行论文-审稿人自动分发和提供语义信息服务。同时，ArnetMiner 系统为社会网络挖掘的科学研究提供大量科研数据，已成为学术搜索和社会网络挖掘研究的实验平台。二、面向事件的新闻挖掘与搜索 NewsMiner （）是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点（5W1H）出发，以事件为核心，利用话题分析与知识关联技术，从事件、话题、实体三个层面组织新闻，为用户提供一个更深入、更便捷的新闻事件理解和搜索服务。NewsMiner 包含4 个组件： 1. 数据采集：数据采集是从互联网上获取新闻事件相关数据并进行结构化处理的组件，为系统提供数据保障。新闻相关数据包括新闻专题报道、用户生成内容和大规模知识库，目前主要从新闻门户专题网站和百度热搜词获取新闻事件报道新闻、从微博和天涯等论坛获得新闻相关的用户生成内容并抓取百度百科、互动百科和Wiki 等公共的大规模知识库。 2. 新闻挖掘：新闻挖掘是 NewsMiner 中核心组件，为系统提供面向事件的新闻分析和挖掘算法。主要包括实体识别与抽取、事件话题模型与分析、以及知识链接。实体识别与抽取是从新闻文档识别命名实体（人物、地点、组织机构和时间）的过程，回答Who、Where 和When 的问题；话题建模与分析是通过话题模型发现同一事件下的隐含话题，并通过概率分布分析事件、话题和实体之间关系，是发现媒体和用户关注点的过程；知识链接是将新闻事件和实体和外