C-DBLP中文文献信息集成系统.PDFVIP

下载本文档

39
0
约8.18千字
约 6页
2017-04-05 发布于安徽
举报
版权申诉

C-DBLP中文文献信息集成系统.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

C-DBLP: 中文文献信息集成系统陈威王仲远 C-DBLP（）是一个以作者为中心的面向计算机领域的中文文献集成系统，由本实验室 Web 组开发完成，于 2008 年 10 月中旬正式对外发布。该项目是实验室承担的国家 863 课题“海量数据空间模型、索引与查询技术研究”（项目编号 2007AA01Z155）下的一个子项目，是我们在个人数据空间中 Web 上个人信息管理机制的一次尝试。在 C-DBLP 系统开发过程中，我们形成了一个可扩展的软件平台，可用来管理具有丰富数据的学术社区（Community）。通过对计算机领域研究人员这个社区的文献信息的分析和处理，我们在学术社区信息管理（Academic Community Information Management）方法上也取得了一定的研究进展。 Ⅰ 系统简介计算机科学文献库 DBLP Computer Science Bibliography 在学术界有很好的声誉，给人们带来了极大的便利，其权威性也得到了研究界的高度认可。然而 DBLP 不提供对中文文献的收录和检索功能，国内的权威期刊及重要会议的论文缺乏一个类似的集成检索系统。 WAMDM 实验室自 2000 年开始研究 Web 数据集成的相关技术，先后在 Web 数据抽取、数据库选择、查询转换等方面积累了丰富的研究工作和技术成果，并一直在尝试利用研究成果去解决人们在 Web 使用中面临的问题。针对中文文献缺乏权威的收录和检索系统的现状，我们尝试着在计算机领域中建立一个类似于 DBLP 的文献集成系统。2008 年暑假中，我们利用 WAMDM 实验室积累下来的 Web 集成技术，短短几个星期就成功搭建了系统原型，高质量地集成了我国计算机科学领域 11 本权威期刊自创刊以来及中国数据学术会议（NDBC）2000 年至 2008 年来共 5 万余篇文献，提供基于作者的文献检索服务，并在此基础上开展了社区信息管理的研究。这就是面向计算机领域的中文文献集成系统 C-DBLP。通过两个月的试运行，实验室在 2008 年 10 月中旬正式对外发布了 C-DBLP 系统，并根据用户反馈不断改进系统功能。我们的工作得到了研究界高度认可，中国计算机学会网站和《中国计算机学会通讯》都登载了该系统的发布报告（如图 1 所示）。图 1 C-DBLP 的系统发布新闻系统对外发布后，我们还得到了来自广大用户的肯定。截至 12 月初，搜索引擎中 Google 已收录本站近 7 万页面，百度也已收录本系统近万条记录。C-DBLP 网站的访问量反映了我们的工作得到了许多用户的关注，从系统发布以来的用户访问情况（如图 2 所示）可以看出，越来越多的用户开始关注 C-DBLP，系统网站的访问量总体上不断上升，到 12 月上旬系统平均每日向近两千位用户提供文献检索服务。我们相信，随着系统功能的演进，C-DBLP 将会得到更多的关注和认同。图 2 C-DBLP 系统发布以来用户访问量情况 Ⅱ C-DBLP 与学术社区信息管理在传统的个人数据管理场景中，本地计算机是存储和处理个人信息的主要载体，如何在桌面电脑中有效管理个人数据是研究界最关注的问题。然而随着 Web 提供越来越强大的功能和更好的用户体验，blog 等面向个人的应用不断涌现，更多的用户选择 Web 作为发布和处理个人信息的平台，这使包含海量的个人信息的 Web 在人们的工作和生活中扮演着越来越重要的角色。区别于本地计算机中个人信息的有限性和规则性，Web 上的个人数据具有高度的异质性和更大的数据量，Web 场景下个人数据的发现和管理给研究人员带来了不小的挑战。针对这一现状，WAMDM 实验室在 Web 上的个人数据管理方面进行了一些探索性的研究。根据用户行为和偏好分析，我们发现 Web 上存在着许多的社区（Community），这些社区由成员（People）和存储该社区相关信息的多个数据源（Data Sources）组成。社区是用户的松散组织，由具有相同爱好的，关注相同领域的用户组成，比如喜欢希区柯克的电影的人组成的社区，计算机领域研究人员构成的社区等。Web 中数据的高度异质性使个人数据的发现和管理面临重重困难，而 Web 上的这些具有相同爱好或关注相同领域的社区提供了一个新的发现和管理个人数据的途径。通过对社区相关信息的集成和分析，我们可以精确定位并抽取每个社区成员的个人信息，并进而为该成员构建 Web 上的个人数据空间，提供个人数据管理服务。为了探索 Web 上的个人数据管理的方案，我们在学术社区信息管理的场景下提出了实体（Entity）和关联（Association