《外文文献翻译译文--WINACS:基于Web的计算机科学信息网络构建和分析》毕业学术论文.docVIP

  • 9
  • 0
  • 约4.58千字
  • 约 7页
  • 2018-10-02 发布于广西
  • 举报

《外文文献翻译译文--WINACS:基于Web的计算机科学信息网络构建和分析》毕业学术论文.doc

华 北 电 力 大 学 毕 业 设 计(论 文)附 件 外 文 文 献 翻 译 学 号: 200 姓 名: 所在院系: 计算机系 专业班级: 软 指导教师: 原文标题: WINACS: Construction and Analysis of Web-Based Computer Science Information Networks 2011年 6月 日 WINACS(基于Web的信息网络分析计算机科学)是一个结合了很多数据科学领域最新研究成果的,基于Web的信息网络构建的并且发现,检索,分级,聚集,分析这些信息网络的项目。随着网络的飞速发展,大量的信息以网络文件,结构和链接的形式提供。获取非结构化web信息,并将其转化为半结构化的数据库范式,这一直是数据库和网络领域的一个梦想。 以计算机科学领域为例,WINACS首先发现相关的Web实体结构,然后构造一个异构的计算机信息网络,支持实体排名,网络聚类分析,并支持智能的分析与查询。 分类和主题描述:H.2.8 [数据库管理]:数据库应用,数据挖掘; H.3.3 [信息存储与检索]:信息查询与检索。 关键词:WINACS;Web挖掘;信息网络; Web挖掘和信息网络分析的最新研究进展表明,在异构信息的获取和综合分析上取得了可喜的成果。到目前为止,在信息网络和大规模网络的交叉点上只有有限的工作。具体来说,信息网络分析需要结构化的数据格式,但Web挖掘研究一直无法提供这种信息格式。 对这样的应用有不断增长的趋势,但只存在很少的能执行的实体发现或网络信息分析Web挖掘工具。此外,为我们所知,目前根本不存在这两种技术的交汇任何专利申请。该WINACS系统的目标是整合Web挖掘和信息网络分析以及其他几个国家的最先进的技术来促进排名,聚类分析和从网上各种实体的检索。 WINACS以计算机科学领域为示例研究。它发现网络实体结构,然后基于整合DBLP数据库内容和Web找到的实体构建异构计算机信息网络。它也支持信息浏览,查询应答和挖掘的搜索。 WINACS系统架构如图1所示,它由两个相互关联的部分组成:(1)离线挖掘,以及(2)在线查询检索。为了最大限度地提高整体系统性能,我们为每个部分采用不同的架构:对于离线挖掘部分采用了扩展业务的数据存储,对于在线数据查询检索部分采用了模型视图与轻量级网上查询检索服务导向架构的控制器。 图1 WINACS系统架构 离线挖掘部分负责系统的信息收集和综合分析工作。多数据源为后期的查询和挖掘分析做了预处理的工作。Web挖掘组件从网上收集和预处理数据,而信息网络分析组件聚类,排名在数据库中的信息。该模型由一个脱机运行SqlServer数据存储引擎组成,该动态模式包含一系列Web挖掘和网络信息分析的算法模块。当RDF格式的数据在Web挖掘过程中被发现,它也存储在脱机数据库进行分析。虽然Web挖掘组件的确使用脱机数据库的一些资料,但信息流程是从Web网页到离线数据库如图1中的箭头所示。 在指定的更新周期(如每天一次)的离线和在线查询挖掘部分同步,以便最新的来自网络的信息可以被用户查询。就其目前形式,WINACS没有分析用户的交互信息(例如,查询记录,通过数据点击),但是,这种功能会作为今后工作计划。 在线查询部分包括一个模型视图控制器架构。视图组件是一个Web应用程序,可以通过任何Web浏览器访问。查询和命令通过HTTP输入到Web应用程序,并传送到Web 服务器的控制器。访问在线数据库数据或进行更高级的查询处理,由对Web服务器的请求的性质而定(见2.3节)。 正如我们在前文所述,最近的一些数据科学研究促进了WINACS发展。我们基于新的算法性质将其分为三个类别:(1)Web结构挖掘,(2)信息网络分析,(3)先进的查询处理。 Web挖掘过程包括四个连续的步骤,下面将依次描述。 第一个模块是关于发现和提取网络上普遍的实体列表。我们发现这个问题的现行做法受限于繁重的假设,不能够适应大规模的现实网络。我们的方法,称为HyLiEn是一种无监督的,自动列表和网站上发现提取的混合办法。我们的提取方法采用一般的假设以名单的视觉呈现,和项目的结构示意图其中所含。该方法用途:(1)视觉对齐的盒子内的二维现代视觉盒模型用于生成Web浏览器候选人名单,以及(2)DOM结构对齐的盒子修剪不属于结构一致的候选人。 2.1.2实体发现 实体发现模块使用在前面的模块中通过网站建立的平行的路径,以便找到同样类型的实体的网页清单。这个模块工作给予网站和一个实体的页面,并返回作

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档