NaLSiSe工具的设计与实现x.docxVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NaLSiSe工具的设计与实现x.docx

NaLSiSe工具的设计与实现 本文主要是将对基于自然语言的软件信息检索工具NaLSiSe(Natural Language based Software information Search engine)的设计和实现做详细的介绍。 系统框架 NaLSiSe工具主要包含以下三个功能: 完成软件信息的获取:实现对代码的解析,得到其基本结构信息,并通过推理得到增量信息;对文档中的描述信息进行提取,通过对文档进行句子切分,得到每个句子的三元组描述;建立代码与文档之间的关联,并通过代码之间的关系、代码与文档之间的关系得到文档与文档之间的关系; 实现基于自然语言问题的查询构造:支持用户输入自然语言的问题,并对问题进行分析,然后针对问题的不同特点构造相应的查询:包括SPARQL查询、三元组查询以及关键词查询。 实现软件信息的检索:结合对RDF图的检索和对文本的检索,根据三元组匹配、相似度计算和文档关联得到不同的检索结果,并通过排序机制将这些结果整合起来返回给用户。 基于上述提到的三个功能,NaLSiSe的系统框架图如下所示。工具主要包括三个模块,即:软件信息获取模块、查询构造模块、软件信息检索模块。其中,软件信息获取模块包括代码解析、文档中的描述信息获取、文档与代码关联构造三个子模块;查询构造模块包括问题分析、查询构造两个部分;软件信息检索模块包括RDF图检索和文本检索两个子模块。 图 SEQ Figure \* ARABIC 1 系统框架图 软件信息获取模块的设计与实现 为了帮助开发人员更快的学习一个软件项目,首先需要面向软件项目的代码和文档进行软件信息获取,以便于在后续的工作中可以使用这些信息。 图2 软件信息获取示意图 如上图所示,我们获取的信息主要包括三个方面,即代码结构信息、文档中的描述信息、代码与文档的关联信息。下面,我们将逐个说明如何实现三个方面信息的获取。 2.1代码解析子模块的设计与实现 本小节将详细介绍代码解析子模块的设计与实现,首先是代码基本结构的解析,然后是基于推理的增量信息获取。基本结构的解析依赖于现有的开源工具Eclipse JDT,最终得到代码的类与方法信息,然后得到类与类之间的关联信息。基于推理的增量信息获取主要借助于基本的代码调用信息,然后结合RDF图上的相关推理,从而得到间接的代码调用信息。 2.1.1代码基本结构解析 本文定义的代码基本结构信息包括:代码类信息,方法信息,类与类之间的继承、调用和关联信息等。其基本结构解析的类图如图3所示。 图3 代码基本结构解析的类图 ElementInfoPool类:该类用于表示代码中的类信息、方法信息和属性信息,其类型均采用哈希表的形式,即存储每一个实体的name和其基本信息。 FileLoader类:读取文件列表,核心方法是loadJavaFiles( ),输入参数为源代码的路径,返回参数为File类型的List集合。 ASTVisitor类:开源工具Eclipse JDT的抽象语法树访问类。其中定义了默认的访问方法和结束访问方法。 JavaASTVisitor类:继承了ASTVisitor类,根据本文的场景加入elementInfoPool以及parseMethod参数,且重写了Visit方法,用于访问语言单元结点。 JavaParser类: 该类用于解析java文件,输入参数为待解析的java文件列表,并用elementInfoMap存储解析得到的结果。 JavaReverser类:代码基本结构解析的核心类。该类不关心使用什么方法得到的基本信息,具体解析方法由JavaParser实现。它由两个核心的方法: (1)reverse()方法,通过调用FileLoader、ElementInfoPool、JavaParser类的方法,得到代码的类信息、方法信息、域信息。 (2)generateTypeRelation( )方法,遍历每个类的信息、方法信息、域信息,得到类与类之间关系的信息,最终用写入文件的形式保存中间结果,供后续工作对其组织存储。 2.1.2 基于推理的增量信息获取 我们用RDF图对上述得到的结果进行组织存储,利用Jena的编程框架对其进行结构化处理,并利用推理规则进行调用关系的推理。规则示例如下: String rules = [rule1: (?a sei#call ?b) (?b sei#call ?c) - (?a sei#call ?c)]; 其中,sei是RDF图的前缀,该规则表示sei#call 是一种传递关系。其类图如图4所示: 图4基于推理的增量信息获取类图 OntModel接口: Jena工具的RDF模型,包含很多方法,图中显示的部分是本工作用到的一些方法,如创建一个类、创建一个对象属性、写入模型、增加一条陈述等。 Rea

文档评论(0)

aiwendang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档