- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NaLSiSe工具的设计与实现x.docx
NaLSiSe工具的设计与实现
本文主要是将对基于自然语言的软件信息检索工具NaLSiSe(Natural Language based Software information Search engine)的设计和实现做详细的介绍。
系统框架
NaLSiSe工具主要包含以下三个功能:
完成软件信息的获取:实现对代码的解析,得到其基本结构信息,并通过推理得到增量信息;对文档中的描述信息进行提取,通过对文档进行句子切分,得到每个句子的三元组描述;建立代码与文档之间的关联,并通过代码之间的关系、代码与文档之间的关系得到文档与文档之间的关系;
实现基于自然语言问题的查询构造:支持用户输入自然语言的问题,并对问题进行分析,然后针对问题的不同特点构造相应的查询:包括SPARQL查询、三元组查询以及关键词查询。
实现软件信息的检索:结合对RDF图的检索和对文本的检索,根据三元组匹配、相似度计算和文档关联得到不同的检索结果,并通过排序机制将这些结果整合起来返回给用户。
基于上述提到的三个功能,NaLSiSe的系统框架图如下所示。工具主要包括三个模块,即:软件信息获取模块、查询构造模块、软件信息检索模块。其中,软件信息获取模块包括代码解析、文档中的描述信息获取、文档与代码关联构造三个子模块;查询构造模块包括问题分析、查询构造两个部分;软件信息检索模块包括RDF图检索和文本检索两个子模块。
图 SEQ Figure \* ARABIC 1 系统框架图
软件信息获取模块的设计与实现
为了帮助开发人员更快的学习一个软件项目,首先需要面向软件项目的代码和文档进行软件信息获取,以便于在后续的工作中可以使用这些信息。
图2 软件信息获取示意图
如上图所示,我们获取的信息主要包括三个方面,即代码结构信息、文档中的描述信息、代码与文档的关联信息。下面,我们将逐个说明如何实现三个方面信息的获取。
2.1代码解析子模块的设计与实现
本小节将详细介绍代码解析子模块的设计与实现,首先是代码基本结构的解析,然后是基于推理的增量信息获取。基本结构的解析依赖于现有的开源工具Eclipse JDT,最终得到代码的类与方法信息,然后得到类与类之间的关联信息。基于推理的增量信息获取主要借助于基本的代码调用信息,然后结合RDF图上的相关推理,从而得到间接的代码调用信息。
2.1.1代码基本结构解析
本文定义的代码基本结构信息包括:代码类信息,方法信息,类与类之间的继承、调用和关联信息等。其基本结构解析的类图如图3所示。
图3 代码基本结构解析的类图
ElementInfoPool类:该类用于表示代码中的类信息、方法信息和属性信息,其类型均采用哈希表的形式,即存储每一个实体的name和其基本信息。
FileLoader类:读取文件列表,核心方法是loadJavaFiles( ),输入参数为源代码的路径,返回参数为File类型的List集合。
ASTVisitor类:开源工具Eclipse JDT的抽象语法树访问类。其中定义了默认的访问方法和结束访问方法。
JavaASTVisitor类:继承了ASTVisitor类,根据本文的场景加入elementInfoPool以及parseMethod参数,且重写了Visit方法,用于访问语言单元结点。
JavaParser类: 该类用于解析java文件,输入参数为待解析的java文件列表,并用elementInfoMap存储解析得到的结果。
JavaReverser类:代码基本结构解析的核心类。该类不关心使用什么方法得到的基本信息,具体解析方法由JavaParser实现。它由两个核心的方法:
(1)reverse()方法,通过调用FileLoader、ElementInfoPool、JavaParser类的方法,得到代码的类信息、方法信息、域信息。
(2)generateTypeRelation( )方法,遍历每个类的信息、方法信息、域信息,得到类与类之间关系的信息,最终用写入文件的形式保存中间结果,供后续工作对其组织存储。
2.1.2 基于推理的增量信息获取
我们用RDF图对上述得到的结果进行组织存储,利用Jena的编程框架对其进行结构化处理,并利用推理规则进行调用关系的推理。规则示例如下:
String rules = [rule1: (?a sei#call ?b) (?b sei#call ?c) - (?a sei#call ?c)];
其中,sei是RDF图的前缀,该规则表示sei#call 是一种传递关系。其类图如图4所示:
图4基于推理的增量信息获取类图
OntModel接口: Jena工具的RDF模型,包含很多方法,图中显示的部分是本工作用到的一些方法,如创建一个类、创建一个对象属性、写入模型、增加一条陈述等。
Rea
您可能关注的文档
- CIK细胞回输的护理.ppt
- CIS分期系统对预测肝癌预后的价值研究.pdf
- cjun氨基末端激酶在兔蛛网膜下腔出血后脑血管痉挛中的作用.pdf
- CTA在大动脉炎诊断中的应用价值.pdf
- CT技术在低渗透砂岩岩心试验中的应用_梁亚宁.pdf
- CT能谱成像在诊断肿瘤淋巴结转移和肿瘤性质中的作用.pdf
- c游标卡尺__千分尺的使用.ppt
- DC_CIK细胞联合化疗治疗晚期非小细胞肺癌的临床探讨_李冰.pdf
- dd糖尿病下肢动脉病变的干细胞治疗.pdf
- DNA甲基化对核小体结构的影响.ppt
- DB23_T 3866-2024冰上龙舟赛事组织服务规范.docx
- DB32 2163-2012 棉纱单位可比综合电耗限额及计算方法.docx
- DB32∕T 2429-2013 棉花田间生长发育观察记载规范.docx
- DB23_T 3820-2024 工业互联网综合平台数据质量管理规范.docx
- DB23_T 3474-2023非煤智慧矿山信息系统技术规范.docx
- DB3201_T 1106-2022 工程地质层划分技术规范.docx
- DB33T 2515-2022公共机构“零碳”管理与评价规范.docx
- DB3301_T 0415-2023 装修垃圾收运处置管理规范.docx
- DB3311/T 106―2019“丽水山居”民宿服务要求与评价规范.docx
- DB3201T 1127-2022 慈善捐赠受赠管理规范.docx
最近下载
- 亿赛通电子文档安全管理系统V5.0--客户端使用手册V1113379.pdf VIP
- [标准规范]煤矿窄轨铁道维修质量标准及检查评级办法(精编).doc VIP
- 人教统编版小升初语文总复习专题七:句式变换课件(共28张PPT).ppt VIP
- 2025重庆永川区板桥镇村(社区) 后备干部选拔笔试备考试题及答案解析.docx VIP
- 深度解析《GBT 44026-2024预制舱式锂离子电池储能系统技术规范》.pptx
- 品质部各岗位职责说明书.pdf VIP
- 2022.01 深圳南山红花岭工业区城市更新项目一期建筑方案设计 华艺.pdf VIP
- 电冰箱安全技术规程培训.pptx VIP
- 07FK02 防空地下室 通风设备安装.pdf VIP
- 解决我国农民负担问题的路线图设想-中国发展.pdf
文档评论(0)