- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
水环境政策知识图谱构建关键技术分析综述
目录
TOC\o1-3\h\u6794水环境政策知识图谱构建关键技术分析综述 1
131831.1政策-水环境影响因素本体库的构建 1
180041.1.1水环境政策本体库的构建流程 2
129041.1.2水环境政策本体构建的具体实现 2
18861.2知识抽取 2
266491.2.1基于BERT的预训练词表征模型 3
259871.2.2基于隐马尔可夫模型的命名实体识别技术 3
49041.2.3基于条件随机场的命名实体识别技术 3
190701.2.4基于BiLSTM-CRF的命名实体识别技术 4
35491.3文本分类 4
187001.1.1多层感知机 4
8451.1.2用于文本分类的卷积网络——TextCNN 5
240791.4知识存储 6
26661.4.1数据存储结构 6
9961.4.2基于Neo4j的知识存储 6
160111.5模型评测方法 6
1.1政策-水环境影响因素本体库的构建
本体是对知识图谱中实体、关系以及属性、属性值的描述和规定,是知识图谱的概念层,在很大程度上会影响知识图谱构建的质量。为了建立水环境政策本体库,本研究利用原始政策文本,收集相应的时间,发布部门等信息作为政策的属性。每一个政策都可以作为政策本体库中的本体。以便后期对新的政策文本分析时可以迅速在图谱中定位到相似的政策文本。除此之外,水环境影响因素也可以作为知识图谱中本体的一部分。不同的政策本体中都会有相应的水环境影响因素,因此政策和水环境影响因素都作为水环境政策-影响因素的本体。
1.1.1水环境政策本体库的构建流程
本文通过人工的方式构建相应的水环境政策本体库,再在此基础上依据对知识的抽取对政策本体进行改良。本文计划按照以下步骤构建政策本体库:
明确本体的应用研究领域
收集政策本体文件
确定政策本体的属性和属性值
提取政策文本相应的关键影响因素
完成本体库的构建
1.1.2水环境政策本体构建的具体实现
本文在上节中介绍了水环境政策本体库的构建流程,这一节将依据上述流程具体介绍实现的细节。
明确本体的应用研究领域
构建本体的第一步是明确本体的应用领域和知识范围。只有了解了具体的应用范围,才能有针对性地构建本体。本文构建知识图谱的对象为水环境政策文本和相应的水环境影响因素。水环境政策包括法律、条例、方案、意见、制度、规则、细则和措施等几类。主要研究的城市为武汉市,因此政策选取的层级包括国家层面,省部级层面和武汉市这个层面。
收集政策本体文件
本文的政策文本相关文件主要来自于北大法宝。通过设立搜索关键词,按照国家层级、省级和市级三个层面收集相关的法律、制度、方案或者意见等。将搜集的政策进行预处理,并将其中的无关信息筛去,作为原始政策文本。
提取相关属性信息
在北大法宝中,文件有发布的部门与日期等信息。将每一项政策的发布部门,时间等信息组织起来作为政策本体的属性。政策-水环境影响因素知识图谱的属性以及属性值如下列表3-1所示:
表3-1水环境政策知识图谱属性及属性值
水环境政策本体
政策标题
政策标题,本研究将政策文本标题进行了去重,保证标题唯一性。
发布日期
政策发布日期
发布机构
发布机构大致包括国家,湖北省以及武汉市三个层面的相关部门
完成政策-水环境影响因素本体库构建
通过上述的步骤,初步完成了水环境政策本体库的构建,除此之外在分析水环境政策的过程中将提取其中水环境影响因素作为政策-水环境影响因素知识图谱的另一本体库。接下来,依据本体库进行知识图谱的构建。
1.2知识抽取
政策-水环境影响因素本体库的构建任务初步完成,基于的本体库,可以运用实体抽取的相关技术抽取存在于政策文本中的知识数据作为构建知识图谱的数据层。在本文章的第二部分已经将现有的知识抽取的技术进行了梳理,这一部分将对相关的模型进行介绍。
1.2.1基于BERT的预训练词表征模型
BERT是双向Transformer结构,能够很好地捕获上下文信息,BERT是通过字的上下文来获取其义(token),而非形。苹果手机与传统意义的苹果明显所指不同,但是BERT可以通过上下文的不同给两个苹果以不同的token,也就是词表征,从而解决一词多义问题。
传统的词袋模型随着语料增多,词库逐渐庞大,严重影响训练速度,并且即使大词表仍无法处理未登录词(OutOfVocabulary,OOV)问题,影响训练效果。中文领域BERT可以不以词为单位转而以字为单位,利用字组成词从而在一定程度上解决OOV问题。
1.2.2基于隐马尔可夫模型的命名实体识别技术
隐马尔可夫模型(HiddenM
您可能关注的文档
- 2025【兰州市兰州石化公司人力资源管理信息系统建设问题及对策论文任务书】.doc
- 2025【平凉市平凉海螺水泥公司企业所得税税收筹划方案设计论文任务书】.doc
- 2025【张掖张掖巨龙铁合金会计成本核算所存在的问题及对策2300字】.doc
- 2025【庆阳市庆阳石化公司人事助理的社会实践报告2700字】.doc
- 2025【武威甘肃莫高实业公司基层员工激励问题研究开题报告(含提纲)】.doc
- 2025【天水市天水华天电子乳业公司质量管理体系中存在的问题与对策开题报告】.doc
- 2025【武威甘肃莫高实业企业应收帐款管理情况的调查报告3400字】.doc
- 2025【平凉市平凉海螺水泥公司发展思考与对策开题报告文献综述3000字】.doc
- 2025【企业员工招聘问题与对策—以兰州市兰州石化为例开题报告文献综述2800字】.doc
- 2025【金昌金川集团公司财务管理问题分析开题报告(含提纲)】.doc
- 2025【兰州市兰州石化公司管理人员招聘的问题与对策12000字】.doc
- 2025【集装箱起重机抗倾覆稳定性验算过程案例2000字】.docx
- 2025【张掖张掖巨龙铁合金公司应收账款管理问题及对策15000字】.doc
- 2025【天水市天水华天电子公司中高层领导力现状、问题及对策9200字】.doc
- 2025【武威甘肃莫高实业公司薪酬管理现状、问题及改进策略研究8700字】.doc
- 2025【武威甘肃莫高实业公司文化建设优化研究15000字】.doc
- 2025【青青稞酒财务绩效分析案例报告12000字(论文)】.doc
- 2025【光伏发电系统的分类分析1700字】.docx
- 2025【临夏州临夏华安生物集团财务共享中心实施效果分析的案例报告8200字】.doc
- 2025【我国中小企业薪酬激励机制研究—以金昌金川集团公司为例9700字】.doc
最近下载
- 2025年医疗器械经营质量管理制度、工作程序文件目录.pdf VIP
- 浅谈小学数学核心素养之运算能力.pdf VIP
- 2023年我国蚕桑产业发展态势与未来发展建议.docx VIP
- 电力变压器声纹检测技术导则.docx VIP
- 调度员考核管理细则梳理.docx VIP
- 《建设工程施工合同》GF2024—0201.docx VIP
- 会计师事务所的执业质量控制制度.pdf VIP
- 2021《森林消防队伍基础设施、装备及制度建设标准》.pdf VIP
- 《水利水电工程单元工程施工质量验收评定标准-地基处理与基础工程》(SL 633-2012).pdf VIP
- (高清版)-B-T 2423.18-2021 环境试验 第2部分:试验方法 试验Kb:盐雾,交变(氯化钠溶液).pdf VIP
文档评论(0)