基于朴素贝叶斯分类器海上执法查询系统.docVIP

基于朴素贝叶斯分类器海上执法查询系统.doc

此“司法”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于朴素贝叶斯分类器海上执法查询系统

基于朴素贝叶斯分类器海上执法查询系统   摘 要:中国海警局正式挂牌成立后,因海洋法律未成体系,执法人员在法律和职责的学习上存在时间和执法需求的矛盾。本设计立足海警执法中的切实需求,将法典与案例相结合,设计出供海上法律查询系统,供执法人员查询、参考。常用的文本分类方法中朴素贝叶斯具有容易实现,运行速度快的特点。本设计使用朴素贝叶斯分类器,设计出海上执法查询系统。   关键词:朴素贝叶斯;文本分类;海上执法   在我国海上执法力量整合初期,海上执法人员来自海警、海监、渔政、海关等多个部门,这造成了海上执法人员对原其他部门职责和法律监管的范围不清楚。而我国涉及海洋的法律数目众多,对所有人员进行培训需要一个不短的时间。本设计针对这一问题,整合相关法律法规,并收集了大量的多部门的执法案例,建立系统模型,形成一个全面的数据库,为法典与案例模糊查询系统的开发提供知识库。   1 朴素贝叶斯分类器在文本分类的应用   常用的文本分类方法有支持向量机、决策树和朴素贝叶斯。其中朴素贝叶斯具有易实现,运行速度快的特点,被广泛应用。   1.1 朴素贝叶斯算法简介   令C={c1,……c|c|}是预定义的类别集,d={w1,……wn}是一个文档向量,则文档d属于类ci的概率可由条件概率P(ci|d )表示。为了最大限度地减小分类误差,文档d将被分到使P(ci|d )最大的类别ci中。而要求得条件概率,必须要先建立训练集。   根据贝叶斯公式:   事件的空间是整个文档空间,由于d是一个n维向量,为了简化计算出P(d|ci)的计算,朴素贝叶斯假定(属性间相互独立),即假定d属于类ci时,d中的元素wk的取值与wi的取值是相互独立的。这样由文档d对于类ci的条件概率就可以得到P(ci|d )的估计值。整个算法分为:   训练阶段:对每一个wk、ci估计先验条件概率P(wk|ci)和概率P(ci)。   分类阶段:计算后验概率,返回使后验概率最大的类。   1.2 文本分类问题   在文本分类中,假设文档d∈X,X为文档的向量空间,C={c1,……c|c|}是预定义的类别集。文档集合作为训练样本。   例如:={持伪造证件}   “持伪造证件“这句话在《中华人民共和国海事行政处罚规定》可以找到,因此将其标记为“海事行政处罚”。我们期望用某种训练算法,训练出一个函数γ,能够将文档映射到某一个类别:γ:X→C。这种类型的学习方法叫做有监督学习。朴素贝叶斯分类器是一种有监督学习。常见有两种模型,多项式模型和伯努利模型。二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度。在伯努利模型中,给定一组已分类的文本训练数据,如下:类别No中d1=,d2=,d3=,类别Yes中d4=,判断c=海事行政处罚规定?   假设文本中词之间相互独立,将文本用属性向量表示为d=(持,伪,造,证,件),类别集合为Y={Yes, No}。按照语言习惯,将文本中的词语进行约定划分。已知类No下总共有3个文件,类Yes下有1个文件,训练样本文件总数为18,因此P(No)=3/4, P(Yes)=1/4,   P(造|No)= P(未|No)= P(防污|No) =P(文书|No)= P(有|No)= P(他人|No)= P(入境|No)= P(必须|No)= P(伪|No)= (1+1)/(3+2)=2/5   P(持|No)=P(证|No)=(2+1)/(3+2)=3/5   P(海员|No)= P(件|No)= (0+1)/(3+2)=1/5   P(持|Yes)= P(伪|Yes)= P(海员|Yes)= P(证|Yes)= P(件|Yes)= (1+1)/(1+2)=2/3   P(造|Yes)= P(必须|Yes)= P(有|Yes)= P(入境|Yes)= P(他人|Yes)= P(未|Yes)= P(防污|Yes)= P(文书|Yes) =(0+1)/(1+2)=1/3   后验概率计算:   P(Yes | d)=1/4×2/3×2/3×1/3×2/3×2/3 ×(1-2/3) × ≈0.00032   P(No | d)= 3/4×3/5×2/5×2/5×3/5×1/5×(1-1/5)× ≈0.00019   因此,这个文档属于类别Yes,即属于标记为“海事行政处罚”的类别。   2 系统结构设计   2.1 系统结构   基于朴素贝叶斯分类器的海上执法查询系统设计,主要进行了人机接口,分类器以及系统知识库的设计。   系统结构分为:用户接口模块、输入分析模块、查询匹配模块、结论模块。   用户接口模块:实现用户数据的输入及系统结果的反馈功能;   输入分析模块:实现输入文本的分析,关键词

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档