web信息内容及其特征提取方法研究计算机应用技术专业论文.docxVIP

  • 4
  • 0
  • 约6.86万字
  • 约 64页
  • 2019-01-30 发布于上海
  • 举报

web信息内容及其特征提取方法研究计算机应用技术专业论文.docx

web信息内容及其特征提取方法研究计算机应用技术专业论文

摘要 摘要 随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来 源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、 专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象 日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找 出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真 实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web 信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解 决的问题。 在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识 别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的, 特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否 在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文 本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一 认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提 供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。 迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通 文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息 特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文 和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作 者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信 息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这 一领域还存在许多需要解决的问题。 本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探 讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML 页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取 技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究; 给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和 广告行内容的方法。 针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借 鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web 信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各 类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用 关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在 文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特 征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重 要性以及相互关系。 要性以及相互关系。 为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取, 电子邮件内容提取,以及Web信息特征提取方法进行了实验。实验结果初步验证了本 研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。 关键词: Web信息;同一认定;内容提取;写作特征:特征提取;特征选择 Research Research on the Extraction Method of胍b Content and Its Features Author:HU Yan Supervisors:Teng Guifa Zhou Guihong Major:Computer Applied Technology AbStract With the rapid development of Intemet.Web information has become one of the important sources of information.Unfortunately.the phenomenon of Web information misusage becomes a major problem.For example,the virus and spam,even fraud,terrorist threats in BBS.copying in remote education etc.and the damage is increasing.This needs to detect the true author of Web information and take measure.Ho

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档