- 4
- 0
- 约6.86万字
- 约 64页
- 2019-01-30 发布于上海
- 举报
web信息内容及其特征提取方法研究计算机应用技术专业论文
摘要
摘要 随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来
源。然而Web信息的滥用也成为互联网领域的一大难题,比如,不法分子通过BBS、 专栏、电子邮件等进行反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪现象 日益严重;远程教育中,抄袭作业的现象为教学管理带来了严峻的挑战。这就需要找 出这些Web信息的发布源并予以处置。然而这些Web信息的发布者总是试图隐藏其真 实身份以逃避侦察,所以通过发布信息者的名称、IP地址、邮件头等信息找出Web 信息发布源是一件很困难的事情。如何同一认定Web信息发布源已经成为当前亟需解 决的问题。
在Web信息发布源同一认定的研究中,Web信息内容及其特征提取是作者身份识 别过程中的基础问题。因为任何算法和技术都是以特征为基础来进行分类或判断的, 特征提取的正确与否、质量高低直接影响到分类识别的精度。而内容提取的准确与否 在一定程度上也影响了特征提取的效率。所以本文的研究目的就是以中文Web信息文 本为研究对象,分析研究Web信息的内容及其特征提取方法,为Web信息发布源同一 认定的研究奠定基础,最终达到识别Web信息作者真实身份的目的,为计算机取证提 供依据,追究Web信息作者的责任,具有重要的应用价值和现实意义。
迄今为止,大部分相关研究主要集中在文本分类,但是由于Web信息文本与普通
文本在形式和语言表达及文本篇幅长短上的差异,文本分类的特征不太适合Web信息 特征的选择。国外针对作者同一认定的研究已有初步的研究成果报道,但是由于中文 和外文的差异,其理论和方法对于中文Web信息不太适合。国内针对中文电子邮件作 者的身份特征研究已有开展,但是邮件的特征还不能完全应用于其它类型的Web信 息,并且针对各类形式Web信息特征的提取,还没有一个统一的解决方案。所以在这 一领域还存在许多需要解决的问题。
本文首先对Web信息发布源同一认定研究领域的国内外研究现状进行了论述,探 讨了现有的研究技术和方法;在详细分析Web信息格式及内容的基础上,根据HTML 页面与电子邮件在格式结构上的差异,分别探讨了HTML页面和电子邮件的内容提取 技术。对Web页面主题文本的提取,邮件信息提取,邮件内容解码等方法进行了研究; 给出了利用结点主题相关性判定Web页面主题内容的方法,以及过滤邮件中回复行和 广告行内容的方法。
针对中文Web信息,在分析和比较了Web信息文本与普通文本区别的基础上,借 鉴已有研究成果,给出了可用于中文Web信息的特征模型,详细地分析了中文Web 信息作者的写作特征,包括语言特征、词汇特征、结构特征以及格式特征等,并对各 类特征的提取方法进行了研究;针对语言特征中潜在特征词的提取问题,给出了利用 关联规则提取文本中的潜在特征词的方法,在一定程度上克服了分词程序的缺陷;在 文本分类知识的基础上,借鉴已有研究成果,给出了中文Web信息特征表示方法、特 征选择方法和特征权重的计算模型,明确各项特征在Web信息发布源同一认定中的重
要性以及相互关系。
要性以及相互关系。 为了验证所给出的模型和方法的正确性和可行性,本研究对HTML页面内容提取,
电子邮件内容提取,以及Web信息特征提取方法进行了实验。实验结果初步验证了本
研究所给出的算法和方法的可行性,从而为后续的研究工作奠定了基础。 关键词: Web信息;同一认定;内容提取;写作特征:特征提取;特征选择
Research
Research on the Extraction Method of胍b Content and Its Features
Author:HU Yan Supervisors:Teng Guifa Zhou Guihong
Major:Computer Applied Technology
AbStract
With the rapid development of Intemet.Web information has become one of the important sources of information.Unfortunately.the phenomenon of Web information misusage becomes a major problem.For example,the virus and spam,even fraud,terrorist threats in BBS.copying in remote education etc.and the damage is increasing.This needs to detect the true author of Web information and take measure.Ho
您可能关注的文档
- 诗经中概念隐喻的认知参照点阐释外国语言学及应用语言学专业论文.docx
- 公益性出版单位的社会绩效评价指标体系研究传播学专业论文.docx
- 供应链中的柔性管理及质量控制问题研究管理科学与工程专业论文.docx
- 非磁性元素掺杂稀磁半导体和复合软磁材料的研究材料物理与化学专业论文.docx
- 粉末注射成形催化脱脂研究材料学专业论文.docx
- 高中学生学习数学困难的非智力原因及其相应的教育对策研究学科教学数学专业论文.docx
- 脱离源语语言外壳假说对口译可译性限度中文化障碍的消除外国语言文学英语语言文学专业论文.docx
- 表柔比星联合多西他赛方案新辅助治疗局部进展期乳腺癌的临床研究临床医学专业论文.docx
- 电针联合离子导入治疗膝骨性关节炎的疗效观察针灸推拿学专业论文.docx
- 分段功能梯度温差电器件的研究电子与通信工程专业论文.docx
最近下载
- LKJ2000型列车运行监控装置用户手册V5.3.DOC VIP
- 如何开一家废品回收站?.docx VIP
- 2026年河南水利与环境职业学院单招职业适应性测试题库含答案详解.docx VIP
- 小学常用单词分类汇总国标手写斜体英语字帖(含例句).pdf VIP
- 古野全圆扫描声纳CSH-5L MARK-2、CSH-5L MARK-2中文说明书.pdf VIP
- pe管穿越施工方案.docx VIP
- 医疗废物专车运输协议.docx
- 技术监督管理标准水利发电厂.doc
- Q/CR 482 高速铁路CRTSII型板式无砟轨道滑动层标准.pdf VIP
- 《原发性肝癌诊疗指南(2026年版)》解读PPT课件.pptx VIP
原创力文档

文档评论(0)