- 10
- 0
- 约5.29万字
- 约 59页
- 2016-08-14 发布于江苏
- 举报
摘
摘
要
要
在现代社会,互联网急剧地改变着我们的生活,面对互联网上巨量的信息,
如何得到我们真正想要的信息变成了一个非常重要的问题,网页分类便成为了
一个热点研究领域。网页分类就是根据一定的规则实现大量的网页的自动归类,
进而对网页进行有序组织,改善信息检索的性能,提高网络资源的利用率。特
征提取和加权是网页分类过程中的重要步骤,也是提高网页分类效率的前提,
算法的优劣直接影响到分类器的性能。
本文的工作是在“中文网页分类系统”的开发过程中,对网页分类技术进
行了较为深入的研究,包括中文网页信息提取、自动分词、特征提取、权值计
算、自动网页分类等方面,并基于传统的特征提取和权值计算算法提出自己的
改进算法。本文的主要工作如下:
首先,介绍了网页分类的国内外现状和研究方法,并指出课题研究的重点
和难点。
其次,我们较为深入地研究了传统的MI算法和tf-idf公式在网页分类中的应
用及其存在的不足,发现传统的MI算法忽视了互信息值为负的特征以及过分倾
向于低频词,另外传统的tf-idf公式忽视了特征项在类别之间的分布,并针对这
些不足对传统的算法提出改进,再通过实验证明改进的优越性和可行性。
最后,本文利用有监督的机器学习理论构建一个网页分类器。运用改进型
的互信息算法对分词结果进行特征提取,对传统的tf-idf加权公式进行了一些改
进,运用KNN算法构建分类器。进行了大量的实验,实验结果表明改进后的算
法相对传统算法具有优越性,实现了较高的精确度。
伴随着互联网上信息的飞速增长,网络数据挖掘越来越变成一个重要的学
术研究领域,中文网页分类作为网络数据挖掘领域的重要分支,具有重大的研
究价值和现实意义。
关键词:中文网页分类;特征提取;权值计算
I
Abstract
Abstract
In modern society, the Internet has been dramatically changing our lives. Facing
a huge amount of information on the Internet, the problem of how to get the
information we really want becomes a very important issue. Thus, page classification
has become a popular area of research. The web page categorization is a process
using computers to classify large quantity of web pages automatically according to
some categorization rules. It can organize the web pages orderly, improve the
performance of information retrieval system and increase the availability of web
resources. Feature selection and weights calculation are key steps of web page
categorization,they are also prerequisite to improving the efficiency of web page
classification. What’s more, the algorithm will directly affect the performance of
classifier.
In the process of establishing Chinese Web page classification System, we have
made a thorough study on the approaches of Web page classification, including
Chinese Web page information extraction、Chinese phrase segmentation、feature
extraction、weights calculation、classification of Web page, and etc. The author also
propose
您可能关注的文档
- 基于分形理论虚拟商店绩效评价的研究.doc
- 基于驾驶空间塔机安全监控装置界面设计的研究.doc
- 基于模板代码自动生成系统的研究及实现.doc
- 基于声音景观城市湿地景观设计初探——以成都金沙湖湿地为例.doc
- 基于太阳能热源第二类溴化锂吸收式热泵设计及仿真.doc
- 基于虚拟仪器电子实验系统的研究及设计.doc
- 基于需求及供给协同下山地组团城市多层次公交线网设计的研究.doc
- 基于医疗电子产品电源系统电磁兼容优化设计.doc
- 基于硬件实现BP神经网络电子鼻设计.doc
- 基于羽西品牌设计管理及品牌形象构建问题的研究.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 2020年北京中考英语试题及答案.pdf VIP
- 贷款结清证明.docx VIP
- 村两委换届模拟推演方案.docx VIP
- 有机化学——杂环化合物和生物碱.ppt VIP
- 2025年中考数学一模试卷(福建卷)含答案解析.pdf VIP
- 2025年菏泽职业学院单招语文测试试卷.docx VIP
- 三雄极光-商用照明项目专业产品手册(2023-2024).pdf VIP
- 杜邦dupont-FilmTec™Fortilife™ XC120 超高压反渗透膜元件-120bar.pdf
- 高处作业安全培训PPT课件.ppt VIP
- dwc_ble50combophy_tsmc40_databook数据手册解析.pdf VIP
原创力文档

文档评论(0)