基于最大熵模型中文网页分类器设计和实现-design and implementation of chinese web page classify based on maximum entropy model.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于最大熵模型中文网页分类器设计和实现-design and implementation of chinese web page classify based on maximum entropy model
第一章序言基于最大熵模型的中文网页分类器设计和实现(NSTI)(NationalInstituteofStandardsandTechnology)、信息技术实验室(ITL)(InformationTechnologyLaboratory)检索小组、美国国防部高级研究计划署(ARPA)(AdvancedResearchProjectsAgency)信息技术处、高级研究开发机构等单位共同主持召开了信息检索会议TREC(TextREtrievalConference)[1],至今己召开了十七次(从1992年起,每年一次)。在国外,文本自动分类的研究起步较早,文本自动分类是信息检索领域中的主要研究对象,20世纪50年代末,H.P.Luhn就在这一领域进行了开创性研究,提出了词频统计思想用于自动分类[2]。1960年,Maron发表了关于自动分类的第一篇论文[3],随后众多学者在这一领域进行了卓有成效的研究工作。到目前为止,国外的文本自动分类研究己经从最初的可行性基础研究经历了试验性研究进入到了实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得了较为广泛的应用[4]。国内对于文本自动分类的研究起步较晚,1981年,侯汉清教授对于计算机在文本分类工作中的应用做了探讨,由于中英文之间存在着较大差异而无法直接照搬国外的研究成果。随着中文信息处理技术特别是中文自动分词技术的日渐成熟,以此为基础的中文文本分类技术的研究得到了快速发展,并取得了一定的成就。网页分类是由纯文本分类技术发展而来的。近年来,研究者们结合机器学习方法和人工智能的技术进行了大胆的探索,提出了多种分类模型和分类算法。目前文本分类的研究[5]大致分为以下三类:(1)向量空量模型(VSM)(VectorSpaceModel))表示法,文档表示为特征词向量,向量中元素对应词频,丢弃了特征词在文档中的顺序信息,也称为BOW表示。使用VSM的算法大多属于基于词频统计的学习方法,特征词通常要进行选择实现降维,文档向量根据特征词权重对词频权值进行调整。(2)SOW(StructureOfWords)表示,跟VSM相比词频信息,只关心特征词是否出现。使用SOW的算法有C4.5、Ripper、FOIL等符号规则归纳算法。(3)基于词义的表示,VSM和SOW表示方式没有考虑特征词的语义信息,基于文档语义进行分类也是一个研究方向。Web页面与纯文本页面的主要区别在于,除了文本部分以外,Web页面又添加了一些其它信息,如声音、图像、页面格式以及文字链接等,这些都是在分类过程中值得参考的一些因素。基于最大熵模型的中文网页分类器设计和实现第一章序言1.3课题研究目的与相关问题本文面对人们处理中文网页这一现实问题,处理的对象是收集的各类真实网页。基于文本数据挖掘和自然语言处理技术,采用文本分类算法、统计语言模型知识及结合网页的特点,提出了一个中文网页分类器的设计及实现。课题主要解决以下几个问题:网页语料的解析及预处理网页分类算法分析语料的特征分析和提取网页分类器的设计1.4论文的结构第一章序言论述论文的研究背景与意义以及论文的主要工作。第二章网页分类的相关技术介绍介绍网页语料的提取技术,特征选择算法和分类方法,为分类器的实现提供了技术保障。第三章网页语料提取与预处理分析了网页的主要标签,比较得出特征项,并在此提出基于CSS的网页信息提取算法实现,并分词标注了网页语料,将其转换成系统能识别的XML格式。第四章网页分类器的设计与实现介绍了系统设计环境和设计框架,进而得出系统设计流程,介绍了系统实现的部分程序和模块,最后展示了系统演示。系统所用的语料都是从新浪网站上的真实网页资料,介绍了系统运行的实验结果,分析各个特征项组合对分类性能的影响。第五章总结与展望总结全文,并展望下一步需要研究的工作。第二章网页分类的相关技术介绍基于最大熵模型的中文网页分类器设计和实现第二章网页分类的相关技术介绍2.1网页信息提取的相关工作在Web信息提取领域,已经有大量的研究工作,JIYINGWANG[6]等将网页解析成DOM树,提出了DSE(Data-richSubtreeExtraction)算法来提取HTML网页的主题信息。王琦等人[7]在STU的基础上提出了STU-DOM模型,进行基于结构的过滤和基于语义的剪枝。另外,还有基于规则和模版的提取方法[8],通常是面向特定领域、特定网站或者针对特定格式,由于用户访问Internet有很强的随机性,因此这种方法有它使用的局限性。李蕾[9]提出了一种基于快速傅立叶变换的网页正文内容提取算法。采用窗口分段的方法,利用统计学原理和FFT,得出每个可能区间的权值,从而求解出最佳正文区间,此算法主要适合“正文式”的网页。2.2网页分类一般架构所谓网页分类,就是在给定的分类体系下,根据网页
您可能关注的文档
- 基于轴棱锥ndyag激光器腔内倍频产生贝塞尔绿光-bessel green light generated by intracavity frequency doubling of axicon ndyag laser.docx
- 基于重复控制技术的压缩机变频驱动数字控制分析-analysis of digital control for variable frequency drive of compressor based on repetitive control technology.docx
- 基于轴棱锥的ndyag激光器腔内倍频产生贝塞尔绿光-bessel green light produced by intracavity frequency doubling of ndyag laser based on axicon.docx
- 基于重庆地域文化的轨道交通工具设计分析-analysis of rail transit vehicle design based on chongqing regional culture.docx
- 基于周期性结构的紧凑型无线通信微带天线分析-analysis of compact wireless communication microstrip antenna based on periodic structure.docx
- 基于主成分分析法对我国上市公司综合评价的分析-analysis of comprehensive evaluation of listed companies in china based on principal component analysis.docx
- 基于主成分方法的空调系统传感器故障诊断与检测-sensor fault diagnosis and detection of air conditioning system based on principal component method.docx
- 基于逐线积分的氧气a吸收带透过率的算法分析-algorithm analysis of oxygen a absorption band transmittance based on line-by-line integration.docx
- 基于主动轮廓模型的脑肿瘤分割技术分析-analysis of brain tumor segmentation technology based on active contour model.docx
- 基于主从结构的微电网综合控制策略分析-analysis of integrated control strategy for microgrid based on master-slave structure.docx
最近下载
- 江汉大学《C语言程序设计》2022-2023期末考试试卷.pdf VIP
- 一年级《红色文化》(上册)全册教案.docx VIP
- 反比例函数(反比例函数与几问题)反比例函数(反比例函数与几何问题)反比例函数(反比例函数与几何问题)反比例函数(反比例函数与几何问题).doc VIP
- 《女仆》剧本(整理).pptx VIP
- 教科版五年级上册科学期末试卷及答案教案.docx VIP
- 急诊科副主任述职报告.pptx
- (职级管理规定.doc VIP
- 高杆灯受力性能计算和分析报告.doc VIP
- 教科版五年级上册科学期末试卷及答案.pdf VIP
- 青岛黄海学院《中国近代史纲要》2023-2024学年第一学期期末试卷.pdf VIP
原创力文档


文档评论(0)