- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
上海交通大学 学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研 究工作所取得的成果。除文中已经注明引用的内容外 本论文不包含任何其他 个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人 和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本 人承担。
学位论文作者签名: ?叫树
日 期 : _1主{ 3一年_/月一主日
上海交通大学硕士学位论文摘要
上海交通大学硕士学位论文
摘要
万方数据
万方数据
基于维基类目网络和 URL 模式树的网页分类方法探
究
摘 要
分类是信息检索中的一个重要问题,而网页分类对于提高互联网服务质量 尤其意义重大。诸多互联网上的关键应用包括站点目录、搜索引擎、网页爬 虫、推荐系统、用户行为分析系统和广告投放系统无不依赖于高效而准确的页 面分类来提高服务质量。针对这些应用中涉及到的分类问题,有许多分类方法 相继被提出,其中包括基于页面内容的文本分类方法。基于页面内容的分类方 法依赖于正文质量,如果正文质量太差,或者文本长度太短,会导致分类性能 的下降。随着一些大规模词典和类目体系的建立,基于第三方词库的分类方法 引起了广泛的关注。第三方词库可以提供现成的语义类目,一方面可以作为辅 助信息增强语义识别能力,提高分类的精度;另一方面可以直接用于分类,这 样的分类方式能从一定程度上解决短文本的分类缺陷,并且不需要依靠训练 集,能高效地进行分类。
本文的分类建立在全网环境,全网环境数据结构复杂、噪声多、干扰强, 使用传统的分类方法,一方面如果文本质量太差,会大大影响分类的准确率; 另一方面,全网数据量庞大,使用传统分类方法势必要通过引入大量训练集来 训练分类模型,可能无法进行高效地分类。本文提出了一种基于维基网络的主 题分类模型,词汇量和语义都及其丰富的维基类目网络涵盖了大量词汇,并且 维基百科是在线实时编辑系统,很多词汇甚至能“与时俱进”,从而对全网范 围的词汇有较好的覆盖。另外,这种分类方法不需要依赖训练集来训练模型, 只要完成了维基网络的类目关联就可以用于分类预测。同时,尽管维基类目词 汇实时变化,但是整个类目体系相对比较稳定,从而本方法可以在长时间内保 持有效。我们在实验阶段对比了传统的基于页面内容的分类方法,证明本方案 的可行性。
另外,本文还创新性地提出了基于 URL 模式树的站点功能分类方法,基
i —
于 URL 模式树的功能分类借鉴了自然语言处理的语法树核函数(Tree Kernel)
的方法,构造了 URL 语法规则和 URL 语法树,并通过改进的 Tree Kernel 来进 行站点功能的分类。
关键词: 网页分类 维基网络 URL 模式树 大数据
ii —
上海交通大学硕士学位论文ABSTRA
上海交通大学硕士学位论文
ABSTRACT
Research towards Web Classi?cation based on Wikipedia Category Network and URL Pattern Tree
ABSTRACT
Classi?cation is a major problem in the ?eld of Information Retrieval.Web clas- si?cation which targeting on classi?cation problems in web pages, therefore, plays a signi?cant role in web mining. Most web applications rely on accurate classi?cation to improve the quality of services. Such application includes the maintenance of web directories, search engine, page crawler, recommendation system, user pro?le system and online advertising. Many research e?orts have been devoted into these areas as to ?nd out solutions for speci?c issues, accompanying with the purpose of highly e?- cient category mechanisms, among which content-based classi?cation method is most straightforward and meanwh
您可能关注的文档
- 基于树形奇偶机的神经网络同步方案-计算机系统结构专业论文.docx
- 基于微控制器的自动扶梯电控系统-计算机技术专业论文.docx
- 基于可重构柔性试验床的管控平台研究-计算机应用专业论文.docx
- 基于前端处理噪声环境下稳健的说话人识别研究-信号与信息处理专业论文.docx
- 基于特征提取的篡改图像取证研究-计算机应用技术专业论文.docx
- 基于容性设备泄漏电流的嵌入式电网过电压在线监测系统研究-电气工程专业论文.docx
- 基于手指的人机交互系统研究与实现-电路与系统专业论文.docx
- 基于网格的任务调度算法研究-计算机应用技术专业论文.docx
- 基于随机影响的多智能体系统的一致性与同步-运筹学与控制论专业论文.docx
- 基于决策树分类算法的Web文本分类分析-计算机应用技术专业论文.docx
- 基于输入整形技术的固晶机柔性臂减振研究-控制科学与工程专业论文.docx
- 基于神经网络的运行变压器故障诊断技术及其应用-电气工程专业论文.docx
- 基于内分泌算法的机器人行为控制-控制科学与工程专业论文.docx
- 基于网络的硅酸钠配料远程监控系统设计-控制科学与工程专业论文.docx
- 基于银行网点自助设备的远程分发管理系统的设计和实现-软件工程专业论文.docx
- 基于外资利用的我国船舶工业产业安全评价及预警机制研究国际贸易学专业论文.docx
- 基于需求的物流配送车辆路径问题的研究-应用数学专业论文.docx
- 基于数据挖掘技术的导诊系统的研究与实现-计算机应用专业论文.docx
- 基于无线通信的瓦斯监控系统的设计-电子与通信工程专业论文.docx
- 基于调频网络的混沌雷达信号产生-通信与信息系统专业论文.docx
最近下载
- 城轨机电职业生涯规划书.pptx VIP
- 门窗安装施工方案.docx
- 大学生社会实践课件-大学生社会实践概述.pptx VIP
- 8《我们受特殊保护》第二课时(教学设计)部编版道德与法治六年级上册 .docx VIP
- 银子弹计划详解.ppt
- 高中英语-新外研版必修一unit5-The-Monarch‘s-Journey-公开课reading.pptx VIP
- HSE-001-HSE管理制度完整版.docx VIP
- 北师大版(2012)2025-2026学年九年级数学上册 1.1.1 菱形的性质 练习题含答案.doc VIP
- 福州福清港头220kV输变电工程环境影响报告书.docx
- 2025年房地产经纪人谈判中的法律法规应用专题试卷及解析.pdf VIP
原创力文档


文档评论(0)