web页面语义信息提取方法的研究计算机应用技术专业论文.docxVIP

下载本文档

0
0
约6.42万字
约 74页
2019-01-30 发布于上海
举报
版权申诉

web页面语义信息提取方法的研究计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

web页面语义信息提取方法的研究计算机应用技术专业论文

Study Study on Semantic Informatioin Extraction by Yang Peiying Supervisor：Professor Yu Ge Northeastern University June 2008 -J 独创声明本人声明，所呈交的学位论文是在导师的指导下完成的。论文中取得独创声明本人声明，所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外，不包含其他人己经发表或撰写过的研究成果，也不包括本人为获得其他学位而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢思o 学位论文作者签名：移卉取 ● 日期：少8-多，矽学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定：即学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后：半年函一年口一年半口两年口 ● ^ I 学位论文作者签名：导师签名：孑戈签字日期：朽橡矽咯-g-矽签字日期：厶舻占．易·矽 - 11 - 摘要Web页面语义信息提取方法的研究摘要 Web页面语义信息提取方法的研究摘要 Intemet作为一个庞大的信息资源库，已成为人们获取信息的主要途径之一，也是教育资源的重要来源。但是，随着网上资源爆炸式地增长，人们在Web上找到自己感兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程中遇到的困难，但是搜索引擎的弱点近年来逐渐显现，那就是它不能准确地提供给用户他们真正想搜索的信息，这是因为现有的Web内容，是以人浏览和理解为出发点而设计的，缺少计算机能够理解的信息，语义Web这时为解决此问题应运而生的。在现有的Web向语义Web过渡的过程中，人们无法立即舍弃现有的具有丰富信息的Web页面，所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web 页面语义信息提取工作需要大量的人工参与，而自动化程度较高的语义信息提取技术，性能相对较低，并且均采用定制的语言表达提取规则，缺乏通用性，系统不易升级。针对上述问题，本文提出一种Web页面语义信息提取模型，该模型可以自动地、批量地对Web页面进行语义标注，并自动提取领域的语义信息。具体地，使用了基于页面视觉特征技术的Web内容预处理技术，去除了网页内的噪音，提高了语义提取的速度和精度；提出了基于文本聚类的语义标注，使用基于段落的改进HAC算法，自底向上地对组成文档的各级段落进行聚类，对各级段落的候选关键词进行了提取和上卷，使聚类过程得到了各个语义层次的语义关键词；定义了“语义簇”的概念，设计了基于语义簇聚类的Web页面语义信息提取方法，根据文本聚类确定不同的阈值，控制语义实体的层次关系，利用语义簇相关度进行分析，建立语义簇之间的语义关联，并生成代表某～语义主题概念的用“种子语义簇”表示的词类，由此实现Web页面语义信息的提取。实验证明，基于段落层次的的改进HAC算法，缩减了语义关键词集合规模；基于改进HAC的语义簇聚类，在时间和精度上较传统算法具有更大的优势。关键词：语义Web；文本聚类；语义信息；语义簇聚类；信息提取东北大学硕士学位论文摘要 J -IV- 查!!垄堂壁主兰堡垒查一————————————————————————卫Study 查!!垄堂壁主兰堡垒查一————————————————————————卫 Study on Semantic Information Extraction from Web Page Abstract the pnmary mea工ls oI As a vaSt library of information resources，Intemet has become sources of educatiohal reso眦es· access to幽衄atio玛and its one of the most important HoweveL讹explosive growth of online resources，people fred themselves more di垃1cult t0 get证fbmation t11ey硫erest i11．The emergence of search engine technique eases the people m mc幽nn矗on searcl血g，but the weaknesses of se