- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web页面语义信息提取方法的研究计算机应用技术专业论文
Study
Study on Semantic Informatioin Extraction
by Yang Peiying
Supervisor:Professor Yu Ge
Northeastern University June 2008
-J
独创声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得
独创声明
本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢
思o
学位论文作者签名:移卉取
●
日 期:少8-多,矽
学位论文版权使用授权书
本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。
作者和导师同意网上交流的时间为作者获得学位后: 半年函 一年口 一年半口 两年口
●
^
I 学位论文作者签名: 导师签名: 孑戈
签字日期: 朽橡 矽咯-g-矽签字日期:厶舻占.易·矽
- 11 -
摘要Web页面语义信息提取方法的研究
摘要
Web页面语义信息提取方法的研究
摘 要
Intemet作为一个庞大的信息资源库,已成为人们获取信息的主要途径之一,也是 教育资源的重要来源。但是,随着网上资源爆炸式地增长,人们在Web上找到自己感 兴趣的资源越来越困难。搜索引擎技术的出现在一定程度上缓解了人们在搜索信息过程 中遇到的困难,但是搜索引擎的弱点近年来逐渐显现,那就是它不能准确地提供给用户 他们真正想搜索的信息,这是因为现有的Web内容,是以人浏览和理解为出发点而设 计的,缺少计算机能够理解的信息,语义Web这时为解决此问题应运而生的。在现有 的Web向语义Web过渡的过程中,人们无法立即舍弃现有的具有丰富信息的Web页面, 所以现有Web页面的语义信息提取就成为能否向语义Web顺利过渡的关键。目前的Web 页面语义信息提取工作需要大量的人工参与,而自动化程度较高的语义信息提取技术, 性能相对较低,并且均采用定制的语言表达提取规则,缺乏通用性,系统不易升级。
针对上述问题,本文提出一种Web页面语义信息提取模型,该模型可以自动地、 批量地对Web页面进行语义标注,并自动提取领域的语义信息。具体地,使用了基于 页面视觉特征技术的Web内容预处理技术,去除了网页内的噪音,提高了语义提取的 速度和精度;提出了基于文本聚类的语义标注,使用基于段落的改进HAC算法,自底 向上地对组成文档的各级段落进行聚类,对各级段落的候选关键词进行了提取和上卷, 使聚类过程得到了各个语义层次的语义关键词;定义了“语义簇”的概念,设计了基于语 义簇聚类的Web页面语义信息提取方法,根据文本聚类确定不同的阈值,控制语义实 体的层次关系,利用语义簇相关度进行分析,建立语义簇之间的语义关联,并生成代表 某~语义主题概念的用“种子语义簇”表示的词类,由此实现Web页面语义信息的提取。
实验证明,基于段落层次的的改进HAC算法,缩减了语义关键词集合规模;基于 改进HAC的语义簇聚类,在时间和精度上较传统算法具有更大的优势。
关键词:语义Web;文本聚类;语义信息;语义簇聚类;信息提取
东北大学硕士学位论文 摘要
J
-IV-
查!!垄堂壁主兰堡垒查一————————————————————————卫Study
查!!垄堂壁主兰堡垒查一————————————————————————卫
Study on Semantic Information Extraction
from Web Page
Abstract
the pnmary mea工ls oI
As a vaSt library of information resources,Intemet has become
sources of educatiohal reso眦es·
access to幽衄atio玛and its one of the most important
HoweveL讹explosive growth of online resources,people fred themselves
more di垃1cult t0
get证fbmation t11ey硫erest i11.The emergence of search engine technique eases the people m
mc幽nn矗on searcl血g,but the weaknesses of se
您可能关注的文档
- 从科层制到一站式泗阳县行政服务中心发展的策略选择公共管理;行政管理专业论文.docx
- 对内容图式及其与英语阅读相关性的研究英语语言文学专业论文.docx
- 鱼峰产品品牌发展战略研究管理科学与工程专业论文.docx
- 多壁碳纳米管负载tio2对全氟有机化合物的光催化降解效果与机理分析环境科学专业论文.docx
- 福柯的身体理论文艺学专业论文.docx
- 催化裂化原料油加氢脱氮催化剂研究化学工程与技术专业论文.docx
- web单点登录技术的应用研究计算机软件与理论专业论文.docx
- 大学生幸福感结构的研究发展与教育心理学专业论文.docx
- 电信运营商基于crm在市场形态划分下的营销流程再造分析信息管理与信息系统专业论文.docx
- 鼻咽癌的分子靶向治疗联合放疗的临床实验研究肿瘤学专业论文.docx
- 非经营性政府投资工程建设项目代建制管理模式研究技术经济及管理专业论文.docx
- sy公司财园信贷通案例分析金融学专业论文.docx
- 估计中国的frisch弹性西方经济学专业论文.docx
- 60富勒烯钯铂钼金属有机化合物的合成结构及性质研究有机化学专业论文.docx
- 独一味环烯醚萜苷镇痛抗炎作用及其机理研究生物学生物化学与分子生物学专业论文.docx
- 反应型荧光探针用于过氧化氢和葡萄糖的检测食品工程专业论文.docx
- 场域扩展对中国青年学生政治社会化的影响研究思想政治教育专业论文.docx
- 尿道滴白的原因探讨外科学泌尿外专业论文.docx
- 高速旋转试验机关键技术的研究机械电子工程专业论文.docx
- iip中基于mina框架的统一接口的设计与实现计算机科学与技术专业论文.docx
文档评论(0)