- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
独创性声明
本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的 研究成果。尽我所知,除文中已标明引用的内容外,本论文不包含任何其他人或集 体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文 中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即: 学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密口,在 年解密后适用本授权书。
不保密 口。
(请在以上方框内打“√”)
学位论文作者签名:
日期: 年 月 日
指导教师签名:
日期: 年 月 日
华 中 科 技 大 学 学 士 学 位 论 文
I
I
摘 要
随着信息化时代的来临,互联网中各种结构化(如web页面)以及半结构化(如 电子邮件,XML网页)文本数据规模呈现指数级增长并伴着信息存储技术的飞速发 展而累积了海量的文本数据。海量文本数据虽然蕴含着巨大的使用价值却给信息查 询者快速定位查询信息带来了困难。传统搜索引擎技术虽然在一定程度上可以帮助 人们快速检索出相关文档信息,但是由于其自身设计模式的局限性而引发的用户二 次检索的弊端导致其不能真正意义上解决上述问题。因而,作为下一代语义搜索引 擎重要研究方向的问答系统(Community-based Question Answering,cQA)引起了 研究学者们的广泛关注。问答系统中的文本数据是建立在信息检索与信息抽取技术 之上产生的,因而基于问答系统的文本数据挖掘比原始的互联网文本数据挖掘具有 更广泛的研究价值。本文结合人工智能和自然语言处理技术,重点针对大规模 cQA 问答语料库文本数据挖掘相关关键技术展开研究。
一般来说,单个 cQA 系统语料库中文本数据资源非常有限,而为了满足不同用 户复杂的信息查找需求,通常需要将多个具有不同层次结构的问答语料库进行有效 整合。在已有的文档目录整合算法中,大多只考虑了目标目录的层次结构或者是源 目录中单个目录结构,而往往忽略了源目录中丰富的层次结构信息。因此,本文结 合文本目录特殊的层次结构信息,着重讨论如何有效利用源目录树形结构中父子、 兄弟等层次结构关系信息来提高文本目录整合精度,从而提出了一种具有较强泛化 能力的自动化目录整合(Automatic Category Integration,ACI)算法来更多考虑源目 录中隐式的层次结构信息,性能评测结果表明,ACI 算法比以往的目录整合算法具 有更高的目录整合精度。
在文本数据挖掘中,最重要的一个研究课题是如何决定文本数据集中不同文本 的重要性。在本文中我们考虑将单个文本数据抽象成单个图数据节点,则文本数据 排序问题可转化为图数据节点排序问题。不同于传统的图数据节点排序问题,单个 文本数据通常带有丰富的异质属性信息,并且文本数据之间也具有多种不同的隐式 关联关系,但是现有的图排序算法往往忽略了上述丰富的异质属性信息而只考虑了 简单的图结构信息。另一方面,cQA 系统检索出的相关文本数据集规模通常较为庞
II
II
大,已有图排序算法大都受限于过高的算法时间复杂度而不能处理大规模的图数据
排序问题(少数几种除外,如 PageRank 算法)。针对以上问题,本文提出了一种半 监督图排序(Semi-Supervised Graph Ranking,SSGR)算法模型来有效利用上述丰 富的异质属性信息进行更高精度的图数据排序。为了验证 SSGR 算法模型的有效性, 本文还提出了一种基于 SSGR 算法模型的半监督图排序(Semi-Supervised Pagerank, SSP)算法,该算法利用参数化图模型来编码图数据中丰富的异质属性信息并引入 约束变量作为损失函数来保证图排序结果与外部先验知识保持一致。实验结果显示, SSP 算法较以往的图排序算法具有更加优良的排序性能。
cQA 系统平台为了解决社区协作机制缺乏实时性的问题,通常会提供类似搜 索引擎的检索功能来帮助人们快速获取信息。但是,cQA 系统检索模式返回给用 户的是与之查询相关的问答文本列表,这不可避免的带来了用户二次检索的困扰。 针对该问题,本文首次提出利用自动化文摘的方式处理 cQA 系统检索出的文本 数据集,并将该问题形式化定义为普聚类的优化问题。但是,一般普聚类问
您可能关注的文档
- 面向推荐系统的概念知识库-计算机科学与工程专业毕业论文.docx
- 曼氏无针乌贼SCD基因克隆与生物信息学分析-海洋生物学专业毕业论文.docx
- 米糠蛋白的提取及其抗氧化肽的研究-食品科学专业毕业论文.docx
- 考虑滞留的急救一体化床位资源优化配置研究-管理科学与工程专业毕业论文.docx
- 面向领域的Web文本采集与分类-计算机软件与理论专业毕业论文.docx
- 面向大规模定制的模块化产品族设计-管理科学与工程专业毕业论文.docx
- 煤拔头中试装置半焦气力输送的数值模拟-热能工程专业毕业论文.docx
- 绵羊体细胞核移植体系的建立与优化-生物学专业毕业论文.docx
- 旅游微博,旅游者决策行为与旅游企业互动关系研究——以深圳华侨城集团景区为例-管理学旅游管理专业毕业论文.docx
- 面向汽车零部件制造企业的车间质量稳定性控制系统研究-机械制造及其自动化专业毕业论文.docx
最近下载
- 第08讲 绝对值三角不等式(5种题型)(原卷版)_1.docx VIP
- 山东师范大学影视文学研究期末考试复习题.docx
- 成品油管道工程项目社会稳定风险评估报告(中国市场经济研究院-工程咨询-甲级资质).pdf VIP
- 大九九乘法表(完美)-乘法表全图.docx VIP
- JGJ-T304-2013:住宅室内装饰装修工程质量验收规范.pdf VIP
- JJG 1124-2016 门座(桥架)起重机动态电子秤检定规程.docx VIP
- 古文观止注音详解卷四秦文修订稿.pdf VIP
- 九年级物理18章电功率集体备课教案.docx VIP
- 过程装备控制技术及应用-全套课件(PDF版).pdf VIP
- 2024马克思主义发展史第2版配套题库里面包含考研真题课后习题和章节题库总共170页.pdf VIP
原创力文档


文档评论(0)