深网数据集成与挖掘关键问题的建模及算法分析-modeling and algorithm analysis of key problems in deep network data integration and mining.docx
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深网数据集成与挖掘关键问题的建模及算法分析-modeling and algorithm analysis of key problems in deep network data integration and mining
西安电子科技大学学位论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要随着Web在线数据库(WebDataBase,WDB)的激增,Web正在迅速地“深化”。通过WDB对外提供的唯一入口(表单/查询接口)有效地集成与挖掘蕴藏在深网WDB中海量丰富的信息十分必要和迫切。由于WDB查询接口嵌入在浩瀚的Web页面中,具有规模巨大、动态变化、异质和分布稀疏的“大数据”4V特征,因此,深网数据集成与挖掘的若干关键问题:如特定领域WDB入口的自动发现与识别、查询接口模式匹配和查询接口集成等一直是亟待解决的挑战性难题。本文针对已有算法对问题缺乏抽象建模,大多采用启发式或尝试与纠错的低效算法而无法有效求解问题的缺陷,采用抽象和形式化描述与问题求解方法,对上述关键问题的有效建模方法及可行高效算法进行了系统研究,所做工作及取得的主要研究成果如下:1)针对特定领域的WDB入口的自动发现与识别问题,作者首先将问题抽象为多目标优化问题,建立了多目标优化模型。之后,采用“分而治之”的思想,基于所提出的新的两步页面分类算法、链接打分机制、爬虫爬行停止条件和断点保护等一系列优化策略/算法,设计并实现了一种特定领域的高效的WDB聚焦表单爬虫E-FFC。理论分析与实验结果表明:E-FFC中所采取的各种优化策略/算法正确有效,其性能优于现有公开文献的特定领域的WDB聚焦表单爬虫。之后,为了进一步改进E-FFC的性能,作者给出了基于智能代理的可进行并行爬行的特定领域WDB聚焦表单爬虫框架iCrawler;2)针对特定领域查询接口集成中的模式匹配问题,作者基于所提出的查询接口属性负相关度量公式、语义相似度度量公式,有效地选择了三个模式匹配器,采用所构建的领域本体树及修正的证据理论组合规则,提出并实现了一种高效可行的特定领域的WDB查询接口复杂模式匹配算法;3)针对特定领域的WDB查询接口集成问题,作者首先将查询接口建模成一棵其对应属性的层次化有序树(简称为模式树),识别出了属性在其模式树应满足的三种约束:层次约束、组约束和顺序约束,提出了量化这三类属性约束的度量方法:属性约束矩阵。发现并证明了查询接口模式树与其对应的属性约束矩阵所存在的唯一对应关系。在此基础上,将查询接口集成问题转化为多目标优化问题,给出了问题模型,提出了一种基于模型的可行高效的问题求解算法;4)针对在深网数据集成与挖掘系统中所面临的信息公共模式抽取问题:MLCS问题,作者采用所提出的有效的数据划分、快速非支配分层排序及前向比较操作、并发线程调度等策略,提出并实现了一种改进的基于支配点的高效MLCS并行算法,该算法有效地解决了基于支配点的MLCS算法的性能瓶颈问题,是对已有的基于支配点的MLCS算法的较大改进。之后,作者对MLCS问题进行了更进一步深入的研究分析,揭示并理论证明了现有基于支配点的MLCS算法框架所存在的时间性能瓶颈和缺陷。针对此性能瓶颈和缺陷,提出了求解问题的无冗余公共子序列有向无环图(ICSG),并基于反链、并行集合、并行集合链(PCC)等概念,建立了问题模型ICSG+PCC。提出了分别通过一次正向和反向拓扑排序优化ICSG图(删除了其中所有的非关键点)的方法,创新性地提出了一种基于ICSG+PCC模型的新型高效的MLCS并行算法,理论分析与实验结果表明:所提出的MLCS并行算法的时间复杂度达到了线性级别,以压倒的优势优于现有最好的基于支配点的MLCS并行算法。关键词:深网数据集成与挖掘建模算法查询接口最长公共子序列ABSTRACTTheWebhasbeenrapidlydeepenedbythetremendousonlineWebdatabases(WDB)withthepotentiallyun
您可能关注的文档
- 社会学文本翻译研究——以《城市中国的逻辑》英译为例-a study on the translation of sociological texts - a case study of the english translation of.docx
- 社会养老保险筹资的困境和对策——基于国民收入分配理论的研究-dilemma and countermeasures of social endowment insurance financing - based on the research of national income distribution theory.docx
- 社会舆论对刑事案件审判影响分析-an analysis of the influence of public opinion on the trial of criminal cases.docx
- 社会责任理论视域下的社交媒体规范研究-research on social media norms from the perspective of social responsibility theory.docx
- 社会医疗保险基金偿付与费用控制分析-analysis of social medical insurance fund reimbursement and cost control.docx
- 社会学论文集cultural evolutionsociety,technology,language,and religionpart four英汉翻译实践报告-a practical report on english - chinese translation of cultural evolution society, technology, language, and dependence part four, a collect.docx
- 社会支持 职业决策自我效能对中职生职业成熟度的影响分析-analysis of the influence of social support career decision-making self-efficacy on career maturity of secondary vocational school students.docx
- 社会责任合作项目的治理机制——基于香港援建汶川地震灾区的案例-governance mechanism of social responsibility cooperation project - based on the case of hong kong - aided wenchuan earthquake disaster area.docx
- 社会证书考试发展现状与对策分析-analysis on the current situation and countermeasures of the development of social certificate examination.docx
- 社会责任信息 分析师关注与权益资本成本-concern of social responsibility information analysts and cost of equity capital.docx
- 深圳宏盛达五金厂创业管理案例分析-case analysis of shenzhen hongshengda hardware factory's entrepreneurial management.docx
- 深圳金湖运输公司经营管理分析及发展分析-analysis on management and development of shenzhen jinhu transportation company.docx
- 深圳经济开发区与区域经济发展的理论及实证分析-theoretical and empirical analysis of shenzhen economic development zone and regional economic development.docx
- 深圳华晶玻璃瓶有限公司的采购和供应管理研究-research on purchase and supply management of shenzhen huajing glass bottle co., ltd..docx
- 深圳宝安机场b航站楼生态优化设计分析-analysis on ecological optimization design of terminal b of shenzhen baoan airport.docx
- 深圳妈湾电厂煤码头改造工程epc项目组织管理分析-analysis on organization and management of epc project of shenzhen mawan power plant coal wharf renovation project.docx
- 深圳某光伏幕墙的热环境特性分析-analysis of thermal environment characteristics of a photovoltaic curtain wall in shenzhen.docx
- 深圳某产业综合体前景分析—发展与规划探讨-prospect analysis of an industrial complex in shenzhen - discussion on development and planning.docx
- 深圳某基坑桩锚支护结构位移有限元研究-finite element study on displacement of pile-anchor retaining structure of a foundation pit in shenzhen.docx
- 深圳市2型糖尿病患病情况及其危险因素调查分析-investigation and analysis on the prevalence and risk factors of type 2 diabetes in shenzhen city.docx
文档评论(0)