- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web信息智能获取若干关键问题研究计算机软件与理论专业论文
摘要因特网(Intemet)为人们开辟了~个共同的、全新的天地。人们在这个虚拟的世界里,以一
摘要
因特网(Intemet)为人们开辟了~个共同的、全新的天地。人们在这个虚拟的世界里,以一 种全新的方式进行交流。任何人在任何时间、任何地点都可以通过网络发布任何信息,这使得网 络成为最重要的信息来源。但是面对潮水般涌来的电子文献,人们变得无所适从。所以研究Web 信息智能获取技术以帮助用户快速、准确地定位到自己需要的信息,具有广泛的应用背景和实用 价值,已经成为近年来的研究热点。基于这样一个前提,本文对Web信息获取若干关键问题,包 括信息采集、信息抽散、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和麻刚三个 层次上进行了深入细致的研究,主要贡献和创新点包括如F几个方面:
(1)通过对Web信息采集过程及其实例系统分析,基于主体的基本理论与技术,提出了一种 网络信息采集的多主体模型,并在实验室研制的多主体环境MAGE下完成了建模和实现。同时 针对用户的个性化信息需求,通过分析研究Web主题页面的特点,提出三种主题相关性计算模型: 基丁链接关系的URL主题相关性计算模型、基于URL描述信息的主题相关性计算模型、基r网 页内容语义的相关性计算模型,并且基于三种主题相关性计算模型实现了专题跟踪采集模式。实 验结果验证了基于多主体的信息采集模型的灵活性、开放性、高效性、易于实现性以及三种主题 相芙性计算模型的有效性。
(2)通过分析Web噪音数据存在的特点,提出了三种噪音数据判别模型:基于URL标记信息 的噪音判别模型、基于噪音数据冗余特点的判别模型、基于URL标记文本信息熵的噪音数据判 别模型,弗且基于这三种判别模型实现了Web噪音数据去除算法。实验结果验证了三种噪音老除 模型的可行性和有效性。Web噪音去除算法可以有效解决数据质量问题,从而可以提高后续文本 分类、聚类、事什探测和追踪、事件来龙去脉的生成等文本挖掘算法的性能。
(3)提山了一种基于概率统计和规则相结合的新词/短语发现算法。该算法首先对语料库进行 分词和词性标注,然后基于“二元语法”统计模型对分词和标注后的语料库进行共现分析得到原 始的二元统计结果,并且基于统计公式进行选词,但是结果不是很理想。为此,通过大量分析汉 语组词规律,提出了多种选词规则:词性、词长、禁用词等规则.然后利用这些规则对统计选词 后的结果进行层层过滤,最后只需很少的人工干预就可得到质量很高的新词,短语。实验结果验证 了基于概率统计和规则方法相结合的新词发现算法的有效性,它有效地结合了统计方法速度快和 规则方法质量高的特点。
(4)通过分析网络新闻的特点,借鉴Single.Pass聚类思想提出了一种基于动态模型的新闻事 件探测和追踪算法。动态模型可有效地改善新闻事件探测和追踪算法的效率,它包括:基于时间 距离的相似度计算模型、动态蒯值设置和事件模板进化思想。为了提高算法执行的速度,我们还 提出了“类间距离”的思想及其两种计算“类间距离”的方法。实验结果验证了基于时间距离的 相似度计算模型的有效性以及引入“类间距离”后算法执行的高效性。
(5)提出了一种事件来龙去脉生成算法。该算法是基于时间要素和新颖性计算模型.将报导
Web信息智能获取若干关键问题研究:摘要同一事件的所有新闻文档的摘要进行组织,然后根据粒度要求对组织结果进行处理最后生成事件
Web信息智能获取若干关键问题研究:摘要
同一事件的所有新闻文档的摘要进行组织,然后根据粒度要求对组织结果进行处理最后生成事件 来龙去脉。为了保证事件来龙去脉的质量,提出了段落主题相关性判别模型用来保障单篇摘要与 事件主题的相关性:同时提出了一种新颖性计算模型用来保证事件来龙去脉信息的非冗余性。借 鉴已有的自动摘要评测方法,提出了一种事件来龙去脉评测模型。实验结果显示了主题相关性判 别模型、新颖性计算模型和事件来龙去脉评测模型的有效性。事件来龙去脉为事件信息的概括描
述提供了一条思路,是网络新闻智能化服务的有益探索。
科学研究的最终目的是研究成果能够在实际中得到应用。基于此目的.我们将本文的研究结 果和实验室其他同学的研究成果有机地结合起来,实现了一个完整的网络信息智能获取和处理系 统GHunt。本文给出了系统的功能框架和体系结构,提出了GHunt对信息获取过程和获取知识的 元数据管理模型,并用实验结果验证了系统的性能。GHunt是我们多年来研究成果的结晶。是研 究成果走向产品化的重要环节,同时也为后续研究开发提供了一个很好的平台和检验环境。如果 想详细了解GHunt系统,可访问地址http://www.intsci.ac.cn/GHuntWeb/。
关键词:信息获取,信息抽取,知识发现,数据挖掘,文本挖掘.Web挖掘,信息采集,主题采 集,噪音玄除,信息
您可能关注的文档
- 供应链柔性研究企业管理专业论文.docx
- 从认知角度看隐喻在跨文化交际中的意义英语语言文学专业论文.docx
- 福建省农村普通高中问题与管理对策研究教育经济与管理专业论文.docx
- 中国古代失眠病的防治史研究中国医学史专业论文.docx
- 高效解磷细菌筛选及接种盆栽柱花草的效益研究生态学专业论文.docx
- 电力负荷管理系统的设计与应用研究电气工程专业论文.docx
- 多肽及其衍生物的化学合成药物化学专业论文.docx
- 《生活在中国人中间》第十章及《中国北方游记》第十八章翻译实践报告-翻译学专业论文.docx
- 不同秸秆还田方式对坡耕地土壤co2与n2o排放的影响生态学专业论文.docx
- γ聚谷氨酸和耐盐植物联合修复设施栽培盐渍化土壤环境工程专业论文.docx
- 普通小麦dh155抗白粉病基因mldh155的分子作图及其分子标记辅助转移作物专业论文.docx
- 电动汽车四轮驱动控制策略的研究控制工程专业论文.docx
- β磺内酰胺类化合物水解反应机理的量子化学研究理论与计算化学专业论文.docx
- 带电旋转黑洞的谐和度规及其外场中粒子的后牛顿动力学电磁场与微波技术专业论文.docx
- 分布式基站中分组调度算法的研究通信与信息系统专业论文.docx
- 编组站作业计划优化编制若干问题研究系统工程专业论文.docx
- 高温胁迫对一串红生长发育的影响园艺专业论文.docx
- 车辆排气污染物测试技术研究与工程实现精密仪器及机械专业论文.docx
- 不对称交叉脱氢偶联串联自氧化与过渡金属lewis酸催化有机化学专业论文.docx
- 安徽庐剧的考察与研究艺术学;音乐学专业论文.docx
原创力文档


文档评论(0)