- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
独 创 声 明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得 (注:如没有其他需要特别声明的,本 栏可空)或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:
学 位 论 文 版 权 使 用 授 权 书
本学位论文作者完全了解 学校 有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权 学校 可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)
学位论文作者签名: 导师签字: 签字日期:2012 年 月 日 签字日期:2012 年 月 日
山东师
山东师范大学博士学位论文
I
I
目 录
摘 要 I
ABSTRACT III
第 1 章 绪论 1
1.1 研究背景及意义 1
1.1.1 互联网规模的扩大 1
1.1.2 互联网迅速发展带来负面影响 2
1.1.3 信息过滤研究的意义 2
1.2 文本信息过滤关键技术概述 4
1.2.1 数据包捕获技术 4
1.2.2 文本切词技术 4
1.2.3 特征权重计算和特征选择 6
1.2.4 文本表示模型 6
1.2.5 文本分类 8
1.3 文本信息过滤面临的问题 10
1.3.1 国外相关研究 10
1.3.2 国内研究进展 11
1.3.3 目前研究存在的问题 12
1.4 研究内容及贡献 13
1.4.1 研究环境 13
1.4.2 研究内容 13
1.4.3 本文贡献 15
1.5 论文组织结构 15
第 2 章 融合段落特性的文档权重计算方法 17
2.1 引言 17
2.2 预备知识 18
2.2.1 常用权重计算方法 18
2.2.2 常用性能比较和分析 19
2.3 融合段落特征的文本权重计算方法 20
2.3.1 文档形式化表示 20
2.3.2 文档权重的计算 20
2.3.3 重要句子的权重计算 21
2.3.4 特征项的位置权重 21
2.3.5 文档中特征项的权重确定 22
2.4 实验分析 23
2.4.1 实验语料 23
2.4.2 实验环境 23
2.4.3 评价指标 23
2.4.4 评价方案 24
2.4.5 评价与结果分析 25
2.5 小结 27
第 3 章 基于模糊遗传算法的文本信息过滤模板生成方法 29
3.1 引言 29
3.2 理论可行性分析 29
3.2.1 问题表达 30
3.2.2 集合论中几个重要概念 30
3.2.3 收敛性假设 31
3.2.4 问题收敛性分析 31
3.3 过滤方法实现 32
3.3.1 问题描述 32
3.3.2 问题编码和解码 32
3.3.3 种群规模控制 34
3.3.4 适应度函数选择 35
3.3.5 遗传参数的自适应调整 35
3.4 实验分析 36
3.4.1 训练集 36
3.4.2 测试集 37
3.4.3 开发和运行环境 37
3.4.4 评价指标 37
3.4.5 文本分类实验 38
3.5 小结 39
第 4 章 基于概念的逻辑段落匹配方法 41
4.1 引言 41
4.2 预备知识 41
4.3 基于概念的逻辑段落划分方法 42
4.3.1 文档预处理 42
4.3.2 概念变换 43
4.3.3 词义消歧 43
4.3.4 应用特征词的层次聚类方法 43
4.3.5 逻辑段落概念词语的单一性 44
4.3.6 文本分类的段落化匹配 45
4.3.7 基于概念的概念扩充和关联词语扩充 45
4.4 段落化匹配的实现 46
4.5 实验与分析 47
您可能关注的文档
- 基于数字图像处理的玻璃缺陷在线检测系统的研究-机械制造及其自动化专业论文.docx
- 基于遗传算法和神经网络的菊花组培苗生长建模农业电气化与自动化专业论文.docx
- 基于内容的网页恶意代码检测的研究与实现-信息安全专业论文.docx
- 基于偏微分方程的图像去噪与修复方法研究-信号与信息处理专业论文.docx
- 基于数据挖掘技术的高校过程考核成绩管理系统的研究与实现-软件工程专业论文.docx
- 基于可拓理论的智慧建筑综合评价研究-工程经济与管理专业论文.docx
- 基于遗传算法优化的BP神经网络速度观测器研究电力电子与电力传动专业论文.docx
- 基于卡尔曼滤波的斯诺克视频中台球检测与跟踪技术研究-交通信息工程及控制专业论文.docx
- 基于数据分析的陕西省公路行业安全生产责任体系研究-交通运输工程专业论文.docx
- 基于网页链接结构和内容分析的PageRank算法改进研究-计算机科学与技术专业论文.docx
- 基于网上银行的短信服务系统的设计与实现-软件工程专业论文.docx
- 基于时域有限差分方法的D型光纤传感器的研究-光学工程专业论文.docx
- 基于胜任力的基层党务工作者培训体系优化研究:以上海市J区为例-公共管理专业论文.docx
- 基于统计能量法的轿车内噪声研究-机械设计及理论专业论文.docx
- 基于数字水印技术的信息伪装系统研究与实现-软件工程专业论文.docx
- 基于均匀圆阵的解相干算法研究-电子与通信工程专业论文.docx
- 基于遗传算法的仿人机器人路径规划研究-控制理论与控制工程专业论文.docx
- 基于数据挖掘的振动数据模式匹配研究-计算机应用技术专业论文.docx
- 基于内容的视频检索关键技术的分析-通信与信息系统专业论文.docx
- 基于微博的消费意图挖掘-计算机技术专业论文.docx
原创力文档


文档评论(0)