- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(WePS项目报告
WePS项目报告
程智聪 韩冬 张坚
修改历史
日期 版本 修改内容 2009-5-15 0.1 建立大纲 2009-5-15 0.2 完成初稿 2009-5-16 0.3 格式调整、补全源程序说明 2009-5-18 0.4 补全总结部分
目录
1. 项目简介 5
2. 特征的选取 5
(1) XML描述文件中的title和snippet 5
(2) index.html中的URL、Email片段 5
(3) index.html中的正文内容 5
(4) 特征(1)和(3)中命名实体的提取,保留重复 5
(5) index.html中的微格 (Microformats) 5
3. 数据的预处理 5
存储规范 5
URL、Email的提取及优化处理 5
正文内容 6
缺失rank的处理 6
命名实体的提取 6
微格(Microformats)的提取 6
数据加权合并、去停用词、词根还原及格式化输出 6
Discarded文档和聚类数的先验知识提取 7
4. 聚类工具的选择 7
5. 实验结果及分析 7
命名实体分类器的选择 7
Cluto聚类算法设定 7
命名实体作用分析 8
Alvin Cooper的Web Page 37,52 8
Alvin Cooper的Web Page 82,88,91 8
正文提取的Density值的设定 9
正文内容作用分析 9
特征组合设定 10
URL作用分析 10
聚类数目设定 11
应用聚类数目先验 11
聚类数目优化 11
动态聚类数阈值设定分析 13
Discarded文档分析 14
6. 总结 14
7. 附录 16
源程序结构及使用说明 16
自写的聚类算法源程序说明 16
基于Weka的K-means和EM算法的源程序说明 17
CLUTO部分程序使用说明 19
项目简介
本项目旨在练习所学的聚类算法解决Web搜索中的人名消歧问题。实验用的训练和测试数据以及评估程序来自Semeval 2007。
特征的选取
(1) XML描述文件中的title和snippet
提取了每个人名对应的XML描述文件中的title和snippet信息。
(2) index.html中的URL、Email片段
提取了每个rank对应的网页文件index.html中的URL和Email信息,并对其做片段化处理。
(3) index.html中的正文内容
将网页文件去标签化,除去导航、边栏、广告等非正文内容,保留正文的信息。
(4) 特征(1)和(3)中命名实体的提取,保留重复
将特征(1)和(3)中出现的命名实体如人名、地名、机构名等提取出来,保留重复以突出其权重。
(5) index.html中的微格 (Microformats)
将网页文件中的微格提取出来,主要是hCard信息。
数据的预处理
存储规范
对于按照每个特征提取出来的原生数据,都按如下格式存储:
Feature/PeopleName_Rank.txt
这样方便之后数据的查询和合并。
URL、Email的提取及优化处理
这部分是用自写的C++程序对网页文件进行了URL和Email的提取,并去除了协议、www等冗杂信息。举例如下:
/xxx
提取后的结果为(以竖线分隔):
stanford | edu
正文内容
正文内容的提取用到了一个之前做Web Services 搜索引擎时所写的Python程序。其原理是基于块中非标签信息占全部信息的比例,当该比例(Density值)超过某一预定的阈值如0.5时就认为非标签信息为正文内容。为了实验不同的Density值对聚类的效果,我们对Density的值0.0、0.3和0.6,分别提取了对应的正文内容。
缺失rank的处理
有部分人名的搜索结果文件中有缺失rank的情况,我们对其进行了补全,从而不影响类似Cluto这样的聚类工具的Gold Standard XML聚类结果文件的生成。
命名实体的提取
我们使用了Stanford NER - Jan 2009。这个包里带有四个分类器分别为:
ner-eng-ie.crf-3-all2008.ser.gz
ner-eng-ie.crf-3-all2008-distsim.ser.gz
ner-eng-ie.crf-4-conll.ser.gz
ner-eng-ie.crf-4-conll-distsim.ser.gz
4个分类器均使用CRF算法进行训练,前两个使用了Conll、MUC6、MUC7和ACE 作为其训练集,最终可以识别为3类命名实体:PERSON、ORGANIZATION和LOCATION。而后面两个分类器则使用了Conll 2003 Shar
您可能关注的文档
- (河北省2010届中考第一次仿真模拟语文试题1.doc
- (LCDHome论坛音响界十大谎言.doc
- (河北省2010年中考语文试卷解析版.doc
- (VRP软件.doc
- (河北省2010年会计从业考试会计基础真题及答案.doc
- (河北省2010年初中毕业生升学考试语文学科说明.doc
- (河北省2010年英语中考试题.doc
- (VS2008安装部署工程制作教程2.doc
- (LCMSMS法测定人血浆中卡络磺钠的浓度.doc
- (河北省2011年初中生毕业升学考试数学学科说明.doc
- 2024年临床执业医师试卷带答案详解AB卷.docx
- 2024年仓储管理人员复习提分资料含答案详解(典型题).docx
- 2024年火电电力职业鉴定全真模拟模拟题附答案详解(能力提升).docx
- 2024年河北省单招考试一类 《文化素质数学》复习提分资料【典型题】附答案详解.docx
- 2024化验员预测复习附完整答案详解(精选题).docx
- 2024年河北省单招考试一类 《文化素质数学》模拟试题及完整答案详解(考点梳理).docx
- 2024化验员预测复习附答案详解【实用】.docx
- 2024年临床执业医师通关题库及参考答案详解(实用).docx
- 二年级下学期数学教研组工作总结.pptx
- 2024年临床执业医师真题含完整答案详解(夺冠).docx
最近下载
- 和利时LK大型PLC指令手册.pdf VIP
- 浅析莫扎特《C大调小奏鸣曲k.545》的音乐风格与演奏技巧.docx
- 2022年人教版九年级全一册物理同步教学教案.doc VIP
- 湘质监统编2020表格机器转换word版(房屋建筑工程竣工验收技术资料统一用表).docx
- 海关通关业务介绍幻灯片.ppt VIP
- 湘质监统编2020表格机器转换word版(市政基础设施工程竣工验收技术资料统一用表).docx VIP
- Roland罗兰乐器TD-11 电鼓音源TD-15 TD-11 用户手册用户手册.pdf
- 垃圾焚烧发电行业自动监控数据应用综合题库.docx VIP
- 《海关特殊监管区域通关制度》课件.ppt VIP
- 3年级劳动教案《我是厨房小帮手》.pdf VIP
文档评论(0)