(WePS项目报告.docVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(WePS项目报告

WePS项目报告 程智聪 韩冬 张坚 修改历史 日期 版本 修改内容 2009-5-15 0.1 建立大纲 2009-5-15 0.2 完成初稿 2009-5-16 0.3 格式调整、补全源程序说明 2009-5-18 0.4 补全总结部分 目录 1. 项目简介 5 2. 特征的选取 5 (1) XML描述文件中的title和snippet 5 (2) index.html中的URL、Email片段 5 (3) index.html中的正文内容 5 (4) 特征(1)和(3)中命名实体的提取,保留重复 5 (5) index.html中的微格 (Microformats) 5 3. 数据的预处理 5 存储规范 5 URL、Email的提取及优化处理 5 正文内容 6 缺失rank的处理 6 命名实体的提取 6 微格(Microformats)的提取 6 数据加权合并、去停用词、词根还原及格式化输出 6 Discarded文档和聚类数的先验知识提取 7 4. 聚类工具的选择 7 5. 实验结果及分析 7 命名实体分类器的选择 7 Cluto聚类算法设定 7 命名实体作用分析 8 Alvin Cooper的Web Page 37,52 8 Alvin Cooper的Web Page 82,88,91 8 正文提取的Density值的设定 9 正文内容作用分析 9 特征组合设定 10 URL作用分析 10 聚类数目设定 11 应用聚类数目先验 11 聚类数目优化 11 动态聚类数阈值设定分析 13 Discarded文档分析 14 6. 总结 14 7. 附录 16 源程序结构及使用说明 16 自写的聚类算法源程序说明 16 基于Weka的K-means和EM算法的源程序说明 17 CLUTO部分程序使用说明 19 项目简介 本项目旨在练习所学的聚类算法解决Web搜索中的人名消歧问题。实验用的训练和测试数据以及评估程序来自Semeval 2007。 特征的选取 (1) XML描述文件中的title和snippet 提取了每个人名对应的XML描述文件中的title和snippet信息。 (2) index.html中的URL、Email片段 提取了每个rank对应的网页文件index.html中的URL和Email信息,并对其做片段化处理。 (3) index.html中的正文内容 将网页文件去标签化,除去导航、边栏、广告等非正文内容,保留正文的信息。 (4) 特征(1)和(3)中命名实体的提取,保留重复 将特征(1)和(3)中出现的命名实体如人名、地名、机构名等提取出来,保留重复以突出其权重。 (5) index.html中的微格 (Microformats) 将网页文件中的微格提取出来,主要是hCard信息。 数据的预处理 存储规范 对于按照每个特征提取出来的原生数据,都按如下格式存储: Feature/PeopleName_Rank.txt 这样方便之后数据的查询和合并。 URL、Email的提取及优化处理 这部分是用自写的C++程序对网页文件进行了URL和Email的提取,并去除了协议、www等冗杂信息。举例如下: /xxx 提取后的结果为(以竖线分隔): stanford | edu 正文内容 正文内容的提取用到了一个之前做Web Services 搜索引擎时所写的Python程序。其原理是基于块中非标签信息占全部信息的比例,当该比例(Density值)超过某一预定的阈值如0.5时就认为非标签信息为正文内容。为了实验不同的Density值对聚类的效果,我们对Density的值0.0、0.3和0.6,分别提取了对应的正文内容。 缺失rank的处理 有部分人名的搜索结果文件中有缺失rank的情况,我们对其进行了补全,从而不影响类似Cluto这样的聚类工具的Gold Standard XML聚类结果文件的生成。 命名实体的提取 我们使用了Stanford NER - Jan 2009。这个包里带有四个分类器分别为: ner-eng-ie.crf-3-all2008.ser.gz ner-eng-ie.crf-3-all2008-distsim.ser.gz ner-eng-ie.crf-4-conll.ser.gz ner-eng-ie.crf-4-conll-distsim.ser.gz 4个分类器均使用CRF算法进行训练,前两个使用了Conll、MUC6、MUC7和ACE 作为其训练集,最终可以识别为3类命名实体:PERSON、ORGANIZATION和LOCATION。而后面两个分类器则使用了Conll 2003 Shar

文档评论(0)

lisuf331 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档