(WePS项目报告.docVIP

下载本文档

0
0
约1.24万字
约 19页
2017-01-30 发布于北京
举报
版权申诉

(WePS项目报告.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(WePS项目报告

WePS项目报告程智聪韩冬张坚修改历史日期版本修改内容 2009-5-15 0.1 建立大纲 2009-5-15 0.2 完成初稿 2009-5-16 0.3 格式调整、补全源程序说明 2009-5-18 0.4 补全总结部分目录 1. 项目简介 5 2. 特征的选取 5 (1) XML描述文件中的title和snippet 5 (2) index.html中的URL、Email片段 5 (3) index.html中的正文内容 5 (4) 特征(1)和(3)中命名实体的提取，保留重复 5 (5) index.html中的微格 (Microformats) 5 3. 数据的预处理 5 存储规范 5 URL、Email的提取及优化处理 5 正文内容 6 缺失rank的处理 6 命名实体的提取 6 微格(Microformats)的提取 6 数据加权合并、去停用词、词根还原及格式化输出 6 Discarded文档和聚类数的先验知识提取 7 4. 聚类工具的选择 7 5. 实验结果及分析 7 命名实体分类器的选择 7 Cluto聚类算法设定 7 命名实体作用分析 8 Alvin Cooper的Web Page 37，52 8 Alvin Cooper的Web Page 82，88，91 8 正文提取的Density值的设定 9 正文内容作用分析 9 特征组合设定 10 URL作用分析 10 聚类数目设定 11 应用聚类数目先验 11 聚类数目优化 11 动态聚类数阈值设定分析 13 Discarded文档分析 14 6. 总结 14 7. 附录 16 源程序结构及使用说明 16 自写的聚类算法源程序说明 16 基于Weka的K-means和ＥＭ算法的源程序说明 17 CLUTO部分程序使用说明 19 项目简介本项目旨在练习所学的聚类算法解决Web搜索中的人名消歧问题。实验用的训练和测试数据以及评估程序来自Semeval 2007。特征的选取 (1) XML描述文件中的title和snippet 提取了每个人名对应的XML描述文件中的title和snippet信息。 (2) index.html中的URL、Email片段提取了每个rank对应的网页文件index.html中的URL和Email信息，并对其做片段化处理。 (3) index.html中的正文内容将网页文件去标签化，除去导航、边栏、广告等非正文内容，保留正文的信息。 (4) 特征(1)和(3)中命名实体的提取，保留重复将特征(1)和(3)中出现的命名实体如人名、地名、机构名等提取出来，保留重复以突出其权重。 (5) index.html中的微格 (Microformats) 将网页文件中的微格提取出来，主要是hCard信息。数据的预处理存储规范对于按照每个特征提取出来的原生数据，都按如下格式存储： Feature/PeopleName_Rank.txt 这样方便之后数据的查询和合并。 URL、Email的提取及优化处理这部分是用自写的C++程序对网页文件进行了URL和Email的提取，并去除了协议、www等冗杂信息。举例如下： /xxx 提取后的结果为（以竖线分隔）： stanford | edu 正文内容正文内容的提取用到了一个之前做Web Services 搜索引擎时所写的Python程序。其原理是基于块中非标签信息占全部信息的比例，当该比例（Density值）超过某一预定的阈值如0.5时就认为非标签信息为正文内容。为了实验不同的Density值对聚类的效果，我们对Density的值0.0、0.3和0.6，分别提取了对应的正文内容。缺失rank的处理有部分人名的搜索结果文件中有缺失rank的情况，我们对其进行了补全，从而不影响类似Cluto这样的聚类工具的Gold Standard XML聚类结果文件的生成。命名实体的提取我们使用了Stanford NER - Jan 2009。这个包里带有四个分类器分别为： ner-eng-ie.crf-3-all2008.ser.gz ner-eng-ie.crf-3-all2008-distsim.ser.gz ner-eng-ie.crf-4-conll.ser.gz ner-eng-ie.crf-4-conll-distsim.ser.gz 4个分类器均使用CRF算法进行训练，前两个使用了Conll、MUC6、MUC7和ACE 作为其训练集，最终可以识别为3类命名实体：PERSON、ORGANIZATION和LOCATION。而后面两个分类器则使用了Conll 2003 Shar