- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2012 中国云·移动互联网创新大奖赛 赛题4:难舍难分
2012 中国云·移动互联网创新大奖赛
赛题4 :难舍难分
1. 概述
百度网页搜索是影响力和覆盖率最大的网页搜索工具,每天会有数亿人通过百度网页搜
索提交搜索词,查看和点击搜索结果,找到所求。对搜索词进行分析和研究,是搜索引擎的
基本技术之一。我们通过它来不断加深对用户需求的理解,改进搜索结果,提高用户对搜索
结果满意率。
对搜索词(以下简称query )的一个研究方向就是尝试做搜索词分类。优质的搜索词分
类能够让我们更清晰地区分用户需求,了解流量变化趋势。分类问题首先必须面向具体应用
建立合理的分类体系。
搜索词分类涉及到多个技术领域,如自然语言处理 (NLP)、机器学习、文本分类等等,
是一项难度很高的工作。大体来说,短文本的分类难度较高,它具有表义模糊或有歧义、语
法形式不规范、难提取有效特征等特点。同时,百度网页 query 的数量巨大 (数十亿),涉
及领域广,分类的类别数量多(几百到几千),这些特性让该问题更具有挑战性。
2. 数据集描述
本题目会提供给参赛者两类文件:标注的查询词分类及查询词特征数据。参赛者基于标
注的查询词分类及这些查询词对应的特征数据设计算法、训练并检测模型,并利用训练好的
算法对待分类查询词进行分类,并给出分类结果。
本题目的数据分为两个阶段公布。第一阶段公布的数据用于初赛阶段,数据内容介绍如
下。第二阶段将会提供新的待分类查询词及特征数据,数据含有更多噪音且特征空间变大。
2.1. 标注的查询词类别
初赛阶段公布的用于模型训练和检测的标注查询词包含480 个分类,每类约200 条查询
词。每个查询词占一行,包括三个字段即query_id, query 明文和类别标号,每项字段以制
表符(\t)分隔开,每行以\n 结尾。需要注意的是每个类别的含义并未公布,但从每个类别
所含查询词可以了解其类别含义。下面两行为查询词类别文件中的两行,表明“八月桂”这
个查询词的id 为22,所属类别为185;而“百叶窗”这个查询词的id 为23,所属类别为34。
表1 为查询词类别文件中各个字段含义介绍。
22 八月桂 185
23 百叶窗 34
表 1 查询词类别文件中各个字段的含义
字段 格式 含义和取值范围
query_id unsigned int32 query 的编号,取值范围为0-10,000,000
query 明文 字符串 query 的明文,可用于了解查询词内容
class_id unsigned int32 分类类别标号,0-479
2.2. 查询词特征数据
查询词特征数据分为两类:标注查询词特征数据和待分类查询词特征数据,分别位于不
同的文件中,但他们的文件格式相同,只是标注查询词特征数据与标注查询词类别相结合用
于模型训练,而待分类查询词用于题目测试。参赛者所提交的算法将对待分类查询词的特征
数据进行处理后给出待分类查询词的分类。
每一个查询词的特征数据为一行,包括的字段有 query_id, 特征向量长度,每一个特
征的特征id 和特征权重。每行一个query,每项字段以制表符(\t)分隔开,每行以\n 结尾。
即:
query_id \t size \t feature_id_1 \t feature_weight_1 \t feature_id_2 \t
feature_weight_2 \t ……
如下例所示查询词 id 为 0,含有 22 个特征,第一个特征的 id 为 7797,特征权重值为
4.19117,后续特征id和特征属性依次类推。关于特征数据文件中每行每个字段含义见表2。
0 22 77597 4.19117 57907 2.52463 102261 2.7777 100179 2.28435
100704 4.23765 2409 2.80831 25442 2.76276 138662 11.8289 150839 9.51083
87205 6.54339 137685 4.13053 136771 8.02004 79270 6.00066 80632 8.31261
51236 10.5543 106239 3.78187
您可能关注的文档
- (寻宝)广东培正学院经济学系2010年班级拓展策划书.doc
- !二级C语言笔试近期真题(分章节作业).doc
- (必填)民用建筑项目节能登记表1.doc
- (2009年)“亲子教育心怀感恩,科技文化服务乡村”赴南伏流暑期社会实践队总结.doc
- ((人教版))[[初三化学课件]]初三化学《化学元素与人体健康》PPT课件.ppt
- ((苏科版))[[初三物理试题]]苏科九年级物理第十三章《电路初探》单元习题.doc
- (溶液组成的定量表示).doc
- (语文S版)二年级语文上册课件_保护庄稼好卫兵_11.ppt
- (杨炯勇)提高长距离输送管道钢管弧度的测绘效率.doc
- -ACCA考试考前准备.doc
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
文档评论(0)