- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
特征工程
Two Sigma Connect: Rental Listing Inquiries 比赛总结 目录 01 问题分析 02 特征工程 03 模型设计 04 总结回顾 01 问题分析 问题分析 数据说明: (1)基本信息:price,bedrooms,bathrooms (2)描述信息:description,features,photos (3)时间信息:created (4)地理信息:longitude,latitude,display_address, street_address,building_id (5)管理员信息:manager_id 问题分析 基本信息 描述 信息 时间信息 地理信息 管理员信息 房子的受欢迎程度 02 特征工程 特征工程:基本特征 价格分布: 存在长尾现象 特征工程:基本特征 价格分布: 取对数 特征工程:基本特征 卧室数目分布: 卧室的数目的分区度比较高,尤其在卧室数目在1和2的地方 特征工程:基本特征 浴室数目分布: 浴室数目对房子满意度的区分度比较低 特征工程:基本特征 基本特征: (1)对数价格 (2)卧室数 (3)每间卧室的价格 (4)总房间数 特征工程:描述特征 由于描述信息是以自然语言的形式给出,因此要对描述信息处理比较困难。对于这类信息的处理,主要做了两面的工作,第一是统计数量,第二是One-Hot编码 (1)统计数量: 统计照片数,特征数,描述所用的单词数 (2)One-Hot编码: 对于所给的features数据,使用One-Hot编码,向量的大小为400 特征工程:时间特征 创建日期与满意度占比的关系 特征工程:时间特征 额外的时间特征信息 Listing_id与创建日期成线性关系 特征工程:地理特征 对于不同的地区,住房的价格水平,满意程度都有所不同,因此对于地理信息的处理,主要做的是聚类。所做的聚类有三种: ①利用K-means对经纬度进行聚类 ②对经纬度进行栅格化 ③构建市中心,根据市中心距离聚类 * 特征工程:地理特征 K-means * 特征工程:地理特征 栅格化 * 特征工程:地理特征 构建市中心 * 经纬度精确到一位小数,发现有三个比较密集的点作为市中心 特征工程:管理员特征 对管理信息的处理主要是统计相应管理员的管理信息,管理能力。 (1)管理员信息 统计每个管理员所管理的房子数目,管理的平均价格,管理的平均卧室数目,管理的平均浴室数目。 * 特征工程:管理员特征 (2)管理能力 统计如下特征: 统计每个管理员所管理的房子中,满意度为high,medium,low的占比 统计每个管理员所管理的房子中,满意度为high,medium,low的平均价格 统计每个管理员所管理的房子中,满意度为high,medium,low的平均卧室数目 统计每个管理员所管理的房子中,满意度为high,medium,low的平均浴室数目 * 特征工程:管理员特征 (2)管理能力 为了避免标签信息泄露、过拟合和保证交叉验证与对测试集预测过程的一致性,这里采用了交叉统计的方法: ①将训练样本分成5份,取其中的4份作为统计,将统计结果赋值给另外一份,重复五次 统计,使得训练样本都拥有统计结果 ②统计所有的训练样本,将统计结果赋值给测试样本 * 03 模型设计 模型设计:分类器选择 在本次比赛中,xgboost的效果非常的明显,而且对于NaN值也能进行处理,因此选了xgboost作为我的分类器。所有特征使用单模型进行训练,得到的logloss值为0.506 * 问题 统计每个管理员所管理的房子中,满意度为high,medium,low的占比 统计每个管理员所管理的房子中,满意度为high,medium,low的平均价格 统计每个管理员所管理的房子中,满意度为high,medium,low的平均卧室数目 统计每个管理员所管理的房子中,满意度为high,medium,low的平均浴室数目 上述四个特征都不取,logloss只有0.512;四者取其一都为0.506;全取也为0.506。为什么呢? * 说明这四个特征都是强特征,却不会出现“强强联手”的局面 模型设计:模型融合 * K-Fold * 模型设计:优化目标函数 * 总结 04 总结 要想取得好成绩,做好特征工程 要想取得好排名,做好模型融合 * THANKS
您可能关注的文档
最近下载
- 岛津原子吸收分光光度计AA-6300软件硬件基本操作AA-6300-rj手册说明书.pdf VIP
- The Magic of Ordinary Days《平凡岁月的魅力(2005)》完整中英文对照剧本.docx VIP
- 注册税务师备考课件.pptx VIP
- MECG1000心电图机培训.pptx VIP
- 国内外CO2催化转化技术发展现状与未来展望.docx VIP
- 道路运输企业双重预防机制建设资料(安全风险分级管控和隐患排查治理).pdf
- HG∕T 5421-2018 噻唑膦原药(可复制版).pdf
- 括号里最大能填几326题.pdf VIP
- 公司物业服务投标方案(技术方案).docx VIP
- 实验动物学学堂云学堂在线课后题答案.docx VIP
文档评论(0)