- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1.哑变量处理类别数据2.离散化连续型数据
1.哑变量处理类别数据
1.哑变量处理类别数据Pandas库中的get_dummies函数对类别型特征进行哑变量处理,语法规则如下所示。Pandas.get_dummies(data,prefix=None,prefix_sep:str|Iterable[str]|dict[str,str]=_,dummy_na:bool=False,columns=None,sparse:bool=False,drop_first:bool=False,dtype:NpDtype|None=None)-DataFrame
1.哑变量处理类别数据示例:使用get_dummies函数计算哑变量。代码:df1=pd.DataFrame({景区:[中央大街,圣索菲亚教堂,东北烈士纪念馆,防洪纪念塔,冰雪大世界,防洪纪念塔,圣索菲亚教堂,东北烈士纪念馆,中央大街,冰雪大世界]},
index=[i+1foriinrange(10)])
print(哑变量处理前的数据为:\n%s%df1)
print(哑变量处理后的数据为:\n%s%pd.get_dummies(df1))
2.离散化连续型数据(1)离散化
2.离散化连续型数据(2)等宽法Pandas提供了cut函数,可以进行连续型数据的等宽离散化,其基础语法格式如下。Pandas.cut(x,bins,right:bool=True,labels=None,retbins:bool=False,precision:int=3,include_lowest:bool=False,duplicates:str=raise,ordered:bool=True)
2.离散化连续型数据运行结果:1)离散化为三个大小相等的bins:[(0.994,3.0],(5.0,7.0],(3.0,5.0],(3.0,5.0],(5.0,7.0],(0.994,3.0]]Categories(3,interval[float64,right]):[(0.994,3.0](3.0,5.0](5.0,7.0]]示例:使用cut函数实现等宽法离散化。代码:DataCut1=pd.cut(np.array([1,7,5,4,6,3]),3)
print(1)离散化为三个大小相等的bins:)
print(DataCut1)
2.离散化连续型数据(8)等频法cut函数虽然不能够直接实现等频离散化,但是可以通过定义将相同数量的记录放进每个区间。等频法离散化的方法相比较于等宽法离散化而言,避免了类分布不均匀的问题,但同时却也有可能将数值非常接近的两个值分到不同的区间以满足每个区间中固定的数据个数。
谢谢THANKYOU
原创力文档


文档评论(0)