Featuretools:特征工具的高级配置与调试.docxVIP

Featuretools:特征工具的高级配置与调试.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

PAGE1

PAGE1

Featuretools:特征工具的高级配置与调试

1Featuretools:特征工具的高级配置与调试

1.1高级配置概览

1.1.1实体集的深度理解

在Featuretools中,实体集(EntitySet)是构建特征的基础。它由多个表(tables)和它们之间的关系(relationships)组成,能够表示复杂的数据结构。深入理解实体集的构建和管理,对于高效地生成特征至关重要。

1.1.1.1实体集的构建

实体集的构建涉及定义数据集的结构,包括数据表和它们之间的关系。例如,考虑一个包含客户信息、交易记录和产品详情的数据集:

importfeaturetoolsasft

#创建实体集

es=ft.EntitySet(id=customer_transactions)

#添加客户表

es.entity_from_dataframe(entity_id=customers,

dataframe=df_customers,

index=customer_id)

#添加交易表

es.entity_from_dataframe(entity_id=transactions,

dataframe=df_transactions,

index=transaction_id,

time_index=transaction_time)

#添加产品表

es.entity_from_dataframe(entity_id=products,

dataframe=df_products,

index=product_id)

#定义关系

es.add_relationship(ft.Relationship(es[customers][customer_id],

es[transactions][customer_id]))

es.add_relationship(ft.Relationship(es[transactions][product_id],

es[products][product_id]))

1.1.1.2实体集的优化

实体集的优化主要涉及减少内存使用和提高计算效率。例如,通过使用convert_to_lightwood函数,可以将实体集转换为更轻量级的格式,减少内存占用:

es_light=es.convert_to_lightwood()

1.1.2自定义特征基元

Featuretools允许用户自定义特征基元(primitive),以适应特定的业务需求或算法。基元是用于生成特征的函数,可以是聚合基元或转换基元。

1.1.2.1定义自定义基元

定义自定义基元需要继承AggregationPrimitive或TransformPrimitive类,并实现相应的函数。例如,定义一个计算交易金额中位数的自定义聚合基元:

classMedianTransactionAmount(ft.primitives.AggregationPrimitive):

name=median_transaction_amount

input_types=[ft.variable_types.Numeric]

return_type=ft.variable_types.Numeric

defget_function(self):

defmedian(values):

returnnp.median(values)

returnmedian

1.1.2.2使用自定义基元

定义好自定义基元后,可以在生成特征时使用它:

#注册自定义基元

ft.primitives.register_primitive(MedianTransactionAmount)

#生成特征

feature_matrix,feature_defs=ft.dfs(entityset=es,

target_en

文档评论(0)

找工业软件教程找老陈 + 关注
实名认证
服务提供商

寻找教程;翻译教程;题库提供;教程发布;计算机技术答疑;行业分析报告提供;

1亿VIP精品文档

相关文档