Polars中基于条件替换NaN值：从另一列获取值的教程

2025-11-02 4:28

|

4

|

后端开发

1308 字

|

6 分钟

Polars中基于条件替换NaN值：从另一列获取值的教程

本文详细介绍了在polars数据框中如何根据某一列的nan（或NULL）值，使用同一数据框中另一列的值来替换目标列中的数据。通过对比pandas的实现方式，深入讲解了polars中`pl.when().then().otherwise()`表达式的用法，提供了清晰的示例代码和解释，帮助用户高效地进行条件数据替换。

在数据处理和清洗过程中，根据特定条件替换数据框（DataFrame）中的值是一项常见任务。特别是当需要处理缺失值（NaN或null）时，我们可能希望用数据框中其他列的有效数据来填充这些缺失值。本教程将重点介绍如何在Polars这一高性能数据处理库中实现这一功能，并与Pandas的实现方式进行对比，以便于用户更好地理解和迁移。

场景描述

假设我们有一个数据框，其中包含三列：col_x、col_y和col_z。我们的目标是：如果col_x中的值为NaN（或null），则将对应行col_y的值替换为col_z中的值；如果col_x不为NaN，则保持col_y的原有值不变。

Pandas实现方式回顾

在Pandas中，实现这种条件替换通常有多种方法，其中一种常见且直观的方式是使用df.loc结合布尔索引，或者使用np.where：

import pandas as pd import numpy as np  # 示例数据 data = {     'col_x': [1.0, np.nan, 3.0, np.nan, 5.0],     'col_y': [10, 20, 30, 40, 50],     'col_z': [100, 200, 300, 400, 500] } df_pandas = pd.DataFrame(data) print("原始 Pandas DataFrame:") print(df_pandas)  # 使用 df.loc 进行条件替换 # df_pandas.loc[df_pandas['col_x'].isna(), 'col_y'] = df_pandas['col_z']  # 更简洁的 np.where 方法 df_pandas["col_y"] = np.where(pd.isnull(df_pandas['col_x']), df_pandas['col_z'], df_pandas['col_y'])  print("n替换后的 Pandas DataFrame:") print(df_pandas)

上述Pandas代码中，np.where函数会根据第一个条件（pd.isnull(df_pandas[‘col_x’])）判断，如果为真，则取第二个参数的值（df_pandas[‘col_z’]），否则取第三个参数的值（df_pandas[‘col_y’]）。

硅基智能

基于Web3.0的元宇宙，去中心化的互联网，高质量、沉浸式元宇宙直播平台，用数字化重新定义直播

62

查看详情

Polars实现方式

Polars作为一个高性能的DataFrame库，其操作通常基于表达式（expressions）进行，这使得代码更具声明性且执行效率更高。实现上述条件替换的核心是使用pl.when().then().otherwise()结构。

import polars as pl  # 示例数据 data = {     'col_x': [1.0, None, 3.0, None, 5.0], # Polars中通常使用None表示null，但浮点列的NaN也可用.is_nan()检测     'col_y': [10, 20, 30, 40, 50],     'col_z': [100, 200, 300, 400, 500] } df_polars = pl.DataFrame(data) print("原始 Polars DataFrame:") print(df_polars)  # 使用 pl.when().then().otherwise() 进行条件替换 df_polars = (     df_polars     .with_columns(         pl.when(pl.col('col_x').is_null()) # 判断 col_x 是否为 null (对于浮点数NaN也适用)         .then(pl.col('col_z'))             # 如果为 null，则取 col_z 的值         .otherwise(pl.col('col_y'))        # 否则，保持 col_y 的原有值         .alias('col_y')                    # 将结果重命名回 col_y     ) )  print("n替换后的 Polars DataFrame:") print(df_polars)

代码解析

df_polars.with_columns(…): 在Polars中，对DataFrame进行列操作通常通过with_columns()方法完成。这个方法会返回一个新的DataFrame，其中包含了修改或新增的列。
pl.when(pl.col(‘col_x’).is_null()): 这是条件表达式的开始。
- pl.col(‘col_x’)：选择名为col_x的列。
- .is_null()：这是一个表达式方法，用于检查列中的每个元素是否为null。对于浮点数类型，它也能正确识别NaN值。如果列中可能只有NaN而没有None，也可以使用.is_nan()。
.then(pl.col(‘col_z’)): 如果when中的条件为真（即col_x为null），则表达式的结果将是col_z列对应行的值。
.otherwise(pl.col(‘col_y’)): 如果when中的条件为假（即col_x不为null），则表达式的结果将是col_y列对应行的原有值。这一步至关重要，它确保了只有满足条件的行才会被替换，其他行保持不变。
.alias(‘col_y’): 最后，使用.alias(‘col_y’)将这个新生成的列重命名为col_y。由于with_columns会替换同名列，这样就实现了对col_y的“原地”更新。

注意事项与最佳实践

Null与NaN: 在Polars中，is_null()方法通常能够处理各种类型的缺失值，包括整数列的None、字符串列的None以及浮点数列的NaN。如果仅需针对浮点数类型的NaN进行判断，可以使用is_nan()。
表达式驱动: Polars的操作是基于表达式的，这意味着你构建的是一个操作的“计划”，而不是立即执行。这使得Polars能够进行优化，从而提供出色的性能。
链式操作: Polars鼓励使用链式操作（method chaining），使代码更易读、更流畅。
不可变性: Polars的许多操作（如with_columns）都返回一个新的DataFrame，而不是修改原始DataFrame。这与Pandas中的某些原地修改操作有所不同，但有助于避免副作用和提高代码的预测性。

总结

通过pl.when().then().otherwise()表达式，Polars提供了一种强大而灵活的方式来处理基于条件的列值替换。这种模式不仅适用于替换缺失值，还可以用于实现各种复杂的条件逻辑。掌握这一结构是高效使用Polars进行数据清洗和转换的关键。与Pandas的np.where或df.loc相比，Polars的表达式方式在处理大规模数据时通常能展现出更好的性能。

ai NULL pandas 字符串数据清洗

text=ZqhQzanResources

场景描述

Pandas实现方式回顾

Polars实现方式

代码解析

注意事项与最佳实践

总结

推荐文章