Pandas DataFrame 中基于条件生成新列的教程

2025-10-20 9:01

|

8

|

后端开发

956 字

|

4 分钟

Pandas DataFrame 中基于条件生成新列的教程

本文介绍了如何基于 pandas DataFrame 中现有列的值，根据特定条件创建新列。我们将探讨使用 apply 方法和匿名函数，以避免直接使用三元运算符可能遇到的问题，并提供清晰的代码示例和解释，帮助你高效地处理字符串数据。

在 Pandas DataFrame 中，经常需要根据现有列的值创建新的列。例如，根据合同编号的格式，提取特定的信息。本文将介绍如何使用条件语句和 Pandas 的字符串处理函数来实现这一目标。

问题描述

假设我们有一个包含客户合同编号（Client Contract number）的 DataFrame。我们的目标是创建一个新的列（Search Text），其值取决于合同编号是否包含下划线 (_)。如果包含下划线，则新列的值为下划线之前的所有字符；否则，新列的值为删除所有短划线 (-) 后的完整合同编号。

示例数据

假设我们的 DataFrame 包含以下数据：

| Client Contract Number | |—|—| | 123_2-31 | | 23-1415 | | 124-5_259 | | 1234 |

我们期望得到以下结果：

| Search Text | |—|—| | 123 | | 231415 | | 1245 | | 1234 |

解决方案

硅基智能

基于Web3.0的元宇宙，去中心化的互联网，高质量、沉浸式元宇宙直播平台，用数字化重新定义直播

62

查看详情

直接使用 Pandas Series 的 str.contains() 方法进行条件判断，并结合三元运算符可能会遇到 ValueError: The truth value of a Series is ambiguous 错误。这是因为 Pandas 无法直接将 Series 的真值用于条件判断。

为了解决这个问题，我们可以使用 apply 方法和匿名函数（Lambda 函数）来逐行处理 DataFrame。

代码示例

import pandas as pd  # 创建示例 DataFrame data = {"Client Contract Number": ["123_2-31", "23-1415", "124-5_259", "1234"] } raw_data_df = pd.DataFrame(data)  # 首先，移除所有短划线 raw_data_df['Search Text'] = raw_data_df['Client Contract Number'].str.replace('-', '')  # 然后，使用 apply 方法和匿名函数进行条件判断 raw_data_df["Search Text"] = raw_data_df["Search Text"].apply(lambda x: x.split("_")[0] if "_" in x else x)  # 打印结果 print(raw_data_df)

代码解释

移除短划线： raw_data_df[‘Search Text’] = raw_data_df[‘Client Contract Number’].str.replace(‘-‘, ”) 首先创建一个新的列 Search Text，并将 Client Contract Number 列中的所有短划线替换为空字符串。
使用 apply 方法和匿名函数：
- raw_data_df[“Search Text”].apply(lambda x: …) 将 apply 方法应用于 Search Text 列，对每一行数据执行匿名函数。
- lambda x: x.split(“_”)[0] if “_” in x else x 定义了一个匿名函数，该函数接受一个参数 x（即每一行的 Search Text 值）。
- if “_” in x else x 判断 x 是否包含下划线。
  - 如果包含下划线，则使用 x.split(“_”)[0] 将字符串按 _ 分割，并取第一个元素（即下划线之前的部分）。
  - 如果不包含下划线，则直接返回 x（即删除短划线后的完整合同编号）。

注意事项

apply 方法虽然灵活，但在处理大型 DataFrame 时可能会比较慢。如果性能是关键，可以考虑使用 np.where 或 pd.Series.mask 等向量化操作。
确保理解匿名函数中的条件判断逻辑，以适应不同的数据处理需求。
在实际应用中，可能需要根据数据的具体格式进行适当的调整。

总结

本文介绍了如何使用 Pandas 的 apply 方法和匿名函数，基于条件生成新的列。这种方法可以有效地处理字符串数据，并避免直接使用三元运算符可能遇到的问题。通过理解代码示例和注意事项，你可以灵活地应用于各种数据处理场景。

ai app if Lambda number pandas 三元运算符字符串运算符

text=ZqhQzanResources

推荐文章