使用Pandas检测DataFrame行对匹配并标记通过/失败

2025-10-24 23:29

|

2

|

后端开发

791 字

|

4 分钟

使用Pandas检测DataFrame行对匹配并标记通过/失败

本文详细介绍了如何使用pandas在DataFrame中检测成对行的匹配情况，并根据匹配结果添加“通过”或“失败”状态列。文章提供了两种核心方法：针对顺序配对的直接逐对比较法，以及基于内容匹配的`pd.merge`方法，并附有示例代码、注意事项及最佳实践，旨在帮助用户高效处理数据匹配与结果标记任务。

在数据处理和质量控制中，经常需要比较数据集中成对的记录，以判断它们是否符合特定的匹配条件。例如，一个“源”记录可能需要与其对应的“目标”记录进行比较，以验证数据的一致性。本文将探讨如何利用Pandas库在DataFrame中高效地实现这一需求，并根据匹配结果添加一个“结果”列（Pass/Fail）。

1. 问题描述与示例数据

假设我们有一个DataFrame，其中包含一系列“源”（Source）和“目标”（Target）记录。这些记录是成对出现的，即每一行“源”数据后面紧跟着其对应的“目标”数据。我们需要比较每一对记录中指定列的值，如果所有指定列都匹配，则将该“源”记录标记为“通过”（Pass）；否则标记为“失败”（Fail）。“目标”记录的“结果”列则留空。

以下是示例数据结构：

标书对比王

标书对比王是一款标书查重工具，支持多份投标文件两两相互比对，重复内容高亮标记，可快速定位重复内容原文所在位置，并可导出比对报告。

12

查看详情

Obs | Dataset | Col1 | Col2 | Col3 ---------------------------------- 1   | Source  | A    | 10   | X 2   | Target  | A    | 10   | X 3   | Source  | B    | 20   | Y 4   | Target  | B    | 20   | Y 5   | Source  | C    | 30   | Z 6   | Target  | D    | 30   | Z

期望的输出格式如下，其中“Result”列作为第三列：

Obs | Dataset | Result | Col1 | Col2 | Col3 -------------------------------------------- 1   | Source  | Pass   | A    | 10   | X 2   | Target  |        | A    | 10   | X 3   | Source  | Pass   | B    | 20   | Y 4   | Target  |        | B    | 20   | Y 5   | Source  | Fail   | C    | 30   | Z 6   | Target  |        | D    | 30   | Z

2. 数据准备

首先，我们创建上述示例DataFrame：

import pandas as pd  data = {     'Obs': [1, 2, 3, 4, 5, 6],     'Dataset': ['Source', 'Target', 'Source', 'Target', 'Source', 'Target'],     'Col1': ['A', 'A', 'B', 'B', 'C', 'D'],     'Col2': [10, 10, 20, 20, 30, 30],     'Col3': ['X', 'X', 'Y', 'Y', 'Z', 'Z'] } df = pd.DataFrame(data)  print("原始DataFrame:") print(df)

3. 方法一：直接逐对比较（推荐用于顺序配对）

这种方法适用于“源”和“目标”记录严格按照顺序成对出现的情况（例如，Obs 1和2是一对，3和4是一对，以此类推）。我们将为每对记录创建一个唯一的标识符，然后对这些组进行比较。

步骤详解：

创建配对ID： 根据DataFrame的索引（假设索引是0开始且连续，或者根据Obs列）生成一个PairID，使得每对“源”和“目标”记录拥有相同的PairID。
定义比较列： 明确哪些列需要进行匹配判断。
按PairID分组并应用函数： 对每个PairID对应的组，提取其“源”和“目标”行，比较指定列的值。
标记结果： 如果所有比较列都匹配，则将

ai pandas 数据结构标识符

text=ZqhQzanResources

1. 问题描述与示例数据

2. 数据准备

3. 方法一：直接逐对比较（推荐用于顺序配对）

步骤详解：

推荐文章