pandas groupby 中 agg 和 transform 有什么区别？

agg() 每个组返回一行（汇总值），而 transform() 为原始 DataFrame 的每一行返回一个值（与输入长度相同）。当需要每组的总计、平均值或计数时使用 agg。当需要将组级别的指标附加回每一行时使用 transform。

如何在 pandas 中按多列进行 groupby？

将列名列表传递给 groupby()：df.groupby(['col_a', 'col_b']).agg(...)。这将基于两列的唯一组合创建分组。

为什么 pandas groupby 返回 Series 而不是 DataFrame？

这是因为在聚合之前选择了单个列。要获取 DataFrame，请使用 as_index=False 进行命名聚合，或对结果调用 .reset_index()。

如何遍历 pandas groupby 的分组？

使用 for 循环：for name, group in df.groupby('team')。但是，请尽量避免迭代 —— agg、transform 和 apply 更快且更符合 Python 习惯。

如何在 pandas groupby 中过滤分组？

使用 .filter() 方法：df.groupby('team').filter(lambda g: g['score'].mean() > 5)。这将保留属于满足条件的分组的所有行。

Pandas GroupBy：聚合、Transform、Apply 全面指南（2025）

Name: Rajiv Chandra

更新于 2025/11/19

split-apply-combine 是 Pandas 的核心能力，但很多人难以在 agg、transform、apply 之间做选择，或被排序、缺失分组、SettingWithCopy 等问题困扰。

PAS 结构：

问题： 分组计算让人摸不着头脑、速度慢，而你只想要总计或按行的比例。
激化： 滥用 apply 或忘记 as_index=False 会带来奇怪的形状、重复列和缓慢的管道。
解决： 几个固定模式即可——agg 做汇总，transform 做逐行特征，apply 仅在必要时；同时明确排序与缺失组的选项。

快速参考：如何选择方法

方法	返回形状	适用场景	示例
`agg` / `aggregate`	每组一行	汇总、多指标输出	`df.groupby("team").agg(avg_score=("score","mean"))`
`transform`	与输入同长	给每行添加分组特征	`df["z"] = df.groupby("team")["score"].transform("zscore")`
`apply`	灵活	`agg`/`transform` 无法覆盖的复杂逻辑	`df.groupby("team").apply(custom_fn)`

示例数据

import pandas as pd
 
data = {
    "team": ["A", "A", "B", "B", "B", "C"],
    "player": ["x1", "x2", "y1", "y2", "y3", "z1"],
    "score": [9, 7, 8, 6, 10, 3],
    "minutes": [30, 25, 28, 32, 20, 15],
}
df = pd.DataFrame(data)

聚合模式 (`agg`)

summary = (
    df.groupby("team", as_index=False)
      .agg(
          avg_score=("score", "mean"),
          max_score=("score", "max"),
          minutes_played=("minutes", "sum"),
      )
)

用 named aggregation 保持列名清晰。
as_index=False 保留 team 为列（便于合并与绘图）。
sort=False 在意顺序时可保留输入顺序。

同一列的多重聚合

df.groupby("team", as_index=False).agg(
    score_mean=("score", "mean"),
    score_std=("score", "std"),
    score_count=("score", "size"),
)

行级特征 (`transform`)

transform 保持原始行数，把分组指标回填到每行。

df["score_pct_of_team"] = (
    df["score"] / df.groupby("team")["score"].transform("sum")
)

每组 Z 分数：

df["score_z"] = (
    df.groupby("team")["score"]
      .transform(lambda s: (s - s.mean()) / s.std(ddof=0))
)

适用场景：

相对于分组总量的比例
归一化/标准化分数
分组标记（如 rank、cumcount）

何时使用 `apply`

apply 灵活但更慢；仅当 agg/transform 不够时使用。

def top_n(group, n=2):
    return group.nlargest(n, "score")
 
top_players = df.groupby("team").apply(top_n, n=1).reset_index(drop=True)

使用 apply 的场景：

每组返回的行数可变。
需要无法矢量化的 Python 逻辑。

缺失分组与排序

result = (
    df.groupby("team", dropna=False, sort=False)
      .agg(avg_score=("score", "mean"))
)

dropna=False 保留 NaN 分组标签。
sort=False 避免重新排序——当顺序有含义时很重要。

多键与索引分组

multi = (
    df.groupby(["team", "player"], as_index=False)
      .agg(score_mean=("score", "mean"))
)

按索引层分组：

df2 = df.set_index(["team", "player"])
df2.groupby(level="team")["score"].mean()

常见坑位

问题	处理
形状出乎意料（`Series` vs `DataFrame`）	设置 `as_index=False` 或事后 `reset_index()`。
合并后列名冲突	用 named aggregation 控制输出列名。
`apply` 过慢	改用 `agg`/`transform` 或矢量化方法。
输出缺失分类	保持 `observed=False`（默认）或确保分类；`dropna=False` 保留 `NaN`。

导出与可视化提示

聚合后排序展示：summary.sort_values("avg_score", ascending=False)。
制图可先 pivot：summary.pivot(index="team", values="avg_score")。

关键要点

汇总用 agg，行级特征用 transform，apply 尽量少用。
用 as_index、reset_index 控制形状。
用 sort、dropna 管理顺序与缺失标签。
优先矢量化方法，让管道保持高速。

Pandas GroupBy: Aggregation, Transform, Apply (2026 Guide)Pandas KeyError: Column Not Found — How to Fix It (Even When Column Exists)