您所在的位置：首页 - 经验 - 正文经验

掌握 Pandas 中的 GroupBy，数据分析的利器

曦润 2025-03-13 【经验】 1574人已围观

摘要在数据科学和数据分析领域,Pandas是Python中最受欢迎的库之一，它为高效的数据操作、清洗和分析提供了丰富的工具，groupby方法是Pandas的核心功能之一，被广泛用于分组和聚合操作，本文将详细探讨{groupby用法}的各种技巧和应用场景，并通过实例帮助读者深入理解其强大之处，无论您……

在数据科学和数据分析领域,Pandas 是 Python 中最受欢迎的库之一，它为高效的数据操作、清洗和分析提供了丰富的工具。groupby 方法是 Pandas 的核心功能之一，被广泛用于分组和聚合操作，本文将详细探讨 {groupby用法} 的各种技巧和应用场景，并通过实例帮助读者深入理解其强大之处。

无论您是一名初学者还是有一定经验的数据分析师,掌握 groupby 的使用方法都可以大幅提升您的工作效率和分析能力，我们将从以下几个方面逐步展开讨论：

什么是 GroupBy？
GroupBy 的基本用法
多级分组与复杂操作
实用案例分析
常见问题及解决方案
探索更多可能性

什么是 GroupBy？

在数据分析中,我们经常需要根据某些特征或条件对数据进行分组，并在每组内执行特定的操作，计算某一类别下的平均值、求和或者计数等，这种“分组-操作”的模式正是 groupby 方法的核心思想。

groupby 是一种将数据划分为若干子集（组）的过程，随后可以在这些子集中应用函数以生成新的结果，整个流程可以概括为以下三步：

Split（划分）：按照指定的列或条件将数据分成多个组。
Apply（应用）：对每个组执行一个或多个操作。
Combine（合并）：将各组的结果重新组合成一个新的数据结构。

这种方法不仅高效,而且灵活多变，适用于多种场景。

GroupBy 的基本用法

让我们通过一个简单的例子来熟悉 groupby 的基本用法。

示例数据

假设我们有一份员工工资表,包含以下字段：

Name（姓名）
Department（部门）
Salary（薪资）

import pandas as pd
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'],
    'Department': ['HR', 'Engineering', 'HR', 'Engineering', 'Marketing'],
    'Salary': [5000, 7000, 6000, 8000, 9000]
}
df = pd.DataFrame(data)
print(df)

输出结果如下：

Name	Department	Salary
Alice	HR	5000
Bob	Engineering	7000
Charlie	HR	6000
David	Engineering	8000
Emily	Marketing	9000

基本分组操作

如果想按部门统计员工数量,可以使用以下代码：

grouped = df.groupby('Department').size()
print(grouped)

输出结果：

掌握 Pandas 中的 GroupBy，数据分析的利器

Department
Engineering     2
HR              2
Marketing       1
dtype: int64

可以看到,groupby('Department') 将数据按部门进行了划分，而 .size() 则计算了每个部门中的记录数。

常见聚合函数

除了 .size()，还有很多其他常用的聚合函数可以与 groupby 配合使用：

.sum()：计算总和
.mean()：计算均值
.min() / .max()：找出最小值或最大值
.count()：统计非空值的数量

我们可以计算每个部门的平均薪资：

average_salary = df.groupby('Department')['Salary'].mean()
print(average_salary)

输出结果：

Department
Engineering    7500.0
HR             5500.0
Marketing      9000.0
Name: Salary, dtype: float64

多级分组与复杂操作

我们需要基于多个字段进行分组,例如按部门和性别分别计算平均薪资，Pandas 提供了非常简便的方式实现这一点。

多级分组示例

扩展前面的例子,假设数据中增加了性别字段：

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily', 'Frank'],
    'Department': ['HR', 'Engineering', 'HR', 'Engineering', 'Marketing', 'Engineering'],
    'Gender': ['Female', 'Male', 'Female', 'Male', 'Female', 'Male'],
    'Salary': [5000, 7000, 6000, 8000, 9000, 7500]
}
df = pd.DataFrame(data)
print(df)

现在我们可以按 Department 和 Gender 进行多级分组：

multi_grouped = df.groupby(['Department', 'Gender'])['Salary'].mean()
print(multi_grouped)

输出结果：

Department    Gender
Engineering   Male     7500.0
HR            Female   5500.0
Marketing     Female   9000.0
Name: Salary, dtype: float64

自定义聚合函数

除了内置的聚合函数,我们还可以定义自己的函数并将其传递给 agg() 方法，计算薪资范围：

salary_range = df.groupby('Department')['Salary'].agg(lambda x: x.max() - x.min())
print(salary_range)

输出结果：

Department
Engineering     1500
HR              1000
Marketing        NaN
Name: Salary, dtype: float64

这里使用了一个匿名函数 lambda 来计算每组内的薪资差异。

实用案例分析

为了更直观地展示 {groupby用法} 的实际价值，我们来看几个真实世界中的应用场景。

案例 1：电商平台销售数据分析

假设一家电商公司希望了解不同产品类别的销售额分布,以下是部分数据样本：

ProductID	Category	Price	Quantity Sold
101	Electronics	200	10
102	Books	15	50
103	Electronics	100	20
104	Books	25	30

利用 groupby，我们可以轻松得到每类商品的总销售额：

sales_data = {
    'ProductID': [101, 102, 103, 104],
    'Category': ['Electronics', 'Books', 'Electronics', 'Books'],
    'Price': [200, 15, 100, 25],
    'Quantity Sold': [10, 50, 20, 30]
}
df_sales = pd.DataFrame(sales_data)
result = df_sales.groupby('Category').apply(
    lambda x: (x['Price'] * x['Quantity Sold']).sum()
)
print(result)

输出结果：

Category
Books         1350
Electronics   4000
dtype: int64

由此可见,电子产品占据了更高的市场份额。

常见问题及解决方案

尽管 groupby 功能强大，但在实际使用过程中可能会遇到一些挑战，以下是一些常见的疑问及其解决办法：

问题 1：如何处理缺失值？

如果数据中存在空值,可能导致分组失败或结果不准确，可以通过 dropna=False 参数保留空值：

result = df.groupby('Column', dropna=False).sum()

问题 2：性能优化

对于大规模数据集,直接调用 groupby 可能会变得缓慢，可以考虑使用 NumPy 或其他替代方案加速计算。

探索更多可能性

至此,您已经掌握了 {groupby用法} 的基础和进阶技巧，但别忘了，这只是 Pandas 强大功能的一部分！您可以进一步学习以下内容：

多维分组：结合透视表（Pivot Table）进行更复杂的分析。
时间序列分组：针对日期字段进行滚动窗口或周期性统计。
高级聚合：自定义更多复杂的业务逻辑。

希望本文能够帮助您更好地理解和应用 groupby 方法，从而提升数据分析技能，如果您还有任何疑问或需求，请随时查阅官方文档或参与社区讨论！

上一篇：春捂要捂到何时？医生的温馨提醒与科学依据

下一篇：山姆会员商店多批次牛奶疑变质，一场关于食品安全与消费者信任的警钟

您所在的位置：首页 - 经验 - 正文经验

掌握 Pandas 中的 GroupBy，数据分析的利器

什么是 GroupBy？

GroupBy 的基本用法

示例数据

基本分组操作

常见聚合函数

多级分组与复杂操作

多级分组示例

自定义聚合函数

实用案例分析

案例 1：电商平台销售数据分析

常见问题及解决方案

问题 1：如何处理缺失值？

问题 2：性能优化

探索更多可能性

最近发表

目录[+]