当前位置：网站首页 > 技术资源 > 正文

Python自动化办公应用学习笔记62—Pandas库操作Excel文件3

moboyou 2025-09-18 04:11 44 浏览

2.2 写入 Excel 文件

Pandas 提供灵活的 Excel 文件写入功能，通过 df.to_excel() 方法实现。

基本写入操作

将处理后的数据保存回 Excel 文件是常见需求：

# 简单写入

df.to_excel('分析结果.xlsx', index=False)

# 完整参数控制

df.to_excel(

excel_writer='分析报告.xlsx',

sheet_name='数据汇总', # 工作表名称

index=False, # 不写入行索引

header=True, # 写入列名

startrow=1, # 起始行位置（从0开始）

startcol=0, # 起始列位置

float_format="%.2f", # 浮点数格式（保留两位小数）

encoding='utf-8-sig' # 文件编码（支持中文）

)

多工作表输出技巧

# 方法1：使用 ExcelWriter 输出多个工作表

with pd.ExcelWriter('多工作表报告.xlsx', engine='openpyxl') as writer:

df_summary.to_excel(writer, sheet_name='汇总', index=False)

df_details.to_excel(writer, sheet_name='明细数据', index=False)

df_analysis.to_excel(writer, sheet_name='分析结果', index=False)

# 方法2：追加到现有文件

with pd.ExcelWriter('现有文件.xlsx', mode='a', engine='openpyxl') as writer:

df_new_data.to_excel(writer, sheet_name='新增数据', index=False)

格式化输出示例

创建具有专业外观的 Excel 报告：

# 创建带格式的 Excel 文件

with pd.ExcelWriter('格式化报告.xlsx', engine='xlsxwriter') as writer:

df.to_excel(writer, sheet_name='销售数据', index=False)

# 获取工作簿和工作表对象

workbook = writer.book

worksheet = writer.sheets['销售数据']

# 定义标题行格式

header_format = workbook.add_format({

'bold': True,

'text_wrap': True,

'valign': 'top',

'fg_color': '#D7E4BC', # 浅绿色背景

'border': 1,

'font_size': 12

})

# 应用标题格式

for col_num, value in enumerate(df.columns.values):

worksheet.write(0, col_num, value, header_format)

# 设置列宽

worksheet.set_column(0, len(df.columns)-1, 15)

第三部分：数据探索与清洗

3.1 数据查看与统计

基础信息查看

读取数据后，首先需要了解数据的基本情况：

# 查看数据前5行

print("前5行数据:")

print(df.head())

# 查看数据后3行

print("\n后3行数据:")

print(df.tail(3))

# 查看数据形状（行数，列数）

print(f"\n数据形状: {df.shape}")

# 查看列名

print(f"\n列名: {df.columns.tolist()}")

# 查看数据类型

print("\n数据类型:")

print(df.dtypes)

统计信息获取

深入理解数据的统计特性：

# 数值型数据的描述性统计

print("数值型数据描述统计:")

print(df.describe())

# 数据概览信息（包括内存使用）

print("\n数据概览信息:")

df.info()

# 查看某一列的值分布

print("\n产品类别分布:")

print(df['产品类别'].value_counts())

# 查看每列唯一值数量

print("\n各列唯一值数量:")

print(df.nunique())

数据采样方法

对于大规模数据集，采样是有效的探索方式：

# 随机采样10%的数据

sample_df = df.sample(frac=0.1)

# 随机采样100条数据

sample_df = df.sample(n=100)

# 设置随机种子确保可重复性

sample_df = df.sample(n=50, random_state=42)

# 分层抽样示例（确保各类别都有代表）

stratified_sample = df.groupby('类别').apply(lambda x: x.sample(n=10))

3.2 数据清洗流程

缺失值处理

缺失值是数据清洗中的常见问题，需要妥善处理：

# 检测缺失值

missing_count = df.isnull().sum()

missing_percent = df.isnull().mean() * 100

print("缺失值统计:")

missing_info = pd.DataFrame({

'缺失数量': missing_count,

'缺失比例(%)': missing_percent.round(2)

})

print(missing_info)

# 删除缺失值策略

df_cleaned = df.dropna() # 删除所有包含缺失值的行

df_cleaned = df.dropna(subset=['重要列1', '重要列2']) # 只删除关键列有缺失值的行

# 填充缺失值方法

df_filled = df.fillna(0) # 用0填充

df_filled = df.fillna(df.mean()) # 用均值填充

df_filled = df.fillna(method='ffill') # 用前一个值填充（向前填充）

df_filled = df.fillna(method='bfill') # 用后一个值填充（向后填充）

# 高级填充技巧：按分组填充

df['价格'] = df.groupby('产品类别')['价格'].transform(

lambda x: x.fillna(x.mean())

)

重复值处理

重复数据会影响分析结果的准确性：

# 检测重复行

duplicate_rows = df.duplicated()

print(f"发现 {duplicate_rows.sum()} 个完全重复的行")

# 基于特定列检测重复

duplicate_subset = df.duplicated(subset=['客户ID', '订单日期'])

print(f"基于关键列发现 {duplicate_subset.sum()} 个重复行")

# 删除重复行

df_unique = df.drop_duplicates() # 删除完全相同的行

df_unique = df.drop_duplicates(subset=['列1', '列2']) # 基于指定列删除重复

# 保留最后出现的重复值

df_unique = df.drop_duplicates(keep='last')

数据类型转换

正确的数据类型可以提高处理效率和准确性：

# 基本类型转换

df['数量'] = df['数量'].astype(int) # 转换为整数

df['描述'] = df['描述'].astype(str) # 转换为字符串

# 日期时间转换

df['日期'] = pd.to_datetime(df['日期'], format='%Y/%m/%d')

# 分类数据优化（节省内存，提高性能）

df['产品类别'] = df['产品类别'].astype('category')

df['地区'] = df['地区'].astype('category')

# 自定义转换函数

def clean_numeric(value):

"""

清理数值数据，移除货币符号和千位分隔符

"""

if pd.isna(value):

return None

try:

# 移除货币符号和逗号，转换为浮点数

cleaned_value = str(value).replace('yen', '').replace(',', '').strip()

return float(cleaned_value) if cleaned_value else None

except ValueError:

return None

df['价格'] = df['价格'].apply(clean_numeric)

列操作管理

高效管理数据表的列结构：

# 列重命名

df = df.rename(columns={

'old_name1': 'new_name1',

'old_name2': 'new_name2'

})

# 删除列

df = df.drop(['无用列1', '无用列2'], axis=1)

# 调整列顺序

new_order = ['ID', '姓名', '部门', '工资', '入职日期']

df = df[new_order]

# 添加新列

df['年薪'] = df['月薪'] * 12

随机函数excel公式保留3位小数点

上一篇：将上万行的 Excel 数据平均分配给若干个人，有几种简单的办法?
下一篇：7种不同的数据标准化(归一化)方法总结

Python自动化办公应用学习笔记62—Pandas库操作Excel文件3

相关推荐

Excel技巧:SHEETSNA函数一键提取所有工作表名称批量生产目录

Excel HOUR函数:“小时”提取器_excel+hour函数提取器怎么用

关于Excel(WPS表格)中公式，可以从12个方面理解，学后无忧!

Excel(WPS表格)Tocol函数应用技巧案例解读，建议收藏备用!

Filter+Search信息管理不再难|多条件|模糊查找|Excel函数应用

FILTER函数介绍及经典用法12:FILTER+切片器的应用

WPS/Excel职场办公最常用的60个函数大全(含卡片)，效率翻倍!

查找匹配，Vlookup函数公式，1分钟入门至精通!

批量查询快递总耗时?用Excel这个公式，自动计算揽收到签收天数

收藏|查找神器Xlookup全集|一篇就够|Excel函数|图解教程