T85_code/.ipynb_checkpoints/data_extract-checkpoint.ipynb

24 KiB
Raw Blame History

In [1]:
import pandas as pd
import os
In [2]:
file_path = [x for x in os.listdir('./new_data/') if x.endswith('xls') and '经济性' in x]
len(file_path)
Out[2]:
635
In [8]:
data = pd.read_excel(f'./new_data/{file_path[0]}', header=[3,4,5])
In [17]:
cols = [''.join([x for x in y if 'Unnamed' not in x]) for y in data.columns]
cols
Out[17]:
['序号',
 '机组编号',
 '时间',
 '发电量(万kWh)',
 '供电量(万kWh)',
 '标煤量t',
 '发电用标煤量t',
 '供热用标煤量t',
 '利用小时(h)',
 '平均负荷(MW)',
 '出力系数(%)',
 '出力系数(%)',
 '出力系数(%)',
 '工业供热量',
 '工业热电比(%)',
 '采暖供热量',
 '采暖热电比(%)',
 '总热电比(%)',
 '总供热量',
 '供热煤耗',
 '给水泵汽轮机总耗热量',
 '供电煤耗gce/(kWh)',
 '综合厂用电率(%)',
 '发电厂用电率(%)',
 '供热厂用电率(%)',
 '非生产厂用电率(%)',
 '最新THA工况二类修正后汽机热耗率kJ/KWh',
 '点火用油(kg/万kWh)',
 '助燃用油(kg/万kWh)',
 '主蒸汽压力(MPa)',
 '主蒸汽温度(℃)',
 '再热蒸汽温度(℃)',
 '高加投入率(%)',
 '给水温度(℃)',
 '真空严密性V(Pa/min)',
 '真空度(%)',
 '凝汽器端差(℃)',
 '凝结水过冷度(℃)',
 '发电补给水率(%)',
 '发电综合耗水率',
 '排烟温度(℃)',
 '飞灰含碳量(%)',
 '空预器漏风率(%)',
 '过热器减温水量(t/h)',
 '再热器减温水量(t/h)',
 '入厂煤低位热值(kJ/kg)',
 '入炉煤低位热值(kJ/kg)',
 '燃煤挥发份Var(%)',
 '燃煤灰份Aar(%)',
 '燃煤低位热值Qar,net(kJ/kg)',
 '燃煤硫份Sar(%)',
 '锅炉专业主要辅机耗电率 送风机耗电率(%)',
 '锅炉专业主要辅机耗电率 引风机耗电率(%)',
 '锅炉专业主要辅机耗电率 一次风机耗电率(%)',
 '锅炉专业主要辅机耗电率 炉水泵耗电率(%)',
 '锅炉专业主要辅机耗电率 给煤机耗电率(%)',
 '锅炉专业主要辅机耗电率 磨煤机耗电率(%)',
 '锅炉专业主要辅机耗电率 电除尘器耗电率(%)',
 '锅炉专业主要辅机耗电率 除灰系统耗电率(%)',
 '汽机专业主要辅机耗电率 凝结水泵耗电率(%)',
 '汽机专业主要辅机耗电率 前置泵耗电率(%)',
 '汽机专业主要辅机耗电率 电动给水泵耗电率(%)',
 '汽机专业主要辅机耗电率 循环水泵耗电率(%)',
 '汽机专业主要辅机耗电率 空冷风机耗电率(%)',
 '汽机专业主要辅机耗电率 热网循环水泵耗电率(%)',
 '环保专业耗电率 脱硫系统耗电率(%)',
 '环保专业耗电率 脱销系统耗电率(%)',
 '输煤专业耗电率输煤系统耗电率(%)',
 '化学系统耗电率  (%)',
 '化学系统耗电率  (%)']
In [22]:
data_list = list()
for file in file_path:
    data = pd.read_excel(f'./new_data/{file}', header=[3,4,5])
    data.columns = cols
    plant = file.split('-')[0]
    data['时间'] = data['时间'].astype(str)
    use_data = data[~data['时间'].str.contains('半年')].copy()
    use_data['电厂名称'] = plant
    data_list.append(use_data)
In [23]:
pd.concat(data_list, axis=0)
Out[23]:
序号 机组编号 时间 发电量(万kWh) 供电量(万kWh) 标煤量t 发电用标煤量t 供热用标煤量t 利用小时(h) 平均负荷(MW) ... 汽机专业主要辅机耗电率 电动给水泵耗电率(%) 汽机专业主要辅机耗电率 循环水泵耗电率(%) 汽机专业主要辅机耗电率 空冷风机耗电率(%) 汽机专业主要辅机耗电率 热网循环水泵耗电率(%) 环保专业耗电率 脱硫系统耗电率(%) 环保专业耗电率 脱销系统耗电率(%) 输煤专业耗电率输煤系统耗电率(%) 化学系统耗电率 (%) 化学系统耗电率 (%) 电厂名称
0 1 1 2008 90133.898438 NaN NaN NaN NaN 7210.709961 113.171409 ... 2.22 0.220 NaN NaN 1.100 0.0 0.02 NaN NaN 万方发电厂(焦作爱依斯万方电力有限公司)
1 2 2 2008 91543.898438 NaN NaN NaN NaN 7323.509766 112.801718 ... 2.28 0.220 NaN NaN 1.000 0.0 0.02 NaN NaN 万方发电厂(焦作爱依斯万方电力有限公司)
2 3 1 2007 88968.703125 NaN NaN NaN NaN 3550.750000 109.667990 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 万方发电厂(焦作爱依斯万方电力有限公司)
3 4 2 2007 92342.750000 NaN NaN NaN NaN 3693.709961 112.702716 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 万方发电厂(焦作爱依斯万方电力有限公司)
0 1 1 2021 154638.030000 146317.63 597224.38 398069.77 199154.61 4418.229429 204.300000 ... 0.00 0.936 0.0 0.31 1.018 0.0 0.05 0.02 NaN 三河发电有限责任公司
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
10 11 1 2005 131498.000000 NaN NaN NaN NaN 6574.899902 171.999827 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 黔桂发电有限责任公司
11 12 2 2005 143572.000000 NaN NaN NaN NaN 7178.589844 171.555440 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 黔桂发电有限责任公司
12 13 3 2005 137886.000000 NaN NaN NaN NaN 6894.310059 174.126182 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 黔桂发电有限责任公司
13 14 4 2005 154531.000000 NaN NaN NaN NaN 7726.549805 184.107277 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 黔桂发电有限责任公司
14 15 5 2005 155969.000000 NaN NaN NaN NaN 7798.459961 184.192211 ... 0.00 0.000 NaN NaN 0.000 0.0 0.00 NaN NaN 黔桂发电有限责任公司

15758 rows × 71 columns

机组信息

In [24]:
unit_data_files = [x for x in os.listdir('./new_data/') if '电厂机组' in x]
unit_data_files[:5]
Out[24]:
['中国中信集团公司-32020-电厂机组数据查询-20220707.xls',
 '中国中煤能源集团有限公司-34027-电厂机组数据查询-20220707.xls',
 '中国华电集团有限公司-21060-电厂机组数据查询-20220707.xls',
 '中国华能集团有限公司-17021-电厂机组数据查询-20220707.xls',
 '中国大唐集团有限公司-61005-电厂机组数据查询-20220707.xls']
In [28]:
unit_samples = pd.read_excel(f'./new_data/{unit_data_files[0]}', header=[3,4])
unit_cols = [''.join([x for x in y if 'Unnamed' not in x]) for y in unit_samples.columns]
unit_cols
Out[28]:
['序号',
 '企业编码',
 '电厂名称',
 '简称',
 '机组编号',
 '铭牌容量 (MW)',
 '投产时间',
 '机组类型',
 '参数分类',
 '所处地区',
 '机组产地',
 '锅炉制造厂家',
 '汽轮机制造厂家',
 '发电机制造厂家',
 '主变压器制造厂家',
 '二级公司',
 '所属集团',
 '所属电网',
 '所属电网']
In [ ]:
unit_list = list()
for file in unit_data_files:
    data = pd.read_excel(f'./new_data/{file}', header=[3,4])
    data.columns = cols
    plant = file.split('-')[0]
    data['时间'] = data['时间'].astype(str)
    use_data = data[~data['时间'].str.contains('半年')].copy()
    use_data['电厂名称'] = plant
    unit_list.append(use_data)