日常办公常常会见到两种类型的Excel数据表:清单型和报表型。如下图所示,你觉得哪张表格更好?(注:数据是假数据)
你可能会想:表3最清楚啊!表2次之,表1数据最冗余,比如语文写了8遍,太浪费了!
没错,从人的视角看这三张表格,确实如此。但是计算机更“喜欢”表1这种清单型的数据表。
可以简单分析一下他们的优缺点:
数据分析是要交给计算机来做的,所以,在设计Excel数据表结构时,建议设计成清单型数据表。当然很多数据平台导出的数据表也都是清单型的,如问卷平台的数据表。
故:清单型数据表更适合用计算机做数据分析。
当清单型数据表每行的记录增多时,数据表往往会很“长”。在大数据面前,如何利用计算机快速获取、查看自己想看的数据呢?筛选和排序是两种基本的数据处理方法。无论是图形界面的应用软件,还是编程语言,都能很好的对清单型数据表进行筛选和排序。下面就以Excel和python两种方式简单处理清单型数据。
import pandas as pd# 读取Excel数据表df = pd.read_excel("数据实例.xlsx")# 筛选学科列为数学的数据mathDF = df[df['学科']=='数学']# 对数学的平均分降序排序mathDF.sort_values(by='平均分', ascending=False)筛选和排序可以说是从清单型数据表中获取有用数据的基本方法。基于筛选和排序的数据,便可以进行各类数据的统计、计算等等。