python数据分析报告-案例.docx
数据分析报告一项目名称职业人群体检数据分析数据分析目的确定成年人的细胞数量正常范围一、分析设计(把分析目的分解成若干个不同的分析要点,也就是要达到这个目的该如何具体开展数据分析?需要从哪个角度进行分析?)1、分析不同年龄段各细胞的数量;2、成年人的细胞数量正常范围;二、数据收集19822009年201735248524819842015年2017331.858319832013年20173425.619519852014年2017322.56.625219862014年2017311.35.216919822011年2017351.65.216519882015年20172914.311019601982年2017571.95.510019641984年2017532.15.32721987201碎2017301.6525319822012年2017351.5522819731992年2017441.75919819852012年2017321.53.619852013年20173226591142013年20172017196119319721996年2017451.5442182015年201720171.539131z'IT mF dip r tor 工 T r -<TA 目 xQ l Q QJt QJT TA TA tAOJtX T(说明数据来源)序号性别身份证号开始从事某工住年份体检年份年龄淋巴缰服计就白细胞计敖血小板计数12345678910111213141516174三、数据处理(对采集到的数据进行加工整理,形成适合数据分析的样式)首先读取数据,大致对数据进行浏览并去除空值,代码如下:importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspit# 解决数据输出时列名不对齐的问题# pd.set_option(,display.unicode.east_asian_width,True)# 设置数据显示的列数和宽度pd.set_option(,dispLay.max_columns,500)pd.set_option(,dispLay.width',1000)df=pd.read_excel(rfD:11testdata.×Ls')# 读取数据一print(df.head()# In4:data.drop('缴您其它值,inplace=True,axis=l)#删掉一个没用的列# In5:data.dropna(inplace=True)#删掉异常值四、数据分析(用适当的分析方法及工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论)运行程序,输入结果如下,根据信息梳理,总体思路如下:1、共9个字段,可以通过体检年份与身份证号创建“年龄”字段;2、通过年龄、性别与各个细胞的相关性,挖掘出相关规律。# IL7J:data*出生年*=dZal"身份证号".map(lambda×:int(×A:8>># In8J:# 由丁体检年份M在2。17年考虑的应该是2。17年的年纪dataf,有部'=2017-data出生年# T9:da-ta.describe<)# 年蛤有点.问题-179-819出生年有点问题2196计其它的看不出末# Tnl:da-ta=da-ta(daa,庄和,V100)&(dataf'年龄,、>15)什1比才率年龄%15-10Q的人#data=datad<jtcj,出生年<2000林JR选200。年之出生的人I序号性别身份证号开始从事某工作年份体检年份年龄淋巴细胞计引!白细胞计数细胞其它值血小板计数0NaN1248.01982.209年201735.2.48.51NaN2300.01984.020T5年201733.01.85.82NaN3195.01983.02013年201734.02.05.63NaN4男252.01985.02014年201732.02.56.64NaN5男169.01986.02014年201731.01.35.2五、数据展现(数据通过图形的方式来呈现)白细胞计数图表31、本次作业使用Python调用Pandas、numpymatplotlib三大模块,更加了解其功能并掌握了运用方法;2、本次作业使用了PandaS的“删、改”、列表转换、OffiCe调用、3、通过制作散点图分析各维度参数之间的相关性及规律:3.1、 通过图表1可以看出,成年人的血小板数量大约在80400之间;OO30020010003.2、 成年男性的白细胞数量相比女性要多一些。