Tutorial_03 byp.com.cn

Tutorial_03

数据分析

《Python 数据分析案例实战》人邮电出版社 2020年7月第1版 | 20201123

什么是数据分析

数据分析是将数学、统计学理论结合科学的统计分析方法（如线性回归分析、聚类分析、方差分析、时间序列分析等）对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据进行分析，从中提取有价值的信息形成结论并进行展示的过程。数据分析是大数据技术中最重要的一部分。数据分析是从数据中提取有价值的信息的过程。

数据分析方法

数据分析方法：描述性数据分析、探索性数据分析、验证性数据分析。从技术层面又分为三种：统计分析类、高级分析类、数据挖掘类。

统计分析类：以基础的统计分析为主，主要包括对比分析法、同比分析法、环比分析法、定比分析法、差异分析法、结构分析法、因素分析法、80/20法则等；

高级分析类：以建模理论为主，包括回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析法等；

数据挖掘类：以机器学习、数据仓库等复合技术为主。

数据分析流程

明确目的——获取数据——数据处理——数据分析——验证结果——数据展现——数据应用

数据集：UCI（机器学习数据挖掘数据集）、CEIC（国家统计数据）、搜数网、figshare、Kaggle、政府数据开放平台（深圳市、上海市、北京市）

数据处理：是从大量的、杂乱无章的、难以理解的、缺失的数据中，抽取并推导出对解决问题又价值、有意义的数据。数据处理包括：数据规约、数据清洗、数据加工等处理方法。

数据规约：减小数据规模；

数据清洗：数据探索分析（分析数据是否缺失异常）、重复数据处理（Padas中的drop_duplicates()方法）、缺失数据处理、异常数据处理；

数据加工：数据抽取、数据计算、数据分组、数据转换；

Python数据分析常用模块

数值计算模块：Numpy

数据处理模块：Pandas（数据结构的两大核心：Series和DataFrame）

数据可视化模块：Matplotlib

机器学习模块：sklearn（是基于Numpy、Scipy和Matplotlib构建的）

第三章 Pandas模块实现统计分析

python数据库操作一般用：pymysql和sqlalchemy模块(教程)

程序script |

该书需要注册https://www.rymooc.com/，不过注册，输入“学习卡”的卡号，只能看到视频介绍，但是没有源代码、ppt。20201201

《Python大数据分析算法与实例》清华大学出版社 2020年5月第1版 | 20201201 | 源代码

大数据可以概括为5个V，数据量大（Volume）、速度快（Velocity）、类型多（Variety）、价值（Value）、真实性（Veracity）。随着大数据时代的来临，大数据分析也应运而生。大数据分析是指对规模巨大的数据进行分析。大数据分析在研究大量的数据的过程中寻找模式、相关性和其他有用的信息，可以帮助企业更好地适应经营环境的变化，并做出更明智的决策。

大数据分析6个基本流程：可视化分析、数据挖掘算法、预测判断、语义引擎、数据质量和数据管理、数据存储和数据仓库，本书从数据分析可视化入手实现数据展示。数据可视化借助于图形化的手段，清晰、快捷、有效地传达与沟通信息。从用户的角度，数据可视化可以让人快速抓住信息要点，使得关键的数据点从人类的眼睛快速通往大脑。数据可视化一般具备几个特点：准确性、创新性和简洁性。

本书的目的是展现基于Python 3大数据分析方法中的核心算法与实践，介绍的重点是数据特征算法分析及第三方开源库的场景应用，如NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等在大数据分析中的算法与实例应用。
本书分为8章，系统讲解了大数据的数据特征算法分析。第1、2章简要介绍了大数据分析的背景、应用及数据特征分析，第3~7章是典型开源工具介绍与场景应用，第8章是基于Python 3的典型大数据分析算法及应用实例。本书的例子都是在Python 3集成开发环境Anaconda 3中经过实际调试通过的典型案例，书中示例的大部分实验数据来源于GitHub，很多例子也给出了源代码的网址，读者可以参考实现
书中提到的“大数据分析工具”：NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim然后在最后的第8章介绍“大数据分析算法”：

描述统计、假设验证、信度分析、列联表分析、相关分析、方差分析（单因素、多因素）、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析、生存分析、典型相关分析、RoC分析、距离分析、对应分析、决策树分析、神经网络-深度学习、蒙特·卡罗模拟、关联规则（Apriori算法、FP树频算法）、Uplift Modeling、集成方法、异常检测、文本挖掘、Boosting算法

描述统计：统计学分为描述统计学和推断统计学。描述统计学是使用特定的数字或图表来提现数据集中程度或离散程度，如：平均数、中位数、众数、方差、标准差；推断统计学是根据样本数据来推断总体特征。

中心位置（均值、中位数、众数）

from numpy import mean, median
from scipy.stats import mode

# 计算均值
result = mean(data)
print('计算均值：', result)
# 计算中位数
result = median(data)
print('计算中位数：', result)

# 计算众数
result = mode(data)
print('计算众数：', result)

发散程度（极差、方差、标准差、变异系数）

from numpy import mean, ptp, var, std
# 极差
result = ptp(data)
print('极差：', result)
# 方差
result = var(data)
print('方差：', result)
# 标准差
result = std(data)
print('标准差：', result)
# 变异系数
result = mean(data)/std(data)
print('变异系数：', result)

Last update: 2021-07-22|Pageview:11

Research Blog: EC | EC_INFO | EC_WORK |