R 语言数据科学导论
Data Science Introduction with R

仓库:leovan/data-science-introduction-with-r

简介:本项目是一套以 R 为分析语言的数据科学入门教程。


  1. 数据科学概念
    • 数据科学
    • 数据产品
    • 跨界
  2. 数据科学工具箱
    • 数据科学常用工具
    • 数据科学之战
    • 选择哪种语言
  3. 数据科学分工与流程
    • 数据科学分工
    • 数据分析和挖掘流程
1. 数据科学简介
  1. R 相关环境配置
  2. R 基础语法
  3. R 对象,函数和扩展包
  4. R 数据结构
  5. R 语言编码风格
2. R 语言简介
  1. 大神的工具箱
  2. 数据导入和导出
  3. 数据转换和规整
3. 数据分析基础 (上)
  1. 关系数据处理
  2. 不同类型数据处理
  3. 函数式编程
4. 数据分析基础 (下)
  1. 数据可视化
  2. ggplot2
  3. 基于 Web 的绘图库
5. 数据可视化
  1. 探索性分析
    • 描述性统计量
    • 常用分布
  2. 实验设计
    • 假设检验概念
    • 常用假设检验
  3. 线性回归
    • 一元线性回归
    • 多元线性回归
    • 广义线性回归
    • 最小二乘法与梯度下降
6. 统计分析基础
  1. 数据预处理
    • 数据清洗
    • 缺失值,重复值,异常值处理
    • 数据采样,数据集分割
  2. 特征变换和编码
    • 无量纲化
    • 分箱
    • 哑变量化
  3. 特征提取,选择和监控
    • 特征提取
    • 特征选择
    • 特征监控
7. 特征工程
  1. 模型性能评估
    • 回归问题
    • 分类问题
    • 聚类问题
  2. 模型生成和选择
    • 过拟合问题
    • 评估方法
    • 偏差和方差
  3. 超参数优化
    • 搜索算法
    • 进化和群体算法
    • 贝叶斯优化
8. 模型评估 & 超参数优化
  1. 逻辑回归
  2. 决策树
9. 分类算法 (上)
  1. Bagging
  2. Boosting
  3. Stacking
10. 分类算法 (下)
  1. 时间序列
  2. ARIMA 模型
  3. 季节性分析
  4. Prophet
11. 时间序列算法
  1. K-means
  2. 层次聚类
  3. 基于密度的聚类
12. 聚类算法
  1. 可重复性研究
  2. Markdown
  3. R Markdown
  4. Jupyter
  5. 版本控制
13. 可重复性研究
  1. 人工神经网络
  2. 卷积神经网络
  3. 循环神经网络
  4. 深度学习框架
14. 深度学习算法