讲义 01 - 数据科学简介 数据科学是一门专门处理数据的科学,数据的真正价值只有在进行深度加工处理并形成产品之后才能够被体现出来。 02 - R 语言简介 R 语言是一种解释型编程语言,主要用于统计分析、绘图以及数据挖掘。 03 - 数据分析基础 (上) 基于 tidyverse 扩展包的数据导入、数据导出、数据转换和数据规整。 04 - 数据分析基础 (下) 基于 tidyverse 扩展包的关系数据处理、不同类型数据处理和函数式编程。 05 - 数据可视化 数据可视化旨在借助于图形化手段,清晰有效地传达与沟通信息,数据可视化既是一门艺术也是一门科学。 06 - 统计分析基础 统计分析方法是广泛使用的现代科学方法,是一种比较科学、精确和客观的测评方法。 07 - 特征工程 特征工程是指从实际业务发生产生的原始数据加工得到最终用于特定的挖掘算法的输入变量的过程。 08 - 模型评估 & 超参数优化 对学习器的泛化性能进行评估,不仅需要有效可行的实验评估方法,还需要有衡量模型泛化能力的评价标准。 09 - 分类算法(上) 逻辑回归和决策树是用于分类任务的经典监督学习算法,同时其具有较好的解释性。 10 - 分类算法(下) 集成学习算法的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。 11 - 聚类算法 聚类算法是一种把相似的对象分成不同的组别或者更多的子集的非监督式学习算法。 12 - 时间序列算法 时间序列分析的目的是挖掘时间序列中隐含模式,并借此对此序列进行评估以及对后续趋势进行预测。 13 - 深度学习算法 深度学习是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。 14 - 可重复性研究 可重复性研究的目标是将文字说明与分析和数据联系起来,以便重新创建、更好地理解和验证逻辑。