特训营·第 1 计划·(阶段一)
标准库,扩展库,运算符,表达式,字符串、转义字
符,字符串的输出和输入,访问字符串中的值,字符
串内建函数;列表,包括列表访问,列表运算,深拷
贝/浅拷贝,列表常用的方法;字典,集合,条件表
达式,选择结构,包括while循环,break语句,for in
循环,range函数,continue语句;
函数参数,变量作用域,lambda,生成器;
类的定义,使用,数据成员,成员方法,特殊方法,运算符重
载;
numpy,包括NumPy 数学函数,NumPy 统计函数,
NumPy 矩阵库(Matrix) ,NumPy 排序、条件刷选
函数,NumPy 线性代数,数组运算,矩阵运算,
scipy,pandas,如Pandas数据结构,Pandas数据
帧(DataFrame),Pandas面板,包括Pandas基本应
用,Pandas描述性统计,Pandas函数应用,Pandas
重建索引,Pandas迭代,Pandas统计函数;
特训营·第 2 计划·(阶段二)
Pandas 读取数据, scikit-learn 训练与测试模型;
评估模型性能的指标;
交叉验证(把给定的数据进行切分,将切分的数据集分
为“训练集”和“验证集”(假设其中4份为train,1
份为validation),在此基础上循环选取进行训练
和验证。曲线判断过欠拟合,用网络搜索训练模型;
测试 NumPy 、 pandas 技能的掌握;
测试对模型评估与验证的理解;
特训营·第 3 计划·(阶段三)
分类与回归的区别,学习使用线性回归来做预测;
Iris经典爱丽丝,爱丽丝进化与文本矢量化,AI操作
流程,数据切割函数,Iris爱丽丝分解,线性回归算
法,逻辑回归算法;
朴素贝叶斯原理,朴素贝叶斯算法,KNN近邻算法
,随机森林算法,构建垃圾邮件分类器;
决策树算法,GBDT迭代决策树算法,SVM向量机
,SVM-cross向量机交叉算方法,神经网络算法,
MLP神经网络算法,MLP_reg神经网络回归算法,
探索泰坦尼克号乘客存活模型;
支持向量机以线性分离数据;
非线性可分的数据上来训练 SVM;
boosting 提升传统方法;Adaboost,CCPP数据
集,数据集切割,读取CCPP数据集,机器学习统一
接口,批量调用机器学习算法,一体化调用,存储算
法模型,批量存储算法模型,批量加载算法模型,机
器组合算法;
监督学习测试题;
特训营·第 4 计划·(阶段四)
聚类算法,k-means 对数据聚类;
k-means,K均值聚类算法是先随机选取K个对象作为
初始的聚类中心。计算每个对象与各个种子聚类中心
之间的距离,把每个对象分配给距离它最近的聚类中
心,对电影评分聚类;
单连接聚类法、层次聚类法,通过某种相似性测度计
算节点之间的相似性;DBSCAN,Density-Based
Spatial Clustering of Applications with Nois是一
个比较有代表性的基于密度的聚类算法;
高斯混合模型、高斯概率密度函数、正态分布曲线及
相关示例;
通过案例学习特征缩放;
降维,PCA 的原理(PCA降维原理是基于训练数据集
X的协方差矩阵C的特征向量组成的K阶矩阵U,XU得
到X的k阶降维矩阵Z。主要原理用的是协方差矩阵C
是一个实对角矩阵的性质和使用场景;
特征脸方法、 SVM 脸部识别,使用预处理来提取更
有意义的特征。这里使用主成份分析来提取150个基
本元素,然后将其提供给支持向量机分类器,将这个
预处理和分类器打包成管道;
随机投影(随机投影的理论依据是J-L Lemma,公式
的核心思想总结一句话就是:
在高维欧氏空间里的点集映射到低维空间里相对距离
得到某误差范围内的保持,独立成分分析,Lab学习
应用这些方法;
非监督学习测试题;
特训营·第 5 计划·(阶段五)
深度学习,这是机器学习中一种基于对数据进行表
征学习的方法。观测值(例如一幅图像)可以使用
多种方式来表示,如每个像素强度值的向量,或者
更抽象地表示成一系列边、特定形状的区域等,而
使用某些特定的表情识别,包括softmax、one-hot
encoding和cross entropy感知器,与梯度下降;
神经网络结构,通过 backpropogation 来训练网
络优化神经网络,如 regularization 与 dropout
使用 Keras 分析 IMDB 电影数据;
卷积神经网络原理,卷积神经网络,包括Convo-
lutional,Neural Networks, CNN,是一类包含
卷积计算且具有深度结构的前馈神经网络,Feed-
forward、Neural Netwo,是深度学习(deep
learning)的代表算法之一、图像识别、keras、
迁移学习;
深度学习在癌症(如皮肤癌)检测,将近13万张可用
的皮肤病变图像,覆盖了2000多种不同的疾病类型。
他们使用这一数据集创建了图像库,并将其作为原
始像素提供给算法,每个像素都带有标签,描述了相
关疾病的附加数据。研究人员训练算法总结出图像里
的模式,也即发现疾病经由组织传播在外观上所遵循
的规则;
特训营·第 6 计划·(阶段六)
强化学习(reinforcement learning),又称再励学习
、评价学习,是一种重要的机器学习方法,在智能控
制机器人及分析预测等领域有许多应用,与 OpenAI
Gym 的基础;
马尔科夫决策过程策略,基于马尔可夫过程理论的随
机动态系统的优决策过程;
马尔可夫决策过程是序贯决策的主要研究领域,它是
马尔可夫过程与确定性的动态规划相结合的产物,又
称马尔科夫型随机动态规划,属于运筹学中的数学规
划的一个分支,推到Bellman方程;
迭代策略评估、策略改进、策略迭代和值迭代;
蒙特卡洛预测,也叫蒙特卡罗(Monte Carlo)方法,
又称随机抽样或统计试验方法,控制方案、greedy算
法、epsilon-greedy算法;
Sarsa、Q-Learning 、预期 Sarsa;
解决 OpenAI Gym(OpenAI Gym 是一个用于开发
和比较RL 算法的工具包,与其他的数值计算库兼容
,如tensorflow 或者theano 库。现在主要支持的
是python 语言,以后将支持其他语言)的Taxi-v2
任务;
传统算法适用于连续空间;
深度神经网络将强化学习方法扩展到复杂问题;
基于策略的方法优化优策略;
基于价值、基于策略的方法,解决具有挑战性的强化
学习问题;
强化学习相关的测试题;