2017-9-7 机器学习路线

准备知识:

编程语言:Python,C++,Spark(大数据环境下);
知识储备:英语、线性代数、概率论、图论、神经科学。

第一步 统领大局:

建立大局观,是入门第一要务; 从宏观了解机器学习的全貌;
机器学习:根据已有特征,选择模型,训练模型,预测未知数据;
推荐书籍:
-《图解机器学习》:通俗易懂,算法图解,入门必备;
-《集体智慧编程》:代码实现,一个字“敲”;
-《机器学习(周志华西瓜书)》:系统严谨,数学推导;

第二步 了解算法:

看遍所有算法原理,主要书籍:《机器学习(周志华)》;
coursera 上Andrew NG的机器学习公开课,网易云也开了;
邹博的《机器学习实战》;
李沐《一起动手学习深度学习》;
必学:线性回归,Logistics回归,决策树。

第三步 利用框架:

利用scikit-learn实现所学的算法(推荐鸢尾花分类、MNIST分类)

第四步 神经网络:

看懂Tensorflow官网demo:RNN、CNN、GAN;
莫凡Tensorflow

第五步 实操演练:

注册kangle,奋斗吧!
上线一个小模型(django+scikit-learn)

第六步 关注落地:

机器学习MVP开发;
针对小规模,有质量、已标注的数据进行训练;
明确需求、特征量化、目标量化、特征清洗、模型选型、模型训练、线下验证、模型上线、特征清洗、模型预测、结果应用、运行监控;

实例一:客户动用率预测:

1
2
3
4
5
6
7
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是动用率预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否动用等;
目标量化:选择是否动用为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个逻辑回归试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

实例二:客户逾期率预测:

1
2
3
4
5
6
7
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是逾期率预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等;
目标量化:选择客户是否逾期作为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个softmax回归试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

实例三:客户风险级别预测:

1
2
3
4
5
6
7
明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是风险级别预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等;
目标量化:选择预期风险等级作为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个决策树试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

第七步 补充数学:

《概率论与数理统计》陈希孺
《线性代数应该这样学》

第八步 特征工程:

好的特征决是成功的一半;
特征选择,特征清洗,决定模型的上限,算法和优化只是不断趋近这个上限;
特征工程非常重要。

第九步 深入前沿:

深入了解前沿的底层原理
阅读实践优秀论文,如:MapReduce原理的,李沐Parameter原理的,GAN原理的,LPA原理的……

书单:

《深入浅出统计学》
《深入浅出数据分析》
《大数据智能》
《深度学习》
《优雅的理性》
《创新者的窘境》
《数学之美》

支持小徐?賞一賞!