本入门教程主要参考以下教材/教程
李宏毅2021春机器学习课程https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
李航《统计学习方法》第二版
什么是机器学习:让机器具备找到一个函数(function)的能力,所以想要依靠机器学习解决问题必须首先明确输入是什么,输出是什么,例如:
- 想要识别语音,那么输入就是一段音频,输出应该是一段文字
- 想要识别图像,那么输入就是一张图片,输出可以是对应的图像结果
- 想要训练机器下棋,那么输入的应该是当前的棋盘,输出的是下一步的位置(坐标)
我们要学习的就是如何可以设计出所需要的函数
机器学习的两大类问题
- 回归(Regression)问题:函数的输出为一个数值
- 分类(Classification)问题:给定一些选择(类别),函数输出正确的那个
例如:
- 预测房价价格,预测明天气温,预测新冠肺炎新增人数等等均属于回归问题
- 判断一封邮件是否为垃圾邮件,预测房价涨跌,下围棋程序(即在19*19个类别上输出正确的一个),图像识别(说明图像为哪一类),语音识别等均属于分类问题
这里需要简单说明的是,机图像识别本质上也属于分类,因为训练的过程有点像教小孩认识图片,给定图告诉他这是猫,下次他遇到类似的图片就知道是猫,也是在输出正确的那一类别。类似的,请大家思考为什么语音识别也是分类问题。
结构化学习Structured Learning:两大类问题之外,想要生成结构性的东西,让机器学会“创造”。例如画一张图,写一篇文章等。