Le Machine Learning est une branche de l'Intelligence Artificielle qui permet l'analyse et la construction d'algorithmes capables d'apprendre à partir de données d'entrée. L'apprentissage automatique (Machine Learning) s'appuie sur des principes mathématiques connus :
et des algorithmes éprouvés : régression linéaire, régression logistique, SVM, K-plus proches voisins (KNN), arbres de décision, naïve bayésien (NBC), forêts aléatoires, k-moyennes.
Deux grandes familles d'apprentissage :
Les données à analyser disposent d'étiquettes (labels). L'objectif sera certainement de construire un estimateur capable de prédire l'étiquette d'un objet à partir de ses valeurs.
La fonction à construire sera de la forme : étiquette = f(entrées)
L'algorithme est ensuite capable de faire de la prédiction sur de nouvelles données sans étiquette.
Suivant que l'on souhaite classer les données ou faire une approximation, on utilisera un algorithme de classification (malade/pas malade) ou un algorithme de régression (prédire la taille d'une personne en fonction de son poids et de son âge par exemple).
Si les données n'ont pas d'étiquettes, l'objectif sera alors de trouver des similarités entre les objets observés, pour les regrouper au sein de grappes (algorithmes de clustering).
La puissance d'aujourd'hui est tirée de la distribution des calculs et des données au travers de la technique map/reduce. Cette puissance permet d'exploiter les techniques de réseaux de neurones, dont l'origine remonte à 1943, et de créer de nouvelles bibliothèques de traitement comme TensorFlow.