{"id":3202,"date":"2025-10-06T16:08:23","date_gmt":"2025-10-06T14:08:23","guid":{"rendered":"https:\/\/tecnologia.euroinnova.com\/que-es-el-q-learning-y-como-funciona-este-aprendizaje-por-refuerzo\/"},"modified":"2025-10-07T14:54:29","modified_gmt":"2025-10-07T12:54:29","slug":"q-lapprentissage","status":"publish","type":"post","link":"https:\/\/tecnologia.euroinnova.com\/fr\/q-learning","title":{"rendered":"Qu'est-ce que le Q-learning et comment fonctionne cet apprentissage par renforcement ?"},"content":{"rendered":"<p dir=\"ltr\">Le Q-learning est un<strong> une technique d'apprentissage automatique qui permet \u00e0 un mod\u00e8le d'apprendre par r\u00e9p\u00e9tition et de s'am\u00e9liorer au fil du temps.<\/strong> avec une approche mammalienne de l'apprentissage. Il s'agit d'un type d'apprentissage par renforcement qui utilise souvent Python comme langage de programmation privil\u00e9gi\u00e9.<\/p>\n<p dir=\"ltr\">D'une certaine mani\u00e8re, l'apprentissage Q <strong>imite la fa\u00e7on dont les petits enfants et les animaux effectuent certaines actions<\/strong> comme mauvaise ou bonne. Ainsi, une action class\u00e9e comme bonne est r\u00e9compens\u00e9e, tandis qu'une action class\u00e9e comme mauvaise est p\u00e9nalis\u00e9e.<\/p>\n<h2 dir=\"ltr\" id=\"como-funciona-el-q-learning\">Comment fonctionne l'apprentissage par questions-r\u00e9ponses ?<\/h2>\n<p dir=\"ltr\">Nous allons expliquer le processus de fonctionnement de l'apprentissage quantitatif de mani\u00e8re simple, \u00e0 l'aide d'un exemple pour plus de clart\u00e9. En substance, l'apprentissage Q est une m\u00e9thode qui aide un agent (tel qu'un robot, un programme, etc.) \u00e0 apprendre \u00e0 prendre les meilleures d\u00e9cisions dans un environnement afin d'obtenir la r\u00e9compense la plus \u00e9lev\u00e9e possible.<\/p>\n<p dir=\"ltr\">Imaginez un jeu o\u00f9 <strong>un robot doit se d\u00e9placer sur une grille pour trouver un tr\u00e9sor.<\/strong> La grille a diff\u00e9rentes positions (\u00e9tats) et le robot peut se d\u00e9placer vers le haut, le bas, la gauche ou la droite (actions).<\/p>\n<p dir=\"ltr\">D\u00e9finissons quelques <strong>termes cl\u00e9s de l'apprentissage par renforcement <\/strong>afin d'expliquer le fonctionnement de l'apprentissage par questions et r\u00e9ponses :<\/p>\n<ul>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>\u00c9tats (S) :<\/strong> Il s'agit des diff\u00e9rentes positions sur la grille. Chaque position est un \u00e9tat.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Actions (A) :<\/strong> Il s'agit des mouvements possibles du robot : haut, bas, gauche, droite.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>R\u00e9compense (R) :<\/strong> Il s'agit du montant que le robot gagne ou perd apr\u00e8s avoir effectu\u00e9 un d\u00e9placement. Par exemple, +10 points pour avoir trouv\u00e9 le tr\u00e9sor et -1 point pour chaque mouvement qui ne m\u00e8ne pas au tr\u00e9sor. La valeur des r\u00e9compenses d\u00e9pendra de la mani\u00e8re dont nous configurons l'algorithme d'apprentissage Q.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Valeur Q (Q) :<\/strong> Il s'agit d'un nombre qui nous indique dans quelle mesure le robot peut effectuer une certaine action \u00e0 partir d'une certaine position.<\/p>\n<\/li>\n<\/ul>\n<h3 dir=\"ltr\" id=\"que-es-una-q-table-o-tabla-q\">Qu'est-ce qu'une table Q ?<\/h3>\n<p dir=\"ltr\">Avant d'expliquer la proc\u00e9dure de cette technique d'apprentissage automatique, il convient d'expliquer ce qu'est une table Q. Une table Q, ou Q-table, <strong>est un tableau ou une matrice qui utilise l'algorithme d'apprentissage Q pour stocker des informations<\/strong> sur les meilleures actions qu'un agent (tel qu'un robot ou un programme) devrait entreprendre dans diff\u00e9rents \u00e9tats pour maximiser sa r\u00e9compense \u00e0 long terme.<\/p>\n<p dir=\"ltr\">La table Q pr\u00e9sente les caract\u00e9ristiques suivantes :<\/p>\n<ol>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Rangs : <\/strong>Chaque ligne du tableau repr\u00e9sente un \u00e9tat possible dans lequel l'agent peut se trouver.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Colonnes :<\/strong> Chaque colonne du tableau repr\u00e9sente une action que l'agent peut entreprendre \u00e0 partir de cet \u00e9tat.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Cellules (valeurs Q, Q(s, a)) : <\/strong>Chaque cellule du tableau contient une valeur Q, qui est un nombre indiquant la qualit\u00e9 d'une action sp\u00e9cifique dans un \u00e9tat sp\u00e9cifique. Plus la valeur Q est \u00e9lev\u00e9e, plus l'action est consid\u00e9r\u00e9e comme bonne dans cet \u00e9tat (\u00e9quation de Bellman).<\/p>\n<\/li>\n<\/ol>\n<h3 dir=\"ltr\" id=\"proceso-de-q-learning\">Processus d'apprentissage Q<\/h3>\n<p dir=\"ltr\">Nous allons maintenant expliquer comment notre agent proc\u00e8de pour am\u00e9liorer ses r\u00e9ponses jusqu'\u00e0 ce qu'il atteigne un r\u00e9sultat optimal :<\/p>\n<h4 dir=\"ltr\">Initialisation<\/h4>\n<p dir=\"ltr\">Nous commen\u00e7ons avec une table Q pleine de z\u00e9ros. Cela signifie que l'agent n'a aucune information sur l'action la plus appropri\u00e9e dans un \u00e9tat donn\u00e9. Ce tableau comporte une ligne pour chaque \u00e9tat (position de la grille) et une colonne pour chaque action (d\u00e9placements possibles).<\/p>\n<p dir=\"ltr\">Visualisons la table Q pour ce m\u00eame exemple. Le robot doit trouver le tr\u00e9sor dans une grille de 2\u00d72. Dans la grille, nous repr\u00e9sentons donc quatre \u00e9tats (positions dans lesquelles le robot peut \u00eatre trouv\u00e9) que nous pouvons exprimer par des coordonn\u00e9es. \u00c0 son tour, le robot dispose d'une gamme de quatre actions qu'il peut effectuer (se d\u00e9placer vers le haut, vers le bas, vers la droite ou vers la gauche). Voici \u00e0 quoi ressemblerait la table Q :<\/p>\n<h5>Exemple de tableau Q\u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0 \u00a0<\/h5>\n<table border=\"1\">\n<tbody>\n<tr>\n<th>\u00c9tat<\/th>\n<th>Haut de la page<\/th>\n<th>En dessous<\/th>\n<th>Gauche<\/th>\n<th>Droit<\/th>\n<\/tr>\n<tr>\n<td>(0,0)<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<\/tr>\n<tr>\n<td>(0,1)<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<\/tr>\n<tr>\n<td>(1,0)<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<\/tr>\n<tr>\n<td>(1,1)<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<td>0<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h4 dir=\"ltr\">Actions<\/h4>\n<p dir=\"ltr\">C'est maintenant \u00e0 l'agent de d\u00e9cider de l'action \u00e0 entreprendre. Si l'agent n'a re\u00e7u aucune r\u00e9compense ou p\u00e9nalit\u00e9 de l'algorithme d'apprentissage Q, il agira au hasard. S'il a \u00e9t\u00e9 form\u00e9 auparavant, il r\u00e9agira en fonction de ses exp\u00e9riences ant\u00e9rieures.<\/p>\n<h4 dir=\"ltr\">Mise \u00e0 jour<\/h4>\n<p dir=\"ltr\">Le robot re\u00e7oit des r\u00e9compenses ou des p\u00e9nalit\u00e9s, c'est-\u00e0-dire un retour d'information positif ou n\u00e9gatif, lorsque sa position se rapproche ou s'\u00e9loigne du tr\u00e9sor. Chaque fois que le robot se d\u00e9place, la table Q doit mettre \u00e0 jour le nombre de r\u00e9compenses pour chaque combinaison d'actions effectu\u00e9es par le robot en fonction de l'\u00e9tat dans lequel il se trouve.<\/p>\n<h4 dir=\"ltr\">It\u00e9ration et terminaison<\/h4>\n<p dir=\"ltr\">Ce processus est it\u00e9ratif, c'est-\u00e0-dire qu'il est r\u00e9p\u00e9t\u00e9 jusqu'\u00e0 ce que le mod\u00e8le d'apprentissage Q ne puisse plus prendre d'actions et atteigne un \u00e9tat de terminaison, id\u00e9alement en ayant obtenu un r\u00e9sultat satisfaisant. Chaque arr\u00eat de l'algorithme est appel\u00e9 un \u00e9pisode.<\/p>\n<h2 dir=\"ltr\" id=\"aplicaciones-reales-del-q-learning\">Applications r\u00e9elles de l'apprentissage par questions et r\u00e9ponses<\/h2>\n<p dir=\"ltr\">La th\u00e9orie, c'est bien beau, mais \u00e0 quoi \u00e7a sert ? Le Q-learning, comme toute autre technique d'apprentissage automatique, peut trouver des applications pratiques dans de nombreuses disciplines. En voici quelques exemples :<\/p>\n<ul>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Robotique : <\/strong>Les robots peuvent apprendre, gr\u00e2ce \u00e0 l'apprentissage quantitatif, \u00e0 naviguer dans des environnements inconnus, \u00e0 \u00e9viter les obstacles et \u00e0 atteindre des objectifs sp\u00e9cifiques.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Jeux vid\u00e9o : <\/strong>Il est utilis\u00e9 pour cr\u00e9er des TAS (tool assisted speedrun) qui permettent de jouer et d'am\u00e9liorer les jeux vid\u00e9o, des jeux simples comme les \u00e9checs aux jeux complexes comme StarCraft.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Conduite autonome : <\/strong>Les voitures apprennent \u00e0 conduire en toute s\u00e9curit\u00e9 en respectant les panneaux de signalisation et en r\u00e9agissant de mani\u00e8re appropri\u00e9e aux diff\u00e9rentes situations sur la route.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Recommandations sur les produits :<\/strong> Am\u00e9liore les recommandations sur des plateformes telles que Netflix, YouTube et Amazon en apprenant des pr\u00e9f\u00e9rences des utilisateurs et en s'adaptant \u00e0 leurs go\u00fbts \u00e0 tout moment.<\/p>\n<\/li>\n<li dir=\"ltr\" aria-level=\"1\">\n<p dir=\"ltr\" role=\"presentation\"><strong>Industrie et fabrication : <\/strong>Anticiper les d\u00e9faillances des machines et planifier la maintenance pour minimiser les temps d'arr\u00eat.<\/p>\n<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>El Q-learning es una t\u00e9cnica de aprendizaje autom\u00e1tico que permite a un modelo aprender a base de repeticiones y mejorar [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":757,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[1],"tags":[],"class_list":["post-3202","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sin-categorizar"],"acf":[],"_links":{"self":[{"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/posts\/3202","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/comments?post=3202"}],"version-history":[{"count":0,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/posts\/3202\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/media\/757"}],"wp:attachment":[{"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/media?parent=3202"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/categories?post=3202"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/tecnologia.euroinnova.com\/fr\/wp-json\/wp\/v2\/tags?post=3202"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}