La tesis trata sobre resolver un problema de formación de múltiples agentes para recorrer un área discreta, este problema está considerado en dos y tres dimensiones. El trabajo desarrollado propone el uso de una técnica de la Inteligencia Articial para encontrar soluciones óptimas de ambos problemas, mediante el uso de aprendizaje por refuerzo, los cuales son algoritmos para encontrar una póliza óptima basado en una mecánica de acción-recompensa, un método que ha sido aplicado exitosamente en diversos problemas. El problema de formación de multi-agentes es donde un grupo de agentes tienen que encontrar una ruta óptima para llegar a una posición ideal y entrar en una formación. Aquí se tienen ciertas recompensas dadas para poder adquirir una póliza ideal para la formación. Por otro lado, para el problema de recorrer un área se implementó una técnica accion-recompensa similar como el primer problema, obteniendo resultados satisfactorios para ambos. Finalmente los aprendizajes obtenidos de ambos problemas son implementados en simulaciones para ver el correcto funcionamiento de lo aprendido.