O curso visa a prática de gerenciamento de recursos de computação distribuída através das principais ferramentas de manipulação de sistemas distribuídos com foco em aplicações de Machine Learning e Big Data. O curso é dividido em 4 etapas.
Na primeira, são vistos os conceitos fundamentais da computação distribuída, uma introdução ao sistema operativo Linux, distribuições de arquitetura, programação em shell script e configurações de usuários e de recursos. Em seguida, na segunda etapa, é apresentada uma breve introdução à HPC, Big Data e Machine Learning. A terceira etapa visa mostrar o funcionamento de gerenciadores de recursos, focando primeiro na arquitetura e funcionamento do gerenciador tradicional PBS TORQUE, que permite a criação de fila de tarefas e distribuição de diferentes processos para milhares de nós. Também será apresentado o ecossistema Hadoop, com os gerenciadores Yarn e HDFS e os principais softwares que se desenvolvem nesta arquitetura. A quarta etapa é o gerenciamento de um ambiente completo de Cloud Computing através do OpenStack. A partir de suas ferramentas será possível executar instâncias em uma Nuvem Pública ou Privada, de serviços de computação, rede, volume, compartilhamento e monitoramento.
Os participantes terão a oportunidade de praticar, configurando sistemas de CPUs, GPUs e cloud.