No cenário atual em que o tempo é um fator essencial para um indivíduo é sempre enfadonho trabalhar em tarefas que consomem muito tempo e espera-se encontrar alternativas.Este projeto visa construir modelos que transcrevam o vídeo que lhe foi adicionado. A classificação de sons é uma das aplicações mais utilizadas na aprendizagem profunda de áudio. Envolve aprender a classificar sons e a prever a categoria desse som. Este tipo de problema pode ser aplicado a muitos cenários práticos por exemplo a classificação de clips de música para identificar o género da música ou a classificação de frases curtas de um conjunto de oradores para identificar o orador com base na voz.