Legenda da imagem

About The Book

A legendagem de imagens com áudio surgiu como uma tarefa desafiante mas promissora no domínio da aprendizagem profunda. Este documento propõe uma nova abordagem para lidar com essa tarefa integrando redes neurais convolucionais (CNNs) para extração de recursos de imagem e redes neurais recorrentes (RNNs) para análise de áudio sequencial. Especificamente utilizamos CNNs pré-treinadas como VGG para extrair características visuais de imagens e empregamos representações de espectrogramas acopladas a RNNs como LSTM ou GRU para processar entradas de áudio. O nosso modelo proposto baseia-se não só no seu conteúdo visual mas também nas pistas de áudio que o acompanham. Avaliamos o desempenho do nosso modelo em conjuntos de dados de referência e demonstramos a sua eficácia na geração de legendas coerentes e contextualmente relevantes para imagens com entradas de áudio correspondentes. Além disso efectuamos estudos de tabulação para analisar a contribuição de cada modalidade para o desempenho global da legendagem. Os nossos resultados mostram que a fusão das modalidades visual e auditiva melhora significativamente a qualidade da legendagem em comparação com a utilização isolada de cada uma das modalidades.
Piracy-free
Piracy-free
Assured Quality
Assured Quality
Secure Transactions
Secure Transactions
Delivery Options
Please enter pincode to check delivery time.
*COD & Shipping Charges may apply on certain items.
Review final details at checkout.
downArrow

Details


LOOKING TO PLACE A BULK ORDER?CLICK HERE