Didascalia immagine

Name: Didascalia immagine
Price: 4836 INR
Availability: InStock
ISBN: 9786207661039

Meenatchi R

Kanchana Kannaiyan

Italian

Paperback

₹4836

₹6143

21.28% OFF

(All inclusive*)

Delivery Options

Please enter pincode to check delivery time.

*COD & Shipping Charges may apply on certain items.

Review final details at checkout.

Looking to place a bulk order? SUBMIT DETAILS

Delivery Options

Please enter pincode to check delivery time.

*COD & Shipping Charges may apply on certain items.

Review final details at checkout.

LOOKING TO PLACE A BULK ORDER?CLICK HERE

About The Book

Description

Author(s)

La didascalia delle immagini con l'audio è emersa come un compito impegnativo ma promettente nel campo del deep learning. Il presente lavoro propone un approccio innovativo per affrontare questo compito integrando reti neurali convoluzionali (CNN) per l'estrazione delle caratteristiche delle immagini e reti neurali ricorrenti (RNN) per l'analisi audio sequenziale. In particolare utilizziamo CNN pre-addestrate come VGG per estrarre le caratteristiche visive dalle immagini e impieghiamo rappresentazioni dello spettrogramma accoppiate con RNN come LSTM o GRU per elaborare gli input audio. Il modello proposto si basa non solo sul contenuto visivo ma anche sugli spunti audio che lo accompagnano. Valutiamo le prestazioni del nostro modello su set di dati di riferimento e dimostriamo la sua efficacia nel generare didascalie coerenti e contestualmente rilevanti per le immagini con gli input audio corrispondenti. Inoltre abbiamo condotto studi di tablatura per analizzare il contributo di ciascuna modalità alle prestazioni complessive delle didascalie. I nostri risultati mostrano che la fusione delle modalità visive e uditive migliora significativamente la qualità delle didascalie rispetto all'utilizzo di una delle due modalità in modo isolato.