Parallel encoder-decoder framework for image captioning

Saeidimesineh, Reyhane; Adibi, Peyman; Karshenas, Hossein; Darvishy, Alireza

doi:10.1016/j.knosys.2023.111056

Publikationstyp:	Beitrag in wissenschaftlicher Zeitschrift
Art der Begutachtung:	Peer review (Publikation)
Titel:	Parallel encoder-decoder framework for image captioning
Autor/-in:	Saeidimesineh, Reyhane Adibi, Peyman Karshenas, Hossein Darvishy, Alireza
et. al:	No
DOI:	10.1016/j.knosys.2023.111056
Erschienen in:	Knowledge-Based Systems
Band(Heft):	282
Heft:	111056
Erscheinungsdatum:	2023
Verlag / Hrsg. Institution:	Elsevier
ISSN:	0950-7051 1872-7409
Sprache:	Englisch
Schlagwörter:	Parallelization; Encoder–decoder framework; Image captioning; Natural language processing
Fachgebiet (DDC):	006: Spezielle Computerverfahren
Zusammenfassung:	Recent progress in deep learning has led to successful utilization of encoder–decoder frameworks inspired by machine translation in image captioning models. The stacking of layers in encoders and decoders has made it possible to use several modules in encoders and decoders. However, just one type of module in encoder or decoder has been used in stacked models. In this research, we propose a parallel encoder–decoder framework that aims to take advantage of multiple of types modules in encoders and decoders, simultaneously. This framework contains augmented parallel blocks, which include stacking modules or non-stacked ones. Then, the results of the blocks are integrated to extract higher-level semantic concepts. This general idea is not limited to image captioning and can be customized for many applications that utilize encoder–decoder frameworks. We evaluated our proposed method on the MS-COCO dataset and achieved state-of-the-art results. We got 149.92 for CIDEr-D metric outperforming state-of-the-art image captioning models.
URI:	https://digitalcollection.zhaw.ch/handle/11475/28970
Volltext Version:	Publizierte Version
Lizenz (gemäss Verlagsvertrag):	Lizenz gemäss Verlagsvertrag
Departement:	School of Engineering
Organisationseinheit:	Institut für Informatik (InIT)
Enthalten in den Sammlungen:	Publikationen School of Engineering

Dateien zu dieser Ressource:

Es gibt keine Dateien zu dieser Ressource.

Zur Langanzeige

Saeidimesineh, R., Adibi, P., Karshenas, H., & Darvishy, A. (2023). Parallel encoder-decoder framework for image captioning. Knowledge-Based Systems, 282(111056). https://doi.org/10.1016/j.knosys.2023.111056

Saeidimesineh, R. et al. (2023) ‘Parallel encoder-decoder framework for image captioning’, Knowledge-Based Systems, 282(111056). Available at: https://doi.org/10.1016/j.knosys.2023.111056.

R. Saeidimesineh, P. Adibi, H. Karshenas, and A. Darvishy, “Parallel encoder-decoder framework for image captioning,” Knowledge-Based Systems, vol. 282, no. 111056, 2023, doi: 10.1016/j.knosys.2023.111056.

SAEIDIMESINEH, Reyhane, Peyman ADIBI, Hossein KARSHENAS und Alireza DARVISHY, 2023. Parallel encoder-decoder framework for image captioning. Knowledge-Based Systems. 2023. Bd. 282, Nr. 111056. DOI 10.1016/j.knosys.2023.111056

Saeidimesineh, Reyhane, Peyman Adibi, Hossein Karshenas, and Alireza Darvishy. 2023. “Parallel Encoder-Decoder Framework for Image Captioning.” Knowledge-Based Systems 282 (111056). https://doi.org/10.1016/j.knosys.2023.111056.

Saeidimesineh, Reyhane, et al. “Parallel Encoder-Decoder Framework for Image Captioning.” Knowledge-Based Systems, vol. 282, no. 111056, 2023, https://doi.org/10.1016/j.knosys.2023.111056.

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.