Visual question answering based on local-scene-aware referring expression generation

Kim, J.-J.; Lee, D.-G.; Wu, J.; Jung, H.-G.; Lee, S.-W.

doi:10.1016/j.neunet.2021.02.001

Detailed Information

Cited 0 time in webofscience

Cited 0 time in scopus

Metadata Downloads

Visual question answering based on local-scene-aware referring expression generation

Full metadata record

DC Field	Value	Language
dc.contributor.author	Kim, J.-J.	-
dc.contributor.author	Lee, D.-G.	-
dc.contributor.author	Wu, J.	-
dc.contributor.author	Jung, H.-G.	-
dc.contributor.author	Lee, S.-W.	-
dc.date.accessioned	2021-12-02T00:41:33Z	-
dc.date.available	2021-12-02T00:41:33Z	-
dc.date.created	2021-08-31	-
dc.date.issued	2021-07	-
dc.identifier.issn	0893-6080	-
dc.identifier.uri	https://scholar.korea.ac.kr/handle/2021.sw.korea/128760	-
dc.description.abstract	Visual question answering requires a deep understanding of both images and natural language. However, most methods mainly focus on visual concept; such as the relationships between various objects. The limited use of object categories combined with their relationships or simple question embedding is insufficient for representing complex scenes and explaining decisions. To address this limitation, we propose the use of text expressions generated for images, because such expressions have few structural constraints and can provide richer descriptions of images. The generated expressions can be incorporated with visual features and question embedding to obtain the question-relevant answer. A joint-embedding multi-head attention network is also proposed to model three different information modalities with co-attention. We quantitatively and qualitatively evaluated the proposed method on the VQA v2 dataset and compared it with state-of-the-art methods in terms of answer prediction. The quality of the generated expressions was also evaluated on the RefCOCO, RefCOCO+, and RefCOCOg datasets. Experimental results demonstrate the effectiveness of the proposed method and reveal that it outperformed all of the competing methods in terms of both quantitative and qualitative results. © 2021 Elsevier Ltd	-
dc.language	English	-
dc.language.iso	en	-
dc.publisher	Elsevier Ltd	-
dc.subject	Natural language processing systems	-
dc.subject	Quality control	-
dc.subject	Visual languages	-
dc.subject	Joint-embedding multi-head attention	-
dc.subject	Natural languages	-
dc.subject	Object categories	-
dc.subject	Question Answering	-
dc.subject	Question-embedding	-
dc.subject	Referring expression generation	-
dc.subject	Referring expressions	-
dc.subject	Simple++	-
dc.subject	Visual concept	-
dc.subject	Visual question answering	-
dc.subject	Embeddings	-
dc.subject	article	-
dc.subject	attention network	-
dc.subject	embedding	-
dc.subject	human	-
dc.subject	human experiment	-
dc.subject	prediction	-
dc.subject	quantitative analysis	-
dc.title	Visual question answering based on local-scene-aware referring expression generation	-
dc.type	Article	-
dc.contributor.affiliatedAuthor	Lee, S.-W.	-
dc.identifier.doi	10.1016/j.neunet.2021.02.001	-
dc.identifier.scopusid	2-s2.0-85102406840	-
dc.identifier.wosid	000652750100013	-
dc.identifier.bibliographicCitation	Neural Networks, v.139, pp.158 - 167	-
dc.relation.isPartOf	Neural Networks	-
dc.citation.title	Neural Networks	-
dc.citation.volume	139	-
dc.citation.startPage	158	-
dc.citation.endPage	167	-
dc.type.rims	ART	-
dc.type.docType	Article	-
dc.description.journalClass	1	-
dc.description.journalRegisteredClass	scie	-
dc.description.journalRegisteredClass	scopus	-
dc.relation.journalResearchArea	Computer Science	-
dc.relation.journalResearchArea	Neurosciences & Neurology	-
dc.relation.journalWebOfScienceCategory	Computer Science, Artificial Intelligence	-
dc.relation.journalWebOfScienceCategory	Neurosciences	-
dc.subject.keywordPlus	Natural language processing systems	-
dc.subject.keywordPlus	Quality control	-
dc.subject.keywordPlus	Visual languages	-
dc.subject.keywordPlus	Joint-embedding multi-head attention	-
dc.subject.keywordPlus	Natural languages	-
dc.subject.keywordPlus	Object categories	-
dc.subject.keywordPlus	Question Answering	-
dc.subject.keywordPlus	Question-embedding	-
dc.subject.keywordPlus	Referring expression generation	-
dc.subject.keywordPlus	Referring expressions	-
dc.subject.keywordPlus	Simple++	-
dc.subject.keywordPlus	Visual concept	-
dc.subject.keywordPlus	Visual question answering	-
dc.subject.keywordPlus	Embeddings	-
dc.subject.keywordPlus	article	-
dc.subject.keywordPlus	attention network	-
dc.subject.keywordPlus	embedding	-
dc.subject.keywordPlus	human	-
dc.subject.keywordPlus	human experiment	-
dc.subject.keywordPlus	prediction	-
dc.subject.keywordPlus	quantitative analysis	-
dc.subject.keywordAuthor	Joint-embedding multi-head attention	-
dc.subject.keywordAuthor	Referring expression generation	-
dc.subject.keywordAuthor	Visual question answering	-

Files in This Item: There are no files associated with this item.

Appears in Collections: Graduate School > Department of Artificial Intelligence > 1. Journal Articles

Show simple item record

qrcode

Related Researcher

Researcher Lee, Seong Whan photo

Lee, Seong Whan: 인공지능학과

Read more

Altmetrics

Total Views & Downloads

STATISTICS: Total View :8,711,120; Today View :42,562

RSS_1.0 RSS_2.0 ATOM_1.0

(02841) 서울특별시 성북구 안암로 14502-3290-1114

Certain data included herein are derived from the © Web of Science of Clarivate Analytics. All rights reserved.
You may not copy or re-distribute this material in whole or in part without the prior written consent of Clarivate Analytics.

Detailed Information

Related Researcher

Altmetrics

Total Views & Downloads

BROWSE