Detailed Information

Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

언어 인공지능의 상식추론과 평가 체계 현황Commonsense Reasoning of Neural Language Models and Trends in Evaluation Benchmarks

Other Titles
Commonsense Reasoning of Neural Language Models and Trends in Evaluation Benchmarks
Authors
신운섭송상헌
Issue Date
2022
Publisher
부경대학교 인문사회과학연구소
Keywords
인공지능; 신경망 언어 모형; 상식추론; 평가 체계; 튜링 테스트; Artificial intelligence; word embedding; commonsense reasoning; evaluation benchmark; data curation
Citation
인문사회과학연구, v.23, no.3, pp.133 - 166
Indexed
KCI
Journal Title
인문사회과학연구
Volume
23
Number
3
Start Page
133
End Page
166
URI
https://scholar.korea.ac.kr/handle/2021.sw.korea/143938
ISSN
2093-8780
Abstract
최근 인공지능의 성능이 고도로 향상됨에 따라, 인공지능이 인간의 언어 구사 능력에 가까워졌다는 주장이 제기되었다. 예컨대, 인공지능 GPT-3는 인간의 작문 능력과 구별되지 않는 성능을 보이는 것처럼 알려졌다. 그러나, 구체적인 평가의 영역에 따라 인공지능과 인간이 큰 격차를 보인다. 대표적인 것이 상식추론이다. 예를 들어, 영희가 책가방을 메고 학교에 가는지, 아니면 나이트클럽을 가는지는 논리가 아닌 상식에 비추어 자명하다. 특히, 상식추론은 경험세계에 대한 광범위한 지식이 필요하다는 점에서, 문자열의 분포적 정보로부터 사실적인 지식을 이끌어내야 하는 인공지능에게 매우 도전적인 과제이다. 이 점에 착안하여 최근 인공지능이 상식추론을 학습하였는지 평가하기 위한 정량적 평가 체계 또는 벤치마크가 공개되고 있다. 튜링 테스트에서 출발한 벤치마크는 일종의 수만 건의 문제은행으로서,정확도와 유사도를 기반으로 인공지능의 상식추론을 정량적으로 검증한다. 이에 본고는 인공지능 상식추론과 평가 체계의 현황을 폭넓게 검토하고, 인문사회학적 관점에서 비판적인 이해를 시도한다. 구체적으로, 자연어처리 분야의 신경망 언어 모형 또는 워드 임베딩이 어떻게 문자열을 학습하는지 개념적으로 이해한다. 이와 함께, 인공지능이 학습한 추론 지식을 검증하는 평가 체계 또는 자연어처리 벤치마크의 구축 방법론과 예시 문장을 분석한다. 이를 위하여 최근 공개한 한국어 인공지능 벤치마크인 KLUE를 사례로 분석을 제시한다. 또한, 대표적인 벤치마크인 SWAG, CosmosQA, 그리고 CommonGen을 분석한다. 이와 함께, 최근의 대규모 인공지능의 개발이 내포하는 환경적, 경제적, 윤리적 우려가 커지고 있음을 지적하고, 언어학적 튜링 테스트를 중심으로 정량적 평가 체계의 본질적인 한계를 논의한다.
Files in This Item
There are no files associated with this item.
Appears in
Collections
College of Liberal Arts > Department of Linguistics > 1. Journal Articles

qrcode

Items in ScholarWorks are protected by copyright, with all rights reserved, unless otherwise indicated.

Altmetrics

Total Views & Downloads

BROWSE