HOME  >  시사  >  종합

AI는 사물 처음 봤을 때 어떻게 이해하고 설명할까



LG AI연구원이 전 세계 인공지능(AI) 연구자를 대상으로 ‘LG 글로벌 AI 챌린지’를 개최한다고 31일 밝혔다. LG AI연구원은 서울대 AI대학원, 글로벌 유료 이미지 플랫폼 셔터스톡과 함께 오는 4월 말까지 LG 글로벌 AI 챌린지를 온라인으로 진행한다. LG AI연구원은 현재 서울대 AI대학원과 자체 개발한 초거대 멀티모달 AI ‘엑사원’(EXAONE)을 공동 연구 중이다. 셔터스톡과는 ‘이미지 캡셔닝’ AI 상용화 서비스를 준비하고 있다.

이번 챌린지의 주제는 ‘제로샷 이미지 캡셔닝’이다. AI가 처음 본 사물이나 동물, 풍경 등이 포함된 이미지를 봤을 때 학습한 데이터를 기반으로 스스로 이해하고 판단한 결과를 텍스트로 설명하는 기술이다. 이미지를 분석해 분류하는 데 그치지 않고 이를 언어로 설명한다는 점에서 멀티모달 AI라고도 불린다.

이 기술이 고도화하면 방대한 이미지 빅데이터의 키워드, 사진설명을 자동으로 생성할 수 있다. 의학전문 데이터를 추가 학습하면 의학 영상을 분석할 수도 있다. LG는 최근 대화형 AI 챗봇인 ‘챗GPT’가 자연어 검색 분야에서 큰 반향을 일으킨 것처럼 이미지 캡셔닝 기술이 이미지 검색 분야에 혁신을 불러온다고 내다본다.

황인호 기자 inhovator@kmib.co.kr


트위터 페이스북 구글플러스
입력