‘구글 렌즈’ 켜면 길 안내도 보고 듣고 세련되게 표현
문서 찍으면 파일로 바꿔줘 ‘듣는 AI’서 ‘보는 AI’로 진화
국내 AI는 상품 안내·단순 상담 그쳐… 話者 식별 서비스 하반기에야 가능
말귀가 어두워 답답했던 인공지능(AI) 비서가 달라졌다. 대화의 맥락을 파악해 이용자가 좋아할 만한 시간을 골라 미용실을 예약해줄 만큼 ‘센스’가 늘었다. 보고 듣는 감각과 표현력도 한층 세련돼졌다. ‘AI 종주국’ 미국에서 기술 개발을 주도하고 있다. 미국보다 기술력이 약 2년 뒤처진 한국은 서둘러 추격에 나서고 있다.
구글은 8일(현지시간) 본사가 있는 미국 캘리포니아 마운틴뷰에서 개발자대회 ‘구글 I/O’를 열고 차세대 AI 비서 ‘듀플렉스’를 공개했다. 듀플렉스는 이용자가 “미용실을 예약해달라”고 하면 점원에게 전화를 걸어 이용자의 일정과 습관에 맞는 적절한 시간에 예약을 잡아준다. 식당에서는 좋아하는 음식을 추천하거나 2∼3가지 지시를 한 번에 알아들을 수 있다. 그동안 음성인식 스피커 수준에 머물렀던 AI 비서에 사람의 사고방식을 심은 것이다.
감각은 더 예민해졌다. 구글은 이날 LG전자·샤오미·소니 등 주요 스마트폰에 AI 비서의 눈 역할을 할 AI 카메라 ‘구글 렌즈’를 탑재한다고 발표했다. 구글 렌즈를 켜고 길을 비추면 어느 길로 가야할지 AI가 안내해주고 종이 문서를 비추면 파일로 바꿔 편집·공유할 수 있게 해준다. 아마존·마이크로소프트(MS) 등 주요 글로벌 IT 기업들도 최근 스마트폰과 고해상도 카메라를 활용한 시각 AI 서비스를 확대했다.
표현력도 늘었다. 구글은 기존 AI 스피커와 터치 스크린, TV 기능의 결합체인 ‘스마트 디스플레이’를 7월 선보일 계획이다. 경쟁사 아마존도 지난해 5월 첫 AI 디스플레이 스피커 ‘에코 쇼’를 공개했다. 스마트 디스플레이를 활용하면 AI 비서가 소리로 들려주던 결과를 눈으로 확인할 수 있다. 영상통화, 사물인터넷(IoT) 가전 기기 제어 등에 유리하다.
청각도 좋아졌다. 구글과 아마존은 지난해 목소리로 사람을 구분하는 화자 식별 기능을 AI 스피커에 넣었다. 화자 식별 기능이 적용된 AI 스피커는 개인별 맞춤 답변을 한다. 일정을 알려줄 때 화자가 캘린더에 등록한 일정을 브리핑해 주고, 전화를 걸 때 화자의 주소록에 등록된 연락처를 찾아주는 식이다.
반면 국내 AI 비서는 성장세가 더디다. 한국무역협회와 국제무역연구원의 올 초 연구 결과에 따르면 한국의 AI 기술은 미국보다 2.2년 뒤져 있다. 보고서는 “한국은 AI 기술이 단순 상담, 상품 안내 등의 특정 서비스 사업에만 한정돼 인공지능이 도입된 상태”라고 진단했다.
기술격차는 아마존·애플 등이 이미 상용화한 화자 식별 기능의 국내 도입 여부를 보면 단적으로 드러난다. 네이버와 카카오, 이동통신 3사, 삼성전자 등 국내 주요 IT 기업의 AI 플랫폼은 여전히 화자 식별 서비스를 제공하지 못한다. KT가 최근에서야 “올 하반기까지 자사 AI스피커에 음성 식별 기능을 선보이겠다”고 선언하는 등 뒤늦게 쫓아가는 형국이다.
추격 전략은 제각각이다. 삼성전자와 LG전자는 ‘눈’에 우선순위를 뒀다. 삼성전자는 갤럭시S8·9 등에 시각 AI인 ‘빅스비 비전’을 탑재했다. 빅스비 비전은 카메라를 켜고 외국어로 돼 있는 안내판, 메뉴판 등을 비추면 한글로 번역해주고 사물·건물 등을 비추면 전화번호 등 관련 정보를 알려준다. LG전자도 최근 공개한 스마트폰 G7에 AI 카메라와 Q렌즈라는 시각 AI 기능을 탑재했다. 삼성전자는 올해 안에 자체 AI 스피커와 기존 빅스비의 업그레이드 버전인 ‘빅스비 2.0’을 선보일 계획이다.
SK텔레콤은 ‘보여주기’에 초점을 맞췄다. SK텔레콤은 지난 2월 AI 비서 홀로그램과 마주보고 대화할 수 있는 AI 스피커 ‘홀로박스’를 시범 공개했다. 음성인식만 하던 AI 스피커보다 친근하고 생동감 있는 게 특징이다.
오주환 기자 johnny@kmib.co.kr
그래픽=안지나 기자