좋아하는 연예인의 목소리로 인공지능(AI) 서비스를 이용할 수 있는 시대가 왔다. 목소리와 눈빛 등 감성적 영역이 상품화되는 시대에 사람 음성은 AI 서비스에서 더욱 중요해질 것으로 예상된다.
네이버는 AI 플랫폼 클로바에 배우 유인나의 목소리를 적용(사진)했다. 클로바가 탑재된 스마트 스피커나 클로바앱에서 서비스를 이용할 때 유인나의 목소리를 선택할 수 있다.
네이버는 유인나의 목소리를 구현하기 위해 음성합성 기술인 HDTS를 사용했다. 약 4시간 분량의 음성 데이터를 가지고 사람의 목소리와 비슷하게 자연스러운 합성음을 만드는 기술이다. 클로바에서 구현되는 유인나의 목소리 중 사전에 녹음되지 않은 부분은 HDTS 기술로 합성해 구현한다. 간혹 부자연스러운 때가 있긴 했지만 실제로 유인나가 말하는 것처럼 자연스러웠다.
네이버는 실제 유인나 목소리와 클로버에서 구현되는 목소리를 구분하는 ‘대국민 판정단 이벤트’를 30일까지 열고 완성도를 비교토록 했다. 네이버 서치앤클로바 음성합성 김재민 리더는 2일 “HDTS 기술은 최소 40시간 이상의 녹음 시간이 필요한 UTS 기술보다 한층 고도화된 기술”이라고 강조했다.
KT는 올해 5월 개인화 음성합성 기술(P-TTS)을 사용해 기가지니에서 ‘박명수를 이겨라’ 퀴즈 게임을 선보였다. “지니야, 박명수를 이겨라”고 말하면 개그맨 박명수 목소리로 나오는 퀴즈를 풀 수 있다. 카카오는 유명 유튜브 크리에이터들과 카카오미니 음성제공 계약을 맺었다. 키즈콘텐츠 강화 차원에서 아이들에게 인기 있는 크리에이터의 목소리가 나오도록 하려는 것이다.
유명인의 목소리로 차별화를 하려는 것은 감성적인 영역이 향후 AI 시대에 중요한 요소가 될 수 있다는 것을 시사한다. IT 업계 관계자는 “앞으로 연예인의 목소리, 눈빛 등을 서비스에 접목하려는 시도가 늘어날 것”이라며 “감성적인 부분이 강화되면 AI를 이용하면서도 사람 대 사람이라는 느낌을 받을 수 있다”고 말했다.
하지만 AI 서비스의 목소리가 누구 것인지에 대한 윤리적인 판단도 중요하다. 구글은 인간과 똑같은 목소리로 미용실, 식당 등의 예약을 돕는 AI 비서 ‘듀플렉스’를 올해 5월 공개하면서 논란에 휩싸였다. 전화를 받는 가게 입장에선 고객이 사람인지 AI인지 알 수 없을 정도로 완성도가 높았기 때문이다. 이에 구글은 전화 연결이 되면 “저는 구글 어시스턴트입니다”고 신분을 밝히도록 하겠다고 했다. 그럼에도 향후 AI 서비스가 인간과 똑같은 목소리로 사람에게 다가가면 인간이 혼란에 빠질 수 있다는 우려가 나온다.
김준엽 기자 snoopy@kmib.co.kr