기후위기시계
실시간 뉴스
  • ‘음성 AI’는 현실을 지배하는 만능리모컨
폐암 아버지 목소리 담은 ‘대드봇’ 개발자
대화형 AI 머신러닝 개발현장으로 안내
美 가정 25% ‘가상 비서’ AI스피커 보유
검색도 말로…구글도 미래 장담 못해
웅얼거림도 잡아내고, 속삭임도 인식
친구가 될지 무서운 감시자가 될지…
“음성 기술은 이런 모든 비즈니스 모델을 붕괴시키고 있으며, 단순히 새로운 제품이나 서비스를 개발하기 위해 경쟁하는 기업은 아무도 없다. 이 회사들은 사활을 걸고 지배적인 새로운 운영체제를 개발하기 위해 전쟁을 벌이고 있다.”(‘음성인식 AI의 미래’에서)

영화 ‘아이언맨’의 주인공 토니 스타크의 가상 비서 자비스는 매력적인 캐릭터 중 하나다. 집의 관리는 물론 해킹, 우주적 시뮬레이션, 전투까지 토니가 요구하는 문제를 척척 풀어내는 만능해결사다. 무엇보다도 자연스런 대화가 가능하다는 점에 팬들은 끌린다.

사람의 말을 알아듣고 대화가 가능한 음성인식 AI에 대한 인류의 오랜 꿈은 공상과학에서 막 현실화되는 시점에 들어서고 있다. 소비자들의 이목을 집중시킨 2020 CES에 선보인 구글의 음성 비서와 연결된 스마트 수도꼭지, 아마존의 알렉사가 탑재된 람보르기니, 대화능력이 부여된 냉장고, 세탁기, 거울 등은 그 현주소를 보여준다.

‘음성인식 AI의 미래’는 인공지능의 도달점이 대화형 컴퓨터, 즉 말하는 컴퓨터에 있다는 점을 보여준다. 기존의 AI 관련서들이 두루뭉수리하게 인공지능 기술 전반을 포괄적으로 제시했다면, 이 책은 인간 고유의 특성인 말을 기계에 이식하는 일, 즉 음성인식 기술에 오로지 초점을 맞춘다.

제임스 블라호스 지음,장준혁 감수, 박진서 옮김 김영사

이 책의 저자, 제임스 블라호스는 말기 폐암환자인 아버지의 기억과 목소리를 담은 복제 AI ‘대드봇’을 개발해 화제가 된 인공지능 스타트업 히어애프터의 공동설립자이다.

저자는 우선 아마존, 구글, 마이크로소프트 등 세계적인 기업들의 음성인식 기술 개발의 현장으로 안내한다.

2011년 애플의 시리 탄생의 역사와 주역들, 맞춤식 상황별 정보를 제공하는 가상비서인 구글 나우, 2014년 마이크로소프트가 개발한 가상비서 코타나, 아마존의 베조스의 스타트렉 컴퓨터의 꿈과 에코의 실현 등 거대 기업의 음성인식 컴퓨팅 개발 과정을 압축적으로 소개해 놓았다. 그 중 시장의 전환점은 2014년 11월에 출시된 아마존의 에코. 그동안 휴대폰의 부가적 기능 정도로 여겨진 음성비서를 스마트홈 스피커라는 새로운 카테고리로 자리매김시킨 것이다. 이는 음성기술 본래의 기능이 우선인 AI기기의 시작을 알렸다고 평가된다.

현재 미국 가정의 AI스피커 보유 비율은 25%로 4가구 중 한 가구 꼴이다. 그 중 절반은 여러대를 보유하고 있다는 통계다. 가전제품에 AI스피커는 기본으로, 앞으로 AI스피커가 모든 가전제품을 제어하는 허브가 될 것이란 전망이 나오고 있다.

음성기술이 온라인 검색방식을 변화시키는 건 예상 가능하다. 검색창에 검색어를 입력하면 수많은 링크가 뜨는 방식에서 음성 검색으로 바뀌면, 결과물은 가장 적합한 하나만 제시된다. 그 결과, 검색 상단에 콘텐츠를 노출시키려는 경쟁은 더 치열해질 수 밖에 없다.

저자는 정보를 얻는 방식이 검색에서 음성으로 바뀌면 구글의 압도적 경쟁력에 균열이 생길 수 있다고 말한다. 2020년까지 온라인 검색의 절반이 음성으로 이뤄지고 3분의 1이 화면 없이 수행된다는 게 전문가들의 분석이다. 지금 우리는 말하는 컴퓨터 시대로 접어들고 있는 셈이다.

음성인식 기술이 모든 산업의 핵심으로 떠오르고 있지만 그 출발은 단순했다. 인간의 말을 알아듣는 사물이란 호기심에서였다. 책은 원초적인 호기심에서 시작된 음성인식기술이 어떤 발전과정을 겪어왔는지 자세히 소개하며,대화형 AI의 화두인 머신러닝의 핵심기술로 우리를 안내한다.

음성컴퓨팅의 필수인 신경망 기술을 획기적으로 끌어올린 딥러닝을 저자는 샌드위치에 비유한다. 빵과 패티, 치즈, 토마토, 상추 등 정보를 걸러내는 은닉층이 많을 수록 정확하게 정보를 분류해내게 된다. 여기에 역전파라는 학습 알고리즘이 적용되면서 컴퓨터는 스스로 배우고 교정해나가면서 정확한 답에 접근해나간다.

이미지 인식에서 시작된 딥러닝이 음성인식, 언어이해에 적용되면서 현재 단어인식 오류율은 6%미만으로 떨어진 상태다. 이는 “인간이 ’1마일4분 벽을 깨는 것과 같다.”

애플은 속삭이는 목소리를 인식하는 기술을, 나사는 입술의 움직임, 나아가 청취 불가능한 입속에서 웅얼거리는 소리까지 단어로 변환시키는 기술을 개발했다.

구글의 신경망은 16억개의 단어를 검토하면서 통계적으로 어떤 단어가 서로 가까이에서 발견되는지, 그리고 어떤 단어가 다른 유사한 단어그룹으로 둘러싸여 있는지 분석, 의미를 파악해낸다.

언어이해에서 생성, 대화까지는 복잡미묘하고 변수가 많지만 음성혁명을 위한 도전은 계속되고 있다. 음성기술이 고도화되면 사람같은 AI는 더 이상 공상과학 소설에 머물지 않는다. 우리의 조력자, 조언자, 친구가 될 수 있지만 감시자도 될 수 있다. 문제는 우리가 이를 얼마나 잘 이용하느냐다. 저자는 음성은 지금까지 우리가 발명한 것 중 가장 자연주의적인 기술이 될 잠재력을 가지고 있다고 낙관한다.

“AI가 냉혹하게 알고리즘을 따를 수 밖에 없다는 것은 잘못된 생각이다. 우리는 AI에 우리 자신의 최고 가치와 공감을 주입할 수 있다.”

이윤미 기자

맞춤 정보
    당신을 위한 추천 정보
      많이 본 정보
      오늘의 인기정보
        이슈 & 토픽
          비즈 링크