사람의 목소리를 구별해내는 구글 AI의 발전

2018. 4. 19. 09:29정보\뉴스\이슈

안녕하세요! Nitro입니다.

오늘은 시간이 흐를수록 발전하는 인공지능 관련 이야기를 가져와봤습니다!

사람은 카페, 공연장, 광장등 많은 사람의 소리와, 소음, 음악소리가 함깨 울림에도 불구하고 상대방의 대화를 알아들을수 있습니다.

상대방의 얼굴, 방향, 입모양 리액션등을 통해 상대방이 전하고자 하는것을 명확하게 파악하는것.

이러한 현상을 흔히 '칵테일 파티 효과'라고 한다고 합니다.

구글은 지난 12일, 사람의 얼굴을 인식하여 해당 사람의 음성만 추출해내는 심층 학습 인공지능 기술을 밝혔습니다.

즉, 위에서 말한 '칵테일 파티 효과'를 컴퓨터가 해낸다는 말인데요!

이러한 놀라운 기술을 담은 영상을 구글이 공개했습니다.

두명의 코미디언이 사람들을 웃기고 있습니다.

끝없이 오고가는 드립과, 그 드립을 듣고 웃는 많은 사람들.

이러한 많은 소리들 가운대에 딱 두명의 코미디언의 목소리만 분리해 내는 엄청난 기술..!

구글은 이러한 결과물을 얻기까지, 유튜브에서 한명이 이야기하는 10만개의 유튜브 동영상을 이용하여 얼굴인식과, 입모양 그리고 그에 맞는 목소리를 인식, 구분하는 훈련을 시킨 후, 그다음에는 영상에 소음을 넣고 목소리를 구분, 분리해내는 훈련을 지속했습니다.

그 결과 위 영상에서 보듯, 청각과 시각 효과를 이용하여 목소리를 구분해내는 능력을 구현했습니다.
(심지어 노이즈 캔슬링까지..!)

사람의 입모양을 보고, 어느시점에 누가 목소리를 내였는지, 그 목소리 톤에 따라 어느소리는 지울것인지를 판단하게 되는 AI는, 어느정도 학습이 끝난후, 잠시 입이 가려지거나, 보이지 않게 되더라도 어느정도 음성을 분리해낼수 있다고 합니다.

물론 너무 많은 사람이 동시에 말하게 되거나, 다른 소음들이 너무 크거나 목소리가 비슷하다면 인식률이 낮아질수도 있습니다.

이 기술은 많은부분에서 사용될 수 있을듯 합니다.

특히 음성인식 인공지능이라던가, 음원검색, 통화, 보청기, 녹음기등등 일상대화와 소음이 다소 들어가는부분에서 큰 역활을 하지 않을까 하네요.

이것으로 인해 유튜브 자막 음성인식률이 높아지길 빌며..

나중에 디코같은것에도 추가되면 좋겠네요...!


반응형