본문 바로가기
이슈/IT & 스마트폰

ai 스피커 원리 (스마트 스피커 원리)

by 딩도 2023. 8. 3.
반응형


ai 스피커 원리

스마트 스피커 원리

_

ai 스피커라고 불리는 스마트 스피커는 IoT 음성인식 인공지능 비서가 탑재된 스피커 및 그 서비스를 총칭하는 용어입니다.

이 ai 스피커는 기술 특성상 빅 데이터와 연결되어 있어야 다양한 정보를 바탕으로 사용자가 원하는 대답을 해줄 수 있기 때문에 사실상 인터넷과 연결이 되어 있어야 사용이 가능하며 만약에 인터넷과 연결되어 있지 않으면 그냥 일반적인 스피커와 다를 바가 없다고 봐도 좋은 그런 스피커를 말합니다.

_

■ai 스피커 종류


국내 ai 스피커 종류
삼성 : 갤럭시 홈, 갤럭시 홈 미니

네이버 : 웨이브, 프렌즈

카카오 : 카카오미니, 카카오미니C, 미니헥사, 미니링크

SK텔레콤 - NUGU

KT : 기가지니

해외 ai 스피커 종류
아마존 : 아마존 에코

구글 : 구글 네스트 시리즈(구글 홈 시리즈)

애플(Apple) : HomePod, HomePod mini

_

■ai 스피커 기능


ai 스피커 기능은 모델마다 다르지만 주요 기능은 다음과 같습니다.

정보 제공
사람이 한 말을 분석하고 원하는 정보를 검색, 제공하는 기능으로 뉴스, 스포츠, 날씨 등 필요한 정보를 제공

블루투스 연결
블루투스 연결을 통해서 오디오를 통한 음악 재생이 가능

네트워크 플레이어
네트워크를 통한 음악 재생이 가능한데 SmartThings 미디어 출력, AirPlay, DLNA, Chromecast Audio를 통해 스마트폰 내의 음악을 재생하거나, 음악 스트리밍 사이트와 연동하여 음악 재생이 가능하고 멜론, 지니, 네이버 뮤직은 스마트 스피커에 음악 추천 기능을 도입하기도 했기도 합니다.

홈 오토메이션
음성 명령으로 전등, 냉난방, 가전제품 등의 원격제어가 가능

긴급 상황 신고 및 대처
특정 문장으로 스피커의 보안 업체나 제조 업체에 긴급 문자를 보내 긴급신고 번호인 112나 119에 신고가 될 수 있도록 하는 기능이 있음

기타 기능
음성 명령으로 알람 및 타이머, 일정 및 메모, 쇼핑 기능 등을 사용할 수 있음

 

_

■ai 스피커 원리


AI 스피커는 음성 인식 기술을 사용하여 사람말을 구분하는데 주요 원리는 다음과 같습니다.

1. 음성 수집: 스피커는 마이크를 사용하여 주변의 음성을 수집

2. 음성 신호 변환: 수집된 음성 신호는 아날로그 신호에서 디지털 신호로 변환

3. 음성 프리프로세싱: 음성 신호는 전처리 과정을 거쳐 노이즈 제거, 음성 강화 등이 이루어짐

4. 음성 특징 추출: 특정 시간 간격으로 음성 신호에서 특징을 추출합니다. 일반적으로 주파수, 주파수 변화, 에너지 등이 추출되어 사용

5. 음성 인식: 추출된 특징은 AI 알고리즘에 의해 모델로 입력되고, 학습된 인식 모델은 입력된 음성을 텍스트로 변환하여 구분

6. 자연어 처리: 인식된 텍스트는 자연어 처리 기술을 통해 이해되고, 해당하는 명령이나 정보를 추출하여 사용자의 요청에 대응

이러한 과정을 통해 AI 스피커는 사용자의 음성을 이해하고 그에 맞는 응답을 제공할 수 있습니다.

_

근데 AI 스피커가 있는 현대사회에서는 스피커에게 말을 걸면 대답을 해주는 것도 신기하지만 이제는 내 목소리와 다른 사람의 목소리를 구분할 줄도 아는 즉 내 목소리에 만 반응하는 AI 스피커도 있는데 도대체 이런 건 어떻게 목소리를 구별하는 것인지 원리가 궁금한 사람들이 많습니다.

그 이유를 알기 전에 우리가 듣는 소리는 공기의 떨림, 즉 진동입니다.

소리를 음파라고 하는 것에서도 알 수 있듯, 소리는 파동의 한 종류인데 소리는 1초에 진동하는 횟수에 따라 음역이 결정되고(진동수), 진폭에 따라 소리의 크기가 결정됩니다.

소리는 그냥 다 비슷해 보이지만 실제 우리가 듣는 소리들은 매우 복잡한 파동인데 단순히 진동수와 진폭이 같다고 해서 모두 같은 '소리'로 들리는 것은 아닙니다.

쉽게 예를 들자면 '라' 음은 440H2인데 그렇지만 바이올린의 라'음과 피아노의 라음은 같은 진동수를 가지지만 다른 소리입니다.

사람의 목소리도 같은 음을 낸다 해도 전혀 다르 게 느껴지는데 이를 '맵시'가 다르다고 표현하고 맵시의 다름이 목소리나 악기의 소리를 구분 짓는 단서가 됩니다.

파동의 중요한 성질 중 하나는 중첩이 가능하다는 것인데 즉 여러 파동이 모여 새로운 파동을 만들어내는데 자연에서 볼 수 있는 복잡한 형태의 파동들은 이런 중첩된 파동들입니다.

즉, 맵시는 이렇게 서로 파동들이 중첩되어서 일정한 주기를 가지게 된 파형을 말하는데 이 파동을 표현하기 위 해서는 '수학'이 필요합니다.

사진출처: 과학기술정보통신부 블로그

복잡한 파동은 서로 다른 주기(진동수)를 가진 '삼각함수'의 합으로 표현할 수 있는데 이런 표현 방법을 푸리에 급수라고 합니다.

가장 단순한 파동을 떠올리면 누구나 사인함수를 떠올리는 것처럼 복잡한 파동도 이런 사인함수나 코사인함수와 같은 단순한 삼각함수들로 이루어져 있는데 이처럼 목소리도 각기 다른 진동수를 가진 삼각함수들의 합인 것입니다.

이미 합쳐진 파동을 다시 쪼갤 수도 있는데 이때 '수학적인 필터'를 사용합니다.

이를 조금 더 구체적으로는 원하는 진동수를 가진 삼각함수의 그래프만 남겨놓고 다른 진동수를 가진 삼각함수는 0으로 만들어 주는 방법인데 삼각함수의 직교성을 이용하는데 목소리를 나타내는 함수에 원하는 진동수를 가진 파동을 곱하여 한 주기에 대해 ‘적분’을 해주면 다른 모든 함수는 직교성에 의해 0이 되고 자신이 원하는 삼각함수의 계수(진폭)만 찾아낼 수 있습니다.

이렇게 수학적 필터를 이용하면 복잡한 파동 뒤에 숨은 파동의 관계를 진폭과 진동수의 그래프(스펙트럼)로 표현할 수 있는데 이를 푸리에 변환이라 합니다.

_

자 여기서 문제는 사람도 컴퓨터도 모든 진동수를 다 파악할 수는 없다는 것인데 그래서 가장 중요한 파동부터 찾아야 합니다.

중요한 파동이란 원래 파동의 특성을 가장 잘 드러나는 파동으로 '파동의 진폭(계수)'이 클수록 원래 파동의 전체적인 특징을 잘 드러냅니다.

이렇게 진동수 중에서 파동의 특성을 잘 드러내는 진동수들의 계수를 불연속적으로 추려내는 푸리에 변환을 DFT(Discrete Fourier Transformation, 불연속 푸리에 변환)라 합니다.

컴퓨터는 이런 불연속 푸리에 변환을 더 효율적으로 수행하기 위해 FFT(Fast Fourier Transform, 쾌속 푸리에 변환)라는 특별한 알고리즘을 이용합니다.

이런 알고리즘을 통해 목소리의 '스펙트럼'을 그릴 수 있는데 스펙트럼은 진동수에 따라 각 파동이 목소리에서 얼마나 중요한지(진폭)를 나타내는 그래프입니다.

앞서 얘기한 바 이올린과 피아노의 ‘라’ 음은 둘 다 스펙트럼에서 440HZ를 갖지만 그 440HZ 주변의 스펙트럼의 모양이 다르기 때문에 다른 맵시가 느껴지게 되는 것입니다.

스펙트럼은 파동의 성분분석표라고 할 수 있는데 보이지 않는 소리의 다름을 우리는 스펙트럼이 보여주는 차이를 이용해서 ‘다르다’고 확실히 알 수 있습니다.

사람의 귀는 고막과 달팽이관 그리고 청신경으로 이루어져 있는데 고막은 달팽이관의 입구에 있어서 진동판, 즉 마이크의 역할을 합니다.

달팽이관의 벽면을 따라 청신경이 연결되어 있고 구조적으로 안쪽으로 갈수록 점점 폭이 좁아지는 형태를 가지고 있는데 이렇게 관의 폭이 좁아질수록 높은 진동수의 파동을 감지하는데 이게 바로 스펙트럼을 만들어내는 것입니다.

우리의 뇌는 그 미세한 '다름'을 인식하고 그렇게 구별된 파동의 특성을 뇌에서는 우리가 알고 있는 언어와 일치시켜 의미를 이 끌어내기도 하고 사람의 목소리를 구분하기도 하는 것입니다.

이렇기 각자 다른 목소리를 인식하는 Al 스피커는 소리의 스펙트럼과 언어를 연결시켜 머신 러닝을 통해 학습시킨 것이라 생각하시면 됩니다.

_

본 설명은 과학기술정보통신부 블로그
출처를 기반으로 작성되었음을 알려드립니다.

읽어주셔서 감사합니다.

반응형

댓글