음성 기술의 미래가 궁금하신가요? OpenAI의 혁신적인 보이스 엔진(Voice Engine)이 바로 답입니다. "텍스트로부터 자연스러운 음성을 생성하는 기술, 그 가능성과 한계는 무엇일까?" 이 질문에 대한 해답을 찾기 위해, 우리는 OpenAI의 최신 음성 기술을 탐구하고 그 사용법을 알아보려 합니다.
1. 보이스 엔진(Voice Engine)이란?
OpenAI의 보이스 엔진은 인공지능(AI)을 기반으로 한 혁신적인 음성 합성 기술입니다. 이 기술은 단순한 텍스트 입력과 짧은 오디오 샘플을 바탕으로 원본 화자의 목소리와 유사한 자연스러운 음성을 생성할 수 있는 능력을 가지고 있습니다. 이는 음성 인식과 합성 분야에서 큰 도약을 의미하며, 다양한 산업에서의 응용 가능성을 열어줍니다.
1.1. 안전하고 유익한 AI 개발
OpenAI는 인공지능 기술이 사회 전반에 긍정적인 영향을 미칠 수 있도록 안전하고 유익한 AI 개발에 중점을 두고 있습니다. 보이스 엔진 개발 과정에서도 이러한 원칙이 철저히 반영되었으며, 합성 음성의 오용 가능성을 최소화하기 위한 다양한 안전 조치가 마련되었습니다.
1.2. 자연스러운 음성 생성 기술
보이스 엔진은 텍스트를 바탕으로 한 음성 생성에서 한 걸음 더 나아가, 오디오 샘플을 통해 특정 인물의 목소리 특성을 학습하고 이를 반영한 음성을 생성합니다. 이로 인해 생성된 음성은 기존의 합성 음성보다 훨씬 자연스럽고 실제와 유사한 톤과 감정을 담을 수 있습니다.
1.3. 합성 음성 오용 방지를 위한 신중한 접근
합성 음성 기술의 오용은 심각한 사회적 문제를 야기할 수 있습니다. OpenAI는 이러한 문제를 인식하고, 기술 출시에 앞서 신중한 검토와 조치를 취하고 있습니다. 이는 기술의 안전한 사용을 보장하고, 사회적 신뢰를 구축하는 데 중요한 역할을 합니다.
2. 보이스 엔진(Voice Engine) 사용법
OpenAI는 보이스 엔진의 잠재력을 더 잘 이해하기 위해 작년 말부터 신뢰할 수 있는 소수의 파트너와 함께 이 기술을 개인적으로 테스트하기 시작했습니다. 이들이 개발한 다양한 활용 사례를 통해 깊은 인상을 받았습니다. 현재 공개 형태의 서비스로 제공되지는 않지만 OpenAI의 사례를 통해 보이스 엔진의 사용법을 살펴보겠습니다.
2.1 읽기 지원 제공
Age of Learning은 보이스 엔진을 사용하여 더 넓은 범위의 화자를 대표하는 자연스러운 감정이 담긴 음성으로 아동 및 비독자에게 읽기 지원을 제공합니다. 이를 통해 미리 작성된 내레이션 콘텐츠를 생성하고, GPT-4와 함께 학생들과 상호 작용하는 맞춤형 실시간 응답을 만들 수 있었습니다.
2.2 콘텐츠 번역
HeyGen은 보이스 엔진을 사용하여 동영상이나 팟캐스트 등의 콘텐츠를 번역함으로써 크리에이터와 기업이 전 세계 더 많은 사람들에게 자연스럽게 다가갈 수 있도록 지원합니다. 번역에 사용될 때 보이스 엔진은 원래 화자의 억양을 보존하여, 예를 들어 프랑스어 화자의 오디오 샘플로 영어를 생성하면 프랑스 억양이 있는 음성이 생성됩니다.
2.3 글로벌 커뮤니티 지원
Dimagi는 보이스 엔진과 GPT-4를 활용해 모유 수유 상담 등 다양한 필수 서비스를 제공하는 지역사회 보건 요원들의 역량을 키우는 도구를 개발하고 있습니다. 이를 통해 스와힐리어나 케냐에서 널리 쓰이는 셍어(Sheng) 등 각 요원의 주요 언어로 쌍방향 피드백을 제공할 수 있습니다.
2.4 음성 상실 환자 지원
브라운 의대의 주요 교육 제휴 기관이자 비영리 의료 시스템인 Lifespan의 Norman Prince Neurosciences Institute에서는 종양이나 신경계 질환으로 인해 음성 장애를 겪는 환자들에게 보이스 엔진을 제공하는 프로그램을 시범 운영하고 있습니다. 보이스 엔진은 매우 짧은 오디오 샘플만 필요하기에, Fatima Mirza, Rohaid Ali, Konstantina Svokos 의사는 학교 프로젝트를 위해 녹화된 동영상에서 추출한 오디오로 뇌종양으로 유창한 발음 능력을 잃은 어린 환자의 목소리를 복원할 수 있었습니다.
3. 안전하게 Voice Engine 구축하기
보이스 엔진의 안전한 구축은 OpenAI의 최우선 과제입니다. 음성 합성 기술의 위험을 인식하고, 이를 최소화하기 위한 조치들이 취해졌습니다.
우리는 특히 선거 시즌인 지금, 사람들의 목소리와 유사한 음성을 생성하는 것이 심각한 위험을 초래할 수 있음을 인식하고 있습니다. 그래서 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 미국과 전 세계 파트너들과 협력하여 이들의 의견을 수렴하며 기술을 만들어가고 있습니다.
현재 보이스 엔진을 테스트 중인 파트너들은 OpenAI의 사용 정책에 동의했습니다. 이 정책은 동의나 법적 권리 없이 다른 개인이나 조직을 사칭하는 것을 금지합니다. 또한 원 화자의 명시적이고 정보에 입각한 동의를 요구하며, 개별 사용자가 자신의 목소리를 만들 수 있는 방법을 개발하는 것을 허용하지 않습니다. 파트너들은 청중에게 자신들이 듣고 있는 음성이 AI로 생성된 것임을 명확히 공개해야 합니다. 마지막으로 보이스 엔진으로 생성된 모든 오디오의 출처를 추적할 수 있는 워터마킹과 사용 현황을 능동적으로 모니터링하는 등 일련의 안전 조치를 시행했습니다.
우리는 합성 음성 기술을 광범위하게 배포할 때는 반드시 원래 화자가 서비스에 자신의 음성을 알리고 추가하는 음성 인증 경험과, 저명 인사의 음성과 너무 유사한 음성 생성을 감지하고 방지하는 금지 목록이 수반되어야 한다고 믿습니다.
4. 앞으로의 전망
보이스 엔 진은 우리가 기술의 최전선을 이해하고 AI로 가능해지는 것들을 공개적으로 공유하려는 노력의 연장선상에 있습니다. OpenAI의 AI 안전 접근 방식과 자발적 약속에 따라, 우리는 현 시점에서 이 기술을 광범위하게 공개하기 보다는 시범적으로 공개하기로 결정했습니다.
보이스 엔진의 이번 시범 공개가 이 기술의 잠재력을 강조함과 동시에, 갈수록 정교해지는 생성 모델이 가져올 도전에 맞서 사회적 회복력을 강화해야 할 필요성을 부각시키기를 바랍니다. 구체적으로 우리는 다음과 같은 조치를 권장합니다:
- 은행 계좌 등 민감한 정보에 접근하기 위한 보안 수단으로서 음성 기반 인증을 단계적으로 폐지
- AI에서 개인 목소리 사용을 보호하기 위한 정책 모색
- AI 기술의 역량과 한계, AI 콘텐츠에 속을 가능성 등에 대한 대중 교육
- 시청각 콘텐츠의 출처를 추적하는 기법 개발 및 채택 가속화로, 실제 사람 또는 AI와 소통 중인지 항상 명확하게 구분
우리가 궁극적으로 이 기술을 널리 배포하든 그렇지 않든, 전 세계 사람들이 이 기술이 나아가는 방향을 이해하는 것이 중요합니다. 앞으로도 정책 입안자, 연구자, 개발자, 창작자들과 함께 합성 음성이 가져올 도전과 기회에 관해 대화를 이어나가길 기대합니다.