인재 찾기
현지화
LAB 메인으로 돌아가기
현장 뒷이야기: 문자 음성 변환 (Text-to-Speech)
PTW에서는 게임 현지화 서비스 외에도, 현지화 및 오디오팀에서 문자 음성 변환 서비스를 제공합니다. 누구나 문자 음성 변환(TTS) 서비스를 접해본 경험이 있습니다. 인터넷에서 문자를 소리 내어 읽어주거나, 지도 애플리케이션에서 실시간으로 길을 안내하는 음성을 들어본 적이 있을 겁니다. 용도에 관계없이, 이 기술은 1970년대 말 처음 시작된 이후 발전을 거듭했습니다. 실제 사람의 목소리를 기괴하게 흉내 낸 기계음이 들리던 시절은 지났습니다. 요즘 스피커에서는 훨씬 따뜻하고 이해하기 쉬운 목소리가 흘러나오고 있습니다. 하지만 이런 일이 어떻게 가능할까요?
현지화팀의 언어 프로그램 담당자 미카엘라 베스터가 TTS 프로세스에 대해 설명합니다. 미카엘라는 PTW의 주요 고객에게 제공하는 모든 언어적 TTS 업무를 관리합니다. 대학에서 언어학을 전공할 때만 해도 이와 비슷한 직업은 거의 없던 시기였죠.
"제가 선택할 수 있는 것은 학계에 몸을 담거나 언어치료에 종사하는 것뿐이었죠." 미카엘라가 말했습니다. "결국 이탈리아에서 영어를 가르치게 되었습니다." 그런데 갑자기 기회가 찾아왔습니다. Google에서 데이터 분석가로 일하게 된 것입니다. 미카엘라는 4년 후 직장을 떠났고, 변화를 꿈꾸며 아일랜드 더블린에서 1년간 단기 근무를 했습니다. "다행히 2019년 12월 PTW를 발견하고 프로그램 매니저로 근무를 시작하여, 세계 최대 규모의 IT 기업들과 함께 일하게 되었습니다."
프로세스는 요청에서부터 시작됩니다. "예를 들어 힌디어로 보조 음성을 제작해달라는 고객의 요청이 들어왔다고 합시다." 미카엘라는 이렇게 설명합니다. "먼저 구인을 합니다. HR팀에게 평소 이용하는 모든 경로에 게시해 달라고 요청하죠." 대부분의 지원자는 언어학 전문가 역할을 공고한 전문 구인 게시판 및 리소스를 통해 지원합니다. 보통 학계 출신이죠. 저희 팀에서는 일반적으로 번역가를 구하지만, 이런 프로젝트에서는 번역가가 아니라 음성학자가 필요합니다. 해당 언어의 발음에 관해 연구하는 사람이요. 틈새 직종이라 사람을 찾기 쉽지 않습니다."
조건에 맞는 지원자를 찾을 성공률은 낮기 때문에, 이 절차에는 시간이 소요될 수 있습니다. "자신들도 할 수 있다고 생각하는 번역가들이 아주 많이 지원하는데, 이건 매우 독특한 역량입니다." 알맞은 숙련도를 보유한 사람은 이미 상근 직원으로 근무하는 경우가 많기 때문에 더 이상 바라는 게 없습니다. 이 일은 프로젝트 기반으로 시간제로 진행되기 때문에 고정적인 업무는 아니죠. 학계에서 연구 등을 하면서 남는 시간이 있는 사람들에게 좋은 직업입니다."
이것이 프로젝트 일정에 영향을 미칠까요? "그렇습니다. 대부분의 주요 언어는 이미 제작했기 때문에 개발도상국으로 영역을 확장하고 있는데, 이 때문에 음성학자를 찾기가 더 어렵습니다. 보통 프로젝트는 4개월 안에 완료가 가능했지만, 이제는 더 많은 시간이 소요됩니다."
채용 과정 중, 적합한 지원자에게는 자신의 모국어를 표준어 발음으로 조금 말해볼 것을 요청합니다. "예를 들어, 시드니의 호주식 영어 발음을 들어보면, "chance" 같은 단어는 지역에 따라 다르게 발음되죠."
또한 언어 자체에 대한 질문도 합니다. 예를 들어, '문법에 맞지 않는' 자음군은 무엇입니까? 'Str'라는 문자로 단어를 시작하는 것이 가능합니까? 이 자음군은 영어로는 허용되지만, 다른 언어의 문법에서는 허용되지 않을 때도 있습니다.
대본은 보통 고객사가 미리 제작하는 경우가 많지만, 반드시 링귀스트의 검수를 거쳐야 합니다. 문법적으로 올바른지를 확인하는 것뿐만 아니라, 주소 또는 고유명사 등의 발음에 관해 주석을 달아야 하기 때문입니다.
숫자는 발음 조건이 다양한 경우의 좋은 예시입니다. '1990'은 'nineteen ninety'라고 발음해야 할까요, 아니면 'one thousand, nine hundred ninety'라고 발음해야 할까요? 고객사는 보통 인터넷에서 자료를 수집해 대본을 제작합니다. 완전히 무작위의, 대부분 횡설수설하는 문장들로 구성되어 있기 때문에 링귀스트가 가독성을 위해 대본을 고쳐 써야 합니다.
링귀스트는 각 문장이 어떻게 발음되는지 알파벳 발음기호를 사용해서 표기해야 합니다. 이들에게는 각 소리와 이를 표현하는 데 사용해야 하는 기호를 정리한 목록이 주어집니다. 그러나 PTW는 전통적으로 발음표기에 사용하는 국제음성기호(IPA)를 사용하지 않습니다.
"그렇게 유용하지도 않고, 키보드에 적합하지도 않아요. 저희는 SAMPA(음성 평가 방식 음성 기호)를 사용합니다. 음성 감독과 프로젝트 매니저에게 익숙하다면 도움이 됩니다." 미카엘라는 이렇게 설명했습니다. SAMPA는 1980년대 후반 컴퓨터가 읽을 수 있도록 개발되었습니다.
대본 정리와 주석 추가가 완료되면, 음성 제작 전문업체 SIDE가 다음 프로세스를 진행합니다. 캐스팅 단계가 시작되면 고객사가 요청한 화자의 캐릭터에 맞는 성우를 찾습니다. 음성 감독은 일관성, 영속성, 명확한 발음, 운율, 지역 특유의 발음 모사 여부를 평가합니다.
화자는 모국어 사용자여야 하며, 바람직한 억양을 사용해야 합니다. 반드시 경력 많은 성우여야 할 필요는 없지만, 필요한 자질과 능력은 전문 성우에게서 찾기 쉬운 경향이 있습니다.
"그리고 단어만 녹음하는 것은 생각보다 간단한 일이 아니에요." 미카엘라는 이렇게 고백합니다. "단어만 따로 읽다 보면 부자연스럽게 발음하는 경우가 많습니다. 그래서 대부분의 대본은 문장 수준의 일반적인 구절로 구성되어 있어요."
이전의 TTS 시스템은 말 그대로 문장에서 단어를 잘라내어 다시 붙여넣었기 때문에 기괴한 목소리 효과가 만들어지며, 절대 자연스러운 소리가 되지 못했습니다. 성우는 매우 빠른 즉독이 가능해야 합니다. 보통 몇 주 동안 10,000개의 문장을 녹음합니다.
음성 감독은 전체 제작 과정에서 화자의 캐릭터가 항상 일정하고, 음성 품질의 일관성이 유지되는지 확인해야 합니다. 성우가 가벼운 감기에 걸렸거나 발성이 약간 다르다면 녹음이 연기됩니다.
하루에 진행되는 녹음 세션은 보통 평균적으로 얼마나 걸릴까요? "4시간 정도예요. 주로 성대를 보호하기 위해서죠. 파일은 각 대본을 녹음할 때마다 수시로 전송하여 처리하며, 녹음 종료 후 동시에 한꺼번에 처리하지는 않습니다.
"SIDE에서 분석을 위해 링귀스트에게 업로드합니다." 미카엘라가 말합니다. "링귀스트는 대본 자체뿐만 아니라, 발음에 대해서도 확인합니다. 저희가 사용하는 툴은 타사에 비해 꽤 훌륭한 편입니다." 링귀스트는 오디오 문제가 없는지도 확인하지만, 이런 문제는 보통 링귀스트에게 전달하기 전에 포스트 프로덕션팀이 잡아냅니다.
파일 확인이 완료되면 고객사에 납품하고, 고객사는 전용 알고리즘을 사용하여 이를 처리합니다. "블랙박스 같은 거예요. 모두 머신 러닝으로 진행되죠. 이 시점에서는 모든 데이터에서 손을 떼게 돼요. 애플리케이션은 문자를 합성하는 방법을 학습하죠. 이것이 훈련 모델입니다. 합성된 음성은 내부적으로 만족스러울 때까지 테스트와 확인을 거칩니다. 오류가 발견되거나 음성이 듣기 좋지 않으면, 문제를 수정하기 위해 일부 재녹음이 진행됩니다."
이 자리에서 가장 힘든 점은 무엇인가요? "많죠. 전 세계에서 프리랜서를 끌어모아야 한다는 점도 그렇고요." 미카엘라가 웃음을 터뜨립니다. "익숙한 언어와는 매우 다른 언어로 진출한다는 게 다음의 큰 숙제입니다. 모든 언어가 영어처럼 작동하지는 않아요. 억양 문제를 처리할 시스템도 마련되어 있지 않고요. 사전이 없으니 처음부터 저희가 직접 만들어야 하죠."
문자 음성 변환 프로그램은 이미 일상생활에서 흔하게 사용되고 있으며, 앞으로도 더 많은 애플리케이션이 등장할 겁니다. 그 실행 과정은 위에서 설명한 것처럼 간단해 보이지만, 아직 접해보지 못한 세계의 모든 언어를 다룰 수 있는 새로운 방법론이 마련되어야 한다는 점은 분명합니다.
하지만 적극적인 사고와 조사가 필요한 이러한 난관이야말로 미카엘라가 계속 이 일에 종사하게 만드는 원동력입니다. 미카엘라는 PTW에서의 업무를 통해 세계의 언어에 대한 이해를 더욱 넓혀 가기를 기대하고 있습니다.