Home

읽기 설정

안녕하세요, 마이크로소프트의 바이브 보이스입니다. 저는 이 프로그램을 사용하여 제 목소리를 복제해 보았는데, 오픈 소스 음성 기술 스택으로서 엘레븐 랩스와 비교되고 있습니다.00:00

챗터박스와 위스퍼는 오프라인에서 작동하며, 한 번에 90분 분량의 다중 화자 오디오를 생성할 수 있습니다.00:08

90분 정도, 아니면 비슷하게 된다는 건 좀 엄청난 이야기인 것 같아요. 혹시 개발자들이 실제로 사용할 수 있는 건가요, 아니면 조용히 우리 GPU를 망가뜨리는 연구 저장소인가요?00:15

몇 가지 데모를 보여드리고, 다른 것들과 비교해 보는 시간을 갖겠습니다. 저희는 계속해서 새로운 영상을 업로드하고 있으니 구독해주세요.00:25

이 모든 것을 그들의 저장소나 허깅 페이스에서 구할 수 있습니다. 비교하기 전에 먼저 출력 결과를 살펴봅시다.00:36

이건 모두 준비된 설정이고 추론을 실행해서 우리가 중요하게 생각하는 부분에 집중할 수 있게 합니다. 다른 것도 사용해 봤기 때문에, Vibe Voice가 어떤 소리를 내는지, 어떻게 잘 유지될 수 있는지, 그리고 결과물에서 무엇을 얻을 수 있는지 궁금합니다.00:42

저는 이걸 멀티 스피커 출력으로, 실시간 TTS로, 그리고 음성 복제로 진행해 보려고 합니다. 여기 세 명의 스피커가 등장하고, 깔끔한 턴 테이킹과 오디오 감정이 있는 짧은 팟캐스트 스타일의 스크립트가 준비되어 있습니다.00:56

대부분의 TTS 데모에서 기대하는 건 괜찮은 소리가 나오다가 뚝 끊기는 건데, 여기 들어보면 어떻게 되는지 한번 들어보세요. 스피커의 일관성이 유지되고 전환이 갑자기 무너지지도 않고요.01:09

자, 한번 들어볼까요. 안녕하세요, 버킷 리스트 드림스의 첫 번째 에피소드에 오신 것을 환영합니다. 저는 이비이고, 조쉬와 챔프와 함께하게 되었어요.01:21

오늘 저희가 꿈꿔왔던 모험 이야기를 모두 이야기해 드릴게요. 조쉬 씨부터 시작해 주시죠. 어머, 정말 멋진데요. 단연코 오로라를 보는 거예요. 듣기만 해도 정말 멋지네요. 마치 실제로 있는 것처럼 느껴져요.01:30

20초 후에, 바로 거기입니다. 자, 중요한 포인트는 마이크로소프트가 이것을 짧은 재생 프로젝트를 위해서만 만든 게 아니라는 점입니다. 더 긴 문맥의 오디오 생성과 오프라인 사용도 지원하는데요, 하지만 감정 태그를 추가하기 시작하면 문제가 발생하기는 합니다.01:40

챗터박스와는 달리, 예를 들어, 자동으로 단어에 따라 감정을 표현하는 방식인데, 실제로는 그렇게 좋은 편은 아닙니다.01:54

그건 제가 별로 좋아하지 않았습니다. 여전히 챗터박스가 어느 정도 이긴 것 같습니다. 하지만 AI 팟캐스트나 내레이션 문서, 긴 형식의 에이전트, 혹은 단순히 훈련 데이터 등을 구축하신다면, 이 방법이 꽤 괜찮은 결과를 낼 수도 있을 것 같습니다.02:00

자, 이제 실시간 모드로 전환해 보겠습니다. 멀티 스피커 모드보다 훨씬 빠르게 작동하거든요, 솔직히 생성하는 데 시간이 오래 걸렸습니다. 지금은 점진적인 스트리밍 방식이어서 챗봇 응답이나 음성 에이전트, 어시스턴트 같은 것을 생각해 보시면 됩니다.02:11

먼저, 지연 시간은 약 300밀리초 정도로 사용하기에 괜찮습니다. 제가 사용해 본 것들 중 가장 빠른 편은 아니네요. 한번 들어볼까요? 벚꽃이 만개한 일본에서 핫초콜릿을 마시는 상상을 해 보세요.02:25

네, 노래를 부르거나 배경 음악을 생성할 수도 있다고 합니다. 혹시 밀어보면 작동하지 않아요. 제가 밀어봤는데 안 되긴 했어요. 하지만 중요한 건, 이게 실시간으로 바로 사용할 수 있는 수준인지, 아니냐는 거죠.02:35

아니, 그렇게 생각하지 않아요. 하지만 실험이나 에이전트 같은 경우에는 꽤 괜찮은 것 같아요. 자, 이제 재미있는 부분을 알아볼까요. 음성 복제에 대해 이야기해 볼까요? 정말 멋있었거든요. 음성 복제를 위한 제 설정은 이렇습니다.02:46

먼저, 음성 메모로 제 목소리를 녹음했어요. 저는 맥을 사용하고 있어요. 그런 다음 그 파일을 WAV 파일로 변환하고, 이 명령어로 Gradio를 실행했어요. 이 인터랙티브한 인터페이스에서 저는 제 목소리를 대상 언어로 선택할 수 있었어요.02:56

네, 그냥 평범한 녹음입니다. 예상하시겠지만 제 목소리와 비슷하지만, 당연히 가짜일 겁니다. 한번 들어보세요.03:10

이것은 Vibe Voice를 사용하여 복제된 저의 목소리입니다. 솔직히 정말 잘 들리는데, 거의 너무 좋을 정도예요. 왜냐하면 제가 이 말들을 한 적이 없으니까요. 음, 저랑 비슷한 느낌이 들 수도 있지만, 저를 아신다면 여전히 가짜라는 걸 알 수 있을 거예요. 적어도 저는 그렇게 바라요.03:17

지금은 완벽하지 않지만 일관성이 있고 안정적이며, 더 긴 출력에 사용된다는 점이 훌륭합니다. 마이크로소프트에서는 이 스택이 단일 패스에서 장기 형태의 생성을 처리할 수 있다고 말합니다.03:31

오디오가 더 길어지면 쉿퍼 스타일 파이프라인보다 훨씬 안정적으로 유지되는 것이 눈에 띄고, 짧은 클립보다 긴 음성 복제를 시도해본 적이 있다면 왜 이것이 중요한지 알 수 있습니다.03:41

네, 데모들이 인상적이었던 것 같아요. 그 보이스 클로닝을 재미있게 했어요. 하지만 관련 문서와 이슈, 그리고 몇몇 스레드를 살펴보니 다른 개발자들의 노력도 많이 들어간 것 같습니다. 자, 장점부터 말씀드릴게요. 대부분 꽤 괜찮은 편이에요.03:52

네, 확실히 긴 형식 맞죠? 대부분의 TTS 시스템은 몇 분 후면 흔들리거나, 평탄해지거나, 망가져요. 바이브 보이스는 긴 오디오를 위해 만들어졌고, 여기에서 그걸 보여줬고, 제 긴 시연에서도 그걸 보여줬습니다.04:07

효율성도 좋고 표현력도 뛰어납니다. 저빈도 오디오 토크나이저를 사용해서 문맥을 좀 더 관리하기 쉽게 만들었고요. 디퓨전과 LLM 백본을 함께 사용해서 엄청난 컴퓨팅 자원 없이도 풍부한 표현의 연설을 할 수 있습니다.04:18

설계상 좀 더 개발자 친화적으로 느껴졌죠? 좋네요. MIT 라이선스이고, 오프라인에서도 실행돼요. 실시간으로 작동하려면 약 7GB의 소비자용 GPU VRAM이 필요합니다.04:31

그리고 파인 튜닝 코드도 포함되어 있습니다, 특히 ASR에 대해서요. 어떤 식으로든 제한을 두는 것은 아니지만, 정말 훌륭합니다.04:43

마침내 다른 오픈 소스처럼 구조화된 음성 인식 결과물을 제공합니다. 이거 정말 큰 장점이에요. 스피커 다이어라이제이션과 타임스탬프가 기본적으로 제공되어서 다운스트림 작업 시간을 많이 절약해 줍니다.04:51

만약 여러분이 음성 기록 파이프라인을 구축해 보셨다면, 사소한 일이 아니라는 것을 아실 거예요. 그런데 단점은 확실히 느꼈고, 저도 그걸 봤어요.05:01

이건 거의 연구용 소프트웨어 같은 느낌이에요. 마이크로소프트는 딥페이크 문제 때문에 텍스트 음성 변환 코드 경로를 일부 중단했고요. SDK는 굉장한 성공이라고 보기는 어렵네요.05:09

윤곽이 제대로 잡히지 않은 느낌이죠? 다른 소프트웨어에서도 발견했던 것처럼 오디오 특이점이 분명히 있습니다. 가끔 로봇 같은 억양이 들릴 수도 있고, 속도감도 어색하게 느껴질 수 있을 거예요.05:20

사람이 두세 명을 넘는 다중 화자 장면에서는 품질이 떨어져요. 개발자들은 토크나이저는 좋아하지만 VRAM 급증은 싫어하는 것 같고, 지원하는 언어도 제한적이에요.05:29

중국어랑 영어는 괜찮은데, 다른 종류의 언어가 필요하시면 Vibe Voice는 그렇게 좋지 않아요. 마지막으로, 의미를 전혀 이해하지 못하는 단점이 있습니다. 텍스트는 읽지만, 이해하지는 못하는 거죠.05:39

감정 태그는 도움이 될 수 있지만, 태그를 추가하면 여전히 많이 오류가 발생합니다. 솔직히 말씀드리면, 실험이나 여러 가지 용도로는 훌륭한 도구이지만, 장기적으로는 이 기능이 계속 사용할 수 있을지 확신이 안 듭니다.05:51

자, 여러분이 진짜 궁금해하실 답은 이거예요, 지금 쓰고 계신 것들에 비해 이게 여러분의 시간을 가치 있게 할 만한 게 맞을까요? 그리고 Vibe Voice가 다른 경쟁 서비스들에 비해 얼마나 잘 작동하는지 궁금해하실 텐데요?06:03

바이브 보이스와 챗터박스를 비교해 보겠습니다. 과거에 챗터박스를 사용해 본 경험이 있습니다.06:13

정말 솔직히 감동적이네요. 챗터박스는 200밀리초 미만의 지연 시간과 더 강렬한 감정 전달, 그리고 더 나은 짧은 에이전트 응답을 보여줬어요. 그래서 챗터박스가 그냥 이기는 줄 알았는데, 바이브 보이스는 긴 형식에서는 훨씬 더 뛰어난 성능을 발휘하네요.06:18

챗터박스는 30분 내외의 짧은 독백이나 팟캐스트 형식의 결과물에 적합하도록 설계되었고, 바이브 보이스는 훨씬 더 긴 형식의 콘텐츠를 더 잘 처리합니다.06:32

그것은 서로 주고받는 관계가 되겠네요. 그럼 물론, 11랩스의 Vibe Voice가 있는데, 이건 단순한 것 아니겠습니까?06:41

11랩스가 이기는 이유는 폴리셔 발음과 제로샷 음성 복제 사용자 경험을 제공하기 때문이에요. 하지만 바이브 보이스가 이기는 건 비용이에요. 무료이고, 오프라인이고, 오픈 소스잖아요.06:48

여기서 큰 승리네요. 저희는 소프트웨어에 돈을 지불하지 않아요. Vibe Voice를 Whisper에 넣거나 Cozy Voice를 사용할 수도 있어요.06:59

오디오가 길고 구조화되면 Whisper보다 성능이 좋습니다. Cozy Voice보다 표현력이 풍부하며, Quen 기반 TTS 모델들이 방언 면에서 빠르게 따라잡고 있지만, Vibe Voice는 여전히 콘텐츠 길이를 고려합니다.07:05

만약 로컬 환경에서 개발을 하시고, 오픈 소스에 관심이 많으시며, 긴 형식의 오디오 콘텐츠에 중요성을 두신다면, Vibe Voice가 시간을 내어볼 가치가 있다고 생각합니다.07:17

만약 좀 더 간편하게 바로 사용하고, 상용화된 느낌을 원하신다면, 지금은 건너뛰셔도 괜찮습니다. 이건 정말 멋진 프로젝트를 가지고 놀아보시는 용도로 좋고, 음성 복제 기능도 포함되어 있습니다. Vibe Voice는 다소 복잡하지만 강력하고, 동시에 흥미로운 경험을 선사합니다.07:24

오랜만에 보는 강력한 오픈 소스 오디오 스택 중 하나입니다. 허깅 페이스 데모를 사용해 보시고, 관련 문서를 읽어보시고, 다음 영상에서 만나요.07:36

AI Summary

Vibe Voice는 마이크로소프트에서 개발한 오픈 소스 음성 기술 스택으로, 90분 분량의 긴 형식 오디오 생성, 다중 화자 지원, 실시간 TTS, 음성 복제 등의 기능을 제공해요. Eleven Labs와 경쟁하며, 특히 긴 형식 오디오 생성 및 개발자 친화적인 특징을 가지고 있지만, 아직 연구용 소프트웨어 수준이며, 언어 지원 및 텍스트 이해 능력 등 개선해야 할 부분도 존재해요. 개발자나 오픈 소스 선호 사용자에게 적합하며, 음성 복제 실험에 유용할 수 있어요.

Key Highlights

  • Vibe Voice는 마이크로소프트에서 개발한 오픈 소스 음성 기술 스택이에요.
  • 90분 분량의 긴 형식 오디오 생성과 다중 화자 지원이 주요 특징이에요.
  • Eleven Labs와 비교하여 비용 면에서 강점을 가지고 있어요.
  • 개발자 친화적인 MIT 라이선스와 오프라인 실행, 파인 튜닝 코드를 제공해요.
  • 아직 연구용 소프트웨어 수준이며, 개선해야 할 부분들이 남아 있어요.

Related Videos