Home

읽기 설정

지금 쓸 수 있는 최고의 텍스트 음성 변환기예요. 누군가의 목소리를 쉽게 복제할 수 있어요. 감정 표현도 정말 잘 처리하죠.00:00

심지어 억양이나 다양한 언어까지 표현할 수 있어요. 원하는 목소리를 정확하게 묘사해서 프롬프트로 입력할 수도 있고요. VRAM이 적어도 잘 작동하고 정말 빨라요.00:10

새로운 무료 오픈 소스 텍스트 음성 변환 생성기가 나왔어요. 최고 수준이랍니다. 알리바바에서 퀀 3 텍스트 음성 변환을 새로 냈는데, 정말 강력하고 유연해요.00:19

단 몇 초의 목소리만 있으면 누구든 복제할 수 있습니다. 혹은 원하는 목소리를 정확하게 묘사하는 프롬프트를 입력하면 완전히 새로운 목소리를 생성할 수도 있습니다.00:32

다국어 지원은 물론이고, 정말 다양한 언어를 처리할 수 있으며, 특히 원본 대본의 감정과 의도를 정확하게 파악하는 데 탁월합니다.00:41

제가 혼자 말하는 것 말고, 몇 가지 예시를 보여드릴게요. 예를 들어, 목소리가 어떻게 들려야 할지 정확하게 묘사하는 프롬프트를 입력할 수 있는 예시가 있습니다. 예를 들어, 처음에 웃음소리가 나올 거예요.00:49

웃음이 터져서 빠르게 흘러가다가, 점차 느리고 신중한 속도로 바뀌겠지.01:00

큰 웃음소리가 나오고 나서, 일반적인 대화 톤으로 바뀌는 거요, 그렇죠. 그리고 여기 원본 스크립트가 있습니다. 꽤 좋은데요.01:04

좋아요, 알겠어요. 제가 말씀드린 것처럼, 웃음소리 같은 좀 더 표현적인 것도 충분히 표현할 수 있어요, 들어보시면 아시겠지만.01:14

아니면 다음으로 나이도 지정할 수 있어요. 여기에는 비꼬는 듯하고, 단호하며, 또렷한 발음과 조절된 음량 등을 가진 십대 소녀가 있습니다. 그리고 여기는 대본이에요. 블라블라블라. 흠.01:22

우리 모두 아주 흥미롭다고 생각하지만, 돈을 받고 싶어요.01:36

꽤 괜찮아요. 아니, 다른 예시를 보여드릴게요. 여기에는 중간 나이의 성인, 권위 있고 자신감 넘치고 연극적인 사람이 있어요. 그리고 여기는요...01:40

음, 아마 110세나 111세 정도 되어 보이시는 분인데, 뭔가 까칠한 엘비스 느낌이 나는 것 같아요.01:48

그렇게 웃으시는 걸 보니까 익숙한 것 같기도 하고, 정말 멋진 건 전체 대본의 속도랑 톤을 조절할 수 있다는 거예요. 예를 들어 여기 보시면 여성분이 갑자기 목소리가 올라가는 걸 보실 수 있어요.01:58

불만이 가득한 목소리였어. 처음에는 조심스럽게 시작했지만, 감정이 격해지면 급격하게 빨라지고, 처음엔 일상적인 대화처럼 시작해 빠르게 커져서 큰 소리와 강한 어조로 변하는 거야.02:12

그리고 여기 아래에서는 이걸 더욱 강조해서, 중립적인 수용에서 강렬한 분노와 증오심으로 갑자기 바뀌어야 합니다. 한번 들어볼까요.02:22

그래, 네가 싫어, 사랑해, 존경해, 하지만 알아? 네가 망쳤어, 그리고 너 때문에!02:31

정말 멋지네요. 또 다른 멋진 기능을 보여줄게요. 퀀3TTS는 사용자 지정 목소리를 입력할 수 있어요.02:39

자, 라이언 이 목소리를 사용한다고 해보죠. 그런데 그의 목소리가 어떻게 들려야 할지, 그런 지시사항도 추가할 수 있어요. 자, 여기 대본이 있습니다. 아주 슬프고 눈물 나는 목소리로 만들 수도 있죠.02:47

그녀는 정오까지 여기 있을 거라고 했어. 아니면, 그가 아주 기쁠 때 들리는 말투라면 이렇지.02:59

정오까지 오겠다고 했는데, 지금 엄청 화가 난 목소리로 또 정오까지 오겠다고 하네. 진짜 답답해.03:05

제가 말씀드리는 다양한 표현들을 잘 따라 할 수 있어요. 이제 퀀쓰 TTS에서 아홉 가지의 사전 제작된 목소리를 출시했다고 하는데, 중국어 가능한 세 가지 목소리와 영어 가능한 두 가지 목소리, 일본어 가능한 목소리, 한국어 가능한 목소리, 그리고 다양한 중국어 방언을 구사할 수 있는 두 가지 목소리가 있습니다.03:14

이것들은 중국어, 영어, 일본어, 한국어, 그리고 다양한 중국어 방언을 할 수 있는 세 가지 목소리를 가지고 있습니다.03:27

꽤 멋지네요. 제가 몇 가지 목소리를 들려드릴게요.03:34

자, 진짜 멋진 점이 있는데요. 텍스트 프롬프트로 음성을 지정하거나, 미리 만들어진 음성을 사용하는 것 외에도, 몇 초 정도의 음성만 있으면 누구든 쉽게 복제할 수 있다는 거예요.04:10

잠시 후에 제 개인적인 예시를 더 보여드릴게요. 여기는 그들의 예시 중 일부입니다. 예를 들어, 누군가의 목소리 8초짜리 클립이 있습니다.04:21

원본 오디오를 먼저 들려드릴게요.04:29

처음 여섯 달 동안은 사용하다가 18개월 정도 더 사용하다가 완전히 그만뒀고, 그 이후에 이 목소리로 이 문장을 말해볼게요. 이상적인 조화로운04:33

사회와 인간주의는 길을 잃었을 때 우리를 안내하는 등불과 같습니다. 들으시는 것처럼, 그 사람의 목소리와 똑같이 들리죠. 정말 놀랍습니다. 여기서는 심지어 목소리를 입력해서04:44

다른 언어로 말하게 할 수도 있습니다. 예를 들어, 여기는 입력 참조 음성입니다. 간단히 말해서, 우리는 모든 미국인을 위해 미국을 다시 위대하게 만들겠다는 임무를 시작했습니다.04:57

그리고 트럼프가 일본어를 말하게 해 볼게요. 정말 짧은 몇 초만으로도 누군가의 목소리를 복제하는 데 능숙하네요.05:08

이건 확실히 최첨단 기술이에요. 정말 까다로운 대본도 처리할 수 있는데, 이 방정식도 읽어낼 수 있는지 한번 볼까요. 우선, 원래 목소리를 들려드릴게요. 좋아요, 네. 당신을 원망해요.05:23

사랑해요. 존경해요. 그런데, 있잖아? 너 망쳤어. 그리고 너 때문에. 그리고 이제 그녀에게 이걸 읽게 해 보자. 내가 이 기록을 봤으면 어떻게 읽어야 할지 몰라서 완전히 당황했을 거야.05:34

방정식 풀고 있는데, X는 -B 더하기 또는 빼기 B 제곱 빼기 4AC를 2A로 나눈 값이죠? 아무도 못 해요. 완전 망했어요. 너무 슬프네요. 음, 그러니까 이게 방정식 읽는 법이네요.05:44

여기 진짜 멋진 기능이 있어요. 프롬프트에서 두 개의 목소리를 지정할 수 있거든요. 예를 들어 루카스는 남성이고, 미아는 여성이고 이런 특징을 가진 거죠.05:59

그리고 여러분의 스크립트에서 두 사람 모두가 마치 팟캐스트처럼 함께 말하게 할 수도 있어요. 자, 이 스크립트의 처음 몇 초를 들려드릴게요. 어, 계산학 노트 떨어뜨렸네요.06:09

그러니까, 내 건가 봐, 아마도? 어, 와, 우리 필멸의 적, 톰슨 씨의 문제 풀이 세트잖아.06:21

구해줘서 고마워, F에서! 아니, 괜찮아. 사실 나 이미 다 끝냈어. 답 비교하고 싶은 거면 뭐.06:30

이거 일부러 그러는 거야, 같이 공부하자는 속셈이지, 루카스?06:41

아무튼, 엄청 강력하고 유연한 도구야. 자, 이건 공식 데모 중 일부였어.06:45

다음으로, 제가 개인적으로 만든 데모들도 몇 가지 보여드릴게요. 참고로, 이 모든 걸 제 노트북에서 오프라인으로 실행하고 있습니다. 정말 빠르거든요.06:50

단 몇 초 만에 오디오를 생성할 수 있습니다. 걱정 마세요. 이 비디오 뒷부분에서 이 걸 컴퓨터에 어떻게 설정하는지 단계별로 보여드릴게요.06:57

자, 우선 누군가의 목소리를 복제하는 제 데모 몇 가지를 보여드릴게요. 먼저, 억양을 얼마나 잘 복제하는지 테스트해 볼게요. 여기 호주 남성 목소리가 있습니다.07:04

먼저 레퍼런스 오디오를 들려드릴게요. 잘 지내시죠, 친구들! 제 목소리는 진짜 호주 억양이에요. 호주 생활에 대한 멋진 이야기를 하기에 딱 좋네요. 곧 진정한 호주인처럼 말할 수 있을 거예요, 친구.07:13

좋아요, 그다음에 이 스크립트를 붙여넣어서 뭐가 나올지 한번 볼까요.07:25

호주에서 상상할 수 있는 것만큼 공짜 서핑 세션이 본디에서 보드 쇼츠와 코에 징크를 바른 것만큼 더 있을 수 있을까요?07:30

그리고 보시다시피, 정말 잘 처리해냈죠. '페어 딩컴'이나 '본디' 같은 다소 어려운 단어들도 발음할 수 있답니다. 자, 이제 호주 억양이 아닌 인도 억양도 한번 시도해볼까요.07:36

인도 여성의 목소리를 업로드할 텐데요, 먼저 한번 들어보실게요. 인도 여성의 목소리를 통해 호기심을 자극하고, 모든 대사를 매혹적인 이야기로 만들어 보세요.07:47

좋아요. 그리고 자막 파일에는 이걸 붙여넣고 실행 버튼을 누르세요.07:58

자, 제가 준비한 게 여기 있습니다. 뭄바이의 번화한 거리 위로 해가 떠오르면, 종종 어린 시절의 활기찬 축제들을 떠올리게 됩니다.08:02

들리시겠지만, 정말 몇 초만 있으면 누군가의 목소리를 완벽하게 복제하는 게 대단해요.08:11

자, 또 다른 예시를 보여드릴게요. 이 칩munk 목소리를 업로드할 겁니다. 우선 어떤 소리가 나는지 들어볼까요.08:17

다양한 질감과 맛의 조합이 완벽한 조화를 이루네요.08:22

스테이크의 풍미, 크랜베리의 신맛, 솔방울의 바삭함, 그리고 블루치즈의 부드러움이 조화롭게 어우러져요.08:26

좋아요, 그럼 이제 받아쓰기를 붙여넣고 실행을 누르죠.08:34

제가 준비한 게 이거예요. 머릿속이 마치 천 리박처럼 빠르게 돌아가고, 앞으로 일어날 일에 대한 기대감과 흥분으로 가득 차요.08:39

제 레퍼런스 보이스랑 완전히 똑같은데요. 그리고 이건 제 노트북 GPU만으로도 정말 빠르게 생성되는데, 10초 정도밖에 안 걸리네요. 아니면 트럼프 예시도 있는데, 먼저 레퍼런스 오디오를 들려드릴게요. 제가 확인해야 할 부분도 좀 있어서요.08:48

탱고는 두 사람이 춰야 하고, 저는 항상 말하잖아요. 여기 대본이 있습니다. 시작해볼까요? 자, 그럼 이렇게 됩니다. 보세요, 여러분, 성공을 누구보다 잘 아는 사람이 바로 저입니다. 아무도 상상 못 했던 일들을 해내고 있어요.09:03

정말 굉장한 일들이네요. 그리고 트럼프랑 똑같이 들려요.09:16

원래 레퍼런스 오디오에서 배경 소음까지 똑같이 복제해요. 정말 대단한 점은 제가 5초 정도밖에 안 되는 짧은 음성만 줘도 된다는 거예요.09:20

다음으로 다른 언어를 시도해 볼게요. 일본어 음성을 업로드할게요. 먼저 한번 들어보시겠어요.09:28

그리고 나서 여기 대본을 붙여넣을게요. 영어, 중국어, 한국어가 들어가고, 원래 참고 음성은 일본어죠. 그리고 먼저 언어를 자동으로 설정하고 실행 버튼을 누르도록 하겠습니다.09:47

자, 제가 준비한 거 한번 보실게요. 다시 돌아온 친구들, 오늘 한국어 표현을 배워볼 건데요, 저는 영어로 설명해서 편하게 할게요. 예를 들어, '감사합니다'라고 말하고 싶을 때, 중국어로는 이렇게 말할 거예요.09:59

아시죠, 꽤 괜찮아요. 그런데 실제로 이 모든 언어를 발음할 수 있고, 일본어 억양이 조금 느껴지기도 해요.10:12

자, 일본어 외에 또 다른 예시를 보여드릴게요. 스페인어 음성을 업로드해 볼게요.10:21

일단 한번 들어보세요. A veces solo necesitas una voz clara y directa que transmita la información de manera sencilla y efectiva, sin rodeos ni complicaciones.10:26

그리고 나서, 마지막으로 스페인어, 프랑스어, 힌디어, 독일어 번역본을 여기에 붙여넣어 볼까요? 이걸 제대로 인식할 수 있는지 확인해 봅시다.10:37

다양한 언어들을 다 처리할 수 있을 것 같아요.10:51

만약 이 언어들 중 하나를 사용하신다면, 제대로 말했는지 댓글로 알려주세요.10:57

제 생각에는 스페인어는 정말 잘 들렸는데, 나머지들은 잘 모르겠어요.11:01

좋아요, 제 목소리 복제 예시를 몇 가지 보여드렸는데, 퀀 3 TTS는 이것보다 훨씬 더 많은 기능을 가지고 있어요. 다음으로, 다음 기능으로 넘어가 볼까요.11:05

그래서 예를 들어, 제가 이 대본을 입력할 거예요. 네가 나한테 이러는 걸 믿을 수가 없어, 넌 완전 배신자야.11:19

그리고 처음에 아주 슬프고 울고 있는 듯한 톤으로 할 거예요.11:24

이게 제가 얻는 결과네요. 정말 배신자라고 믿을 수 없어요.11:28

정말 슬픈 목소리가 나네요. 이제 슬프고 울고 있는 대신, 화가 나고 격렬하게 소리 지르는 걸 해볼게요.11:34

내가 당하는 일이 믿기지 않아, 역 정말 대단한 배신자야. 그리고 들리는 대로, 제가 지정하는 다양한 표현들을 정말 잘 처리하는 것 같아요.11:41

다음으로, 플러티하고 장난스러운 걸 한번 해볼게요. 내가 당하는 일이 믿기지 않아, 역 정말 대단한 배신자야.11:50

자, 이렇게 하면 음성에서 표현하고 싶은 감정이나 분위기를 쉽게 조절할 수 있습니다. 제 채널에는 정말 다양한 AI 모델과 도구들을 소개해 왔기 때문에...11:57

정말 압도적이네요. 만약 이 모든 모델을 하나의 플랫폼에서 모두 사용할 수 있게 된다면 어떨까요?12:08

그리고 이것으로 아바쿠스 AI의 스폰서인 Chat LLM을 소개하게 됩니다. Chat LLM은 현재 가장 훌륭한 AI 모델들을 한 곳에서 사용할 수 있는 올인원 플랫폼입니다.12:12

채팅 중에도 모델을 쉽게 전환할 수 있어요. 게다가 현재 가장 인기 있는 이미지 생성 모델과 비디오 모델들을 모두 하나의 통합 플랫폼에서 사용할 수 있는데, 새로운 모델이 출시되면 보통 빠르게 추가되는 편이에요.12:22

게다가 코딩하는 무언가가 있다면, 정말 유용한 아티팩트 기능이 있어서 생성 결과를 바로 옆에 비교해서 볼 수 있어요.12:37

게다가 심층적인 에이전트 기능이 있어서, 파워포인트, 웹사이트, 연구 보고서와 같이 정말 복잡한 작업들을 자율적으로 수행할 수 있습니다.12:44

생산성을 폭발적으로 끌어올릴 거예요. 게다가 가장 좋은 점은, 이 모든 AI 모델과 이미지, 영상 생성 도구, 그리고 딥에이전트를 한 달에 단 10달러로 이용할 수 있다는 거죠.12:53

이걸 따로따로 구매하는 것보다 훨씬 저렴해. 설명에 있는 DeepAgent와 ChatLLM도 꼭 확인해 봐.13:03

이제 누군가의 목소리를 복제하거나, 미리 만들어진 목소리를 사용하는 것 외에도, 텍스트 프롬프트만으로도 완전히 처음부터 제 목소리를 디자인할 수 있습니다.13:10

예를 들어, 여기에는 아주 늙은 남자의 거친, 약한 목소리가 있고, 이 스크립트를 읽어주도록 하겠습니다. 결과는 이렇습니다.13:20

옛날에는 우리 별로 가진 게 없었지만, 오래 쓸 줄 알았어.13:28

혹은, 늙은 남자 대신 귀여운 만화 치즈몽 소리를 한번 해볼까요.13:33

자, 이렇게 결과물이 나오네요. 제가 살던 시절에는 많지 않았지만, 오래 쓸 줄 알았죠. 정말 아름답게 들려요. 제 프롬프트를 정확히 따르네요.13:37

자, 또 다른 예를 들어볼게요. 20대, 활기 넘치고 표현력이 풍부한, 다양한 음역대를 가진 도도하고 짓궂은 여성의 목소리로 해볼까요? 그리고 여기 같은 단어지만 다른 발음으로 나오는 까다로운 예를 시도해 볼까요.13:47

이게 어떻게 알아맞힐지 한번 볼까요. 바람이 너무 강해서 연을 날릴 수가 있었어요. 음반 프로듀서는 밴드의 새 싱글을 녹음하는 걸 거부했죠. 그리고 그걸 정말 잘 처리해냈어요.13:59

이것들이 제가 개인적으로 시연해 본 것들 중 일부입니다. 거의 모든 것을 완벽하게 처리했어요. 이건 확실히 오프라인에서 사용할 수 있는 최고의 텍스트 음성 변환기 중 하나, 아니 최고의 텍스트 음성 변환기라고 해도 과언이 아니에요.14:08

여기서 주목할 점은 두 가지 버전이 출시되었다는 겁니다. 하나는 17억 개의 파라미터를 가진 버전인데, 더 크고 품질도 더 좋습니다. 다른 하나는 6억 개의 파라미터를 가진 버전으로, 더 작고 조금 더 빠르게 실행됩니다.14:17

이 모델들은 모두 이러한 언어들을 지원하며, 아마 더 많은 언어도 지원할 가능성이 높습니다.14:30

현재, 최소 17억 개의 파라미터를 가진 모델 변종 내에서는 세 가지 서로 다른 모델이 존재합니다.14:33

첫 번째는 보이스 디자인이라고 불립니다. 다시 한번 말씀드리지만, 텍스트 프롬프트만으로 완전히 새로운 목소리를 만들 수 있는 곳입니다. 그리고 저희는 사용자 정의 음성 모델도 가지고 있는데, 이를 통해 그들의 (특정 기능이나) 하나를 사용할 수 있습니다.14:39

미리 만들어진 음성들도 있고, 또 누군가의 목소리를 몇 초만으로 복제해서 원하는 대로 말하게 하는 기본 모델도 있습니다. 실제로 여기에는 3초면 충분하다고 나와 있는데, 정말 놀랍습니다.14:51

참고로 몇 가지 빠른 벤치마크 점수를 말씀드리자면, 평균적으로 Quint 3 TTS는 11 Labs나 Minimax, GPT-40, Gemini Pro 같은 다른 선도적인 모델들보다 더 뛰어납니다. 특히 다국어 벤치마크에서 강세를 보입니다.15:02

다음으로, 이 모델을 무료로, 그리고 무제한으로 컴퓨터에서 설치하고 실행하는 방법을 알아보겠습니다.15:17

우선, 그들의 허깅 페이스 저장소를 들어가보면, 0.6억 개의 파라미터를 가진 모델이 2GB를 조금 넘는 크기 정도라는 걸 알 수 있습니다.15:23

그래서 이 모델이 심지어 가장 저렴한 소비자용 GPU에도 쉽게 들어갈 수 있어요. 그리고 17억 개의 파라미터를 가진 모델은, 다시 한번 말씀드리지만, 4GB 이내의 크기거든요. 그래서 VRAM이 4GB인 GPU에서도 쉽게 돌릴 수 있습니다.15:31

이 모델들은 모두 매우 가볍습니다. 이제 공식 GitHub 저장소가 출시되었고, 다운로드하고 실행하는 방법이 담겨 있습니다.15:45

하지만 지금 보이는 건 모두 원시 코드라서 직관적이지 않아요. 대신 우리가 사용할 건 ComfyUI라는 그래픽 인터페이스입니다.15:53

이것은 오프라인에서 오픈 소스 이미지, 비디오, 오디오 생성기를 실행하는 가장 인기 있는 플랫폼입니다. 코무이(ComfyUI)가 익숙하지 않거나 아직 설치하지 않았다면, 먼저 이 설치 튜토리얼을 꼭 확인하세요.16:00

어쨌든, 비디오 본론으로 돌아가면, 코무이(ComfyUI)가 이미 설치되어 있다고 가정합니다. 멋진 점은 퀸3 TTS를 위한 코무이(ComfyUI) 워크플로우가 이미 있다는 것입니다.16:12

설명란 아래에 이 깃허브 저장소 링크를 달 거예요. 이제 이걸 설치하기 위해 단계별로 하나씩 진행해 봐요. 첫 번째 단계는 이 저장소를 복제해야 합니다.16:22

그래서 페이지 맨 위로 스크롤 할 거예요. 그리고 화면 코드 버튼을 클릭해서 이 URL을 복사할 겁니다.16:32

그 다음에는 Comfy UI에 들어가서 사용자 정의 노드를 클릭할 거예요.16:39

그리고 여기 위에 CMD라고 입력하시고, 그 다음에 git clone을 입력해서 이 링크를 붙여넣으세요.16:44

이렇게 하면 이 커스텀 노드들을 제 Comfy UI에 모두 복제할 수 있습니다.16:52

다음에는 이걸 나가면, 여기에서 새로운 Comfy UI Quen TTS 폴더가 생성된 걸 확인할 수 있습니다.16:57

커스텀 노드를 설치한 후에, 마지막으로 이 파일에 나열된 요구사항들을 설치해야 합니다.17:03

이제 우리가 해야 할 일은 Comfy UI Windows Portable Root 폴더로 다시 돌아가는 거예요.17:12

그리고 여기 맨 위에 다시 cmd를 입력해서 명령 프롬프트로 열게요. 이 줄을 설명이나 고정 댓글에 넣어놨으니까 그냥 붙여넣으면 돼요. 기본적으로 파이썬을 사용할 건데, 파이썬 폴더에 있는 거예요.17:17

임베디드 폴더에서 이 requirements.txt 파일에 나열된 모든 항목을 pip 설치할 거에요. 이 파일은 커스텀 노드와 quen tts 폴더에 위치하고 있습니다.17:29

보시는 것처럼, 이 줄이 하는 일은 기본적으로 이것이고요, 엔터를 누르면 이미 없으신 경우 이 패키지들과 종속성을 설치하도록 진행될 겁니다.17:41

좋아요, 설치가 완료되면 이것으로 거의 다 됐습니다.17:51

이제 ComfyUI를 시작하기 전에 최신 버전으로 업데이트하는 것이 가장 좋습니다.17:55

업데이트 폴더 안으로 더블 클릭할 거예요. 거기서 최신 버전으로 업데이트하려면 이걸 더블 클릭하거나, 안전하게 최신 안정화 버전으로 업데이트하고 싶다면 이걸 더블 클릭해도 괜찮아요.18:00

저 같은 경우는 이 파일에 두 번 클릭해서 업데이트를 최신 버전으로 진행할 것 같아요.18:12

자, 업데이트가 완료되면, 아무 키나 눌러서 그 창을 닫을 수 있습니다.18:17

그리고 드디어, 이제 comfy UI를 실행할 수 있습니다. 제가 실행해 보겠습니다.18:23

이제 comfy UI가 시작되면 템플릿으로 가야 합니다. 그리고 아래로 쭉 내리면 방금 다운로드한 새로운 comfy UI quantity S를 볼 수 있을 거예요.18:28

자, 여기 클릭해볼게요. 여기에는 예시 워크플로우가 들어있네요. 한번 클릭해보면 이렇게 나타나요. 아주 간단하죠. 이제 하나씩 살펴볼까요?18:38

자, 빠르게 말씀드리면 세 가지 다른 모듈이 있는데, 이걸로 자유롭게 실험해볼 수 있습니다. 첫 번째는 여기, 참고 음성을 입력하면 그 목소리를 복제할 수 있습니다. 기본적으로 그 사람의 목소리를 얻을 수 있죠.18:48

원하는 대로 이야기하고, 이쪽에는 사용자 지정 음성 노드가 있습니다. 여기서 이전에 언급했던 미리 만들어진 음성들을 선택할 수 있습니다. 기억하시겠지만, 이 음성들은 각 특정 언어에 맞춰 훈련되었습니다.18:58

만약 영어를 하시려면 에이든이나 라이언을 선택하셔야 해요. 그리고 여기는 새로운 목소리를 만드는 곳이에요.19:11

원하는 목소리가 어떻게 들리도록 할지 정확하게 묘사하는 프롬프트를 입력할 수 있습니다.19:18

각각 하나씩 살펴보겠습니다. 우선 저는 이 보이스 클론 기능을 먼저 사용해볼게요.19:22

그래서 제가 할 건 컨트롤 키를 누른 채로 이 두 노드를 드래그한 다음에 컨트롤 B를 눌러서 우회하거나 비활성화하는 거예요. 그리고 여기서는 누군가의 목소리를 몇 초 정도 업로드할 수 있는 곳이에요.19:27

예를 들어, 샘 알트만의 목소리를 업로드해 볼까요. 먼저 한번 들어보세요.19:38

자, 그럼 첫 번째 입력에 대해 이 기능이 어떻게 작동하는지 설명해 드릴게요.19:52

이 x-벡터를 거짓으로 설정하면, 원본 오디오 클립이 무슨 내용을 말하는지 대본을 직접 입력해야 합니다. 예를 들어, 제 오디오가 이렇다면요.19:56

그럼 제 작업 내용에 분명히 변경이 필요하겠네요. 그러면은 그, 분명히 변경이 필요하니까, 레퍼런스 오디오 전체 스크립트를 작성해주셔야 할 거예요. 만약 그렇게 하시면20:07

품질이 더 좋을 거예요. 하지만 저는 게으르니까 그냥 비워둘 거예요. 그래야 이 x 벡터만 true로 설정해야 하고, 이렇게요. 알아들으셨죠? 이것은 정말 중요해요. 원본 오디오의 스크립트를 입력하지 않았다면 이걸 true로 설정해야 합니다. 그리고 여기에 어떤 목소리가 말하게 할지 입력하는 곳이 있습니다.20:18

그걸 입력하는 곳이 있습니다.20:28

예를 들어, 그에게 이 스크립트를 읽게 해보죠.20:38

여기서 0.6억 파라미터 모델 또는 1.7억 파라미터 모델 중에서 선택할 수 있습니다.20:41

1.7 모델은 조금 더 느리지만, 품질이 조금 더 좋습니다. 그리고 장치 및 정밀도는 보통 언어 설정에 대해 기본값으로 그냥 두는 편이에요. 자동 설정하거나 특정 값으로 명시적으로 설정할 수도 있습니다.20:47

그리고 시드는 기본적으로 생성의 시작점입니다.20:59

간단히 말해서, 이전과 똑같은 설정값을 그대로 사용하고 동일한 시드값을 설정한다면, 다시 말해서 이 값을 고정한다면, 이전과 완전히 똑같은 결과물을 얻게 됩니다.21:03

만약 동일한 자막과 설정을 유지하면서 약간 다른 변형을 만들고 싶다면, 이 시드 값을 랜덤으로 설정하면 됩니다.21:14

그러니까 무작위 시드를 얻게 돼서 약간 다른 결과물이 나올 거예요. 거의 다 됐어요.21:23

이제 실행 버튼을 누르고 어떤 결과가 나올지 들어볼까요. 이걸 처음 실행할 때, 필요한 모델이 없으면 자동으로 감지해서 허깅페이스나 모델 스코프에서 다운로드할 거예요.21:28

그래서 모든 게 자동으로 진행돼요. 모델을 직접 다운로드할 필요는 없죠.21:39

총 용량이 6기가바이트라고 표시되네요. 다운로드하는 데 몇 분 정도 걸리겠어요.21:43

정말 빠르네요. 이걸 열어보니 16초밖에 안 걸렸어요.21:49

그리고 이것은 제 결과물입니다. OpenAI가 연간 1조 달러 이상의 매출을 올렸다는 것을 발표하게 되어 기쁩니다.21:54

그리고 여기서 아래쪽에 보면, 이건 저장 오디오 노드입니다. 따라서 출력 결과는 여기 ComfyWise 출력 폴더 안의 오디오 폴더에 자동으로 저장됩니다. 여기 보시면 알 수 있습니다.22:01

좋아요, 자 그럼 누군가의 목소리를 몇 초 분량의 샘플만으로 복제하는 방법에 대해 알아봤습니다.22:11

다음으로, 이걸 드래그해서 컨트롤 B를 눌러 비활성화하겠습니다.22:16

그리고 나서 사용자 지정 음성 노드로 넘어가 볼 건데요. 자, 이걸 드래그해서 다시 control B를 눌러서 활성화할게요.22:21

이 노드에서는 퀸 팀에서 제작한 여러 개의 내장 목소리를 선택할 수 있어요. 예시는 여기에서 참고하실 수 있지만, 기본적으로 영어를 사용하도록 하고 싶다면 에이든과 라이언 두 가지 목소리만 사용할 수 있습니다.22:30

에이든을 선택해볼게요. 그리고 모델을 선택하는 곳이 여기입니다. 네, 1.7B로 유지하고, 이번에는 언어를 영어로 선택해볼까요.22:42

거의 다 됐어요. 여기는 대본을 입력하는 곳이에요. 자, 이 대본을 한번 해볼게요. 그리고 여기 아래는 이걸 지우죠.22:52

여기서는 그가 어떻게 말하도록 지시할 수 있습니다. 자, 아주 슬픈 목소리와 울먹이는 톤으로 해보죠.23:01

한번 실행해 볼까요? 정말 빨리 됐네요. 이거 하는데 18초밖에 안 걸렸어요. 한번 들어볼까요?23:11

내가 당신이 나한테 이런 짓을 할 거라고는 상상도 못 했어. 완전 배신자 같으니.23:18

좋아. 네, 정말 슬리게 들리네. 이 커스텀 보이스 노드는 이렇게 작동하는 거야.23:23

이것들 드래그해서 가져온 다음에 컨트롤 비트 눌러서 이걸 우회할게요. 그리고 마지막 음성 디자인 노드도 살펴볼까요.23:28

그래서 다시 한번, 이걸 드래그해서 컨트롤 비트(Control Beats)를 누르면 다시 활성화됩니다. 그리고 저 중국어 글자 삭제할게요. 그래야 플레이스홀더가 보이거든요.23:36

여기에서 기본적으로 대본을 입력하는 곳입니다. 그리고 어떤 목소리를 사용할지 묘사하는 곳도 여기예요. 예를 들어, 아주 늙고 쉰 목소리의 남자를 시도해볼까요.23:45

참고로, 제가 제품 페이지에 나와있는 정확한 템플릿을 좀 더 꼼꼼히 따라하면 더 좋은 결과를 얻을 수 있을 것 같은데, 간단하게 유지해 볼게요.23:57

그리고 트랜스크립트에는 이렇게 써볼게요.24:06

그리고 다시 말씀드리면, 모델과 언어를 선택할 수 있는 곳입니다. 제 경우에는 이걸 영어로 설정해 보겠습니다.24:09

그리고 이것으로 거의 다 됐어요. 실행을 누르겠습니다. 자, 결과가 나왔습니다.24:15

이거 19.3초 걸렸어요.24:19

한번 들어볼게요. 옛날에는 이런 게 없었지만, 오래 쓸 수 있게 만들 줄 알았어요. 소리가 정말 아름답네요. 확실히 아주 연세 많으신 분이고 목소리가 거칠고 약하네요. 알아둬야 할 한 가지는,24:21

이 두 모듈, 커스텀 음성 모듈과 디자인 음성 모듈의 설정을 자동으로 저장하지 않기 때문에, 여기서 보이는 노드들은 미리보기 오디오일 뿐입니다. 이건 첫 번째 모듈의 저장된 오디오 노드와는 달라요.24:35

여기 있는 여러분의 세대는 아무도 저장되지 않았어요. 저장하고 싶으면, 오디오 플레이어 위에 커서를 올려놓고 오른쪽 클릭 후 '오디오로 저장'을 클릭하세요.24:50

그렇지 않으면, 다른 생성물을 만들면 이 파일이 덮어씌워져서 완전히 사라집니다.24:59

자, 퀀 3에 대한 리뷰 및 설치 튜토리얼은 여기까지입니다.25:04

이 모델은 정말 강력하고 활용도가 높아서, 정말 다양한 일을 할 수 있게 해줘요.25:07

단 몇 초의 녹음만 있으면 누군가의 목소리를 쉽게 복제할 수 있습니다. 아니면 미리 만들어진 목소리를 사용하거나, 감정 표현까지 지정할 수도 있고, 심지어 텍스트 프롬프트만으로 완전히 새로운 목소리를 처음부터 디자인할 수도 있습니다.25:12

생성되는 음성도 굉장히 자연스럽고 문맥도 잘 이해해요. 지금 있는 텍스트 음성 변환 프로그램들 중에서 최고 수준이라고 할 수 있겠네요. 게다가 멋진 점은 이게 무료이고 오픈 소스라는 거예요.25:26

이거 어떻게 생각하세요? 혹시 설치하다가 문제 생기시면 댓글에 오류 메시지를 붙여넣어 주세요. 최대한 문제 해결을 도와드리겠습니다.25:38

늘 그렇듯, 제가 최고의 AI 뉴스랑 유용한 툴들을 찾아 공유해 드릴 테니, 영상이 좋았다면 좋아요, 공유, 구독 잊지 마시고 앞으로도 많은 콘텐츠 기대해주세요.25:47

AI 분야에서 매주 정말 많은 일이 일어나서, 제 유튜브 채널에서 모든 걸 다룰 수는 없어요. 그래서 AI 관련 최신 정보를 계속 확인하고 싶다면, 제 무료 주간 뉴스레터 구독하는 거 잊지 마세요.25:57

그 링크는 아래 설명란에 있을 거예요. 시청해 주셔서 감사합니다. 다음 영상에서 만나요.26:12

AI Summary

이 영상은 퀀텀 3(Quantm 3)라는 혁신적인 AI 음성 생성 모델을 소개하는 튜토리얼이에요. 퀀텀 3는 텍스트를 자연스러운 음성으로 변환하는 기술인데, 기존 TTS 기술보다 훨씬 뛰어난 기능들을 자랑해요. 음성 복제, 미리 정의된 목소리 사용, 음성 디자인과 같이 다양한 기능을 제공하며, ComfyUI와 연동하여 사용할 수 있다는 점도 특징적이에요. 영상에서는 퀀텀 3의 기능과 사용법을 자세히 설명하며, AI 음성 기술의 미래 가능성을 엿볼 수 있게 해줍니다.

Key Highlights

  • 퀀텀 3는 몇 초 분량의 음성 샘플만으로 특정인의 목소리를 거의 완벽하게 복제할 수 있는 음성 복제 기능을 제공해.
  • 다양한 감정 표현이 적용된 미리 만들어진 목소리를 선택하여 활용할 수 있어 편리해.
  • 텍스트 프롬프트를 통해 사용자가 원하는 스타일의 목소리를 직접 디자인할 수 있다는 점이 매력적이야.
  • 생성되는 음성이 매우 자연스럽고 문맥에 맞게 잘 전달되어 퀄리티가 높다는 점이 특징이야.
  • 무료 및 오픈 소스라는 점 덕분에 누구나 자유롭게 사용하고 수정할 수 있어 접근성이 높아.

Related Videos