Z-Image Base is out! Best local AI image model

알리바바의 퉁이 랩에서 풀 Z-이미지 모델이 공개되면서 최고의 오픈 소스 AI 이미지 생성기가 더 좋아졌어요.00:00

이 영상에서는, 이걸로 할 수 있는 멋진 기능들을 살펴볼 거고, 다른 유명한 오픈 소스 이미지 모델들과 비교해 볼 거예요. 그리고 당연히, 무료로 무제한으로 오프라인에서 실행할 수 있도록 다운로드하는 방법도 보여드릴 거에요.00:09

끝까지 시청해주세요. VRAM이 적은 환경에서도 이 모델을 실행하는 방법과 이미지 투 이미지 기능 등 더 많은 기능들도 보여드릴 거예요.00:23

자, 바로 시작해볼까요? 이전에 Z Image Turbo 모델만 있었는데, 어제 풀 모델이 공개되었어요.00:31

몇 가지 생성 예시를 보여드릴게요. 정말 사실적이고 다양하다는 걸 알 수 있죠. 다양한 미술 스타일과 사진 스타일, 감정, 포즈를 모두 표현할 수 있어요.00:39

이게 진짜 멋진 점이에요. Z 이미지 터보랑 Z 이미지랑 비교해 보면, 훨씬 더 디테일하고 예술적인 미학 측면에서도 다양하다는 걸 알 수 있습니다.00:48

이 새로운 Z-Image 풀 모델에서 제가 가장 좋아하는 점이 이거예요. Z-Image Turbo에서는 같은 프롬프트를 사용해도, 시드 값을 바꿔도 비슷한 이미지가 나올 때가 많아요.00:59

같은 프롬프트를 사용해도 사진에서 더 많은 변화를 얻기가 정말 어렵습니다. 하지만 Z-Image를 사용하면 같은 프롬프트를 유지하고 시드를 변경하면서 이미지에서 훨씬 더 많은 변화를 얻을 수 있습니다. 여기서 보시는 것처럼요.01:13

그리고 Z 이미지 터보로 네 명의 소녀가 함께 찍는 셀카 사진을 프롬프트로 넣으면, 이 네 명의 소녀 모두 매우 비슷하게 보일 겁니다. 반면에 Z 이미지 베이스를 사용하면, 각각 조금씩 다른 느낌을 줍니다.01:25

이게 Z 이미지 베이스의 또 다른 정말 멋진 장점입니다. 네거티브 프롬프트를 생성에 추가할 수도 있습니다.01:35

예를 들어, 네거티브 프롬프트를 사용하지 않으면 이렇게 나오겠죠. 하지만 서양인(Westerner)을 네거티브 프롬프트로 추가하면 좀 더 아시아인(Asian)처럼 보이게 할 수 있습니다. 아니면 여기, 슬픈(sad)을 네거티브 프롬프트로 추가하면 이 사람은 좀 더01:42

행복해 보입니다. 자, 이제 이 새로운 Z 이미지 모델이 정확히 무엇인지 명확히 해 봅시다.01:54

사실 저는 이걸 Z 이미지 풀이라고 부르는 걸 더 좋아해요. 왜냐하면 이건 실제 베이스 모델이 아니고, Z 이미지 옴니 베이스라고 불리는 거거든요. 이게 더 추가적인 훈련을 거치기 전의 정말 초기 모델이에요.01:59

이건 이미지 생성도 편집도 둘 다 할 수 있어요. 어제는 이 Z 이미지 전체 모델만 출시했었죠.02:09

현재 이 모델은 통이랩에 따르면, 완전 용량의 증류되지 않은 모델에 해당합니다. 이는 파인튜닝과 로라 학습에 정말 효과적이며, 이전 Z-Image Turbo 모델보다 훨씬 뛰어납니다.02:16

하지만 이걸 기본 모델이라고 부르기는 어렵고, 실제로는 Z-Image Omni base라고 해야겠죠. 여기 이 새로운 Z-Image 풀 모델과 Z-Image Turbo의 비교표가 하나 더 있습니다.02:28

이 모델은 이미지 생성에 훨씬 더 많은 단계를 거쳐야 하지만, Z-Image Turbo는 이미지 생성을 아주 빠르게 할 수 있도록 최적화되어 있다는 점을 먼저 보시면 됩니다.02:38

새로운 전체 모델의 경우, 이미지를 생성하는 데 시간이 더 오래 걸릴 겁니다. 하지만 생성되는 이미지의 다양성은 Z Image Turbo보다 훨씬 더 좋습니다.02:49

그리고 로라를 파인튜닝하고 학습시키기에도 훨씬 좋습니다. 반면에 Z Image Turbo는 사실적으로 보이는 사진이나 다른 시각적인 미학에서 뛰어난 성능을 내도록 파인튜닝되어 있습니다.02:58

그래서 Z 이미지 터보의 시각적 품질이 Z 이미지보다 약간 더 높은 편이에요. Z 이미지는 좀 더 날것이고 다듬어지지 않은 모델이라고 생각할 수 있고, 더 추가적으로 튜닝할 수 있죠.03:09

제가 하는 말만 믿지 마시고, 여기 이 새로운 Z-Image와 Z-Image Turbo, 그리고 최근에 출시된 Flux 2 Klein의 비교 내용을 보여드릴게요. Z-Image는 기존 등장인물이나 캐릭터를 인식하는 데 정말 뛰어나기로 유명하죠.03:19

그래서 첫 번째 프롬프트에서는 안 해서웨이, 성룡, 그리고 메시를 클럽에 놓고, 저화질 아마추어 사진으로 넣어봤어요. 그리고 보시다시피 Z-Image 모델들은 캐릭터들을 정확하게 인식했어요.03:33

플럭스 2는 기존 인물을 생성하지 못하고, Z-Image 풀은 좀 더 플라스틱 같은 얼굴을 만들어 현실감이 떨어지는 경향이 있는 것 같아요.03:44

Z-Image Turbo 쪽이 훨씬 더 괜찮은 것 같아요. 확실히 아마추어, 저화질 사진처럼 보이네요.03:55

이 점을 염두에 두시면 좋을 것 같아요. 사실적인 인물 사진을 원하신다면 Z-Image Turbo를 더 선호할 것 같습니다.04:00

좋아요, 다른 예시 하나 보여드릴게요. 이번에는 기존 애니메이션 캐릭터를 인식하는 능력을 테스트해 보는 거예요. 여기 미쿠, 네즈코, 고죠 사토루, 그리고 사스케가 셀카를 찍고 있는 모습이네요.04:06

다시 한번 말하지만, Flux 2 Klein은 이 작업에 정말 못하네요. 하지만 Z-Image랑 Z-Image Turbo는 캐릭터를 제대로 인식하는 데 성공했어요.04:17

Z-Image Full은 손가락 부분이 조금 아쉽긴 하지만, 전반적으로는 아주 괜찮아 보이네요.04:25

그리고 여기 또 다른 테스트 프롬프트가 있습니다. 프롬프트가 엄청 길어요. 여기 위에 써져 있으니 읽어보실 수 있는데, 기본적으로 보그 트래블 매거진 커버입니다.04:31

자, 결과가 나왔네요. Z-Image는 약간 채도가 높은 편이고, Z-Image Turbo는 다시 한번 시각적인 느낌이 좀 더 마음에 드네요.04:39

두 모델 모두 텍스트를 대부분 정확하게 인식했어요. 사실 Z-Image는 보그 로고까지 제대로 인식하더라고요.04:48

그리고 Flux2Kline은 사실적인 사진을 잘 생성하는 편이지만, 안타깝게도 텍스트가 엉망이네요.04:55

자, 다음 테스트는 있습니다. 카페에서 셀카를 찍고 있는 여성입니다.05:01

입술을 꽉 다문 귀여운 표정. 눈을 찡긋하고, 한 손은 징그랄 자세를 취하고 있네요.05:05

구도도 좀 엉뚱하고, 아마추어 특유의 싼 느낌도 나고요. 그런데 이 세 모델 다 이걸 정말 잘 만들어줬어요.05:09

자, 이제 긴 텍스트 생성 테스트입니다. 프롬프트는 여기 위에 있습니다. 영상 일시 정지하고 프롬프트 읽으셔도 좋습니다. 하지만 기본적으로 어떤 모델도 텍스트를 완전히 정확하게 렌더링하지 못했습니다. 세 모델 모두 실패라고 할 수 있겠네요.05:15

긴 텍스트 스니펫을 생성하고 싶다면 현재 가장 좋은 오픈 소스 모델은 퀀 이미지입니다. 자, 여기 또 다른 까다로운 프롬프트가 있는데, 나노 바나나 프로를 포함한 어떤 이미지 생성기도 제대로 만들지 못했어요.05:29

시계 11시 15분과 가득 찬 와인 잔이 있는 프롬프트입니다.05:41

아무 모델도 제대로 생성하지 못했습니다. 다음으로, 몇 가지 예술적인 스타일을 테스트해 보고 싶었습니다.05:46

자, 여기는 숲 속의 사슴을 평면 일러스트로 표현했는데, 모든 것이 흰 배경 위에 다양한 크기의 점들로 구성되어 있습니다. 이 세 개 모두 나쁘지 않지만, Z 이미지에서는 여기 풀잎이05:52

점들로 구성되지 않았다는 것을 알 수 있습니다. Z 이미지 터보도 마찬가지입니다.06:06

자, 여기서 제 프롬프트를 가장 잘 따랐던 모델은 플럭스 투 클라인입니다. 다음은 번잡한 기차역의 모네 스타일 인상화입니다. 참고로 모네 그림은 대략 이런 느낌입니다.06:09

기본적으로 정말 거친 붓터치들이 사용됐고, 장면을 보기 위해서는 약간 뒤로 물러서야 해요. 아무것도 명확하게 정의되지 않은 느낌이죠. 그리고 이 예시에서는 Z 이미지 터보가 이걸 가장 잘 처리하는 것 같아요.06:20

이건 젤 모네 인상주의 그림이랑 비슷해 보이는데. Z-Image Turbo는 거의 비슷하게 만들긴 했지만, 조금 너무 뚜렷하게 보이지.06:32

플럭스 2 클라인의 경우, 더 뚜렷하게 보이는 것 같아요. 다음은 숲속의 호랑이를 그린 미니멀리즘 중국 수채화 그림에 대한 테스트도 보여드릴게요.06:40

두 개의 Z-Image 모델 모두 이걸 아주 잘 만들어낸 것 같아요. 중국 수채화 그림의 경우에는, 뚜렷하게 선을 그린 부분이 없다는 걸 알 수 있죠.06:49

보시는 것처럼 나무를 포함해서 전체적으로 붓 터치가 굉장히 추상적이에요. 반면에 플럭스 투 클라인은 윤곽이 너무 뚜렷해서, 이건 미니멀리즘 중국 수채화처럼 안 보입니다.06:58

그래서 제 생각에는 Z 이미지와 Z 이미지 터보가 동점이라고 할 수 있을 것 같아요. 그런데 또 한 번 보세요, Z 이미지에서는 이미지에 좀 더 채도를 더하는 경향이 있어요.07:10

좋아요, 다음은 UI 디자인 테스트입니다. 다시 한번 말씀드리지만 프롬프트가 너무 길어서 읽어드릴 수는 없어요. 기본적으로 세 모델 모두 프롬프트를 대부분 정확하게 이해했어요.07:19

그런데, 세 번째 아이콘은 청록색 경로 표시자여야 한다고 말씀드렸는데, 아이콘을 생성할 수 있었던 건 Flux 2 Klein 뿐이네요. 하지만 전체적인 디자인 측면에서 보면 Flux 2 Klein의 결과물이 가장 못생겼어요.07:29

어떻게 생각하는지 댓글로 알려주세요. 프롬프트 이해도를 테스트하는 내용이 있습니다. 자, 노을이 지는 발리 해변이 배경이고, 파란색과 노란색의 묶어 만든 스카프를 두르고 분홍색 꽃 왕관을 쓴 여성이 있는데, 세 모델 모두 그걸 제대로 이해했습니다.07:43

그녀는 요가를 하고 있는데, 제가 보니까 Z 이미지 모델 둘 다 플럭스 2 클라인을 제대로 알아맞혔어요. 그냥 무릎을 꿇고 있는 상태이고, 요가를 제대로 하고 있는 건 아니고요. 그리고 나서 회색 원숭이가 갈색 것을 훔치는 모습이 있네요.07:56

그녀의 초록색 비치 백에서 코코넛을 꺼내놓고, 제가 말하건대 Z 이미지 풀과 플럭스 2 클라인은 원숭이가 가방에서 물건을 훔치는 모습을 생성할 수 있었어요. 반면에 Z 이미지 터보의 경우에는 원숭이가 가방에서 훔치는 모습이 잘 나타나지 않네요.08:06

가방이 있고, 그 옆에는 하얀 하이비스커스를 기대어 놓은 빨간 서프보드가 있어요. 갈색 어선 한 척이 푸른 파도 위를 둥둥 떠다니고, '빨간 발리 선셋' 이라고 쓰인 간판이 술집에서 빛나고 있네요.08:18

세 모델 모두 이 요소들을 얻을 수 있었지만, 발리 일몰의 'Bali sunset'을 정확하게 맞춘 건 Z 이미지 풀 뿐이었습니다.08:29

Z 이미지 터보에서는 철자가 잘못된 것을 볼 수 있고, 플럭스 투 클라임에서도 마찬가지예요. 그래서 여기서는 플럭스 이미지가 승리했다고 생각해요. 그리고 여기에는 간단한 해부학 테스트가 있는데, 여자가 손바닥과 발바닥을 보여주고 있어요.08:38

세 모델 모두 그걸 맞혔지만, 저는 Z 이미지 모델 두 개가 제 프롬프트를 더 잘 따랐다고 생각해요.08:51

Flux2Kline은 손바닥을 카메라 쪽으로 제대로 보여주지 않네요.08:57

그녀의 손바닥이 그냥 위로 향해 있네요. 그래서 이게 제가 빠르게 진행한 몇 가지 테스트 중 하나입니다. 댓글로 여러분의 의견을 알려주세요.09:01

다음으로, 이걸 로컬 컴퓨터에 설치하고 사용하는 방법에 대해 알아봅시다.09:06

공식 허깅 페이스 페이지에서는 이 설치 방법에 대한 지침을 제공하지만, raw 코드를 사용하기 때문에 직관적이지 않을 수 있어요.09:10

이걸 사용하기에 더 좋은 플랫폼은 '컴피 UI'라고 불리는 것 같아요.09:18

실제로, 이것은 여러분의 컴퓨터에서 오픈 소스 이미지, 비디오, 그리고 오디오 생성기를 실행하는 가장 인기 있는 플랫폼입니다.09:21

Comfy UI 좋은 점은 정말 커스터마이징이 자유롭다는 거예요. 그리고 자동 오프로딩 기능도 있어서, 고사양 하드웨어가 없으신 분들께는 특히 유용하죠.09:28

Comfy UI가 익숙하지 않으시다면, 먼저 설치 튜토리얼을 꼭 확인해 보세요. 아무튼, 이번 영상에서는 Comfy UI가 이미 설치되어 있다고 가정하고 시작할게요. 첫 번째 단계는 Comfy UI를 업데이트하는 거예요.09:37

제가 사용하고 있는 건 윈도우 휴대용 버전인데, 이게 권장하는 버전이고 폴더 안에는 업데이트 폴더가 있을 거예요. 여기 두 번 클릭해서 최신 버전으로 업데이트하거나, 이 버튼을 클릭해서 ComfyUI 스테이블 버전을 업데이트할 수 있어요. 저는 이 버튼을 두 번 클릭해서 실행할 테니 최신 변경 사항을 가져와서 Comfy UI를 최신 버전으로 업데이트할 거예요.09:48

최신 변경 사항을 가져와서 Comfy UI를 최신 버전으로 업데이트할 거예요.10:00

좋아요, 그 다음에는 아무 키나 누르면 터미널이 종료됩니다.10:15

그 다음에는 Comfy UI를 실행할 수 있습니다. 자, 이제 Comfy UI를 시작해볼게요.10:19

자, 컴파이 UI를 시작한 후에 간단히 왼쪽 사이드바에 있는 템플릿 버튼을 클릭하세요.10:23

그리고 이미지 버튼을 클릭하면 여기에서 Z 이미지 텍스트 투 이미지(Z Image Text to Image)를 볼 수 있을 거예요.10:29

Z 이미지 터보 버전을 선택하지 마세요, 그거 며칠 됐어요. 이건 새로 나온 거니까요. 안 보이면 여기 Z 이미지 검색해도 되고, 어쨌든 이 링크를 클릭하면 워크플로우가 이렇게 간단해요.10:34

그리고 혹시 이 워크플로우를 못 보시는 경우, 제가 컴피 UI 페이지 링크도 드릴게요. 거기서 이 버튼을 클릭하시면 워크플로우를 바로 다운로드하실 수 있습니다. 정말 많은 AI 이미지 관련 기능이 있어요.10:47

다른 비디오 생성 도구들이 너무 많아서 압도될 수 있는데, 다행히 이번 영상의 스폰서인 힁스 필드가 모든 것을 하나의 통합 플랫폼으로 모아줍니다. 그리고 그들은 방금 새 AI 인플루언서 스튜디오를 출시했는데, 정말 강력합니다.10:58

인공지능 인플루언서를 쉽게 디자인하고, 제어하며, 생동감 있게 만들어 낼 수 있습니다.11:13

작동 방식은 이렇습니다. 캐릭터 유형을 포함하여 백 개가 넘는 설정 가능한 매개변수를 선택할 수 있는데요, 일단 인간으로 선택하고, 성별, 민족, 피부색, 눈 색깔, 나이 등 더 많은 항목들도 함께 설정할 수 있습니다.11:18

그리고 인플루언서를 생성하게 됩니다. 만약 마음에 안 든다면, 나노 바나나를 이용해서 더 수정할 수도 있어요.11:31

그리고 나서 인플루언서가 제품에 대해 이야기하거나 춤을 추는 등 뭐든지 시킬 수 있습니다.11:38

움직임 라이브러리에서 엄청 다양한 동작을 고를 수 있어요. 예를 들어, 이렇게 춤추게 해볼까요.11:44

그리고 생성 버튼을 누르면, 짜잔 하고 결과물이 나오네요. 게다가 힁스필드는 최고의 이미지와 비디오 생성기들을 모두 이용할 수 있는 플랫폼이에요.11:51

그리고 엄청나게 많은 미리 만들어진 템플릿들이 있어요. 카메라 프리셋, VFX 같은 것들도 포함되어 있고요.12:00

Hicksfield는 크리에이터들이 상상하는 모든 것을 쉽게 만들 수 있는 최고의 플랫폼이에요.12:05

아래 설명에 있는 링크를 통해 무료로 사용해 보세요. 정말 빠르게 살펴보겠습니다.12:11

정말 간단합니다. 첫 번째 단계는 모델을 로드하는 건데요. 매우 편리하게 모델 링크들이 이미 여기에 준비되어 있습니다.12:15

자, 우선 이 Z Image BF16 파일을 다운로드해 봅시다. 여기를 클릭하면, ComfyUI 모델의 디퓨전 모델 폴더에 들어가게 됩니다.12:24

참고로 이 BF16 파일은 12기가바이트 크기입니다.12:32

이 모델을 실행하려면 최소 12GB의 VRAM이 필요하고, 오프로딩도 해야 합니다.12:36

그 다음에 텍스트 인코더인 퀀34B도 다운로드해야 합니다.12:41

자, 여기를 클릭해볼게요. 그리고 이건 ComfyUI 모델 안에 텍스트 인코더에 들어가는 거에요.12:46

이 파일은 7.8기가바이트 정도 돼요.12:52

Z 이미지 터보 워크플로우를 다운로드하셨다면 이미 가지고 계실 거예요. 따라서 이걸 다시 다운로드할 필요는 없고요. 마지막으로 VAE도 다운로드해야 합니다.12:56

자, 이걸 클릭해 볼게요. 그리고 이건 ComfyUI의 Models에, 그리고 VAE에 들어가요. 이 파일은 327메가바이트 정도의 크기예요.13:04

그리고 이 파일은 이전에 Z Image Turbo 워크플로우를 다운로드했다면 이미 가지고 있을 거예요.13:12

거의 다 됐어요. 이제 1단계에서는 모델을 불러와야 해요.13:17

모델 다운로드를 막 완료하셨다면, 모델 목록을 새로 고치기 위해 'r' 키를 누르세요. 그리고 첫 번째 드롭다운 메뉴에서는 'z image bf16'을 선택하고, 'load clip'에서 'quen 3 4b'를 선택한 다음, 'vae'까지 선택하시면 됩니다.13:21

여기서 'ae dot save tensors'를 선택하시면 거의 다 됐습니다. 이제 두 번째 단계에서는 최종 이미지의 너비와 높이를 지정하고, '배치 크기'는 한 번에 생성할 이미지의 개수를 나타냅니다.13:36

한 번에 생성하고 싶을 때요. 그리고 여기서는 양수 프롬프트와 음수 프롬프트를 입력할 수 있어요. 사실 Z 이미지에서는 음수 프롬프트를 추가하는 것을 적극 추천해요.13:47

전에 보여드렸죠. Z 이미지 터보를 사용해 보셨다면 아시겠지만, 음수 프롬프트가 잘 작동하지 않는데, 이것에 대해서는 조금 있다가 말씀드릴게요.13:58

하지만 여기서는 네거티브 프롬프트가 정말 잘 작동합니다. 예를 들어, 저희 프롬프트에 '도시의 여성'이라고 써볼까요.14:04

그리고 네거티브 프롬프트에는 블러리, 로우 레즈, 과포화, 만화 같은 단어들을 추가할 수 있습니다.14:11

좋아요, 여러분의 프롬프트는 이 두 노드를 통해 이미지를 생성하도록 전달될 겁니다.14:18

자, 이제 이 설정들을 빠르게 살펴보겠습니다. 시드는 기본적으로 무작위 노이즈의 시작 설정입니다. 그러니까, 모든 설정을 동일하게 유지하면서 시드만 다른 숫자로 바꾸면 약간 다른 이미지가 나올 거예요.14:24

반대로, 모든 설정을 동일하게 유지하고 같은 시드를 사용하면 이전과 똑같은 이미지가 생성됩니다.14:36

그리고 이 설정은 생성 후에 시드를 무작위로 다른 값으로 변경하도록 지시하거나, 재현성을 위해 시드를 고정할 수도 있습니다.14:42

제 경우에는 그냥 이걸 랜덤으로 설정할 거예요. 그리고 이 스텝 수는 AI가 이미지를 생성하는 데 걸리는 단계 수예요.14:50

여기 아래에는 ZImageFull의 경우 추천 스텝 수가 30에서 50 정도라고 적혀 있어요.14:58

이 점 꼭 기억하시고요. 그리고 CFG는, 이게 정말 중요한 부분이에요.15:03

AI가 여러분의 프롬프트를 얼마나 문자 그대로 따를지를 결정하는 방식이에요.15:08

일반적으로 CFG 값이 낮을수록 더 창의적이고, 높을수록 프롬프트를 더 문자 그대로 따르게 됩니다. 여기에서 권장되는 CFG 설정은 3에서 5 사이라는 것을 확인할 수 있습니다.15:11

자, 이제 ZImageBase 모델이 네거티브 프롬프트와 함께 작동하는 이유를 설명하겠습니다. CFG 값이 3에서 5 사이의 범위에서 잘 작동하기 때문입니다.15:23

Z 이미지 터보의 경우, CFG 설정이 종종 0에서 1 사이인 것을 알 수 있습니다. 이 경우, 네거티브 프롬프트가 작동하지 않습니다.15:30

그래서 Z 이미지의 장점은 네거티브 프롬프트를 사용하여 프롬프트 조건을 더 세밀하게 제어할 수 있다는 것입니다. 그리고 샘플러와 스케줄러는 기본적으로 이미지를 생성하는 데 사용되는 알고리즘입니다.15:38

선택할 수 있는 다양한 알고리즘이 정말 많고, 각각 조금씩 다른 특징을 가지고 있어요.15:49

맘대로 실험해 보셔도 되는데, 저는 기본값으로 두겠습니다. 뭐, 이것으로 거의 다 됐어요. 이제 실행 버튼을 누르죠. 참고로 저는 노트북에 RTX 5000 ADA를 쓰고 있는데, VRAM이 16기가 바이트예요. 자, 이제 결과물을 확인해 봅시다.15:55

이건 이미지 저장 노드니까, 자동으로 Comfy UI의 출력 폴더에 저장됩니다. 여기 보시면 아시겠지만. 그리고 터미널을 확장하면, 약 1분 25초 정도 걸렸습니다.16:09

그래서 Z Image Turbo보다 훨씬 느린데요, 제 GPU에서는 단지 7초밖에 안 걸리거든요.16:21

그게 Z Image Turbo의 스텝 수 때문인데, 단지 7에서 9단계 정도만 필요하거든요.16:28

Z 이미지 베이스를 사용한다면 감수해야 할 부분이 있죠. 하지만 이 모델의 장점은 훨씬 더 다양한 변형을 만들어낼 수 있다는 거예요. 그러니까 이걸 다시 실행하면 도시의 여성을 완전히 다른 모델로 만들 수 있다는 뜻이죠.16:34

Z Image Turbo를 사용하면 시드를 바꿔도 결과가 상당히 비슷하게 나오는 경우가 많아요. 자, 그럼 다시 한번 실행해서 뭐가 나올지 볼게요. 여기 두 번째 세대가 나왔네요.16:47

이건 좀 더 빨리 만들어졌네요. 92초 정도 걸렸어요. 그리고 결과 폴더를 열어보면, 두 이미지가 정말 다르다는 걸 알 수 있습니다.16:57

그래서 이 Z 이미지 풀 모델의 장점은 같은 프롬프트를 사용해도 훨씬 더 다양한 결과가 나온다는 거예요.17:07

자, 이제 이 전체 모델은 크기가 12기가바이트 정도 돼요. 그래서 다음으로는, VRAM이 그렇게 많지 않으신 경우 이 모델을 어떻게 활용할 수 있는지 알아볼게요. 다행히 GGUF나 Z Image의 더 압축된 버전들이 이미 있어서 실행할 수 있어요.17:13

VRAM이 적거나 심지어 CPU나 AMD GPU에서도 사용할 수 있어요. 자, 여기 다양한 압축 방식과 크기의 버전들이 있네요. 가장 작은 버전인 Z Image Q2K는 4GB밖에 안 돼요.17:27

이 모델을 4GB로 간신히 실행할 수 있을지도 모르지만, 제 말만 믿지는 마세요. 직접 테스트해 보셔야 할 겁니다. 그리고 5GB, 6GB, 7GB 같은 다른 옵션들도 있어요.17:40

모델이 클수록 당연히 품질이 더 좋을 겁니다. 그래서 사용 가능한 VRAM 용량에 맞춰 가장 큰 모델을 선택해야 합니다. 예를 들어 VRAM이 8GB라면, 이 모델을 추천합니다.17:51

어쨌든, 저는 간단하게 이 Q2 버전을 사용해서 예시를 보여드릴게요. 그럼 다운로드 버튼을 클릭해서 다운로드하고, 이 파일을 ComfyUI의 Models 폴더 안에 Unit 폴더에 넣어주세요.18:02

저장 버튼을 클릭해볼게요. 자, 이제 여기로 돌아와서 새로운 워크플로우를 열어볼 건데요, 처음부터 다시 시작하기 위해서 또 다시 템플릿을 클릭하고 z 이미지에 클릭하면 돼요. 그다음에 해야 할 일은18:12

기본적으로 이 모델 노드를 gguf 노드로 바꿔주는 거예요. 그래서 인터페이스 아무 곳이나 두 번 클릭해서 유닛을 검색하면 이 유닛 로더 gguf가 보이거든요. 여기를 클릭해볼게요.18:24

이걸 연결하고, 그러면 이 연결이 자동으로 끊어지게 됩니다. 사실 그냥 클릭해서 컨트롤 B를 누르면 비활성화할 수도 있어요. 만약 이 GGUF 노드를 안 보이신다면,18:37

그럼 매니저를 클릭해서 GGUF를 검색하시면 됩니다.18:51

이걸 다운로드해야 합니다. ComfyUI GGUF by City96입니다. 혹시 가지고 계신데 안 된다면 최신 버전으로 업데이트해보세요.18:56

자, 다운로드한 GGUF 모델이 있다면, 그냥 R을 눌러 모델 목록을 새로고침하고, 아래 모델 선택기에서 선택한 모델을 클릭하면 됩니다.19:06

제 경우에는 zimage q2이고, 텍스트 인코더는 quen 34b, 그리고 vae는 ae dot safe tensors로 선택했습니다. 이전과 동일한 설정입니다.19:17

이제 실행 버튼을 눌러 gguf로 생성해 보겠습니다. 자, 결과가 나왔네요. 이렇게 Z image full을 실행할 수 있습니다. VRAM이 적더라도요.19:30

지금은 기본 워크플로우가 텍스트에서 이미지로만 받는데, 이미지에서 이미지로 변환하도록 수정할 수도 있습니다.19:42

자, 어떻게 하는지 살펴보겠습니다. 저는 그냥 처음부터 기본 워크플로우를 사용하고 있어요.19:50

GGOF를 사용하신다면 이 노드를 GGOF로 바꿔서 사용할 수도 있습니다.19:54

그리고 다시 시작하기 위해, 제가 가지고 있는 모델을 선택할 건데요. 이걸 선택하고, 이걸 선택하겠습니다.19:57

기본적으로 이 기능이 작동하는 방식은, 지금은 텍스트-이미지로 작업을 할 때 이 노드를 사용해서 무작위 노이즈로 캔버스를 만들고, 그걸 입력하는 방식입니다.20:03

이 케이스 샘플러를 통해 점진적으로 노이즈를 줄여 최종 이미지를 생성하게 됩니다. 하지만 무작위 노이즈로 시작하는 대신 이미지를 시작할 수도 있습니다. 여기 아무 곳이나 두 번 클릭하고 '이미지 로드'를 검색해 보겠습니다.20:13

그리고 콤피 코어의 이 '이미지 로드'를 선택하겠습니다.20:28

그리고 여기에서 이미지를 업로드할 수 있습니다. 자, 이 이미지를 선택해 봅시다. 지금은 이 이미지를 바로 케이스 샘플러에 넣을 수는 없습니다. 왜냐하면 이 케이스 샘플러는 레이턴트 이미지를 필요로 하기 때문입니다.20:31

자, 해야 할 일은 여기 아무 데나 두 번 클릭한 다음에 VAE라고 입력하고, 이걸 선택해야 해요. VAE 인코딩을 선택하는 거죠.20:43

이건 여러분이 불러온 VAE를 사용할 거예요. 그래서 사실은 이 VAE를 인코딩 노드에 연결할 건데요, 여러분의20:51

이미지를 변환해 줄 겁니다. 그럼 이 이미지를 잠재 공간에 연결해서 이 케이스 샘플러에 넣을 수 있도록 연결해 볼게요. 다음에는 그냥 이 케이스 샘플러에 이렇게 연결하면 됩니다.21:01

거의 다 됐어요. 그리고 이 노드는 자동으로 연결이 끊어질 거예요.21:11

사실 좀 더 깔끔하게 정리하기 위해서, 이걸 선택하고 컨트롤 B를 눌러서 비활성화해 볼게요.21:15

자, 이제 이 이미지를 현실적인 이미지로 변환한다고 해 봅시다.21:20

프롬프트에는 '소녀, 녹색 배경, 전경의 잎과 덤불, 사실적인 사진, 미드 샷'과 같이 쓸 수 있습니다. 그리고 네거티브 프롬프트에는 원하지 않는 모든 것을 적어줍니다. 만화처럼 보이지 않도록 하려는 거죠.21:24

혹시 벡터 스타일이거나 2D, 저해상도, 흐릿하거나 채도가 너무 높은 경우도 있고요. 하나 더 설정해야 할 값은 디노이즈 값인데, 이건 기본적으로 입력 이미지 중 얼마나 변형할지를 결정하는 거예요.21:38

지금은 100%로 설정되어 있는데, 그거는 안 좋은 거죠.21:52

완전히 다른 이미지가 나올 거예요. 우선 이걸 0.5 정도로 설정하고 확인해 볼게요.21:56

이 이미지의 디테일 50% 정도는 유지하면서 현실적인 사진으로 바꿔주는 거죠.22:03

이게 충분할지 한번 볼까요. 만약 아니면, 이 값을 좀 더 조정해야 할 수도 있겠네요. 자, 실행해 볼까요. 음, 여전히 원본 이미지의 특징을 너무 많이 가지고 있네요.22:10

자 그럼 값을 좀 더 높여볼까요? 알겠습니다. CFG를 5로 늘리고 디노이즈를 0.84로 올린 후에 이렇게 결과가 나오네요. 자, 이것이 이전이고, 이것이 이후입니다.22:18

정말 사진처럼 사실적으로 보이게 만드네요.22:31

아직 완벽하진 않아요. 이건 편집 모델이 아니에요. 그냥 이미지에서 이미지로 변환하는 기능일 뿐이죠.22:34

그런데 이미지에서 이미지로 변환하는 기능 외에 보여드리고 싶은 게 또 하나 있는데, 바로 인페인팅을 하는 방법이에요.22:39

정리하기 위해 일단 이걸 닫고 새로 시작해볼게요.22:43

자, 이게 원래 워크플로우입니다. 이제 인페인팅을 하려면, 다시 말하지만, 이 노이즈로 된 잠재적 캔버스를 편집하고 싶은 기존 이미지로 바꿔야 합니다.22:47

자, 여기 아무 데나 두 번 클릭하고 로드 이미지 버튼을 클릭해 봅시다. 이번에는 이 이미지를 업로드하고, 다시 한번 VAE 인코더를 먼저 통과시켜야 합니다.22:57

자, 여기 아무 데나 두 번 클릭하고 VAE를 검색한 다음 VAE 인코드를 클릭하면 돼요. 그리고 이 작업에는 여기서 로드했던 VAE가 필요해요. 자, 여기 연결해 볼게요.23:08

그리고 이미지 연결을 여기로 해주세요. 이제 로드 이미지 노드에서 마우스 오른쪽 버튼을 클릭하고 '오픈 앤 마스크 에디터'를 선택하면 이미지가 여기 뜰 거예요. 그리고 여기서는 지우거나 편집하고 싶은 부분을 브러시로 칠할 수 있습니다.23:18

여기서 브러시 두께, 강도, 불투명도 같은 다양한 설정을 조절할 수 있어요. 자, 이제 이 노트를 이렇게 덧칠해 볼까요.23:32

모서리 부분을 좀 더 부드럽게 하는 것도 중요해요. 자, 그렇게 해보겠습니다. 다시 한번 말씀드리지만, 수정하고 싶은 부분이에요.23:42

자, 저장 버튼을 클릭해볼게요. 그리고 다음에는 여기 아무 데나 두 번 클릭해야 합니다. 그리고 'set latent'를 검색해 보면, 이런 옵션인 set latent noise mask를 볼 수 있습니다.23:51

자, 여기를 클릭해 봅시다. 그리고 방금 우리가 그린 마스크를 이 노드에 연결하는 곳이 여기입니다.24:02

그리고 나서 VAE 인코더에서 나온 latent 표현을 여기로 연결해주면 돼요. 그리고 마지막으로, 이 latent 출력을 얻게 되는데, 이걸 이 K에 연결할 수 있습니다.24:08

샘플러를 이렇게 하면, 이 연결이 자동으로 끊어집니다. 컨트롤 B를 눌러 비활성화할 수 있습니다. 그리고 이 위에 있는 프롬프트에서는, 우리가 원하는 것을 설명해야 합니다.24:18

여기에 입력해야 합니다. 예를 들어, 테이블에 누워있는 고양이입니다.24:29

그리고 거의 다 됐어요. 이미지를 생성하기 위해 '실행'을 누르겠습니다.24:33

참고할 점은 여기서 디노이즈 설정을 조정할 수도 있다는 거예요. 지금은 100%로 설정되어 있습니다.24:38

제가 그린 영역을 완전히 덮어씌우게 돼요. 하지만 이미지의 일부를 남기고 싶다면 노이즈 값을 더 낮은 숫자로 줄일 수 있어요.24:43

자, 결과가 어떻게 나오는지 보여드릴게요. 비교를 위해서, Before랑 After를 나란히 붙여서 보여드리겠습니다.24:54

자, 이렇게 ZImageFull을 사용해서 이미지 붓칠을 할 수 있겠네요.24:59

다시 말씀드리지만, 이건 아주 기본적인 이미지 복구 작업 흐름일 뿐이에요. 사실 이 방법은 추천하지 않아요. Flux2Kline이나 QuenImageEdit처럼 자연어 기반으로 이미지를 편집할 수 있는 전문적인 이미지 편집기를 사용하는 게 훨씬 낫다고 생각해요.25:03

만약 인페인팅에 관심이 있으시다면, 지금 바로 어떻게 하는지 알려드릴게요. 마지막으로 언급하고 싶은 건, 라우라의 모델들은 기본적으로 미세 조정된 것들이라는 점입니다.25:16

특정 캐릭터, 예술 스타일, 위치, 효과 등 워크플로우에 추가할 수 있는 다양한 모델들이 있는데, 현재는 'Z 이미지 터보 로라' 같은 것들이 정말 많습니다.25:25

제이 이미지 베이스를 위해 공식적인 워크플로우에서는 작동하지 않으니, 시간을 낭비하며 로라를 추가하려고 하지 마세요. 제이 이미지 베이스 모델을 사용하면 제대로 작동하지 않습니다. 하지만, 제이 이미지 베이스 모델이 출시되면 어떻게 로라를 추가하는지 알려드릴게요.25:37

제이 이미지 베이스 모델이 출시되면 어떻게 로라를 추가하는지 알려드릴게요.25:48

기본적으로 디퓨전 모델 바로 다음에 로라를 추가해 주시면 됩니다. 자, 여기 아무 데나 두 번 클릭해서 'LoRa Loader Model Only'라고 입력해 주세요.25:52

그리고 여기에서 방금 다운로드한 로라(LoRa)를 선택할 수 있습니다. 그리고 기본적으로 디퓨전 모델을 여기 연결하고, 이 출력을 여기로 연결하는 방식이죠. Z 이미지 베이스 로라를 찾아보면 아직은 없는 것 같네요.26:00

그래서 그 기능에 대한 시연은 못 할 것 같아요. 하지만 제품이 출시되면, LoRa를 워크플로우에 연결하는 방법을 알려드릴게요.26:12

그리고 제가 깜빡하고 말씀드리지 못한 추가적인 내용이 하나 더 있습니다. 바로 이 강도 말이죠. LoRa가 최종 이미지에 얼마나 영향을 줄지 결정하는 정도입니다. 현재는 100%로 설정되어 있는데, 영향력을 낮추고 싶다면 0.8과 같이 더 낮은 값으로 설정할 수 있습니다.26:18

자, 이 새로운 Z 이미지 풀의 가장 중요한 강점 중 하나는 LoRA를 만들고 미세 조정하는 데 정말 좋다는 것입니다. 그럼, 이 모델을 이용해서 LoRA를 만드는 방법도 함께 알아보겠습니다.26:30

다행히 LORA를 제작하는 주요 플랫폼 중 하나가 오스트루스의 AI Toolkit인데, 이미 이 새로운 Z-Image Full 모델을 기반으로 LORA를 만들 수 있는 기능을 추가해 놓았더라고요.26:42

설명란 아래에 이 깃허브 페이지 링크를 걸어놨어요. 여기에는 LoRA 학습을 위한 데이터셋을 다운로드하고 설정하는 방법에 대한 모든 지침이 담겨 있습니다. 단계가 정말 많아서 이 튜토리얼 범위 밖이지만, 링크는 제공해 드릴게요.26:55

설명란 아래에 링크해 드릴게요. 간단하게 맥락을 드리자면, 일반적으로 LoRA를 이렇게 훈련하는 방법은 다음과 같습니다.27:07

특정 인물이나 그림 스타일, 효과 등 특정 사진을 엄청나게 많이 모아야 하고, 각 사진에 레이블을 붙여야 합니다.27:13

그리고 AI 툴킷 같은 LoRa 트레이너에 넣어서 LoRa를 만들게 됩니다.27:20

이건 시간과 노력이 많이 들고 컴퓨팅 자원도 많이 필요합니다.27:26

제가 생각하기에 훨씬 더 중요한 건 DiffSense Studio에서 Laura라는 Z Image Image to Image 모델을 새로 선보였다는 점이에요.27:29

일반적인 워크플로우처럼 사진을 잔뜩 다운로드하고, 수동으로 라벨링하고, 그걸로 학습시키는 방식 대신, 여기서는 몇 장의 사진만, 정말 두세 장 정도만 넣어도 바로 연결해서 사용할 수 있어요.27:36

특정 미술 스타일이나 개인, 또는 원하는 무엇이든 변환하여 몇 분 안에 새로운 라우라를 만들 수 있습니다. 예를 들어, 이 이미지들을 학습 데이터로 사용하여 라우라를 만든 후, 고양이를 생성하면 이렇게 되고, 개를 생성하면 이렇게 되며, 소녀를 생성하면 이렇게 됩니다.27:49

음, 그림 스타일이 참고 이미지와 완전히 똑같지는 않지만, 플랫 벡터 일러스트레이션과 비슷한 느낌이에요.28:04

다른 예시들도 한번 보시죠. 라우라 학습을 위해 이 네 장의 사진을 입력한다면, 그 다음에 고양이, 강아지, 소녀를 생성하면 이런 느낌이 듭니다. 모든 결과물은 특징적인 파란 하늘, 흰 구름, 꽃이 담겨 있어요.28:10

혹시 참고하실 다른 예시도 있습니다. 멋진 점은 이미 출시되었다는 거예요.28:24

아직은 사용하기 편하고 직관적인 UI 워크플로우 같은 건 없어요. 원코드를 직접 다뤄야 할 수도 있는데, 아래 설명에 이 페이지 링크를 넣어두었으니, 그걸 참고해서 컴퓨터에 설치하는 방법을 확인하시면 됩니다.28:29

이 방법(이미지 I를 L로 변환하는 방식)의 품질은 많은 이미지를 찾아 직접 라벨링하고, AI 툴킷과 같은 프로그램을 통해 LoRa를 생성하는 것만큼 좋지 않습니다.28:40

이 AI 툴킷 방식은 더 높은 품질의 로라(LoRA)를 만들어내지만, 이 ZImageITL은 단지 몇 장의 이미지로 며칠 만에 로라를 생성하는 빠르고 간단한 방법일 뿐입니다.28:53

아무튼, 이 두 가지 방법 모두 설명을 아래쪽에 링크해 드릴 테니 참고하시기 바랍니다. 그리고 이것으로 퀸 이미지 베이스에 대한 제 리뷰와 튜토리얼은 끝입니다.29:04

이거에 대해 어떻게 생각하는지 댓글로 알려주시고, 설치 중에 오류가 발생하면 댓글에 정확한 오류 메시지를 붙여넣어 주시면 최대한 문제 해결을 도와드리겠습니다.29:12

항상 최신 AI 뉴스 및 도구를 공유해 드리기 위해 주시하고 있겠습니다.29:22

영상 재밌게 보셨다면 좋아요, 공유, 구독 잊지 마시고 앞으로 더 많은 콘텐츠 기대해주세요. 그리고 AI 분야에서는 매주 정말 많은 일들이 일어나서 제가 유튜브 채널에서 모든 것을 다룰 수는 없어요.29:28

그래서 AI 관련 최신 정보를 계속 확인하려면, 제 무료 주간 뉴스레터 구독하는 거 잊지 마세요. 링크는 아래 설명란에 있어요.29:40

시청해주셔서 감사합니다. 다음 영상에서 또 만나요.29:50

AI Summary

이 텍스트들은 ComfyUI를 사용한 이미지 생성 및 편집 워크플로우와 Z Image Full 모델 및 LoRA 활용법에 대한 정보를 제공합니다. ComfyUI는 텍스트-이미지 생성, 이미지-이미지 변환, 이미지 붓칠 등 다양한 작업을 가능하게 하며, GGUF 모델을 통해 VRAM 부족 문제를 해결할 수 있습니다. Z Image Full 모델은 LoRA 생성 및 미세 조정에 용이하며, DiffSense Studio의 Laura 모델은 빠른 LoRA 생성을 지원합니다. LoRA의 영향은 강도 값으로 조절하며, 오스트루스의 AI Toolkit을 활용하여 고품질 LoRA를 생성할 수도 있습니다.

Key Highlights

•ComfyUI를 활용한 텍스트-이미지 생성, 이미지-이미지 변환, 이미지 붓칠 워크플로우 설명
•GGUF 모델을 사용하여 VRAM 제한 극복 방법 제시
•Z Image Full 모델은 LoRA 생성 및 미세 조정에 용이하며 다양한 LoRA 모델 활용 가능
•DiffSense Studio의 Laura 모델로 몇 장의 이미지로도 빠르게 LoRA 생성
•LoRA 강도 조절 및 오스트루스의 AI Toolkit을 이용한 고품질 LoRA 생성 방법 소개

읽기 설정

AI Summary

Key Highlights

Related Videos

또 하나의 놀라운 AI 모델 사용 튜토리얼 | ComfyUI 완벽 가이드 Part.48

드디어 ComfyUI가 웹으로! 똥컴 노트북도 AI 영상 뚝딱, 초보자를 위한 쉬운 가이드

How to use ComfyUI for beginners.