새소식

반응형
생성AI/이미지 생성 AI 정보

(Stable Diffusion 모델 향상 방법) 프롬프트 잘 알아먹게! 달리급으로 잘 알아먹는 똑똑한 모델을 위하여!

  • -
반응형

여러분들 Stable Diffusion WebUI로 직접 이미지 생성해보고 혹시 달리도 써보셨나요? 둘의 큰 차이점도 느껴보셨나요? 

 

제가 느낀 가장 큰 차이점은 모델의 프롬프트 이해도 입니다.

 

달리는 한글로 원하는 이미지 묘사를 했을때 묘사하는만큼 꽤 이미지가 잘 나왔어요. 하지만 그에비해 Stable Diffusion WebUI로 작업할때는 아무리 세밀하게 프롬프트를 입력하더라도 원하는 결과가 안나올때가 많더라구요.

 

그래도 저는 WebUI가 무료이기도하고 제가 원하는 모델과 로라를 조합해서 생성이 가능하니 WebUI를 주로 사용하긴 합니다.

 

그러다 Stable Diffusion의 발전 가능성에 대해서 정보를 얻었는데요. 함께 공유하고자 합니다.

 

구글 리서치에서 23년 10월 25일에낸 최신 논문 입니다.

https://arxiv.org/pdf/2310.16656.pdf

 

위의 논문을 다운 받아 아래의 글을 참고해서 논문을 쉽게 파악해 보세요!

2023.10.30 - [인공지능 활용] - 어려운 논문 한번에 파악 하는법 (feat.ChatGPT4)

 

어려운 논문 한번에 파악 하는법 (feat.ChatGPT4)

안녕하세요. 여러분들이 논문을 봤을때 보통 드는 느낌과 생각이 무었인가요? 저는 보통 영어로 되어 있어서 이거 언제 번역해서 읽지?' '이거 대충 어떤 논문이지?' 라는 생각부터 들어요. gpt4 pl

lookchemy.tistory.com

반응형

우선 먼저 결론적으로 요약해서 말씀 드리자면 기존의 모델에서 프롬프트가 잘 안먹혔던 이유는 학습할때 사용된 데이터의 캡션이 좋지 않았다. 이번 연구에서 데이터를 다시 리캡셔닝해서 학습 시켰더니 더 좋은 성능을 내었다는 내용입니다.

(왼쪽: 기본 모델 - SD1.4 / 오른쪽: 추가 학습시킨 모델)

 

 

 

기존 모델과 RECAP 모델의 결과를 봤을때 확실히 차이가 느껴지시나요?

 

이미지 데이터에 캡션을 잘다는 AI로 돌려서 양질의 캡션을 달아주고 양질의 캡션이 달린 이미지로 학습했더니 모델이 말을 잘 듣더라는 것입니다.

 

정말 흥미롭지 않나요?

 

아래는 RECAP 모델과 Midjourney와의 비교샷입니다.

(왼쪽: 추가 학습시킨 RECAP 모델 / 오른쪽: Midjourney)

 

앞으로 이런 연구를 통해 Stable Diffusion WebUI에서도 달리처럼 프롬프트를 더 이해 잘하는 모델로 작업이 가능해질것 같은 느낌이 듭니다.😊

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.