여러분들 Stable Diffusion WebUI로 직접 이미지 생성해보고 혹시 달리도 써보셨나요? 둘의 큰 차이점도 느껴보셨나요?
제가 느낀 가장 큰 차이점은 모델의 프롬프트 이해도 입니다.
달리는 한글로 원하는 이미지 묘사를 했을때 묘사하는만큼 꽤 이미지가 잘 나왔어요. 하지만 그에비해 Stable Diffusion WebUI로 작업할때는 아무리 세밀하게 프롬프트를 입력하더라도 원하는 결과가 안나올때가 많더라구요.
그래도 저는 WebUI가 무료이기도하고 제가 원하는 모델과 로라를 조합해서 생성이 가능하니 WebUI를 주로 사용하긴 합니다.
그러다 Stable Diffusion의 발전 가능성에 대해서 정보를 얻었는데요. 함께 공유하고자 합니다.
구글 리서치에서 23년 10월 25일에낸 최신 논문 입니다.
https://arxiv.org/pdf/2310.16656.pdf
위의 논문을 다운 받아 아래의 글을 참고해서 논문을 쉽게 파악해 보세요!
2023.10.30 - [인공지능 활용] - 어려운 논문 한번에 파악 하는법 (feat.ChatGPT4)
우선 먼저 결론적으로 요약해서 말씀 드리자면 기존의 모델에서 프롬프트가 잘 안먹혔던 이유는 학습할때 사용된 데이터의 캡션이 좋지 않았다. 이번 연구에서 데이터를 다시 리캡셔닝해서 학습 시켰더니 더 좋은 성능을 내었다는 내용입니다.
기존 모델과 RECAP 모델의 결과를 봤을때 확실히 차이가 느껴지시나요?
이미지 데이터에 캡션을 잘다는 AI로 돌려서 양질의 캡션을 달아주고 양질의 캡션이 달린 이미지로 학습했더니 모델이 말을 잘 듣더라는 것입니다.
정말 흥미롭지 않나요?
아래는 RECAP 모델과 Midjourney와의 비교샷입니다.
앞으로 이런 연구를 통해 Stable Diffusion WebUI에서도 달리처럼 프롬프트를 더 이해 잘하는 모델로 작업이 가능해질것 같은 느낌이 듭니다.😊