KANANA Kinema
밋업의 첫 번째 글에서는 Kanana 템플릿을 직접 사용해본 경험을 정리했습니다. 사진을 고르고, 템플릿을 선택하고, 결과물이 만들어지는 흐름을 사용자 입장에서 살펴봤습니다.
이번 글에서는 그 결과물이 만들어지는 쪽에 조금 더 들어가 보려고 합니다. 두 번째 세션에서 다뤄진 주제는 Kanana-kinema 모델이었습니다.
Kanana-kinema는 Kanana Model Family 중 비디오 생성을 담당하는 모델입니다. 언어 모델, 멀티모달 언어 모델, 이미지 생성 모델, 음성 모델처럼 여러 모델이 각자의 역할을 맡고 있고, 그중 Kanana-kinema는 이미지를 바탕으로 영상을 만들어내는 쪽에 위치합니다.
비디오 생성 모델 이야기를 들으면서 2025학년도 수능 국어에 나왔던 디퓨전 관련 문제가 먼저 떠올랐습니다. 당시 지문에서는 디퓨전 모델을 원본 이미지에 노이즈를 점진적으로 더하고, 다시 그 노이즈를 제거하면서 이미지를 복원하는 방식으로 다뤘습니다.
완성된 이미지를 처음부터 바로 그리는 방식보다, 노이즈가 섞인 상태를 거쳐 점점 원하는 결과에 가까워지는 방식입니다. 이미지 생성에서는 이 설명이 비교적 잘 와닿습니다. 노이즈가 많은 이미지에서 조금씩 불필요한 요소를 걷어내며 원본에 가까운 이미지를 만들어간다고 이해할 수 있기 때문입니다.
그런데 비디오는 이미지보다 더 어렵습니다. 한 장의 이미지만 그럴듯하게 만들면 끝나는 것이 아니라, 여러 프레임이 시간적으로 자연스럽게 이어져야 합니다. 인물의 자세, 배경, 물체의 형태, 카메라 흐름도 프레임마다 갑자기 흔들리면 안 됩니다.
이미지 생성이 한 장의 결과물을 만드는 일이라면, 비디오 생성은 그 결과물이 시간 속에서 계속 이어지도록 만드는 일입니다. 그래서 비디오 생성은 계산량이 훨씬 커지고, GPU 리소스도 많이 필요합니다.
두 번째 세션에서는 Kanana-kinema가 이 문제를 어떻게 줄여가는지 다뤘습니다. 좋은 영상을 만들면서도, 품질이 크게 무너지지 않는 선에서 더 빠르게 생성하는 방법이 중심이었습니다.
노이즈에서 비디오까지
디퓨전 모델은 결과물을 한 번에 만들어내기보다, 여러 step을 거치며 점점 그럴듯한 형태로 바꿔가는 방식입니다.
세션에서는 이를 LLM과 비교해서 다뤘습니다. LLM은 문장을 만들 때 다음 단어를 하나씩 예측합니다. 예를 들어 “안녕” 다음에 “하세요”를 예측하고, “안녕하세요” 다음에 “, 오늘”을 예측하는 식입니다. 작은 단위의 작업을 여러 번 반복하면서 전체 문장을 완성합니다.
디퓨전 기반 생성 모델은 노이즈가 많은 상태에서 출발해 여러 step을 거치며 이미지나 영상을 만들어갑니다. 텍스트 생성이 단어를 하나씩 이어 붙이는 흐름이라면, 디퓨전은 흐릿하고 불확실한 상태를 조금씩 정리해가는 흐름입니다.
비디오 생성에서는 이 과정이 더 무거워집니다. 한 프레임만 자연스럽게 만들면 끝나는 것이 아니라, 앞뒤 프레임이 이어져야 하고 움직임도 자연스러워야 하기 때문입니다. 인물이나 물체의 형태가 프레임마다 달라지거나, 배경이 흔들리거나, 손가락이나 옷의 모양이 어색해지면 영상 전체가 부자연스럽게 보일 수 있습니다.
세션에서는 일반적인 비디오 생성 모델이 약 40 step 정도를 사용한다는 내용이 나왔습니다. 그리고 비디오 생성 모델의 1 step을 카나나-V essence로 책 10권을 쓰는 작업에 비유했습니다. 그렇다면 40 step은 책 400권 정도의 작업량이 되는 셈입니다.
짧은 5초 비디오 하나를 만드는 데도 많은 계산이 들어가기 때문에, 실제 서비스에서는 속도가 중요합니다. 결과가 아무리 좋아도 사용자가 너무 오래 기다려야 한다면 편하게 쓰기 어렵습니다.
Kanana-kinema는 이 지점에서 출발합니다. 비디오 생성에 필요한 step을 줄이고, 그 과정에서 생기는 품질 문제를 다시 보완하는 방식입니다.
Kanana-kinema가 선택한 방법
두 번째 세션에서는 Kanana-kinema가 속도를 높이기 위해 선택한 방법을 네 가지로 다뤘습니다.
첫 번째는 I2V task를 선택한 것입니다. 두 번째는 Distillation으로 step을 압축한 것입니다. 세 번째는 APT로 결과를 더 자연스럽게 만드는 것입니다. 네 번째는 RL로 남아 있는 결함을 보완하는 것입니다.
정리하면 먼저 더 안정적으로 만들 수 있는 문제를 선택하고, 생성 step을 줄인 뒤, 그 과정에서 생기는 품질 문제를 다시 보완하는 흐름입니다.
여기서 중요한 점은 속도만 올리는 데서 끝나지 않는다는 점입니다. 빠르게 만들기 위해 문제를 조금 더 다루기 쉬운 형태로 바꾸고, step을 줄이면서 생기는 결함은 다시 학습 과정에서 보완합니다.
1. T2V보다 I2V에 집중합니다
비디오 생성에는 크게 T2V와 I2V가 있습니다.
T2V는 text-to-video입니다. 텍스트만 입력해서 영상을 만드는 방식입니다. 예를 들어 “서핑 보드 타는 고양이”라는 문장만 주어지면, 모델은 어떤 고양이인지, 배경은 어디인지, 카메라 각도는 어떤지까지 모두 새로 결정해야 합니다.
이 방식은 자유도가 높지만 그만큼 어렵습니다. 빈 캔버스에서 처음부터 영상을 만들어야 하기 때문에 결과가 매번 달라질 수 있고, 안정적인 결과를 만들기 위해 더 많은 step이 필요합니다.
I2V는 image-to-video입니다. 입력 이미지를 첫 프레임으로 사용하고, 그 이미지를 기준으로 움직임을 만들어냅니다. 이미지 안에는 이미 인물이나 사물의 모습, 배경, 구도, 색감 같은 정보가 들어 있습니다.
그래서 I2V는 모델이 처음부터 모든 것을 새로 만들 필요가 적습니다. 어떤 대상인지, 배경이 어떤지, 카메라가 어떤 각도인지에 대한 단서가 이미 주어져 있기 때문입니다.
세션에서는 이를 그림 그리기와 색칠놀이에 비유했습니다. T2V가 빈 캔버스에 처음부터 그림을 그리는 방식이라면, I2V는 어느 정도 기준이 있는 상태에서 움직임을 만들어내는 방식입니다.
Kanana-kinema가 I2V에 집중하는 이유도 여기에 있습니다. 입력 이미지가 강한 가이드 역할을 해주기 때문에, 더 적은 step으로도 비교적 안정적인 결과를 만들 수 있습니다.
2. Distillation으로 step을 압축합니다
비디오 생성 속도를 높이려면 step 수를 줄이는 것이 중요합니다. 하지만 step을 단순히 줄이기만 하면 품질이 쉽게 떨어질 수 있습니다. 움직임이 어색해지거나, 디테일이 뭉개지거나, 장면의 일관성이 약해질 수 있습니다.
이 문제를 줄이기 위해 Kanana-kinema는 Distillation을 사용합니다.
Distillation은 많은 step을 사용하는 모델의 결과를, 더 적은 step을 사용하는 모델이 따라 하도록 학습시키는 방식입니다. 세션에서는 이를 거장의 화풍을 견습생이 배우는 과정에 비유했습니다.
일반적인 비디오 생성 모델이 40 step으로 영상을 만든다면, Kanana-kinema는 이를 2 step 수준으로 줄이는 방향을 사용한다는 내용이었습니다. 약 20배 정도 step을 압축하는 셈입니다.
40번 붓질해서 그리는 그림을 2번의 붓질로 최대한 비슷하게 따라가도록 학습시키는 방식입니다. 이를 통해 생성 속도를 크게 줄일 수 있습니다.
물론 step을 많이 줄이면 결함이 남을 수 있습니다. 큰 흐름은 따라가더라도 세부적인 디테일이 흐려지거나 움직임이 어색해질 수 있습니다. 그래서 Distillation 이후에도 추가적인 보완 과정이 필요합니다.
3. APT로 결과를 더 자연스럽게 만듭니다
Distillation으로 step을 줄인 뒤에는 품질을 다시 보완하는 과정이 필요합니다. 이때 사용되는 방법이 APT입니다.
APT는 Adversarial Post Training의 약자입니다. 세션에서는 이를 AI 감별단이 생성된 영상을 평가하는 방식으로 다뤘습니다.
모델이 영상을 만들면, 감별자는 이 영상이 실제 영상처럼 보이는지 판단합니다. 모델은 감별자가 쉽게 구분하지 못할 만큼 더 자연스러운 영상을 만들도록 학습됩니다.
이 과정은 줄어든 step 때문에 생길 수 있는 어색함을 줄이는 역할을 합니다. 빠르게 만들면서도 결과물이 너무 인공적으로 보이지 않도록 다듬는 과정입니다.
Distillation이 step을 줄이는 과정이라면, APT는 줄어든 step 안에서도 결과가 더 자연스럽게 보이도록 만드는 과정입니다.
4. RL로 남아 있는 결함을 보완합니다
APT를 거쳐도 모든 문제가 사라지는 것은 아닙니다. 특히 비디오 생성에서는 작은 결함들이 남을 수 있습니다.
예를 들어 손가락 개수가 어색하게 보이거나, 신체 일부가 이상하게 움직이거나, 옷매무새가 자연스럽지 않을 수 있습니다. 전체적으로는 그럴듯해 보여도 자세히 보면 어색한 부분이 남는 경우입니다.
세션에서는 이런 문제를 RL로 보완하는 방식을 다뤘습니다.
여기서는 모델에게 단순히 “더 진짜처럼 만들어라”라고 하는 것이 아니라, 어떤 부분이 문제인지 더 직접적인 신호를 줍니다.
예를 들어 Video RM Labeler가 영상에서 신체 왜곡이나 부자연스러운 움직임을 표시하면, 모델은 어떤 결과가 더 좋은지 학습할 수 있습니다. 사람이 선호하는 영상, 결함이 적은 영상이 무엇인지 알려주는 방식입니다.
이 과정을 통해 step을 줄이면서 남게 되는 결함을 줄이고, 전체적인 품질을 유지하려는 구조입니다.
앞으로의 개발 방향
세션 마지막에는 Kanana-kinema가 앞으로 개선하려는 방향도 소개됐습니다.
먼저 Dynamic & diverse입니다. 생성 영상이 다소 느리게 보이는 경향이 있어, 더 역동적이고 다양한 움직임을 만드는 방향으로 개선하고 있다는 내용이었습니다. 움직임이 많아질수록 신체 오류나 형태 왜곡이 생기기 쉬우므로, 자연스러움을 함께 유지하는 것이 중요합니다.
다음은 Audio-driven입니다. 음성을 새로 생성하는 것보다는, 입력된 음성에 맞춰 입 모양과 제스처가 자연스럽게 움직이도록 만드는 방향이었습니다. 사람이나 캐릭터가 말하는 영상에서는 입 모양과 제스처가 어색하지 않은 것이 중요합니다.
또 다른 방향은 Subject-driven입니다. 입력된 인물이나 사물, 의상, 소지품 등을 영상 안에 자연스럽게 포함하는 방식입니다. 단순히 움직임만 만드는 것이 아니라, 사용자가 입력한 대상의 특징이 영상 속에서 유지되도록 하는 방향입니다.
마지막으로 고해상도와 더 긴 영상입니다. 1080p 수준의 고해상도 영상과 8~10초 정도의 더 긴 영상을 목표로 개선 중이라는 내용이었습니다. 영상이 길어지고 해상도가 높아질수록 계산량은 늘어나지만, 실제 서비스에서 활용하려면 필요한 방향으로 보였습니다.
맺음말
두 번째 세션에서는 Kanana-kinema가 비디오 생성에서 속도와 품질을 어떻게 함께 다루는지에 대한 이야기가 이어졌습니다.
비디오 생성은 많은 GPU 리소스가 필요한 작업입니다. 그래서 좋은 결과를 만드는 것만큼, 결과를 얼마나 빠르게 만들 수 있는지도 중요합니다. Kanana-kinema는 이 문제를 해결하기 위해 I2V에 집중하고, Distillation으로 step을 줄이며, APT와 RL로 남는 품질 문제를 보완하는 방식을 사용하고 있었습니다.
정리하면 Kanana-kinema는 입력 이미지를 기준으로 영상을 만들고, 생성 step을 줄여 속도를 높인 뒤, 그 과정에서 생기는 결함을 다시 보완하는 모델입니다.
첫 번째 글에서 Kanana 템플릿을 사용자가 어떻게 경험하는지 다뤘다면, 이번 글에서는 그 결과물이 만들어지는 모델 측면을 정리했습니다. Kanana-kinema는 사진이 영상으로 바뀌는 과정 뒤에 있는 모델이고, 실제 서비스에서 더 많은 사용자가 빠르게 결과를 받아볼 수 있도록 속도와 품질 사이의 균형을 맞추는 방향으로 개발되고 있었습니다.


