
영상처리 및 컴퓨터비전 박사 과정을 마치고 AI 기술 스타트업에서 이미지·영상 데이터를 다룬 멤버들이 AI 학습 데이터 시장을 타겟해 창업에 나섰다. 이미 다수의 데이터 수집·가공 플랫폼이 존재하는 상황에서 이들이 새롭게 주목한 것은 무엇일까. AI 기반의 데이터 생성·합성 솔루션 개발에 나선 젠젠AI를 소개한다.
◆ 리얼 데이터를 넘어 합성 데이터로
고성능 AI의 출발점은 고품질 학습 데이터이지만, 처음부터 수집 자체가 어려운 데이터도 많다. 존재 자체가 희소해서 수집하기 어려운 데이터도 있고, 동일한 풍경을 사계절로 담아내야 하는 것처럼 다양성 확보하는데 많은 시간과 비용이 필요한 데이터도 있다.
조호진 대표) 자율주행 차량이 갑자기 도로에 뛰어든 캥거루에 안전하게 대응하려면, 관련 이미지나 영상으로 충분한 학습을 선행해야 합니다. 하지만 도로에 캥거루가 뛰어드는 것 자체가 일상에서 쉽게 볼 수 있는 일은 아니죠. 때문에 충분한 이미지영상 데이터를 충분히 확보하긴 어렵습니다.
젠젠AI는 이처럼 수집하기 어려운 데이터에 주목해 AI 기반으로 학습 데이터를 자동으로 생성 및 합성하는 솔루션을 개발 중이다. 실제로 기업들의 합성 데이터 수요는 증가하고 있으며, 그동안 리얼 데이터 확보에 주력해온 많은 기업들이 AI 모델 성능을 한층 더 고도화하고자 합성 데이터로 범위를 넓혀가고 있다.
◆ 이미지 AI 기반의 데이터 합성·생성 솔루션

대부분의 합성 데이터가 3D 모델 기반이기 때문에 '리얼'보다는 'CG'의 느낌이 강한 반면, 젠젠AI는 이미지 생성·변환에 적합한 GAN(Generative Adversarial Networks) 기술을 활용함으로써 실제 사진을 찍은 것처럼 합성 데이터를 만들 수 있다.
특히 하나의 이미지에서 특정 객체를 추출해 새로운 이미지를 합성하거나, 카메라 속성값을 고려해 A 카메라로 촬영한 데이터를 B 카메라로 촬영한 것처럼 변환함으로써, 고품질 데이터셋을 다양하게 생성하는 것이 강점이다.
◆ Genuine Generative AI를 향해
2021년 11월 예비 창업 단계에서 네이버 D2SF와 첫 미팅 후 2022년 1월 법인을 설립해 시드 투자 유치, 팁스 선정까지 그야말로 젠젠AI는 숨 가쁘게 달려오고 있다. 지난해 하반기에는 핵심 기술 개발을 마무리해 자체 생성한 합성 데이터셋으로 벤치마크 테스트를 거쳐 2023년 본격적인 사업화에 나설 계획이다.
조호진 대표) 결국 합성 데이터도 AI 성능 향상을 위한 거잖아요. 합성 데이터를 만드는 데 그칠 게 아니라, 이 합성 데이터로 AI 모델을 돌렸을 때 기존의 리얼 데이터셋과 최소한 유사 수준의 성능이 나와야 의미 있다고 생각합니다. 그게 저희 목표이기도 하고요.
젠젠AI는 카메라, 비전 AI를 활용하는 모든 애플리케이션을 잠재적 고객사로 보고 있다. 자율주행, 드론, 교통관제 등의 산업에는 비교적 빠르게 진입할 수 있으리라 예상하고, 모빌리티 외 산업(메타버스 등)에서의 기회도 탐색하며 기업 파트너십을 만들고 있다.