출처:넥스데아타 날짜: 06/18/2026

Physical AI 모델은 실제 환경에서 정보를 받아들이고, 움직이며, 작업을 수행하는 방식을 이해하기 위해 대량의 데이터가 필요합니다. 그러나 모든 데이터를 처음부터 직접 수집하려고 하면 프로젝트 개발에 추가 리소스가 필요하여 모델 학습 및 검증 프로세스가 느려질 수 있습니다.
실제 애플리케이션 시나리오에서 데이터 수집은 단순치 독작을 기록하는 작업과는 다릅니다. 공간 배치, 객체 배치, 조명 조건, 작업 흐름 등 다양한 요소가 모델의 장면 인지 및 지속적인 작업 실행을 이해하는 방식에 영향을 미칠 수 있습니다.
최근 넥스데이타는 한 고객사를 위한 Ego-Centric 데이터 구축 프로젝트를 성공적으로 완료했습니다. 프로젝트 초기에는 고객이 모델 학습 및 검증을 위해 바로 활용 가능한 오프더쉘프(off-the shelf) 형태의 Ego-Centric 데이터를 필요로 했습니다. 이후 고객사는 자체 애플이케이션 요구 사항에 따라 넥스데이타에 추가 맞춤형 데이터 수집을 요청했으며, 실내 가정 환경을 주요 우선순위 중 하나로 설정했습니다.
Physical AI 모델 개발의 초기 단계 가속화
이 프로젝트를 통해 고객사는 즉시 사용 가능한 기성 데이터와 맞춤형 시나리오 데이터를 모두 확보할 수 있었으며, 이를 통해 모델 개발 속도를 높임과 동시에 실제 서비스 시나리오에서 발생할 수 있는 데이터 부족 문제를 효과적으로 해결할 수 있었습니다.
넥스데이타는 기성품인 Ego-Centric 데이터와 맞춤형 실제 장면 컬렉션을 결합하여 고객사가 Physical AI 모델 개발을 위한 실용적인 데이터 경로를 구축하는 데 도움을 주었습니다.
이 프로젝트의 핵심 목표는 고객이 Physical AI 모델 개발을 가속화할 수 있도록 돕는 것이었습니다.
초기 개발 단계에서는 모델 학습뿐 아니라 작업 이해, 기능 점검, 데이터 구조 검토을 위해 대량의 데이터가 필요합니다. 모든 데이터를 처음부터 수집하려 할 경우, 현장 세트, 작업 계획, 수집 인력 교육, 데이터 수집 실행, 품질 관리 및 최종 납품까지 많는 시간이 소요됩니다.
이러한 문제를 고려하여 고객사는 모델 학습, 작업 흐름 검증 및 초기 단계 작업 계획을 위해 넥스데이타의 보유한 오프더쉘프 데이터 중 일부인 [100,000시간 다중 시나리오 Ego-Centric 데이터셋]을 처음 구매했습니다.
오프더쉘프 데이터를 사용하면 고객이 모델 개발에서 1인칭 시점 데이터의 가치를 신속하게 검증할 수 있다는 장점이 있습니다. 또한 모델 개발의 다양한 단계에서 어떤 유형의 시나리오, 행동, 작업 및 데이터 구조가 필요한지 파악하는 데 도움이 됩니다.
즉, 오프더쉘프 데이터는 Physical AI 모델의 학습과 검증을 빠르게 시작할 수 있는 역할을 합니다.
기본적인 워크플로우가 검증된 이후에는, 고객사는 실제 환경을 반영한 데이터를 추가로 보완하는 단계로 넘어갔습니다.
오프더쉘프 데이터에서 실제 환경 데이터로의 확장
오프더쉘프 데이터의 사용 덕분에 고객사는 맞춘형 데이터 요구 사항을 명확하게 정의할 수 있었습니다.
Physical AI 모델 개발이 시작됨에 따라, 데이터는 단순히 양 증가하는 것뿐만 아니라 실제 적용 시나리오에 더욱 맞춘 데이터가 필요해집니다.
넥스데이타는 고객사의 요구 사항을 기반으로 사무실 및 가정 환경을 포함한 다양한 시나리오에서 맞춤형 데이터 수집을 수행했습니다. 그 중 실내 가정 환경은 이 프로젝트의 핵심 초점 중 하나였습니다.
가정 환경은 흔해 보이지만, 표준화되지 못하는 경우가 많습니다. 공간 구조, 가구 배치, 물건 위치, 조명 조건 및 동선 등이 모두 작업 수행 방식에 영향을 미칩니다. 책상 정리와 같은 작업이라도 환경에 따라 작업 동선, 객체와의 상호작용 방식, 시점 변화 등이 상당히 달라질 수 있습니다.
이 때문에 고객사는 특정 환경에서의 작업 흐름, 조작 방식, 장면 변화를 모델이 학습할 수 있도록 실제 현장에서 수집된 데이터를 추가로 필요로 했습니다.
실제 주거 공간에서의 Ego-Centric 데이터 수집
프로젝트의 요구를 충족시키기 위해 넥스데이타는 여러 실제 주거 공간을 기반으로 맞춤형 Ego-Centric 데이터 수집을 진행했습니다.
데이터 수집은 거실, 주방, 침실, 서재, 욕실, 베란다 등 생활 공간이 포함되었습니다. 각 공간에는 서로 다른 객체 구성, 작업 흐름, 행동 패턴이 포함되어있어 데이터셋이 다양한 일상 가정 시나리오를 다룰 수 있었습니다.
데이터 수집 과정에서 참가자들은 Pico 디바이스를 착용하고 미리 정의된 작업 순서에 따라 작업을 완료했습니다. 넥스데이타는 1인칭 시점에서 시선 이동, 손 동작, 객체와의 상호작용, 환경 변화 등을 세밀하게 기록했습니다.
수집된 작업에는 물건 집어 옮기기, 책상 정리, 주방 작업, 식기 정리, 옷 정리, 방 청소 등 다양한 일상생활 기반 작업이 포함되었습니다.
이 프로젝트는 다중 환경, 작업으로 구성된 데이터 수집을 통해 고객사에게 실제 애플리케이션 시나리오에 더 가까운 맞춤형 Ego-Centric 데이터를 제공했습니다.
대규모 Ego-Centric 데이터 생산 및 납품
대규모 Ego-Centric 데이터 프로젝트의 경우 실제 시나리오는 기반에 불과하며, 안정적인 생산과 납품 역량이 성공의 핵심 요소입니다.
이번 프로젝트에서 넥스데이타는 주당 약 5,000시간 규모의 유효 데이터를 생산 능력을 달성했습니다. 안정적인 대규모 수집을 지원하기 위해 넥스데이타는 현장 구성, 작업 설계, 데이터 수집 인력 교육, 장비 관리, 수집 실행, 품질 검사, 최종 납품을 포괄하는 완전한 워크플로우를 구축했습니다. 데이터 일관성과 사용성을 보장하기 위해 다양한 공간, 수집기 및 작업 유형을 통합 운영 표준과 품질 관리 요구 사항에 따라 관리했습니다.
주당 5,000시간 규모의 안정적인 데이터 공급은 단순한 수집 규모 이상으로, 프로젝트 운영 능력과 품질 관리 시스템이 동시에 보여줍니다.
고객 입장에서는 모델 학습이 소규모 데이터 검증 단계에 머물지 않고, 지속적으로 대규모 Ego-Centric 데이터를 기반으로 발전하고 개선될 수 있다는 점이 큰 장점으로 작용합니다.
Physical AI 모델을 위한 실용적 데이터 파이프라인
이 프로젝트의 가치는 단순히 납품을 성공적으로 마친 데 아니라, Physical AI 모델 개발을 위한 실용적인 데이터 개발 경로의 검증에도 있습니다.
오프더쉘프 Ego-Centric 데이터로 시작하여 모델 학습 및 검증을 가속화한 다음, 맞춤형 실제 장면 수집을 사용하여 특정 애플리케이션 시나리오에서 주요 데이터 격차를 메웁니다.
이 경로에서 오프더쉘프 Ego-Centric 데이터는 고객사가 모델 학습과 작업 검증을 보다 빠르게 시작하는 데 기여했습니다. 이후 맞춤형 데이터 수집을 통해 가정 환경을 비롯한 다양한 응용 시나리오에 적합한 데이터를 추가로 확보할 수 있었습니다.
또한 주당 약 5,000시간 규모의 유효 데이터를 안정적으로 생산할 수 있다는 점은 이러한 접근 방식이 단순한 소규모 검증에 그치지 않음을 보여줍니다. 지속적인 모델 학습과 최적화, 반복 개발을 지원할 수 있는 확장 가능한 기반을 제공합니다.
이러한 데이터 구축 체계가 가능했던 배경에는 넥스데이타의 오랜 Physical AI 데이터 수집 경험이 있습니다. 텔레오퍼레이션 데이터와 UMI 데이터, 그리고 Ego-Centric 데이터에 이르기까지 넥스데이타는 다양한 유형의 데이터 수집 역량과 실제 환경 구축, 대규모 생산 및 품질 관리 시스템을 지속적으로 발전시켜 왔습니다.
실제 환경 기반의 Ego-Centric 데이터 확보 또는 맞춤형 데이터 수집이 필요한 경우, 넥스데이타는 오프더쉘프 데이터 자산과 실제 환경 수집 역량, 대규모 데이터 공급 체계를 바탕으로 모델 학습, 검증 및 지속적인 고도화를 지원할 수 있습니다.