학술 연구를 위한 오픈 데이터셋
Nexdata는 전 세계 비영리 기관(대학 및 학술 기관 포함)을 대상으로 "인공지능 데이터 지원 연구 프로그램" 을 출시했습니다. 이 프로그램은 컴퓨터 비전, 음성 인식 등 분야의 고품질 학습 데이터셋을 제공하여 AI 학술 연구를 지원합니다.
| 데이터셋 이름 | 데이터 타입 | 데이터 사이즈 | 콘텐츠 캡처 |
|---|---|---|---|
| 다양한 장면의 1,000장 이미지 캡션 데이터 | 이미지 | 1,000장 이미지 | 다양한 장면의 이미지 캡션 데이터셋. 장면 분포에는 자연 경관, 도시 거리, 전시회, 가정 환경 등이 포함됩니다. 각 이미지에는 3~5개의 문장으로 구성된 영어 설명이 포함되어 있습니다 |
| 자연 장면에서의 OCR 이미지 캡션 데이터 1,000장 | 이미지 | 1,000장 이미지 | 14개 언어로 구성된 OCR 캡션 데이터셋. 이미지의 주제는 버스 정류장, 포스터, 도로 표지판 등입니다. 각 이미지에는 3~5개의 문장으로 구성된 영어 설명이 포함되어 있습니다. |
| 인간 얼굴의 1,000장 이미지 캡션 데이터 | 이미지 | 1,000장 이미지 | 다양한 머리 자세, 표정 등의 사람 얼굴 이미지 캡션 데이터셋. 각 이미지에는 3~5개의 문장으로 구성된 영어 설명이 포함되어 있습니다. |
| 제스처의 이미지 캡션 데이터 1,000장 | 이미지 | 1,000장 이미지 | 다양한 각도 및 유형별 제스처 이미지 캡션 데이터셋 . 각 이미지에는 3~5개의 문장으로 구성된 영어 설명이 포함되어 있습니다. |
| 1,000장의 이미지 인체 얼굴 피부 결함 데이터 | 이미지 | 1,000장 이미지 | 여드름, 여드름 흉터, 다크 스팟, 주름 및 다크서클을 포함한 얼굴 피부 결함 데이터셋 |
| 인간의 움직임에 대한 1,000개의 비디오 캡션 데이터 | 비디오 | 1,000개 비디오 | CCTV 및 비CCTV 장면의 인간 모션 비디오 캡션 데이터셋. 인간의 모션에는 걷기, 음주, 하품, 피트니스 등이 포함됩니다. 각 비디오에는 영어 캡션이 포함되어 있습니다. |
| 1,000명 다인종 7개 표현 인식 데이터 | 이미지 | 1,000명 | 정상, 행복, 놀라움, 슬픔, 분노, 혐오, 두려움을 포함한 7가지 표정 데이터셋. |
| 1,000개의 비디오 다중 인종 마이크로 표현 얼굴 근육 코딩 시스템(FACS) 데이터 | 비디오 | 1,000개 비디오 | 57개의 얼굴 미세 표현 데이터셋, 내부 눈썹 라이저(AU1), 외부 눈썹 라이저(AU2), 상부 뚜껑 라이저(AU5) 등. |
| 50명 - DMS 데이터 | 비디오 | 50명 | 위험 행동, 피로 행동 및 시각적 움직임 행동에 대한 DMS 데이터셋. 데이터셋의 다양성에는 다양한 대상 연령대, 기간, 차량 유형 및 카메라 위치가 포함됩니다. |
| 50인 2D 얼굴 안티스푸핑 데이터 | 이미지 & 비디오 | 50명 | 2D face anti-spoofing dataset. Real face data includes facial action videos, facial images and lip language videos. Anti-spoofing data includes fake facial action videos, fake lip language videos and fake facial images. |
| 1,000장의 이미지 제스처 인식 데이터 | 이미지 | 1,000장 이미지 | 18개 제스처 카테고리의 제스처 인식 데이터셋. 제스처 카테고리에는 숫자 1, OK, LOVE 등이 포함됩니다. 데이터셋 라벨링을 위해 21개의 손 랜드마크와 여러 제스처 라벨이 채택되었습니다. |
| 3,000장의 이미지 자연 장면 OCR 데이터 | 이미지 | 3,000장 이미지 | 아시아 언어(일본어, 한국어 등)와 유럽 언어(프랑스어, 독일어 등)의 자연 장면 OCR 데이터셋. 라벨링을 위해 선 수준의 사각형 경계 상자 라벨링과 텍스트 전사가 채택되었습니다. |
| 500장 손글씨 OCR 이미지 데이터 | 이미지 | 500장 이미지 | 영어와 일본어 손글씨 OCR 데이터. 라벨링을 위해 텍스트에 대한 선 수준의 사각형 경계 상자 라벨링과 전사가 채택되었습니다. |
| 50명 3D 얼굴 안티스푸핑 데이터 | 이미지 | 50명 | 3D 얼굴 안티스푸핑 데이터셋. 실제 얼굴 데이터에는 얼굴 이미지가 포함됩니다. 안티스푸핑 데이터에는 가짜 얼굴 이미지가 포함됩니다. 각 이미지는 깊이 이미지, 깊이 값 파일 및 카메라 매개변수 파일에 해당합니다. |
| 1,000명 다인종 다포즈 얼굴 이미지 데이터셋 | 이미지 | 1,000명 | 다인종 얼굴 인식 데이터셋입니다. 각 피험자는 총 29장의 얼굴 이미지를 포함하며, 이에는 실내 다포즈 이미지 14장, 실외 다포즈 이미지 14장, 신분 확인용 이미지 1장이 포함됩니다. 라벨링에는 인종, 성별, 나이, 얼굴 자세 정보가 포함됩니다. |
| 데이터셋 이름 | 기록 장치 | 데이터 사이즈 | 사양 |
|---|---|---|---|
| 2시간 - 4개국 영어 음성 합성 코퍼스 | 마이크 | 2시간, 4명 | 인원: 미국, 영국, 호주, 뉴질랜드 출신 4명 형식: 48,000Hz, 24비트, 비압축 WAV, 모노 채널 녹음 환경: 전문 녹음 스튜디오 |
| 20시간 - 휴대폰을 통한 프랑스어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 포르투갈; 언어: 포르투갈어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상; |
| 20시간 - 휴대폰을 통한 독일어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 독일; 언어: 독일어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상; |
| 20시간 - 휴대폰을 통한 이탈리아어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 이탈리아; 언어: 이탈리아어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상 |
| 20시간 - 휴대폰을 통한 스페인어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 스페인; 언어: 스페인어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상 |
| 20시간 - 휴대폰을 통한 유럽 포르투갈어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 포르투갈; 언어: 포르투갈어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상; |
| 20시간 - 휴대폰을 통한 일본어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 일본; 언어: 일본어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상 |
| 20시간 - 휴대폰을 통한 한국어 읽기 및 대화 음성 데이터 | 휴대폰 | 20시간 | 형식: 16kHz, 16비트, 비압축 WAV, 모노 채널; 녹음 조건: 실내 저소음, 에코 없음; 콘텐츠 유형: 읽기, 대화; 녹음 장치: 안드로이드 스마트폰, 아이폰; 국가: 대한민국; 언어: 한국어; 라벨링 특징: 텍스트 전사 포함; 정확도: 단어 정확도율(WAR) 최소 97% 이상 |
| 10시간 - 전화를 통한 파슈토 대화 음성 데이터 | 전화 | 10시간 | 형식: 8kHz 8비트, a-law/u-law PCM, 모노 채널 콘텐츠 범주: 주어진 주제에 따른 대화 녹음 조건: 낮은 배경 소음(실내) 녹음 장치: 전화기 국가: 아프가니스탄(AFG) 언어(지역) 코드: ps-AF 언어: 파슈토어 화자: 총 224명, 남성 92%, 여성 8% 라벨링 특징: 전사 텍스트, 타임스탬프, 화자 ID, 성별 정확도: 단어 정확도율(WAR) 95% 이상 |
| 인터스피치_ 영어 억양 음성 인식 대회 데이터 | 휴대폰 | 200시간, 528명 | 오디오 형식: 16kHz, 16비트, 모노 WAV; 오디오 내용: 일상적인 의사소통 중심, 인간-컴퓨터 상호작용 등의 장면 포함; 녹음 환경: 비교적 조용한 실내, 모바일 폰으로 녹음; 길이: 각 억양당 약 20시간, 총 8개 억양 포함; 언어 종류: 러시아어, 한국어, 미국 영어, 포르투갈어, 일본어, 인도 영어, 영국 영어; 화자 수: 각 언어당 40명~110명 화자 참여 |

후원 데이터셋 선택

양식 제출

피드백 대기

데이터 셋 수신








56b73319-1f9c-4817-ae54-1a1c9842c3d1