en

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터

다국어 OCR 데이터셋
장면 텍스트 인식 데이터
문서 OCR 데이터셋
전자 화면 OCR 데이터
21개 언어 OCR 데이터셋
AI OCR 트레이닝 데이터
텍스트 인식 데이터셋

500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.

유료 데이터셋
이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.
사양사양
데이터 규모
500,000장, 언어별 분포 20,000~25,000장
언어 분포
독일어, 프랑스어, 포르투갈어, 이탈리아어, 스페인어, 인도네시아어, 러시아어, 일본어, 한국어, 베트남어, 폴란드어, 체코어, 터키어, 필리핀어, 네덜란드어, 힌디어, 말레이어, 카자흐어, 슬로바키아어, 루마니아어, 우즈베크어
수집 환경
문서 촬영(서적, 신문, 카드, 영수증 등), 자연 장면(포스터, 표지판, 식품 포장, 광고판 등), 전자 장면(모바일·PC 스크린샷, 전자 문서)
수집의 다양성
다양한 데이터 유형, 촬영 각도, 다국어 포함
수집 장비
모바일, PC
데이터 형식
이미지 .jpg 등 일반 포맷, 라벨링 .json
라벨링 내용
행(열) 단위 사각형·다각형 라벨링, 행(열) 단위 텍스트 전사
정확도
행 단위 박스 정확도 97% 이상, 박스 오차 ±5픽셀 이내, 전사 정확도 97% 이상
샘플 샘플
추천 데이터셋추천 데이터셋
특별한 요청 사항을 알려주세요

제출함으로써,개인정보 보호 정책에 동의합니다

01e12c82-9eae-47d8-91e4-5f4108939442

c2e5a54c-a8bc-4f57-b297-e849ffec0987