ko

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

OCR 데이터셋

고품질 표준 데이터셋으로 AI 모델 성능을 즉시 향상시키세요.

데이터 타입

전체
29
문서
3
일반 시나리오
13
손글씨
15
인터넷 이미지
3
송장
3
기타
5
시험지
1
1

언어

전체
29
중국어
7
영어
4
힌디어
4
일본어
7
한국어
7
기타
20
베트남어
4

50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터

500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.
다국어 OCR 데이터셋 장면 텍스트 인식 데이터 문서 OCR 데이터셋 전자 화면 OCR 데이터 21개 언어 OCR 데이터셋 AI OCR 트레이닝 데이터 텍스트 인식 데이터셋

50만 장 다국가 자연 환경 및 문서 OCR 데이터

500,000장의 다국적 자연 장면 및 문서 OCR 데이터는 번체 중국어, 일본어, 한국어, 인도네시아어, 말레이어, 태국어, 베트남어, 폴란드어 등 총 20개 언어를 포함합니다. 다양한 자연 장면과 촬영 각도를 반영한 수집 방식으로, 다국어 OCR 과제에 활용될 수 있는 데이터입니다.
자연 환경 문서 OCR

3만 장 동남아 소수언어 자연 환경 OCR 데이터

30,000장의 동남아 소수 언어 자연 장면 OCR 데이터는 크메르어(캄보디아), 라오어, 미얀마어 등 3개 언어를 포함하며, 다양한 자연 장면과 다양한 촬영 각도를 반영하여 수집되었습니다. 본 데이터는 동남아 언어 OCR 과제에 활용될 수 있습니다.
OCR 동남아시아 언어 자연 환경

222,289장 중국어 자연 장면 OCR 데이터

222,289장의 중국어 자연 장면 OCR 데이터는 실내외 다양한 장면에서 수집되었습니다. 데이터 다양성은 여러 장면과 다양한 촬영 각도를 포함합니다. 라벨링은 이미지 내 텍스트에 대해 행 단위, 단어 단위, 문자 단위 라벨링과 내용 전사를 포함합니다. 본 중국어 자연 장면 OCR 데이터는 자연 장면 OCR 작업에 활용할 수 있습니다.
OCR 자연 장면 라인 수준 주석 단어 수준 주석 문자 수준 주석 텍스트 전사

9,497장 10종 서식 OCR 데이터

9,497장 10종류 표 OCR 데이터로, 직사각형 박스를 사용해 라벨링했습니다. 본 데이터는 표 탐지 및 인식 작업에 활용할 수 있습니다.
OCR 양식

17,561장 초등학교 수학 시험지 수집 데이터

17,561장의 초등학교 수학 시험지 수집 데이터는 배경이 단색입니다. 데이터는 다양한 문제 유형, 다양한 시험지 종류(수학 연습책, 시험지, 경시 문제 등), 여러 학년을 포함합니다. 본 초등학교 수학 시험지 수집 데이터는 지능형 채점, 초등학생 과제 지도 등의 작업에 활용될 수 있습니다.
초등 수학 시험지 OCR 다양한 유형 문제(세로 계산 가로 계산 재귀 계산 분수 방정식 풀이 등) 다양한 유형 시험지(수학 워크북 시험지 경시 문제 등) 다양한 학년

4,995장 베트남어 OCR 라벨링 및 전사 데이터

4,995장의 베트남어 OCR 라벨링 및 전사 데이터는 자연 장면 이미지 258장, 인터넷 이미지 2,553장, 텍스트 이미지 2,184장을 포함합니다. 라벨링 측면에서는 행 단위 내용에 대해 행 단위 사각형 박스 라벨링과 행 단위 내용 전사가 이루어지며, 세로열 내용에 대해서는 세로열 사각형 박스 라벨링과 세로열 내용 전사가 포함됩니다. 본 베트남어 OCR 라벨링 및 전사 데이터는 다양한 장면에서의 베트남어 인식 및 베트남어 촬영 번역 등 작업에 활용될 수 있습니다.
베트남어 OCR 문서 이미지 인터넷 이미지 자연 장면 다양한 각도 다른 조도 조건 사각형 바운딩 박스 주석 텍스트 라인 수준 전사 컬럼 수준 전사

104,320장 한국어 및 힌디어 자연 환경 OCR 데이터

104,320장의 한국어 및 힌디어 자연 환경 OCR 데이터 수집 장면에는 상품 포장, 포스터, 차표, 안내문, 메뉴, 건물 표지 등이 포함됩니다. 데이터 다양성에는 다양한 장면, 다양한 촬영 각도, 다양한 조명 조건이 포함됩니다. 언어 분포는 한국어, 힌디어 및 영어(소량)입니다. 라벨링 측면에서 데이터는 행 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 행 단위 내용 전사, 텍스트 속성(언어 종류), 열 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 열 단위 내용 전사, 텍스트 속성(언어 종류)이 포함됩니다. 본 한국어 및 힌디어 자연 환경 OCR 데이터는 한국어 및 힌디어 자연 환경에서의 OCR 작업에 활용 가능합니다.
한국어 힌디어 OCR 데이터 자연 환경 OCR 전사 데이터

105,941장 12개 언어 자연 장면 OCR 데이터

105,941장의 12개 언어 자연 환경 OCR 데이터는 6개 아시아어와 6개 유럽어를 포함한 12개 언어를 포함하며, 다양한 자연 환경과 촬영 각도에서 수집되었습니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스와 행 단위 텍스트 전사가 포함되어 있습니다. 본 데이터셋은 다국어 OCR 작업에 활용될 수 있습니다.
일본어 한국어 인도네시아어 말레이시아어 베트남어 태국어 프랑스어 독일어 이탈리아어 포르투갈어 러시아어 스페인어 OCR 자연 장면 다양한 촬영 각도 텍스트에 대한 라인 수준 사각형 바운딩 박스 주석 및 전사

loading

지금 바로 데이터를 맞춤 설정하세요

표준 데이터셋을 선택하는 이유

  • 저작권

    저작권

    명확한 저작권 쉽게 확인 가능
  • 보안

    보안

    적절한 권한 부여 안전하게 사용 가능
  • 전문성

    전문성

    AI 데이터 전문가들이 설계 및 제작
  • 다양성

    다양성

    다양한 실제 장면에서 수집
  • 비용 효율성

    비용 효율성

    맞춤형 데이터보다 비용 효율적
  • 효율성

    효율성

    즉시 제공, 빠른 납품
7e7f657a-fbab-4ba9-b02a-0ba98498d92f