50만 장 다국가 자연 환경 및 문서 OCR 데이터

자연 환경

문서

OCR

500,000장의 다국적 자연 장면 및 문서 OCR 데이터는 번체 중국어, 일본어, 한국어, 인도네시아어, 말레이어, 태국어, 베트남어, 폴란드어 등 총 20개 언어를 포함합니다. 다양한 자연 장면과 촬영 각도를 반영한 수집 방식으로, 다국어 OCR 과제에 활용될 수 있는 데이터입니다.

이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.

사양

데이터 규모

50만 장, 각 언어별로 자연 환경과 문서 각각 12,500장 포함

언어 종류 분포

번체 중국어, 일본어, 한국어, 인도네시아어, 말레이시아어, 태국어, 베트남어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 러시아어, 스페인어, 아랍어, 터키어, 폴란드어, 네덜란드어, 그리스어, 체코어, 필리핀어(따갈로그어)

수집 환경

자연 환경: 슬로건, 영수증, 포스터, 경고문, 도로 표지판, 식품 포장, 광고판, 정류장 표지판 및 간판 등, 문서: 전자 문서, 회의 기록, 보고서, 설명서, 사용자 매뉴얼, 서적 및 신문, 교재 등

수집 다양성

다양한 자연 환경 및 촬영 각도

수집 장비

스마트폰, 스캐너 사용

촬영 각도

앙각, 부감, 평시

데이터 형식

이미지 형식은 .jpg 등 일반 이미지 포맷

정확도

수집 요구 사항에 따라 수집 정확도는 95% 이상

500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.

다국어 OCR 데이터셋 장면 텍스트 인식 데이터 문서 OCR 데이터셋 전자 화면 OCR 데이터 21개 언어 OCR 데이터셋 AI OCR 트레이닝 데이터 텍스트 인식 데이터셋

3만 장 동남아 소수언어 자연 환경 OCR 데이터

30,000장의 동남아 소수 언어 자연 장면 OCR 데이터는 크메르어(캄보디아), 라오어, 미얀마어 등 3개 언어를 포함하며, 다양한 자연 장면과 다양한 촬영 각도를 반영하여 수집되었습니다. 본 데이터는 동남아 언어 OCR 과제에 활용될 수 있습니다.

OCR 동남아시아 언어 자연 환경

5,000장 터키어 자연 환경 OCR 데이터

5,000장의 터키어 자연 장면 OCR 데이터는 다양한 자연 장면과 다양한 촬영 각도를 포함하고 있습니다. 라벨링 측면에서는 행 단위 텍스트에 대해 사각형 박스 및 다각형 박스를 사용하여 라벨링하고, 해당 텍스트를 전사하였습니다. 본 데이터는 터키어 OCR 과제에 활용될 수 있습니다.

OCR 터키어 자연 환경

8,604장의 아랍어 자연 환경 OCR 데이터

8,604장의 아랍어 자연 장면 OCR 데이터로, 다양한 자연 환경과 다양한 촬영 각도를 포함합니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스 및 전사, 다각형 박스 라벨링 및 전사를 표기했습니다. 본 데이터는 아랍어 OCR 작업에 활용 가능합니다.

아랍어 OCR 데이터 OCR 콘텐츠 변환 OCR 데이터 OCR 데이터셋 OCR 라벨링 OCR 수집 OCR 데이터 처리 OCR 변환 데이터

104,320장 한국어 및 힌디어 자연 환경 OCR 데이터

104,320장의 한국어 및 힌디어 자연 환경 OCR 데이터 수집 장면에는 상품 포장, 포스터, 차표, 안내문, 메뉴, 건물 표지 등이 포함됩니다. 데이터 다양성에는 다양한 장면, 다양한 촬영 각도, 다양한 조명 조건이 포함됩니다. 언어 분포는 한국어, 힌디어 및 영어(소량)입니다. 라벨링 측면에서 데이터는 행 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 행 단위 내용 전사, 텍스트 속성(언어 종류), 열 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 열 단위 내용 전사, 텍스트 속성(언어 종류)이 포함됩니다. 본 한국어 및 힌디어 자연 환경 OCR 데이터는 한국어 및 힌디어 자연 환경에서의 OCR 작업에 활용 가능합니다.

한국어 힌디어 OCR 데이터 자연 환경 OCR 전사 데이터

57,645장 수직 텍스트 OCR 데이터

57,645장의 수직 문서 OCR 데이터로, 거리 풍경, 간판, 광고판, 포스터, 장식, 예술 글씨, 잡지 표지 등 다양한 환경에서 수집되었습니다. 언어는 중국어를 위주로 하며 소량의 영어도 포함되어 있습니다. 라벨은 열 단위 직사각형 박스(다각형/평행사변형) 라벨링 및 내용 전사, 비수직 직사각형 박스(다각형/평행사변형) 라벨링 및 내용 전사하였습니다. 본 데이터셋은 다양한 수직 텍스트 OCR 작업에 활용 가능합니다.

수직 텍스트 OCR 데이터 OCR 이미지 데이터 OCR 데이터 OCR 데이터셋 OCR 라벨링 데이터 OCR 수집 데이터 OCR 데이터 처리 OCR 재작성 데이터

105,941장 12개 언어 자연 장면 OCR 데이터

105,941장의 12개 언어 자연 환경 OCR 데이터는 6개 아시아어와 6개 유럽어를 포함한 12개 언어를 포함하며, 다양한 자연 환경과 촬영 각도에서 수집되었습니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스와 행 단위 텍스트 전사가 포함되어 있습니다. 본 데이터셋은 다국어 OCR 작업에 활용될 수 있습니다.

일본어 한국어 인도네시아어 말레이시아어 베트남어 태국어 프랑스어 독일어 이탈리아어 포르투갈어 러시아어 스페인어 OCR 자연 장면 다양한 촬영 각도 텍스트에 대한 라인 수준 사각형 바운딩 박스 주석 및 전사

4,995장 베트남어 OCR 라벨링 및 전사 데이터

4,995장의 베트남어 OCR 라벨링 및 전사 데이터는 자연 장면 이미지 258장, 인터넷 이미지 2,553장, 텍스트 이미지 2,184장을 포함합니다. 라벨링 측면에서는 행 단위 내용에 대해 행 단위 사각형 박스 라벨링과 행 단위 내용 전사가 이루어지며, 세로열 내용에 대해서는 세로열 사각형 박스 라벨링과 세로열 내용 전사가 포함됩니다. 본 베트남어 OCR 라벨링 및 전사 데이터는 다양한 장면에서의 베트남어 인식 및 베트남어 촬영 번역 등 작업에 활용될 수 있습니다.

베트남어 OCR 문서 이미지 인터넷 이미지 자연 장면 다양한 각도 다른 조도 조건 사각형 바운딩 박스 주석 텍스트 라인 수준 전사 컬럼 수준 전사

50만 장 다국가 자연 환경 및 문서 OCR 데이터

자연 환경 문서 OCR

프로젝트 성숙도

자연 환경

문서

OCR