{"id":1862,"datatype":"1","titleimg":"https://ko.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터","datazy":[{"title":"데이터 규모","content":"500,000장, 언어별 분포 20,000~25,000장","desc":"데이터 규모"},{"title":"언어 분포","content":"독일어, 프랑스어, 포르투갈어, 이탈리아어, 스페인어, 인도네시아어, 러시아어, 일본어, 한국어, 베트남어, 폴란드어, 체코어, 터키어, 필리핀어, 네덜란드어, 힌디어, 말레이어, 카자흐어, 슬로바키아어, 루마니아어, 우즈베크어","desc":"언어 분포"},{"title":"수집 환경","content":"문서 촬영(서적, 신문, 카드, 영수증 등), 자연 장면(포스터, 표지판, 식품 포장, 광고판 등), 전자 장면(모바일·PC 스크린샷, 전자 문서)","desc":"수집 환경"},{"title":"수집의 다양성","content":"다양한 데이터 유형, 촬영 각도, 다국어 포함","desc":"수집의 다양성"},{"title":"수집 장비","content":"모바일, PC","desc":"수집 장비"},{"title":"데이터 형식","content":"이미지 .jpg 등 일반 포맷, 라벨링 .json","desc":"데이터 형식"},{"title":"라벨링 내용","content":"행(열) 단위 사각형·다각형 라벨링, 행(열) 단위 텍스트 전사","desc":"라벨링 내용"},{"title":"정확도","content":"행 단위 박스 정확도 97% 이상, 박스 오차 ±5픽셀 이내, 전사 정확도 97% 이상","desc":"정확도"}],"datatag":"OCR,21 countries,Natural Scenes,Document Photograph Scenes,Electronic Scenes","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[],"officialSummary":"500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.","dataexampl":null,"datakeyword":["다국어 OCR 데이터셋","장면 텍스트 인식 데이터","문서 OCR 데이터셋","전자 화면 OCR 데이터","21개 언어 OCR 데이터셋","AI OCR 트레이닝 데이터","텍스트 인식 데이터셋"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,DE,KO,FR,ES,JP\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"500,000 Images - Natural Scenes & Document Photograph Scenes & Electronic Scenes OCR Data of 21 Countries","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}

ko

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

홈 > 모든 카테고리 데이터셋 > OCR 데이터셋 > 50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터

50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터

다국어 OCR 데이터셋

장면 텍스트 인식 데이터

문서 OCR 데이터셋

전자 화면 OCR 데이터

21개 언어 OCR 데이터셋

AI OCR 트레이닝 데이터

텍스트 인식 데이터셋

500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.

이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.

사양

데이터 규모

500,000장, 언어별 분포 20,000~25,000장

언어 분포

독일어, 프랑스어, 포르투갈어, 이탈리아어, 스페인어, 인도네시아어, 러시아어, 일본어, 한국어, 베트남어, 폴란드어, 체코어, 터키어, 필리핀어, 네덜란드어, 힌디어, 말레이어, 카자흐어, 슬로바키아어, 루마니아어, 우즈베크어

수집 환경

문서 촬영(서적, 신문, 카드, 영수증 등), 자연 장면(포스터, 표지판, 식품 포장, 광고판 등), 전자 장면(모바일·PC 스크린샷, 전자 문서)

수집의 다양성

다양한 데이터 유형, 촬영 각도, 다국어 포함

수집 장비

모바일, PC

데이터 형식

이미지 .jpg 등 일반 포맷, 라벨링 .json

라벨링 내용

행(열) 단위 사각형·다각형 라벨링, 행(열) 단위 텍스트 전사

정확도

행 단위 박스 정확도 97% 이상, 박스 오차 ±5픽셀 이내, 전사 정확도 97% 이상

샘플

추천 데이터셋

추천 데이터셋

50만 장 다국가 자연 환경 및 문서 OCR 데이터

500,000장의 다국적 자연 장면 및 문서 OCR 데이터는 번체 중국어, 일본어, 한국어, 인도네시아어, 말레이어, 태국어, 베트남어, 폴란드어 등 총 20개 언어를 포함합니다. 다양한 자연 장면과 촬영 각도를 반영한 수집 방식으로, 다국어 OCR 과제에 활용될 수 있는 데이터입니다.

자연 환경 문서 OCR

3만 장 동남아 소수언어 자연 환경 OCR 데이터

30,000장의 동남아 소수 언어 자연 장면 OCR 데이터는 크메르어(캄보디아), 라오어, 미얀마어 등 3개 언어를 포함하며, 다양한 자연 장면과 다양한 촬영 각도를 반영하여 수집되었습니다. 본 데이터는 동남아 언어 OCR 과제에 활용될 수 있습니다.

OCR 동남아시아 언어 자연 환경

5,000장 터키어 자연 환경 OCR 데이터

5,000장의 터키어 자연 장면 OCR 데이터는 다양한 자연 장면과 다양한 촬영 각도를 포함하고 있습니다. 라벨링 측면에서는 행 단위 텍스트에 대해 사각형 박스 및 다각형 박스를 사용하여 라벨링하고, 해당 텍스트를 전사하였습니다. 본 데이터는 터키어 OCR 과제에 활용될 수 있습니다.

OCR 터키어 자연 환경

8,604장의 아랍어 자연 환경 OCR 데이터

8,604장의 아랍어 자연 장면 OCR 데이터로, 다양한 자연 환경과 다양한 촬영 각도를 포함합니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스 및 전사, 다각형 박스 라벨링 및 전사를 표기했습니다. 본 데이터는 아랍어 OCR 작업에 활용 가능합니다.

아랍어 OCR 데이터 OCR 콘텐츠 변환 OCR 데이터 OCR 데이터셋 OCR 라벨링 OCR 수집 OCR 데이터 처리 OCR 변환 데이터

104,320장 한국어 및 힌디어 자연 환경 OCR 데이터

104,320장의 한국어 및 힌디어 자연 환경 OCR 데이터 수집 장면에는 상품 포장, 포스터, 차표, 안내문, 메뉴, 건물 표지 등이 포함됩니다. 데이터 다양성에는 다양한 장면, 다양한 촬영 각도, 다양한 조명 조건이 포함됩니다. 언어 분포는 한국어, 힌디어 및 영어(소량)입니다. 라벨링 측면에서 데이터는 행 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 행 단위 내용 전사, 텍스트 속성(언어 종류), 열 단위 다각형 박스(또는 사각형 박스, 직사각형 박스) 라벨링, 열 단위 내용 전사, 텍스트 속성(언어 종류)이 포함됩니다. 본 한국어 및 힌디어 자연 환경 OCR 데이터는 한국어 및 힌디어 자연 환경에서의 OCR 작업에 활용 가능합니다.

한국어 힌디어 OCR 데이터 자연 환경 OCR 전사 데이터

57,645장 수직 텍스트 OCR 데이터

57,645장의 수직 문서 OCR 데이터로, 거리 풍경, 간판, 광고판, 포스터, 장식, 예술 글씨, 잡지 표지 등 다양한 환경에서 수집되었습니다. 언어는 중국어를 위주로 하며 소량의 영어도 포함되어 있습니다. 라벨은 열 단위 직사각형 박스(다각형/평행사변형) 라벨링 및 내용 전사, 비수직 직사각형 박스(다각형/평행사변형) 라벨링 및 내용 전사하였습니다. 본 데이터셋은 다양한 수직 텍스트 OCR 작업에 활용 가능합니다.

수직 텍스트 OCR 데이터 OCR 이미지 데이터 OCR 데이터 OCR 데이터셋 OCR 라벨링 데이터 OCR 수집 데이터 OCR 데이터 처리 OCR 재작성 데이터

105,941장 12개 언어 자연 장면 OCR 데이터

105,941장의 12개 언어 자연 환경 OCR 데이터는 6개 아시아어와 6개 유럽어를 포함한 12개 언어를 포함하며, 다양한 자연 환경과 촬영 각도에서 수집되었습니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스와 행 단위 텍스트 전사가 포함되어 있습니다. 본 데이터셋은 다국어 OCR 작업에 활용될 수 있습니다.

일본어 한국어 인도네시아어 말레이시아어 베트남어 태국어 프랑스어 독일어 이탈리아어 포르투갈어 러시아어 스페인어 OCR 자연 장면 다양한 촬영 각도 텍스트에 대한 라인 수준 사각형 바운딩 박스 주석 및 전사

4,995장 베트남어 OCR 라벨링 및 전사 데이터

4,995장의 베트남어 OCR 라벨링 및 전사 데이터는 자연 장면 이미지 258장, 인터넷 이미지 2,553장, 텍스트 이미지 2,184장을 포함합니다. 라벨링 측면에서는 행 단위 내용에 대해 행 단위 사각형 박스 라벨링과 행 단위 내용 전사가 이루어지며, 세로열 내용에 대해서는 세로열 사각형 박스 라벨링과 세로열 내용 전사가 포함됩니다. 본 베트남어 OCR 라벨링 및 전사 데이터는 다양한 장면에서의 베트남어 인식 및 베트남어 촬영 번역 등 작업에 활용될 수 있습니다.

베트남어 OCR 문서 이미지 인터넷 이미지 자연 장면 다양한 각도 다른 조도 조건 사각형 바운딩 박스 주석 텍스트 라인 수준 전사 컬럼 수준 전사

특별한 요청 사항을 알려주세요

프로젝트 성숙도

초기 검토 단계 (구체적인 사양은 아직 없음)

목표는 명확하나 전문적인 가이드가 필요함

개발 또는 최적화 단계

명확한 데이터 사양을 보유한 데이터/라벨링 전문가 팀

이름 *

전화번호*

회사 이름 *

회사 이메일 *

데이터 요구 사항 *

제출함으로써,개인정보 보호 정책에 동의합니다

뉴스레터 구독하기

Nexdata의 최신 제품 출시, 데이터 솔루션 및 기업 소식을 가장 먼저 받아보세요.

완제품 데이터셋: 모든 카테고리 데이터셋; LLM 데이터셋; 컴퓨터 비전 데이터셋; 음성 인식 데이터셋; 음성 합성 데이터셋; OCR 데이터셋; 발음 사전; NLU 데이터셋

데이터 서비스: 3D 포인트 클라우드 데이터; 스트리트 뷰 데이터; OCR 데이터; 행동 인식 데이터; 신원 인식 데이터; 음성 인식 데이터; 음성 합성 데이터; 멀티모달 데이터

산업: 임바디드AI; 생성형 AI; 자율주행차; AR/VR; 대화형 AI; 스마트 홈; 리테일; 지능형 헬스케어

회사: 회사 소개; 뉴스; 파트너; 품질 및 보안; 이벤트
링크: OPENMPD; DataPlus; Datarade

플랫폼: 플랫폼
경쟁: 경쟁
자료: 스폰서 데이터셋

더 나은 데이터로 당신의 AI를 향상시키세요

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

저작권 © 2023넥스데이터 테크놀로지 주식회사

사이트맵 이용 약관

당사는 귀하의 브라우징 경험을 향상시키고, 맞춤형 광고 또는 콘텐츠를 제공하며, 트래픽을 분석하기 위해 쿠키를 사용합니다. “모두 허용”을 클릭하면 당사의 쿠키 사용에 동의하는 것입니다.

1f4ed7db-e7d3-40e5-add7-d7c257091c68

94a5dbe8-30bb-4a38-9709-f240e1bfef40