[{"@type":"PropertyValue","name":"데이터 규모","value":"500,000장, 언어별 분포 20,000~25,000장"},{"@type":"PropertyValue","name":"언어 분포","value":"독일어, 프랑스어, 포르투갈어, 이탈리아어, 스페인어, 인도네시아어, 러시아어, 일본어, 한국어, 베트남어, 폴란드어, 체코어, 터키어, 필리핀어, 네덜란드어, 힌디어, 말레이어, 카자흐어, 슬로바키아어, 루마니아어, 우즈베크어"},{"@type":"PropertyValue","name":"수집 환경","value":"문서 촬영(서적, 신문, 카드, 영수증 등), 자연 장면(포스터, 표지판, 식품 포장, 광고판 등), 전자 장면(모바일·PC 스크린샷, 전자 문서)"},{"@type":"PropertyValue","name":"수집의 다양성","value":"다양한 데이터 유형, 촬영 각도, 다국어 포함"},{"@type":"PropertyValue","name":"수집 장비","value":"모바일, PC"},{"@type":"PropertyValue","name":"데이터 형식","value":"이미지 .jpg 등 일반 포맷, 라벨링 .json"},{"@type":"PropertyValue","name":"라벨링 내용","value":"행(열) 단위 사각형·다각형 라벨링, 행(열) 단위 텍스트 전사"},{"@type":"PropertyValue","name":"정확도","value":"행 단위 박스 정확도 97% 이상, 박스 오차 ±5픽셀 이내, 전사 정확도 97% 이상"}]
{"id":1862,"datatype":"1","titleimg":"https://ko.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"50만 장 21개국 자연 장면·문서 촬영 장면·전자 장면 OCR 라벨링 데이터","datazy":[{"title":"데이터 규모","desc":"데이터 규모","content":"500,000장, 언어별 분포 20,000~25,000장"},{"title":"언어 분포","desc":"언어 분포","content":"독일어, 프랑스어, 포르투갈어, 이탈리아어, 스페인어, 인도네시아어, 러시아어, 일본어, 한국어, 베트남어, 폴란드어, 체코어, 터키어, 필리핀어, 네덜란드어, 힌디어, 말레이어, 카자흐어, 슬로바키아어, 루마니아어, 우즈베크어"},{"title":"수집 환경","desc":"수집 환경","content":"문서 촬영(서적, 신문, 카드, 영수증 등), 자연 장면(포스터, 표지판, 식품 포장, 광고판 등), 전자 장면(모바일·PC 스크린샷, 전자 문서)"},{"title":"수집의 다양성","desc":"수집의 다양성","content":"다양한 데이터 유형, 촬영 각도, 다국어 포함"},{"title":"수집 장비","desc":"수집 장비","content":"모바일, PC"},{"title":"데이터 형식","desc":"데이터 형식","content":"이미지 .jpg 등 일반 포맷, 라벨링 .json"},{"title":"라벨링 내용","desc":"라벨링 내용","content":"행(열) 단위 사각형·다각형 라벨링, 행(열) 단위 텍스트 전사"},{"title":"정확도","desc":"정확도","content":"행 단위 박스 정확도 97% 이상, 박스 오차 ±5픽셀 이내, 전사 정확도 97% 이상"}],"datatag":"OCR,21 countries,Natural Scenes,Document Photograph Scenes,Electronic Scenes","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[],"officialSummary":"500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.","dataexampl":null,"datakeyword":["다국어 OCR 데이터셋"," 장면 텍스트 인식 데이터"," 문서 OCR 데이터셋"," 전자 화면 OCR 데이터"," 21개 언어 OCR 데이터셋"," AI OCR 트레이닝 데이터"," 텍스트 인식 데이터셋"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"500,000 Images - Natural Scenes & Document Photograph Scenes & Electronic Scenes OCR Data of 21 Countries","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
500,000장 21개국 자연 장면 & 문서 촬영 & 전자 장면 OCR 라벨링 데이터는 21개 언어로 구성되어 있으며, 각 언어당 20,000~25,000장의 이미지를 포함한다. 데이터 유형은 자연 장면, 문서 촬영, 전자 화면으로 다양하며, 촬영 각도와 환경도 다채롭다. 라벨링은 행(열) 단위의 사각형 또는 다각형 어노테이션, 내용 전사 방식으로 수행되며, 다국어 OCR 인식 연구에 활용할 수 있다.
이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.