[{"@type":"PropertyValue","name":"데이터 규모","value":"105,941장, 아시아 언어 계열: 일본어 9,997장, 한국어 10,231장, 인도네시아어 7,591장, 말레이어 5,650장, 베트남어 8,822장, 태국어 9,645장; 유럽 언어 계열: 프랑스어 10,015장, 독일어 7,213장, 이탈리아어 8,824장, 포르투갈어 7,754장, 러시아어 10,376장, 스페인어 9,823장"},{"@type":"PropertyValue","name":"수집 환경","value":"상점 간판, 표지판, 포스터, 승차권, 도로 표지, 만화, 맨홀 그림, 안내문, 경고문, 포장 설명, 메뉴판, 건물 표시 등 포함"},{"@type":"PropertyValue","name":"수집 다양성","value":"12개 언어, 다양한 자연 장면, 다양한 촬영 각도(앙각, 부감, 수평) 포함"},{"@type":"PropertyValue","name":"수집 장비","value":"모바일, 카메라"},{"@type":"PropertyValue","name":"영상 파라미터","value":"이미지 포맷은 .jpg, 라벨링 포맷은 .json"},{"@type":"PropertyValue","name":"라벨링 내용","value":"행 단위 사각형 라벨링, 행 단위 내용 전사"},{"@type":"PropertyValue","name":"정확도","value":"사각형 박스 꼭짓점 오차가 5픽셀 이하일 경우 정확한 검출로 간주, 검출 박스 정확도는 97% 이상; 텍스트 전사 정확도는 97% 이상"}]
{"id":1064,"datatype":"1","titleimg":"https://ko.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"105,941장 12개 언어 자연 장면 OCR 데이터","datazy":[{"title":"데이터 규모","desc":"데이터 규모","content":"105,941장, 아시아 언어 계열: 일본어 9,997장, 한국어 10,231장, 인도네시아어 7,591장, 말레이어 5,650장, 베트남어 8,822장, 태국어 9,645장; 유럽 언어 계열: 프랑스어 10,015장, 독일어 7,213장, 이탈리아어 8,824장, 포르투갈어 7,754장, 러시아어 10,376장, 스페인어 9,823장"},{"title":"수집 환경","desc":"수집 환경","content":"상점 간판, 표지판, 포스터, 승차권, 도로 표지, 만화, 맨홀 그림, 안내문, 경고문, 포장 설명, 메뉴판, 건물 표시 등 포함"},{"title":"수집 다양성","desc":"수집 다양성","content":"12개 언어, 다양한 자연 장면, 다양한 촬영 각도(앙각, 부감, 수평) 포함"},{"title":"수집 장비","desc":"수집 장비","content":"모바일, 카메라"},{"title":"영상 파라미터","desc":"영상 파라미터","content":"이미지 포맷은 .jpg, 라벨링 포맷은 .json"},{"title":"라벨링 내용","desc":"라벨링 내용","content":"행 단위 사각형 라벨링, 행 단위 내용 전사"},{"title":"정확도","desc":"정확도","content":"사각형 박스 꼭짓점 오차가 5픽셀 이하일 경우 정확한 검출로 간주, 검출 박스 정확도는 97% 이상; 텍스트 전사 정확도는 97% 이상"}],"datatag":"12 languages,Multiple photographic angles,Multiple scenes,Line-level quadrilateral bounding box annotation and transcription","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Spanish.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Spanish.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=TafXJxAg8o5Kg%2BGun3KIiEjsu%2BU%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Portuguese.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Portuguese.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=9arI65%2BOzsdy2xK7XZfBGqmQ2og%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/German.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/German.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=%2FiYq03v6ZQCDTNsEE6fB5DmAkGk%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"105,941장의 12개 언어 자연 환경 OCR 데이터는 6개 아시아어와 6개 유럽어를 포함한 12개 언어를 포함하며, 다양한 자연 환경과 촬영 각도에서 수집되었습니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스와 행 단위 텍스트 전사가 포함되어 있습니다. 본 데이터셋은 다국어 OCR 작업에 활용될 수 있습니다.","dataexampl":null,"datakeyword":["일본어"," 한국어"," 인도네시아어"," 말레이시아어"," 베트남어"," 태국어"," 프랑스어"," 독일어"," 이탈리아어"," 포르투갈어"," 러시아어"," 스페인어"," OCR"," 자연 장면"," 다양한 촬영 각도"," 텍스트에 대한 라인 수준 사각형 바운딩 박스 주석 및 전사"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"105,941 Images Natural Scenes OCR Data of 12 Languages","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Russian.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Russian.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ieEtznzUAUiNqtvqirs%2F8uIwe8Y%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}
105,941장의 12개 언어 자연 환경 OCR 데이터는 6개 아시아어와 6개 유럽어를 포함한 12개 언어를 포함하며, 다양한 자연 환경과 촬영 각도에서 수집되었습니다. 라벨링 측면에서는 행 단위 텍스트의 사각형 박스와 행 단위 텍스트 전사가 포함되어 있습니다. 본 데이터셋은 다국어 OCR 작업에 활용될 수 있습니다.
이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.
사양
데이터 규모
105,941장, 아시아 언어 계열: 일본어 9,997장, 한국어 10,231장, 인도네시아어 7,591장, 말레이어 5,650장, 베트남어 8,822장, 태국어 9,645장; 유럽 언어 계열: 프랑스어 10,015장, 독일어 7,213장, 이탈리아어 8,824장, 포르투갈어 7,754장, 러시아어 10,376장, 스페인어 9,823장
수집 환경
상점 간판, 표지판, 포스터, 승차권, 도로 표지, 만화, 맨홀 그림, 안내문, 경고문, 포장 설명, 메뉴판, 건물 표시 등 포함
수집 다양성
12개 언어, 다양한 자연 장면, 다양한 촬영 각도(앙각, 부감, 수평) 포함
수집 장비
모바일, 카메라
영상 파라미터
이미지 포맷은 .jpg, 라벨링 포맷은 .json
라벨링 내용
행 단위 사각형 라벨링, 행 단위 내용 전사
정확도
사각형 박스 꼭짓점 오차가 5픽셀 이하일 경우 정확한 검출로 간주, 검출 박스 정확도는 97% 이상; 텍스트 전사 정확도는 97% 이상