{"id":1625,"datatype":"1","titleimg":"https://ko.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"227","type2str":null,"dataname":"3,100만 세트 동남아시아어 뉴스 텍스트 데이터","datazy":[{"title":"언어 종류","desc":"언어 종류","content":"인도네시아어, 말레이어, 태국어, 베트남어"},{"title":"데이터 양","desc":"데이터 양","content":"인도네시아어 14,447,771개, 말레이어 1,239,420개, 태국어 6,467,564개, 베트남어 8,942,813개, 총량 3,100만+개"},{"title":"필드","desc":"필드","content":"URL, 제목, 게시 시간, 기사 내용, 카테고리"},{"title":"형식","desc":"형식","content":"Jsonl"}],"datatag":"Minor languages,Southeast Asia,NEWS,Journalism","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"马来语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E9%A9%AC%E6%9D%A5%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=5rkbhwPKFeZUofOfpzcAP1%2B7Vas%3D","intro":"","size":44215,"progress":100,"type":"jpg"},{"name":"泰语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E6%B3%B0%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=1DspN1HLIWVpn%2FYfI6JAu0ZMbl0%3D","intro":"","size":103642,"progress":100,"type":"jpg"},{"name":"印尼语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E5%8D%B0%E5%B0%BC%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=VgoGApYUn6%2BChZRcnvN08SYI8cU%3D","intro":"","size":115113,"progress":100,"type":"jpg"}],"officialSummary":"본 데이터셋은 동남아시아 다국어 뉴스 데이터로, 인도네시아어, 말레이어, 태국어, 베트남어 등 4개 언어를 포함하며, 총 3,100만 세트 이상의 데이터를 포함하고 있습니다. JSONL 포맷으로 저장되어 있으며, 각 기록이 한 줄로 구성되어 효율적인 읽기와 처리가 가능합니다. 뉴스 주제는 매우 다양하며, 동남아 지역의 사회 동향, 문화 이슈, 경제 트렌드를 폭넓게 반영합니다. 본 데이터는 대형 모델의 다국어 처리 능력 향상, 문화 지식 확장, 성능 최적화, 동남아 시장 적용 확대 및 다국어 연구 촉진에 기여할 수 있습니다.","dataexampl":null,"datakeyword":["소수민족 언어"," 동남아시아"," 뉴스"," 뉴스 산업"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"31 million Southeast Asian language news text dataset","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"越南语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E8%B6%8A%E5%8D%97%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=HZvCPn1N1QW%2BocWDBvsxQJcoJzc%3D","intro":"","size":108698,"progress":100,"type":"jpg"}]}
본 데이터셋은 동남아시아 다국어 뉴스 데이터로, 인도네시아어, 말레이어, 태국어, 베트남어 등 4개 언어를 포함하며, 총 3,100만 세트 이상의 데이터를 포함하고 있습니다. JSONL 포맷으로 저장되어 있으며, 각 기록이 한 줄로 구성되어 효율적인 읽기와 처리가 가능합니다. 뉴스 주제는 매우 다양하며, 동남아 지역의 사회 동향, 문화 이슈, 경제 트렌드를 폭넓게 반영합니다. 본 데이터는 대형 모델의 다국어 처리 능력 향상, 문화 지식 확장, 성능 최적화, 동남아 시장 적용 확대 및 다국어 연구 촉진에 기여할 수 있습니다.
이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.