대형 언어 모델 데이터셋 - Nexdata

ko

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

홈 > 모든 카테고리 데이터셋 > LLM 데이터셋

유형

전체

28

이미지 캡션

13

SFT 데이터셋

6

사전 학습 텍스트

12

25만 문항 금융 문제 데이터셋

본 데이터셋은 금융 분야에 초점을 맞추고 있으며, 제품, 시장, 행위, 원리 등 세부 영역의 시험 문제를 포함하고 있습니다. 총 25만 문항으로 구성되어 있으며, 선택형 문제와 서술형 문제가 각각 12.5만 문항씩 동일한 비율로 구성되어 있습니다. 데이터는 JSONL 형식으로 저장되어 있어 금융 지식 연구 및 학습에 풍부한 자료를 제공합니다.

금융 테스트 문제 객관식 주관식

150만 건 한국어 시험 문제 구조화 분석 처리 데이터

한국어 시험문제 구조화 해석 처리 데이터, 시험문제 총량 약 150만 문제; 각 문제는 문제 유형, 질문, 정답, 해설 등 필드를 포함; 학과목 포함 【초등】국어, 수학, 영어, 사회, 과학; 【중등】국어, 영어, 수학, 과학, 사회; 【고등】국어, 영어, 수학, 물리, 화학, 생물, 역사, 지리; 문제 유형 포함 선택형, 빈칸 채우기, 판단형, 서술형 등; 해당 데이터는 대형 모델 학과 지식 강화 작업에 활용 가능.

K12 문제 텍스트 LLM 한국어

5만 세트 이미지 편집 데이터

5만 세트의 이미지 편집 데이터는 편집 유형으로 객체 제거, 객체 추가, 객체 수정, 객체 교체 등이 포함됩니다. 편집 대상은 인물, 동물, 상품, 식물, 풍경 등 다양한 장면을 포함하며, 라벨링은 편집 지시에 따라 해당 이미지의 편집 대상 객체를 분할하여 제거/추가/수정/교체 등에 대한 라벨링을 수행합니다. 본 데이터는 이미지 합성, 데이터 증강, 가상 환경 생성 등의 과제에 활용될 수 있습니다.

이미지 편집

3,200만 문제 이공계 시험 문제 텍스트 구조화 해석 처리 데이터

3,200만 개의 이공계 문제 텍스트 구조화 분석 데이터는 초등, 중등, 고등, 대학 수준의 수학, 물리, 화학, 생물 등 이공계 과목을 포함합니다. 각 문제는 문제, 정답, 해설, 문제 유형, 학과, 학년 등의 필드를 포함하고 있습니다. 본 데이터는 대형 모델의 학문 지식 강화 작업에 활용될 수 있습니다.

과학 과목 문제 대형 언어 모델 텍스트

100만 문제 중국어 코드 시험 문제 텍스트 구조화 해석 처리 데이터

100만 개의 중국어 코딩 문제 텍스트 구조화 분석 데이터는 C, C++, Python, Java, JavaScript 등 다양한 언어의 프로그래밍 문제를 포함합니다. 각 문제는 문제, 정답, 해설, 언어 등의 필드를 포함합니다. 본 데이터는 모델이 코딩 및 프로그래밍 기술을 구축하고 강화하는 데 도움을 주어, 실제 프로그래밍 작업에서 더욱 뛰어난 성능을 발휘할 수 있도록 합니다.

코드 문제 대형 언어 모델 텍스트

10만 개 영어 대형 모델 명령어 미세 조정 텍스트 데이터셋

영어 대형 모델 인스트럭션 미세 조정 텍스트 데이터셋입니다. AI 모델 최적화를 위한 학습 리소스로 설계되어, 모델의 명령 이해 및 수행 능력을 현저히 강화시킵니다. 언어학 전문가와 AI 엔지니어의 이중 검증을 거쳤으며, 주요 사전학습 모델의 미세 조정에 완벽히 호환됩니다.

LLM 미세 조정 데이터셋 지도 미세 조정 SFT 데이터셋 영어 명령어 튜닝 데이터 일반 도메인 LLM 데이터 AI 모델 미세 조정 명령어 추종 트레이닝 데이터 GPT 튜닝 데이터셋

2만 5천 명 인물 다중 스타일 영상 데이터

2.5만 명 인물 다중 스타일 영상 데이터는 2.5만 명이 다양한 장면에서 촬영된 여러 스타일의 영상을 포함하고 있습니다. 피부색은 백색/황색/갈색/흑색을 포함하며, 연령은 청년/중년/노년을 아우릅니다. 영상 해상도는 1920x1080 이상, 길이는 10초 이상입니다. 본 데이터는 인물 일관성 영상 생성, 디지털 휴먼 생성 등 과제에 활용될 수 있습니다.

인물 관련 영상 디지털 휴먼 영상 생성

690만 문제 중국어 다학과 시험 문제 텍스트 구조화 해석 처리 데이터

690만 개의 중국어 다학문 문제 텍스트 구조화 분석 데이터는 초등, 중등, 고등, 대학 단계의 다양한 학문 과목을 포함합니다. 각 문제는 문제, 정답, 해설, 문제 유형, 학과, 학년 등의 필드를 포함합니다. 본 데이터는 대형 모델의 학문 지식 강화 작업에 활용될 수 있습니다.

중국어 다학과 문제 대형 언어 모델 텍스트

20,011장의 자연 환경 OCR 설명 데이터

20,011장의 자연 환경 OCR 설명 데이터는 아시아 언어계와 유럽 언어계를 포함하여 총 14개 언어로 구성되었습니다. 가게 간판, 정류장 표지판, 포스터, 도로 표지판 등 다양한 환경에서 수집되었으며, 다양한 촬영 각도를 포함합니다. 기술 언어는 영어로, 주로 문자 배열 방식, 문자 내용, 색상 등의 정보를 기술합니다.

AIGC 영어 자막 OCR 자막 다국어 OCR 데이터 OCR 데이터 OCR 데이터셋

loading

지금 바로 데이터를 맞춤 설정하세요

표준 데이터셋을 선택하는 이유

저작권
명확한 저작권 쉽게 확인 가능
보안
적절한 권한 부여 안전하게 사용 가능
전문성
AI 데이터 전문가들이 설계 및 제작
다양성
다양한 실제 장면에서 수집
비용 효율성
맞춤형 데이터보다 비용 효율적
효율성
즉시 제공, 빠른 납품

뉴스레터 구독하기

Nexdata의 최신 제품 출시, 데이터 솔루션 및 기업 소식을 가장 먼저 받아보세요.

완제품 데이터셋: 모든 카테고리 데이터셋; LLM 데이터셋; 컴퓨터 비전 데이터셋; 음성 인식 데이터셋; 음성 합성 데이터셋; OCR 데이터셋; 발음 사전; NLU 데이터셋

데이터 서비스: 3D 포인트 클라우드 데이터; 스트리트 뷰 데이터; OCR 데이터; 행동 인식 데이터; 신원 인식 데이터; 음성 인식 데이터; 음성 합성 데이터; 멀티모달 데이터

산업: 임바디드AI; 생성형 AI; 자율주행차; AR/VR; 대화형 AI; 스마트 홈; 리테일; 지능형 헬스케어

회사: 회사 소개; 뉴스; 파트너; 품질 및 보안; 이벤트
링크: OPENMPD; DataPlus; Datarade

플랫폼: 플랫폼
경쟁: 경쟁
자료: 스폰서 데이터셋

더 나은 데이터로 당신의 AI를 향상시키세요

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

저작권 © 2023넥스데이터 테크놀로지 주식회사

사이트맵 이용 약관

당사는 귀하의 브라우징 경험을 향상시키고, 맞춤형 광고 또는 콘텐츠를 제공하며, 트래픽을 분석하기 위해 쿠키를 사용합니다. “모두 허용”을 클릭하면 당사의 쿠키 사용에 동의하는 것입니다.

9d353182-1bb4-43d1-92d5-922dd2b3663c