en

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

LLM 데이터셋

고품질 표준 데이터셋으로 AI 모델 성능을 즉시 향상시키세요.

유형

전체
42
이미지 캡션
19
SFT 데이터셋
7
사전 학습 텍스트
19

25만 문항 금융 문제 데이터셋

본 데이터셋은 금융 분야에 초점을 맞추고 있으며, 제품, 시장, 행위, 원리 등 세부 영역의 시험 문제를 포함하고 있습니다. 총 25만 문항으로 구성되어 있으며, 선택형 문제와 서술형 문제가 각각 12.5만 문항씩 동일한 비율로 구성되어 있습니다. 데이터는 JSONL 형식으로 저장되어 있어 금융 지식 연구 및 학습에 풍부한 자료를 제공합니다.
금융 테스트 문제 객관식 주관식

150만 건 한국어 시험 문제 구조화 분석 처리 데이터

한국어 시험문제 구조화 해석 처리 데이터, 시험문제 총량 약 150만 문제; 각 문제는 문제 유형, 질문, 정답, 해설 등 필드를 포함; 학과목 포함 【초등】국어, 수학, 영어, 사회, 과학; 【중등】국어, 영어, 수학, 과학, 사회; 【고등】국어, 영어, 수학, 물리, 화학, 생물, 역사, 지리; 문제 유형 포함 선택형, 빈칸 채우기, 판단형, 서술형 등; 해당 데이터는 대형 모델 학과 지식 강화 작업에 활용 가능.
K12 문제 텍스트 LLM 한국어

일본 OKWAVE 문답 플랫폼 텍스트 데이터

일본 OKWAVE 질의응답 플랫폼의 텍스트 데이터는 질문, 답변, 카테고리, 게시 날짜, 작성자 등 여러 필드를 포함하며, 데이터는 지속적으로 업데이트 되고 있습니다. 2025년 4월 말까지 질문 840만 세트, 230억 자, 답변 2,700만 세트, 760억 자, 감사 표시(질문자가 답변자에게 감사를 표한 것) 1,550만 세트, 170억 자, 보충 설명 210만 세트, 36억 자가 수집되어 있습니다. 이 데이터는 범용 대규모 모델 훈련에 활용될 수 있습니다.
문답 텍스트 일본어

3,200만 문제 이공계 시험 문제 텍스트 구조화 해석 처리 데이터

3,200만 개의 이공계 문제 텍스트 구조화 분석 데이터는 초등, 중등, 고등, 대학 수준의 수학, 물리, 화학, 생물 등 이공계 과목을 포함합니다. 각 문제는 문제, 정답, 해설, 문제 유형, 학과, 학년 등의 필드를 포함하고 있습니다. 본 데이터는 대형 모델의 학문 지식 강화 작업에 활용될 수 있습니다.
과학 과목 문제 대형 언어 모델 텍스트

100만 문제 중국어 코드 시험 문제 텍스트 구조화 해석 처리 데이터

100만 개의 중국어 코딩 문제 텍스트 구조화 분석 데이터는 C, C++, Python, Java, JavaScript 등 다양한 언어의 프로그래밍 문제를 포함합니다. 각 문제는 문제, 정답, 해설, 언어 등의 필드를 포함합니다. 본 데이터는 모델이 코딩 및 프로그래밍 기술을 구축하고 강화하는 데 도움을 주어, 실제 프로그래밍 작업에서 더욱 뛰어난 성능을 발휘할 수 있도록 합니다.
코드 문제 대형 언어 모델 텍스트

10만 개 영어 대형 모델 명령어 미세 조정 텍스트 데이터셋

영어 대형 모델 인스트럭션 미세 조정 텍스트 데이터셋입니다. AI 모델 최적화를 위한 학습 리소스로 설계되어, 모델의 명령 이해 및 수행 능력을 현저히 강화시킵니다. 언어학 전문가와 AI 엔지니어의 이중 검증을 거쳤으며, 주요 사전학습 모델의 미세 조정에 완벽히 호환됩니다.
LLM 미세 조정 데이터셋 지도 미세 조정 SFT 데이터셋 영어 명령어 튜닝 데이터 일반 도메인 LLM 데이터 AI 모델 미세 조정 명령어 추종 트레이닝 데이터 GPT 튜닝 데이터셋

5만 세트 이미지 편집 데이터

5만 세트의 이미지 편집 데이터는 편집 유형으로 객체 제거, 객체 추가, 객체 수정, 객체 교체 등이 포함됩니다. 편집 대상은 인물, 동물, 상품, 식물, 풍경 등 다양한 장면을 포함하며, 라벨링은 편집 지시에 따라 해당 이미지의 편집 대상 객체를 분할하여 제거/추가/수정/교체 등에 대한 라벨링을 수행합니다. 본 데이터는 이미지 합성, 데이터 증강, 가상 환경 생성 등의 과제에 활용될 수 있습니다.
이미지 편집

2만 5천 명 인물 다중 스타일 영상 데이터

2.5만 명 인물 다중 스타일 영상 데이터는 2.5만 명이 다양한 장면에서 촬영된 여러 스타일의 영상을 포함하고 있습니다. 피부색은 백색/황색/갈색/흑색을 포함하며, 연령은 청년/중년/노년을 아우릅니다. 영상 해상도는 1920x1080 이상, 길이는 10초 이상입니다. 본 데이터는 인물 일관성 영상 생성, 디지털 휴먼 생성 등 과제에 활용될 수 있습니다.
인물 관련 영상 디지털 휴먼 영상 생성

100,000쌍의 중국어 범용 대형 언어 모델 복잡 지시문 SFT 텍스트 데이터셋

10만 쌍의 복잡한 중국어 프롬프트 명령으로, 글자 수는 50~400자이며, 각 프롬프트에는 최소 3개의 제약 조건이 포함됩니다. 대규모 모델의 명령 준수성을 훈련시키는 데 사용됩니다. 카테고리는 생성(보도자료 작성, 인터뷰 질의지 작성, 카피라이팅, 원고 교정, 영중 작문, 문법 학습, 리서치 보고서, 학습 계획서, 시 창작, 푸드 리뷰, 기사형 광고, 영업 설득 멘트, 공문서 작성 보조, 공문서 검토, 정책 문서 Q&A 등), 재작성(문장 재작성, 텍스트 오류 교정, 문장 통합, 카피 간소화), 요약(내용 요약), 추출(사건 요소 추출, 의견 추출, 키워드 추출, 입장 추출, 개체명 추출)을 포함합니다. 모든 프롬프트는 인력 기반 작성으로 다양성을 포함합니다.
대형 언어 모델 명령어 따르기 감독 미세 조정

loading

지금 바로 데이터를 맞춤 설정하세요

표준 데이터셋을 선택하는 이유

  • 저작권

    저작권

    명확한 저작권 쉽게 확인 가능
  • 보안

    보안

    적절한 권한 부여 안전하게 사용 가능
  • 전문성

    전문성

    AI 데이터 전문가들이 설계 및 제작
  • 다양성

    다양성

    다양한 실제 장면에서 수집
  • 비용 효율성

    비용 효율성

    맞춤형 데이터보다 비용 효율적
  • 효율성

    효율성

    즉시 제공, 빠른 납품
2954daba-30f8-41d3-a3ff-6af4b481f4d6