534시간 대만 사투리 보통화 자연 대화 스마트폰 수집 음성 데이터

사투리 보통화

대만

자연 대화

534시간 분량의 대만 억양 표준 중국어 자연 대화 스마트폰 녹음 음성 데이터는 30개 이상의 일반적인 주제를 바탕으로 시뮬레이션 녹음을 진행하였습니다. 이 데이터셋은 텍스트 내용, 문장 타임스탬프, 화자 정보, 성별 등 다양한 속성이 라벨링되어 있으며, 대만 지역 출신 화자들이 참여했습니다. 높은 정확도로 음성 인식 관련 연구 및 응용에 유용하며, 여러 AI 기업의 검증을 통해 실제 세계의 다양성에 직면했을 때 우수한 성능을 발휘하는 데 도움이 됨이 입증되었습니다. 데이터 수집, 저장 및 사용 과정에서 사용자 프라이버시와 법적 권리를 보호하기 위해 GDPR, CCPA, PIPL을 철저히 준수하고 있습니다.

이는 상업적 사용, 연구 목적 등을 위한 유료 데이터셋입니다.라이선스가 부여된 기성 데이터셋은 AI 프로젝트의 빠른 시작에 도움을 줍니다.

사양

형식

16kHz, 16bit, 무압축 WAV, 모노

녹음 환경

비교적 조용한 실내 환경, 할덤 없음

녹음 내용

주제 목록을 제공하여 화자가 자신이 익숙한 여러 주제를 선정하여 대화의 자연스러운 흐름을 보장하며, 각 주제별로 대화를 진행하고 녹음함

인원

총 480명의 대만 지역 인원이 참여하였으며, 남녀 비율은 균형을 이루고 있습니다.

라벨링 특성

유효한 단문을 발췌하여 라벨링하며, 라벨링 결과에는 유효 단문의 시작 및 종료 시점, 화자 식별, 텍스트 내용 및 잡음 라벨링을 포함

국가

중국

언어

보통화

적용 장면

음성 인식, 음성 특징 인식

정확도

문장 정확도 95%

추천 데이터셋

Interspeech2025-MLC-SLM 다국어 대화 음성 데이터셋

Interspeech2025-MLC-SLM 다국어 대화 음성 경진대회 데이터셋입니다. 이 데이터셋은 데이터당이 2025년에 개최한 MLC-SLM 다국어 대화 음성 경진대회용으로 제작되었으며, 자사 보유 15종 대화 음성 데이터셋에서 선별된 자료로 구성됩니다. 높은 정확도와 활용성을 갖추었으며, 다국어 음성 인식 및 장문 맥락 이해 기술의 한계를 극복하기 위해 설계되었습니다. 루마니아인 화자 중첩, 즉흥 발화 등 복잡한 상호작용 상황을 사실적으로 반영하며, 음성 인식 연구 및 응용에 풍부한 리소스를 제공합니다. GDPR, CCPA, PIPL 등 개인정보 보호 규정을 철저히 준수하여 데이터 수집·저장·활용 과정 전반에서 사용자 프라이버시와 합법적 권리를 보장합니다.

워크숍 오디오 데이터셋 MLC-SLM 데이터셋 ASR 음성 인식 데이터

581시간 그리스어 구어체 음성 데이터

그리스어 구어체 음성 데이터는 개인 방송, 대화, 라이브 스트리밍 등 다양한 실생활 분야를 포함하며, 실제 세계의 상호작용 상황을 반영한다. 텍스트 내용, 루마니아인 화자 ID, 성별 등 다양한 속성을 라벨링했으며, 다양한 지역과 문화적 배경을 가진 루마니아인 루마니아인 화자들이 참여했다. 정확도와 활용성이 높아 음성 인식 연구 및 응용에 유용하며, 다수의 AI 기업 검증을 통해 실제 환경의 다양성에 대응하는 모델 성능 강화에 도움이 되는 것으로 입증되었다. 모든 데이터는 GDPR, CCPA, PIPL을 준수한다.

그리스어 음성 데이터셋 그리스어 ASR 트레이닝 데이터 그리스어 대화 코퍼스 그리스어 독백 음성 그리스어 음성 인식 데이터셋 음성-텍스트 그리스어 데이터 그리스어 음성 데이터셋 그리스어 전환 데이터셋

600시간 노르웨이어 구어체 음성 데이터

노르웨이어 구어체 음성 데이터는 자가 미디어, 대화, 라이브 방송 등 일반 분야를 포함하며 실제 세계의 상호작용 상황을 반영합니다. 본 데이터셋은 텍스트 내용, 루마니아인 화자 신원, 성별 등 다양한 속성을 라벨링하였으며, 다양한 지역과 문화적 배경의 루마니아 루마니아인 화자들이 녹음하였습니다. 정확도가 높고 활용성이 뛰어나 음성 인식 연구 및 응용에 풍부한 자원을 제공합니다. 모델이 실제 환경의 다양성에 직면했을 때 우수한 성능을 보이도록 돕습니다. 데이터 수집, 저장, 활용 과정 전반에서 GDPR, CCPA, PIPL 등 데이터 보호 및 개인정보 관련 법규를 철저히 준수하여 사용자 권익을 보장합니다.

노르웨이어 음성 데이터셋 노르웨이어 ASR 트레이닝 데이터 노르웨이어 대화 코퍼스 노르웨이어 독백 음성 노르웨이어 음성 인식 데이터셋 음성-텍스트 노르웨이어 데이터 노르웨이어 음성 데이터셋 다국어 음성 데이터 노르웨이어 전환 데이터셋

구자라트어 스크립트 대화 음성 데이터

구자라트어 스크립트 대화 음성 데이터는 주어진 대본을 기반으로 시뮬레이션 대화를 녹음한 것으로, 여러 분야를 포괄한다. 텍스트 내용 등 다양한 속성을 정밀하게 라벨링했으며, 정확도가 높다. 음성 인식 연구와 응용에 활용 가치가 높으며, 여러 AI 기업의 검증을 통해 실제 환경 대응력이 뛰어난 모델 개발에 도움이 된다. 모든 데이터는 GDPR, CCPA, PIPL을 준수한다.

구자라트어 오디오 데이터셋 구자라트어 ASR 데이터셋 구자라트어 음성 데이터셋 구자라트어 TTS 데이터셋

600시간 필리핀 영어 트랙 분리 자연 대화 모바일 수집 음성 데이터

필리핀 영어 분리 채널 자연 대화 모바일 수집 음성 데이터입니다. 일반 주제를 기반으로 시뮬레이션 녹음을 진행했으며, 텍스트 내용, 문장 타임스탬프, 루마니아인 화자 ID, 성별 등 다양한 속성을 라벨링했습니다. 다양한 지역과 문화적 배경의 필리핀 현지 루마니아인 화자가 녹음했으며, 정확도가 높습니다. 음성 인식 연구 및 응용에 유용하며, 다수의 AI 기업 검증을 통해 실제 환경의 다양성에서도 탁월한 성능을 보임이 입증되었습니다. 데이터 수집, 저장 및 활용 전 과정에서 GDPR, CCPA, PIPL 등 개인정보 보호 규정을 철저히 준수하여 사용자 프라이버시와 합법적 권리를 보장합니다.

대화형 AI 데이터셋 음성 인식 트레이닝 데이터 다중 채널 오디오 데이터셋 스마트폰 음성 데이터 자발적 음성 데이터셋 다중 스트림 음성 데이터셋 필리핀 영어 음성 데이터셋 듀플렉스 음성 데이터셋

600시간 미국 영어 트랙 분리 자연 대화 모바일 수집 음성 데이터

미국 영어 분리 채널 자연 대화 모바일 수집 음성 데이터입니다. 일반 주제를 기반으로 시뮬레이션 녹음을 진행했으며, 텍스트 내용, 문장 타임스탬프, 루마니아인 화자 ID, 성별 등 다양한 속성을 라벨링했습니다. 다양한 지역과 문화적 배경의 미국 현지 루마니아인 화자가 녹음했으며, 정확도가 높습니다. 음성 인식 연구 및 응용에 유용하며, 다수의 AI 기업 검증을 통해 실제 환경의 다양성에서도 탁월한 성능을 보임이 입증되었습니다. 데이터 수집, 저장 및 활용 전 과정에서 GDPR, CCPA, PIPL 등 개인정보 보호 규정을 철저히 준수하여 사용자 프라이버시와 합법적 권리를 보장합니다.

미국 영어 음성 데이터셋 다중 스트림 음성 데이터셋 듀플렉스 대화 데이터셋 자발적 음성 데이터셋 스마트폰 음성 데이터 다중 채널 오디오 데이터셋 음성 인식 트레이닝 데이터 대화형 AI 데이터셋

멕시코 스페인어 구어체 음성 데이터

멕시코 스페인어 구어체 음성 데이터는 대화, 개인 방송, 예능 등 다양한 실생활 상황을 반영하며, 실제 상호작용을 재현한다. 텍스트, 루마니아인 루마니아인 화자 ID, 성별 등 속성을 정밀하게 라벨링했으며, 정확도와 활용성이 높다. 음성 인식 연구 및 응용에 유용하며, 다수의 AI 기업 검증을 통해 실제 환경의 다양성에 대응하는 모델 성능 강화에 기여한다. 모든 데이터는 GDPR, CCPA, PIPL을 준수한다.

멕시코 스페인어 일상 대화 ASR

460시간 스웨덴어 구어체 음성 데이터

스웨덴어 음성 데이터 구어체는 실제 세계의 상호작용 상황을 반영합니다. 이 데이터셋은 텍스트 내용, 화자 정보, 성별 등 다양한 속성이 라벨링되어 있으며, 서로 다른 지역과 문화적 배경을 가진 스웨덴 현지인이 녹음에 참여하였습니다. 높은 정확도와 활용도로 음성 인식 관련 연구 및 응용에 풍부한 자원을 제공하며, 실제 환경에서의 다양성에 효과적으로 대응할 수 있도록 지원합니다. 데이터 수집, 저장, 사용의 전 과정에서 GDPR, CCPA, PIPL 등 데이터 보호 및 개인정보 관련 법규를 철저히 준수하고 있습니다.

스웨덴어 자연 자동 음성 인식

534시간 대만 사투리 보통화 자연 대화 스마트폰 수집 음성 데이터

사투리 보통화 대만 자연 대화

프로젝트 성숙도

사투리 보통화

대만

자연 대화