일정 및 장소: 8월 22일, Dock 14 – 로테르담 아호이 컨벤션 센터
| 시간대 | 활동 |
|---|---|
| 8:30-9:00 | 배지 수령 |
| 9:00-10:00 | 기조 연설 1: Shinji Watanabe 다국어 음성 인식의 확장: 소수 언어에서 수천 개 언어로 |
| 10:00-10:30 | 커피 브레이크 |
| 10:30-11:00 | 챌린지 요약 및 시상식 |
| 11:00-12:00 | 구두 발표 세션: 1. Seewo의 MLC-SLM 제출: 음성 추론 언어 모델로부터 얻은 교훈,발표자: Bo Li (보 리) 2. MLC-SLM 2025 챌린지를 위한 Transsion 다국어 음성 인식 시스템,발표자: Xiaoxiao Li (샤오샤오 리) 3. Triple X: INTERSPEECH2025 MLC-SLM 챌린지를 위한 LLM 기반 다국어 음성 인식 시스템,발표자: Miaomiao Gao (미아오미아오 가오) 4. TEA-ASLP 시스템: MLC-SLM 2025 챌린지에서의 다국어 대화형 음성 인식 및 화자 분리,발표자: Hongfei Xue (홍페이 쉐) |
| 12:00-13:00 | 점심 식사 |
| 13:00-14:00 | 기조 연설 2: Hung-yi Lee (홍이 리) 구어 언어 모델의 발전 |
| 14:00-14:30 | 구두 발표 세션: 1.ILT: Focus-Feedback-Fix를 통한 반복적 LoRA 훈련을 이용한 다국어 음성 인식, 발표자: Qingliang Meng (칭량 멩) 2.MLC-SLM 챌린지를 위한 BUT 시스템,발표자: Alexander Polok (알렉산더 폴록) |
| 14:30-15:00 | 커피 브레이크 |
| 15:00-15:30 | 초청 발표 1: Ming Li (밍 리) 온라인 및 멀티모달 시나리오 하의 Sequence-to-Sequence 신경 화자 분리 |
| 15:30-16:00 | 초청 발표 2: Shuai Wang (슈아이 왕) 하나의 임베딩이 모든 것에 적합하지 않다: 다양한 음성 애플리케이션을 위한 화자 모델링 재고 |
| 16:00-16:30 | 초청 발표 3: Pan Pan (판 판) 데이터 부족의 극복: 다양한 훈련 단계에서 품질 중심 데이터 파이프라인 구축 |
| 16:30-17:30 | 포스터 발표 세션 |
라이브 세션을 놓치셨나요? 이제 MLC-SLM 챌린지 워크숍의 영감을 주는 발표들을 다시 만나보실 수 있습니다. 다시보기 링크는 아래에 제공됩니다.
Shinji Watanabe (카네기 멜론 대학교)
Topic: 주제: 다국어 음성 인식의 확장: 소수 언어에서 수천 개 언어로
Hung-yi Lee (국립타이완대학교)
Topic: 주제: LLM이 듣고 말하도록 가르치기
Ming Li (Duke Kunshan University)
Topic: 주제: 온라인 및 멀티모달 시나리오 하의 Sequence-to-Sequence 신경 화자 분리
Shuai Wang (Nanjing University)
Topic: 주제: 하나의 임베딩이 모든 것에 적합하지 않다: 다양한 음성 애플리케이션을 위한 화자 모델링 재고
Pan Pan (Nexdata AI 비즈니스 디렉터)
Topic: 주제: 데이터 부족의 극복: 다양한 훈련 단계에서 품질 중심 데이터 파이프라인 구축
미디어 문의 또는 사용 승인 요청은 [email protected]로 연락 주시기 바랍니다.
대형 언어 모델(LLM)은 언어 이해와 생성을 위한 강력한 기초 모델로서 다양한 다운스트림 작업에서 뛰어난 능력을 입증해왔습니다. 최근에는 자동 음성 인식(ASR), 오디오 캡션, 그리고 구어 대화 모델과 같은 새로운 영역을 포함한 음성 및 오디오 처리 작업에 LLM을 적용하는 데 상당한 관심이 집중되고 있습니다.
그러나, 강력한 LLM 기반 구어 대화 모델의 개발은 인간 커뮤니케이션의 복잡성(자연스러운 휴지, 중단, 화자 겹침, 다양한 대화 스타일 등을 포함)을 담고 있는 실제 대화 음성 데이터에 크게 의존합니다. 특히 다국어 환경에서 이러한 데이터의 부족은 해당 분야의 발전에 큰 장애물로 작용하고 있습니다.
실제 대화 음성의 중요성은 기술적 발전을 넘어서서, 다국어이며 역동적이고 context가 풍부한 환경에서 자연스럽게 이해하고 응답할 수 있는 AI 시스템을 구축하는 데 필수적입니다. 이는 구어 대화가 주요 의사소통 수단이 되는 차세대 인간-AI 상호작용 시스템에 특히 중요합니다.
따라서, 본 챌린지 및 워크숍은 다국어 대화 음성 언어 모델(MLC-SLM) 구축 과제를 주최하고 실제 다국어 대화 음성 데이터셋을 공개함으로써 이러한 격차를 해소하는 것을 목표로 합니다.
본 챌린지는 음성 언어 모델(SLM) 개발을 탐구하는 두 가지 과제로 구성됩니다:
과제 I: 다국어 대화형 음성 인식
목표: 다국어 LLM 기반 ASR 모델 개발
참가자에게는 각 대화에 대한 정답 분할 정보 및 화자 레이블 제공
다국어 대화 환경에서의 인식 정확도 최적화에 중점
과제 II: 다국어 대화형 음성 화자 분리 및 인식
목표: 화자 분리(누가 언제 말하는지 식별)와 인식(음성을 텍스트로 변환)을 모두 수행하는 시스템 개발
평가 시 사전 정보나 정답 정보 제공되지 않음(예: 미리 분할된 발화나 화자 레이블 없음)
파이프라인 기반 및 종단간 시스템 모두 허용
과제 I: 다양한 언어별 단어 오류율(WER) 또는 문자 오류율(CER)로 평가
과제 II:화자 분리 오류율(DER)과 연결된 최소 순열 WER/CER(tcpWER/tcpCER)로 평가.DER은 정답 주석과 화자 분리 결과 간의 최적 화자 ID 순열 결정에 사용.동일 화자의 인식 결과와 참조를 연결하여 tcpWER/tcpCER 계산.모든 제출물은 tcpWER/tcpCER 기준으로 순위 결정
2025년 3월 10일: 참가 등록 시작
2025년 3월 15일: 학습 데이터 공개
2025년 4월 1일: 개발 세트 및 베이스라인 시스템 공개
2025년 5월 15일: 평가 세트 공개 및 리더보드 오픈
2025년 5월 30일: 리더보드 중단 및 논문 제출 시스템(CMT) 오픈
2025년 6월 15일: 논문 제출 마감
2025년 7월 1일: 논문 수락 통지
2025년 8월 22일: 워크숍 개최일
학습 세트는 약 11개 언어로 구성됩니다: 영어(en), 프랑스어(fr), 독일어(de), 이탈리아어(it), 포르투갈어(pt), 스페인어(es), 일본어(jp), 한국어(ko), 러시아어(ru), 태국어(th), 베트남어(vi)
각 녹음은 무작위로 지정된 주제에 대한 2인 대화형 음성으로 구성
대화는 자연스럽고 유창하며, 각 주제에 대한 의미 있는 대화 형식
iPhone 등 모바일 기기를 이용한 조용한 실내 환경에서 녹음
각 녹음에는 음성 인식 및 화자 분리 시스템 개발을 위한 정답 분할 정보 및 화자 레이블 제공
과제 I과 과제 II는 동일한 학습 세트 공유
영어 데이터셋은 영국, 미국, 호주, 인도, 필리핀 영어 등 다양한 지역의 약 500시간 분량
기타 언어는 각각 약 100시간씩으로, 총 약 1,500시간의 다국어 대화 음성 데이터 구성
본 데이터셋은 언어적 다양성, 화자 변동성, 맥락적 이해라는 도전 과제를 해결하며 다국어 대화형 음성 언어 모델(MLC-SLM)의 학습 및 평가를 위한 풍부한 자원으로 설계되었습니다.
| 언어 | 데이터량(h) | 언어 분류 | 샘플링 레이트 | 설명 |
|---|---|---|---|---|
| 영어 | 500 | 미국, 영국, 필리핀, 호주, 인도 등 5개 지역의 영어 액센트를 포함. 다양한 성별 및 연령대의 화자, 자연스러운 대화 스타일. 단어 오류율 2% 미만 | ||
| 100 | 미국 영어 | 16K | ||
| 100 | 영국 영어 | 16K | ||
| 100 | 필리핀 영어 | 16K | ||
| 100 | 호주 영어 | 16K | ||
| 100 | 인도 영어 | 16K | ||
| 프랑스어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 독일어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 이탈리아어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 일본어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 문장 오류율 5% 미만. | |
| 한국어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 문장 오류율 5% 미만. | |
| 포루투갈어 (유럽) | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 러시아어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 스페인어 (스페인) | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. | |
| 태국어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 3% 미만. | |
| 베트남어 | 100 | 16k | 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만. |
개발 세트는 학습 세트와 동일한 구성을 가지며, 각 언어별 약 4시간 분량의 녹음으로 구성됩니다. 과제 I과 과제 II 모두 동일한 개발 세트를 공유합니다.
각 과제별로 Eval_1과 Eval_2로 지정된 서로 다른 평가 세트가 사용됩니다. 구체적으로 Eval_1에는 정확한 타임스탬프와 화자 레이블이 포함되어 WER/CER로 평가됩니다. Eval_2는 타임스탬프나 화자 레이블을 제공하지 않으므로, 인식 전에 화자 분리 시스템을 통해 긴 녹음을 분할해야 합니다.데이터 접근 방법
참가자는 데이터 사용 동의서에 서명하고 등록 양식을 제출하여 데이터셋에 접근할 수 있습니다. 제출 후 데이터 다운로드 링크가 이메일로 발송됩니다.
아래 제공된 링크를 통해 오픈소스 평가 데이터셋에 접근하고 다운로드할 수 있습니다. 다운로드 전 간단한 등록 양식 작성이 필요합니다. 신청이 승인되면 7일 이내에 이메일로 데이터셋 다운로드 링크가 제공됩니다.
개인 또는 학술 연구에서 본 데이터셋을 사용할 경우 출처를 명시해 주세요.
[ 등록 양식- 스폰서 데이터셋 신청 - 평가 데이터셋 다운로드]
본 챌린지에 참가하려면 모든 참가자가 다음 규정을 준수해야 합니다.
참가자들은 챌린지 시스템 설명 외에도 혁신적인 연구 결과, 실용적인 사례 연구 및 미래 지향적인 아이디어를 보여주는 연구 논문을 제출하는 것이 권장됩니다. 관심 주제는 다음을 포함하나 이에 국한되지 않습니다:
등록된 참가자들은 학습 및 테스트 데이터셋에 접근할 수 있습니다. 참가자들은 데이터 사용 계약서(하단 참조)에 서명하고, 기밀 유지에 동의하며, 데이터 보호 계약을 준수해야 합니다. 데이터셋은 워크숍 챌린지 목적으로만 사용되어야 하며, 재배포 또는 기타 사용은 엄격히 금지됩니다. 참가자는 데이터를 무단 접근으로부터 보호할 책임이 있습니다.
참여를 위해서는 등록이 필요합니다. 서명된 데이터 사용 계약서를 업로드하고 등록 양식을 작성해 주세요. 챌린지는 2025년 3월 10일에 시작됩니다.
등록에 관한 기타 문의사항은 다음 이메일로 문의해 주세요:[email protected]
공식 이메일: [email protected]
Slack: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
1.챌린지 논문:
a. 참가자는 하나의 짧은 기술 설명 논문을 제출해야 합니다(팀이 두 과제 모두에 참여한 경우에도 동일).
b. 분량:본문 2-4페이지 + 참고문헌 1페이지
c. 내용 요구사항:
i. 제출물의 정확성과 규정 준수 여부를 확인할 수 있는 명확한 시스템 설명
ii. 재현성을 위한 상세 정보(사용된 오픈소스 데이터셋 및 모델, 데이터 증강 전략, 모델 아키텍처, 훈련 설정 등)
iii. 방법의 효과성을 입증하는 ablation 연구.
d. 모든 챌린지 참가자는 워크숍에서 발표 또는 포스터 발표를 해야 합니다.
2.비챌린지 논문:
a. 분량:본문 4페이지 + 참고문헌 1페이지.
b. 주제:챌린지 웹사이트에 명시된 주제를 포함하되 이에 국한되지 않음.
3. 작성 양식:
모든 제출물에는 Interspeech 2022 LaTeX 작성 키트를 사용해 주세요. 심사를 single-blind로 유지하기 위해 2022년 작성 키트를 사용합니다.
(https://www.interspeech2022.org/files/IS2022_paper_kit.zip)
4.제출 포털:
a.CMT 컨퍼런스 시스템을 통해 논문을 제출해 주세요
b.본 컨퍼런스의 심사 과정 관리를 위해 Microsoft CMT 서비스를 사용하며, 이는 Microsoft가 무료로 제공하며 Azure 클라우드 서비스 및 소프트웨어 개발과 지원 비용을 부담합니다.
총 상금: $20,000 , (Huawei Technologies 후원)
각 과제별 상위 팀 시상:
MLC-SLM Task I
| Username | WER/CER | No. | Team Name | Institution |
|---|---|---|---|---|
| tenp1 | 9.6 | 1 | TENP | Tencent Ethereal Audio Lab |
| sixteen-years | 9.67 | 2 | sixteen-years | Chinese Academy of Sciences |
| t-asr | 9.83 | 3 | T-ASR | SHENZHEN TRANSSION HOLDINGS CO.,LTD. |
| megaais | 10.08 | 4 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| maxiaoai | 10.56 | 5 | MaXiaoAl | Mashang Consumer Finance Co., Ltd. (MSCF) |
| ntu_speechlab | 10.58 | 6 | NTU-Speechlab | Nanyang Technological University |
| cheryfsai | 11.27 | 7 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| seewo | 11.57 | 8 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| daominhtri | 11.71 | 9 | Cake By VPBank | Cake By VPBank |
| maybe | 11.76 | 10 | May | Shanghai Normal University |
MLC-SLM Task II
| Username | tcpWER/tcpCER | No. | Team Name | Institution |
|---|---|---|---|---|
| megaais | 16.53 | 1 | MegaAIS | Megatronix (Beijing) Technology Co., Ltd. |
| tenp1 | 17.49 | 2 | TENP | Tencent Ethereal Audio Lab |
| seewo | 17.67 | 3 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| duke_kunshan | 18.08 | 4 | DKU | Duke Kunshan University |
| sixteen-years | 19.27 | 5 | sixteen-years | Chinese Academy of Sciences |
| cheryfsai | 26.3 | 6 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| saengthong | 27.25 | 7 | ST-ShinozakiLab | Institute of Science Tokyo |
| fosafer | 31.68 | 8 | FOSAFER_ RESEARCH | Beijing Fosafer Information Technology Co., Ltd. |
| voicecode | 55.96 | 9 | VoiceCode | VOICECODE TECHNOLOGY PTE. LTD. |
| 517517 | 59.4 | 10 | INFX | Zhejiang University |
참고: 각 과제별 상위 10개 팀만 목록에 기재됩니다. 팀 결과에 관한 문의는 운영위원회에 연락주시기 바랍니다.
네덜란드 로테르담, 로테르담 아호이 컨벤션 센터 Dock 14
등록비: € 50
Lei Xie, Northwestern Polytechnical University 교수(중국)
Shinji Watanabe, Carnegie Mellon University 부교수(미국)
Eng Siong Chng, Nanyang Technological University 교수(싱가포르)
Junlan Feng, IEEE 펠로우 & China Mobile 수석 과학자(중국)
Shuai Wang, Nanjing University 연구원(중국)
Longshuai Xiao, Huawei Technologies(중국)
Khalid Choukri, European Language Resources Association 사무총장(프랑스)
Qiangze Feng, Nexdata 공동창립자 & 데이터 과학자(미국)
Daliang Wang, Nexdata 데이터 과학자(미국)
Hexin Liu, Nanyang Technological University 박사후 연구원(싱가포르)
Pengcheng Guo, Northwestern Polytechnical University 박사과정(중국)
Bingshen Mu, Northwestern Polytechnical University 박사과정(중국)
Zhaokai Sun, Northwestern Polytechnical University 석사과정(중국)




