en

Please fill in your name

Mobile phone format error

전화번호를 입력해 주세요

회사 이름을 입력해 주세요

회사 이메일을 입력해 주세요

데이터 요구사항을 입력해 주세요

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

데이터 요구사항은 5자 이상이며 숫자만으로 구성될 수 없습니다

MLC-SLM 워크숍 프로그램

일정 및 장소: 8월 22일, Dock 14 – 로테르담 아호이 컨벤션 센터

시간대 활동
8:30-9:00
배지 수령
9:00-10:00
기조 연설 1: Shinji Watanabe
다국어 음성 인식의 확장: 소수 언어에서 수천 개 언어로
10:00-10:30
커피 브레이크
10:30-11:00
챌린지 요약 및 시상식
11:00-12:00
구두 발표 세션:
1. Seewo의 MLC-SLM 제출: 음성 추론 언어 모델로부터 얻은 교훈,발표자: Bo Li (보 리)
2. MLC-SLM 2025 챌린지를 위한 Transsion 다국어 음성 인식 시스템,발표자: Xiaoxiao Li (샤오샤오 리)
3. Triple X: INTERSPEECH2025 MLC-SLM 챌린지를 위한 LLM 기반 다국어 음성 인식 시스템,발표자: Miaomiao Gao (미아오미아오 가오)
4. TEA-ASLP 시스템: MLC-SLM 2025 챌린지에서의 다국어 대화형 음성 인식 및 화자 분리,발표자: Hongfei Xue (홍페이 쉐)
12:00-13:00
점심 식사
13:00-14:00
기조 연설 2: Hung-yi Lee (홍이 리)
구어 언어 모델의 발전
14:00-14:30
구두 발표 세션:
1.ILT: Focus-Feedback-Fix를 통한 반복적 LoRA 훈련을 이용한 다국어 음성 인식, 발표자: Qingliang Meng (칭량 멩)
2.MLC-SLM 챌린지를 위한 BUT 시스템,발표자: Alexander Polok (알렉산더 폴록)
14:30-15:00
커피 브레이크
15:00-15:30
초청 발표 1: Ming Li (밍 리)
온라인 및 멀티모달 시나리오 하의 Sequence-to-Sequence 신경 화자 분리
15:30-16:00
초청 발표 2: Shuai Wang (슈아이 왕)
하나의 임베딩이 모든 것에 적합하지 않다: 다양한 음성 애플리케이션을 위한 화자 모델링 재고
16:00-16:30
초청 발표 3: Pan Pan (판 판)
데이터 부족의 극복: 다양한 훈련 단계에서 품질 중심 데이터 파이프라인 구축
16:30-17:30
포스터 발표 세션
워크숍 등록 채널:Interspeech 공식 등록 (등록 시 '다국어 대화형 음성 언어 모델 워크숍' 선택))링크 클릭
현장 등록 채널: 링크 클릭
등록 비용: €50등록된 참가자에게는 워크숍 당일 커피 브레이크와 점심 식사가 제공됩니다.
참고: 현장 등록 채널을 통해 등록하는 참가자의 경우, 현장에서 현금으로 결제해야 합니다.
기조 연설 1
Shinji Watanabe, 카네기 멜론 대학교, 부교수
다국어 음성 인식의 확장: 소수 언어에서 수천 개 언어로
Shinji Watanabe는 현재 미국 펜실베이니아주 피츠버그 소재 카네기 멜론 대학교의 부교수로 재직 중입니다. 그는 일본 도쿄의 와세다 대학교에서 공학 학사, 석사 및 박사 학위를 취득했습니다. 2001년부터 2011년까지 일본 교토의 NTT 커뮤니케이션 과학 연구소에서 연구원으로 근무했으며, 2009년에는 미국 조지아주 애틀랜타의 조지아 공과대학교에서 방문 학자를 역임했습니다. 2012년부터 2017년까지는 미국 매사추세츠주 캠브리지 소재 미쓰비시전기 연구소(MERL)에서 선임 수석 연구원으로 근무했습니다. 카네기 멜론 대학교 부임 전에는 2017년부터 2020년까지 미국 메릴랜드주 볼티모어의 존스 홉킨스 대학교에서 부연구교수로 재직했습니다. 그의 연구 관심 분야는 자동 음성 인식, 음성 향상, 구어 언어 이해 그리고 음성 및 언어 처리를 위한 기계 학습을 포함합니다. 그는 동료 심사 저널 및 학회에서 500편 이상의 논문을 발표했으며, 2024년 ISCA Interspeech 최우수 논문상을 비롯한 여러 상을 수상했습니다. 그는 IEEE Transactions on Audio Speech and Language Processing의 시니어 에디터입니다. 또한 APSIPA Speech, Language, and Audio 기술 위원회(SLA), IEEE Signal Processing Society Speech and Language 기술 위원회(SLTC), Machine Learning for Signal Processing 기술 위원회(MLSP) 등 여러 기술 위원회 위원으로 활동해 왔으며, 현재도 활동 중입니다. 그는 IEEE 및 ISCA 펠로우입니다.
기조 연설 2
Hung-yi Lee, 국립타이완대학교, 교수
구어 언어 모델의 발전
Hung-yi Lee는 국립타이완대학교 전기공학과 교수이며, 동 대학교 컴퓨터과학 및 정보공학과 겸임 교수로 재직 중입니다. 그의 최근 연구는 음성 처리(음성 변환 및 음성 인식 포함)와 자연어 처리(추상적 요약 및 질의응답 포함)를 위해 주석이 달린 데이터에 대한 요구 사항을 줄일 수 있는 기술 개발에 중점을 둡니다. 그는 2019년 Salesforce Research 딥러닝 연구비, 2020년 AWS 머신러닝 연구상을 수상했으며, 2018년에는 중국전기공학회 우수 청년 공학자 상, 2019년에는 우수학술진흥재단의 젊은 학자 혁신상, 2019년에는 대만 과학기술부의 Ta-You Wu 기념상, 그리고 대만 제59회 과학기술 연구개발 부문 10대 우수 청년상을 수상했습니다. 그는 딥러닝 기술을 가르치는 유튜브 채널을 운영하고 있으며, 30만 명 이상의 구독자를 보유하고 있습니다.
초청 발표 1
Ming Li, Duke Kunshan University, 교수
온라인 및 멀티모달 시나리오 하의 Sequence-to-Sequence 신경 화자 분리
Ming Li는 2013년 남캘리포니아 대학교에서 전기공학 박사 학위를 취득했습니다. 현재 Duke Kunshan University 자연응용과학부의 전자컴퓨터공학 교수이자 디지털혁신연구센터의 주임 연구원으로 재직 중입니다. 또한 Wuhan University 컴퓨터과학과의 겸임 교수입니다. 그의 연구 관심 분야는 오디오, 음성 및 언어 처리와 멀티모달 행동 신호 분석 및 해석입니다. 200편 이상의 논문을 발표했으며, IEEE 음성 및 언어 기술 위원회, APSIPA 음성 및 언어 처리 기술 위원회 위원으로 활동했습니다. Interspeech 2016, 2018, 2020, SLT 2022, Interspeech 2024, 2025, ASRU 2025에서 분과 의장을 역임했습니다. Odyssey 2022와 ASRU 2023의 기술 프로그램 공동 의장입니다. IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language, APSIPA Transactions on Signal and Information Processing의 편집 위원입니다. 동료들과 공동 집필한 논문은 Interspeech Computational Paralinguistic Challenges 2011, 2012, 2019, ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 및 2021 Fearless Steps Challenges, VoxSRC 2021, 2022, 2023 Challenges, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD challenge, ICME 2024 ChatCLR challenge, Interspeech 2024 AVSE challenge에서 1등상을 수상했습니다. 공동 저자로 DCOSS 2009와 ISCSLP 2014에서 최우수 논문상을, Interspeech 2024에서 최우수 논문 후보에 선정되었습니다. 2016년 IBM 펠로우 어워드, 2018년 ISCA Computer Speech and Language 5년간 최우수 저널 논문상, 2020년 중국 고등교육 우수 과학연구 성과 청년 업적상을 수상했습니다. IEEE 시니어 멤버입니다.
초청 발표 2
Shuai Wang, Nanjing University, 부교수
하나의 임베딩이 모든 것에 적합하지 않다: 다양한 음성 애플리케이션을 위한 화자 모델링 재고
Shuai Wang는 Nanjing University의 테뉴어 트랙 부교수이자 홍콩중문대학교 심천 캠퍼스의 겸임 교수입니다. 2020년 Shanghai Jiao Tong University에서 박사 학위를, 2014년 Northwestern Polytechnical University에서 학사 학위를 취득했습니다. Shuai Wang 박사는 화자 모델링 분야에서 60편 이상의 논문을 발표했으며, ICASSP 2018 IEEE Ramaswamy Grant, VoxSRC 2019 및 DIHARD 2019 1위 등 여러 영예를 받았습니다. 학계와 업계에서 널리 채택된 오픈소스 프로젝트 WeSpeaker와 WeSep의 창시자입니다.
초청 발표 3
Pan Pan, Nexdata AI 비즈니스, 디렉터
데이터 부족의 극복: 다양한 훈련 단계에서 품질 중심 데이터 파이프라인 구축
Nexdata의 선견지명을 가진 리더이자 운영 설계자인 Pan은 10년 이상의 AI 데이터 전문 지식을 바탕으로 LLM, 생성형 AI 및 전통적인 AI 모델을 위한 종단간(end-to-end) 솔루션을 제공하기 위해 정예 팀을 이끌고 있습니다. 그녀는 글로벌 규모의 다중 센서 데이터 수집, AI 기반 주석 처리, 그리고 전체 훈련 데이터 파이프라인을 간소화하는 통합 플랫폼을 결합하여 1,000개 이상의 프로젝트를 성공적으로 수행했습니다.

MLC-SLM 워크숍 발표 영상 다시보기

주요 발표

라이브 세션을 놓치셨나요? 이제 MLC-SLM 챌린지 워크숍의 영감을 주는 발표들을 다시 만나보실 수 있습니다. 다시보기 링크는 아래에 제공됩니다.

  • Shinji Watanabe (카네기 멜론 대학교)

    Topic: 주제: 다국어 음성 인식의 확장: 소수 언어에서 수천 개 언어로

    [다시보기]

  • Hung-yi Lee (국립타이완대학교)

    Topic: 주제: LLM이 듣고 말하도록 가르치기

    [다시보기]

  • Ming Li (Duke Kunshan University)

    Topic: 주제: 온라인 및 멀티모달 시나리오 하의 Sequence-to-Sequence 신경 화자 분리

    [다시보기]

  • Shuai Wang (Nanjing University)

    Topic: 주제: 하나의 임베딩이 모든 것에 적합하지 않다: 다양한 음성 애플리케이션을 위한 화자 모델링 재고

    [다시보기]

  • Pan Pan (Nexdata AI 비즈니스 디렉터)

    Topic: 주제: 데이터 부족의 극복: 다양한 훈련 단계에서 품질 중심 데이터 파이프라인 구축

    [다시보기]

최신 소식 받기

최신 다시보기 영상과 하이라이트를 위해 LinkedIn과 YouTube에서 저희를 팔로우하세요.

[LinkedIn 팔로우]

[YouTube 구독]

참고 사항

미디어 문의 또는 사용 승인 요청은 [email protected]로 연락 주시기 바랍니다.

배경 및 목적

대형 언어 모델(LLM)은 언어 이해와 생성을 위한 강력한 기초 모델로서 다양한 다운스트림 작업에서 뛰어난 능력을 입증해왔습니다. 최근에는 자동 음성 인식(ASR), 오디오 캡션, 그리고 구어 대화 모델과 같은 새로운 영역을 포함한 음성 및 오디오 처리 작업에 LLM을 적용하는 데 상당한 관심이 집중되고 있습니다.

그러나, 강력한 LLM 기반 구어 대화 모델의 개발은 인간 커뮤니케이션의 복잡성(자연스러운 휴지, 중단, 화자 겹침, 다양한 대화 스타일 등을 포함)을 담고 있는 실제 대화 음성 데이터에 크게 의존합니다. 특히 다국어 환경에서 이러한 데이터의 부족은 해당 분야의 발전에 큰 장애물로 작용하고 있습니다.

실제 대화 음성의 중요성은 기술적 발전을 넘어서서, 다국어이며 역동적이고 context가 풍부한 환경에서 자연스럽게 이해하고 응답할 수 있는 AI 시스템을 구축하는 데 필수적입니다. 이는 구어 대화가 주요 의사소통 수단이 되는 차세대 인간-AI 상호작용 시스템에 특히 중요합니다.

따라서, 본 챌린지 및 워크숍은 다국어 대화 음성 언어 모델(MLC-SLM) 구축 과제를 주최하고 실제 다국어 대화 음성 데이터셋을 공개함으로써 이러한 격차를 해소하는 것을 목표로 합니다.

과제 설정 및 평가

본 챌린지는 음성 언어 모델(SLM) 개발을 탐구하는 두 가지 과제로 구성됩니다:

과제 I: 다국어 대화형 음성 인식

목표: 다국어 LLM 기반 ASR 모델 개발

참가자에게는 각 대화에 대한 정답 분할 정보 및 화자 레이블 제공

다국어 대화 환경에서의 인식 정확도 최적화에 중점

과제 II: 다국어 대화형 음성 화자 분리 및 인식

목표: 화자 분리(누가 언제 말하는지 식별)와 인식(음성을 텍스트로 변환)을 모두 수행하는 시스템 개발

평가 시 사전 정보나 정답 정보 제공되지 않음(예: 미리 분할된 발화나 화자 레이블 없음)

파이프라인 기반 및 종단간 시스템 모두 허용

과제 I: 다양한 언어별 단어 오류율(WER) 또는 문자 오류율(CER)로 평가

과제 II:화자 분리 오류율(DER)과 연결된 최소 순열 WER/CER(tcpWER/tcpCER)로 평가.DER은 정답 주석과 화자 분리 결과 간의 최적 화자 ID 순열 결정에 사용.동일 화자의 인식 결과와 참조를 연결하여 tcpWER/tcpCER 계산.모든 제출물은 tcpWER/tcpCER 기준으로 순위 결정

중요 일정 (AOE 시간 기준)

    2025년 3월 10일: 참가 등록 시작

    2025년 3월 15일: 학습 데이터 공개

    2025년 4월 1일: 개발 세트 및 베이스라인 시스템 공개

    2025년 5월 15일: 평가 세트 공개 및 리더보드 오픈

    2025년 5월 30일: 리더보드 중단 및 논문 제출 시스템(CMT) 오픈

    2025년 6월 15일: 논문 제출 마감

    2025년 7월 1일: 논문 수락 통지

    2025년 8월 22일: 워크숍 개최일

데이터셋 설명

학습 세트

학습 세트는 약 11개 언어로 구성됩니다: 영어(en), 프랑스어(fr), 독일어(de), 이탈리아어(it), 포르투갈어(pt), 스페인어(es), 일본어(jp), 한국어(ko), 러시아어(ru), 태국어(th), 베트남어(vi)

    각 녹음은 무작위로 지정된 주제에 대한 2인 대화형 음성으로 구성

    대화는 자연스럽고 유창하며, 각 주제에 대한 의미 있는 대화 형식

    iPhone 등 모바일 기기를 이용한 조용한 실내 환경에서 녹음

    각 녹음에는 음성 인식 및 화자 분리 시스템 개발을 위한 정답 분할 정보 및 화자 레이블 제공

    과제 I과 과제 II는 동일한 학습 세트 공유

    영어 데이터셋은 영국, 미국, 호주, 인도, 필리핀 영어 등 다양한 지역의 약 500시간 분량

    기타 언어는 각각 약 100시간씩으로, 총 약 1,500시간의 다국어 대화 음성 데이터 구성

본 데이터셋은 언어적 다양성, 화자 변동성, 맥락적 이해라는 도전 과제를 해결하며 다국어 대화형 음성 언어 모델(MLC-SLM)의 학습 및 평가를 위한 풍부한 자원으로 설계되었습니다.

언어 데이터량(h) 언어 분류 샘플링 레이트 설명
영어 500 미국, 영국, 필리핀, 호주, 인도 등 5개 지역의 영어 액센트를 포함. 다양한 성별 및 연령대의 화자, 자연스러운 대화 스타일. 단어 오류율 2% 미만
100 미국 영어 16K
100 영국 영어 16K
100 필리핀 영어 16K
100 호주 영어 16K
100 인도 영어 16K
프랑스어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
독일어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
이탈리아어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
일본어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 문장 오류율 5% 미만.
한국어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 문장 오류율 5% 미만.
포루투갈어
(유럽)
100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
러시아어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
스페인어
(스페인)
100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.
태국어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 3% 미만.
베트남어 100 16k 모바일 기기로 녹음. 익숙한 주제를 선정하여 유창하고 자연스러운 대화 기록. 다양한 성별 및 연령대의 화자. 단어 오류율 2% 미만.

개발 세트

개발 세트는 학습 세트와 동일한 구성을 가지며, 각 언어별 약 4시간 분량의 녹음으로 구성됩니다. 과제 I과 과제 II 모두 동일한 개발 세트를 공유합니다.

평가 세트

각 과제별로 Eval_1과 Eval_2로 지정된 서로 다른 평가 세트가 사용됩니다. 구체적으로 Eval_1에는 정확한 타임스탬프와 화자 레이블이 포함되어 WER/CER로 평가됩니다. Eval_2는 타임스탬프나 화자 레이블을 제공하지 않으므로, 인식 전에 화자 분리 시스템을 통해 긴 녹음을 분할해야 합니다.데이터 접근 방법
참가자는 데이터 사용 동의서에 서명하고 등록 양식을 제출하여 데이터셋에 접근할 수 있습니다. 제출 후 데이터 다운로드 링크가 이메일로 발송됩니다.

오픈소스 접근

아래 제공된 링크를 통해 오픈소스 평가 데이터셋에 접근하고 다운로드할 수 있습니다. 다운로드 전 간단한 등록 양식 작성이 필요합니다. 신청이 승인되면 7일 이내에 이메일로 데이터셋 다운로드 링크가 제공됩니다.

인용 요구사항

개인 또는 학술 연구에서 본 데이터셋을 사용할 경우 출처를 명시해 주세요.

[ 등록 양식- 스폰서 데이터셋 신청 - 평가 데이터셋 다운로드]

규정

본 챌린지에 참가하려면 모든 참가자가 다음 규정을 준수해야 합니다.

외부 자원 사용: 트랙 I과 트랙 II 모두에서 외부 데이터셋과 사전 훈련된 모델(음성 기초 모델 및 LLM 포함) 사용이 허용됩니다. 사용된 모든 외부 자원은 모든 연구 그룹이 자유롭게 접근할 수 있어야 하며, 최종 시스템 보고서에 명확히 기재되어야 합니다.
데이터 증강:공개된 훈련 세트에서의 데이터 증강은 허용됩니다. 이는 잡음 또는 잔향 추가, 속도 변동, 음조 변환 등을 포함하나 이에 국한되지 않습니다.
평가 세트 사용 금지:어떠한 형태의 비준수 방식으로 평가 세트를 사용하는 것은 엄격히 금지됩니다. 여기에는 평가 세트를 모델 미세 조정이나 훈련에 사용하는 것이 포함되나 이에 국한되지 않습니다.
다중 시스템 융합: 참가자는 과제 I 또는 과제 II에서 시스템 융합을 사용할 수 없습니다. 제출된 결과는 결과 융합이 아닌 단일 모델에서 도출되어야 합니다.
제출 요구사항:모든 참가자는 자신의 시스템을 제출해야 합니다. 제출물에는 최종 결과, 모델 및 최종 결과를 도출하기 위해 직접 추론을 수행할 수 있는 Docker 등이 포함될 수 있습니다. 자세한 제출 안내는 베이스라인 구현체 공개 후 제공될 예정입니다. 참가를 확인했으나 어떠한 파일도 제출하지 않은 팀과 그 소속 기관의 이름은 공개될 것임을 유의하시기 바랍니다.
주최측의 해석권:주최측은 이러한 규정에 대한 최종 해석 권리를 보유합니다. 특별한 상황에서 주최측은 필요에 따라 해석을 조정할 것입니다.

기타 논문 주제

참가자들은 챌린지 시스템 설명 외에도 혁신적인 연구 결과, 실용적인 사례 연구 및 미래 지향적인 아이디어를 보여주는 연구 논문을 제출하는 것이 권장됩니다. 관심 주제는 다음을 포함하나 이에 국한되지 않습니다:

새로운 아키텍처 및 알고리즘: SLM 훈련을 위한 새로운 아키텍처 및 알고리즘 개발
오디오 데이터 처리 파이프라인 SLM 훈련을 위한 다양한 인터넷 데이터 수집을 용이하게 하는 원시 오디오 데이터 처리 혁신 파이프라인
자연스럽고 감정 표현이 풍부한 음성 생성:대화 시스템을 위해 보다 자연스럽고 감정 표현이 풍부한 대화 음성을 생성하도록 설계된 알고리즘.
다중 턴 대화 기록 활용:다중 턴 대화 기록을 활용하여 인식 및 화자 분리 결과를 향상시키는 접근법
평가 기술 및 벤치마크:SLM 평가에 특화된 혁신적인 평가 기술 또는 벤치마크
새로운 데이터셋:음성 및 오디오 언어 모델 훈련을 위한 실제 및 합성 데이터셋 생성.

데이터 접근 및 사용

등록된 참가자들은 학습 및 테스트 데이터셋에 접근할 수 있습니다. 참가자들은 데이터 사용 계약서(하단 참조)에 서명하고, 기밀 유지에 동의하며, 데이터 보호 계약을 준수해야 합니다. 데이터셋은 워크숍 챌린지 목적으로만 사용되어야 하며, 재배포 또는 기타 사용은 엄격히 금지됩니다. 참가자는 데이터를 무단 접근으로부터 보호할 책임이 있습니다.

데이터 라이선스 계약
데이터 사용 계약 - 넥스데이터

등록

참여를 위해서는 등록이 필요합니다. 서명된 데이터 사용 계약서를 업로드하고 등록 양식을 작성해 주세요. 챌린지는 2025년 3월 10일에 시작됩니다.

등록에 관한 기타 문의사항은 다음 이메일로 문의해 주세요:[email protected]

베이스라인 시스템

Github/MLC-SLM-Baseline

논문 제출 안내

1.챌린지 논문:

a. 참가자는 하나의 짧은 기술 설명 논문을 제출해야 합니다(팀이 두 과제 모두에 참여한 경우에도 동일).

b. 분량:본문 2-4페이지 + 참고문헌 1페이지

c. 내용 요구사항:
  i. 제출물의 정확성과 규정 준수 여부를 확인할 수 있는 명확한 시스템 설명
  ii. 재현성을 위한 상세 정보(사용된 오픈소스 데이터셋 및 모델, 데이터 증강 전략, 모델 아키텍처, 훈련 설정 등)
  iii. 방법의 효과성을 입증하는 ablation 연구.

d. 모든 챌린지 참가자는 워크숍에서 발표 또는 포스터 발표를 해야 합니다.

2.비챌린지 논문:

a. 분량:본문 4페이지 + 참고문헌 1페이지.

b. 주제:챌린지 웹사이트에 명시된 주제를 포함하되 이에 국한되지 않음.

3. 작성 양식:

모든 제출물에는 Interspeech 2022 LaTeX 작성 키트를 사용해 주세요. 심사를 single-blind로 유지하기 위해 2022년 작성 키트를 사용합니다.
(https://www.interspeech2022.org/files/IS2022_paper_kit.zip)

4.제출 포털:

a.CMT 컨퍼런스 시스템을 통해 논문을 제출해 주세요

b.본 컨퍼런스의 심사 과정 관리를 위해 Microsoft CMT 서비스를 사용하며, 이는 Microsoft가 무료로 제공하며 Azure 클라우드 서비스 및 소프트웨어 개발과 지원 비용을 부담합니다.

시상

총 상금: $20,000 , (Huawei Technologies 후원)

각 과제별 상위 팀 시상:

1등: $5,000
2등: $3,000
3등: $2,000

대회 결과

MLC-SLM Task I

Username WER/CER No. Team Name Institution
tenp19.61TENPTencent Ethereal Audio Lab
sixteen-years9.672sixteen-yearsChinese Academy of Sciences
t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO.,LTD.
megaais10.084MegaAISMegatronix (Beijing) Technology Co., Ltd.
maxiaoai10.565MaXiaoAlMashang Consumer Finance Co., Ltd. (MSCF)
ntu_speechlab10.586NTU-SpeechlabNanyang Technological University
cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
seewo11.578seewoGuangzhou Shirui Electronics Co., Ltd.
daominhtri11.719Cake By VPBankCake By VPBank
maybe11.7610MayShanghai Normal University

MLC-SLM Task II

Username tcpWER/tcpCER No. Team Name Institution
megaais16.531MegaAISMegatronix (Beijing) Technology Co., Ltd.
tenp117.492TENPTencent Ethereal Audio Lab
seewo17.673seewoGuangzhou Shirui Electronics Co., Ltd.
duke_kunshan18.084DKUDuke Kunshan University
sixteen-years19.275sixteen-yearsChinese Academy of Sciences
cheryfsai26.36Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
saengthong27.257ST-ShinozakiLabInstitute of Science Tokyo
fosafer31.688FOSAFER_
RESEARCH
Beijing Fosafer Information Technology Co., Ltd.
voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE. LTD.
51751759.410INFXZhejiang University

참고: 각 과제별 상위 10개 팀만 목록에 기재됩니다. 팀 결과에 관한 문의는 운영위원회에 연락주시기 바랍니다.

개최 장소

네덜란드 로테르담, 로테르담 아호이 컨벤션 센터 Dock 14

워크숍 참가 등록비

등록비: € 50

주최자

    Lei Xie, Northwestern Polytechnical University 교수(중국)

    Shinji Watanabe, Carnegie Mellon University 부교수(미국)

    Eng Siong Chng, Nanyang Technological University 교수(싱가포르)

    Junlan Feng, IEEE 펠로우 & China Mobile 수석 과학자(중국)

    Shuai Wang, Nanjing University 연구원(중국)

    Longshuai Xiao, Huawei Technologies(중국)

    Khalid Choukri, European Language Resources Association 사무총장(프랑스)

    Qiangze Feng, Nexdata 공동창립자 & 데이터 과학자(미국)

    Daliang Wang, Nexdata 데이터 과학자(미국)

    Hexin Liu, Nanyang Technological University 박사후 연구원(싱가포르)

    Pengcheng Guo, Northwestern Polytechnical University 박사과정(중국)

    Bingshen Mu, Northwestern Polytechnical University 박사과정(중국)

    Zhaokai Sun, Northwestern Polytechnical University 석사과정(중국)

후원사

미디어 파트너

7199df46-5c5d-4582-87ae-65d05b137341