科大讯飞发布语音大模型 首批37个主流语种效果超过 Whisper V3

2024-02-03 来源:互联网 网络编辑:编辑 阅读

有语种、有内容、有韵律、有音色、有情绪……1月30日,科大讯飞举办星火认知大模型V3.5升级发布会,展示大模型底层能力到应用场景的新发展,同时还重磅发布了“星火语音大模型”,带来万物互联时代人机对话的全新变革。

从创业之初,科大讯飞的梦想和使命就是要实现人机信息沟通无障碍,其25年来初心不改地在“智能语音”这条赛道上一路驰骋,持续走在世界前列。科大讯飞多年来在语音识别、语音合成等多领域始终保持源头技术创新迭代,并斩获大量国际权威赛事冠军。比如语音识别技术方面,科大讯飞蝉联多届国际多通道语音分离与识别大赛CHiME冠军,语音合成技术方面,科大讯飞获国际语音合成大赛Blizzard Challenge十四连冠。

在科大讯飞董事长刘庆峰看来,当下通用认知大模型带来了智能语音技术发展的全新机会,使语音识别可以进一步突破高噪、远场、多人说话等传统“鸡尾酒会”重大难题。“简单来说,借助大模型,我们让一段语音具备更加丰富的属性,有语种、有内容、有韵律、有音色,还有情绪。”刘庆峰解释。

根据发布会现场披露,星火语音大模型首批37个主流语种已超越OpenAI推出的Whisper V3;在多语种语音合成方面,星火语音大模型的首批40个语种平均MOS分绝对提升0.25,拟人度超83,在智能语音技术方面保持国际领先水平。

星火语音大模型的发布,也再次彰显科大讯飞在智能语音方面的技术顶尖实力,大模型为语音技术的发展带来了新的机遇,在通用人工智能时代,科大讯飞依旧再次夯实语音王者地位。

目前,星火语音大模型已经向开发者完全开放,并且首发搭载在讯飞翻译机上面,让翻译机从纯文本到文本的翻译工具,变成带来丰富帮助的实用工具。

“它不仅支持80多个语种,还新上线了多语种自动识别和增强式翻译两个重要功能,大幅延伸了我们翻译的场景,不论是旅游景点、美食还是到各种文化艺术展馆,都可以使用。”结合科大讯飞研究院院长刘聪的现场演示,刘庆峰介绍,多语种自动识别可支持35种语言,为跨语言沟通提质增效;增强式翻译提供中英双语服务,让翻译机化身AI翻译助手,跨语言交流更加省心出彩。翻译机即将上线的多语种自动识别和增强式翻译两个重要功能,将分别于今年1月底和3月中旬完成升级。

除了助力国际沟通,星火语音大模型还能“百搭”更多场景,赋能实际应用。刘庆峰介绍,在汽车、客服、家庭、陪伴机器人等场景中,星火语音大模型还有更多用武之地,带来人机交互变革。如赋能汽车,智能驾舱、智能座舱、智能导航、音乐控制等交互体验将进一步优化;陪伴机器人、导购机器人、辅诊机器人、智能家居、穿戴式设备等产业也将随着语音大模型的赋能进一步被引爆。

在发布会现场,刘庆峰用一段AI客服的视频演示,生动展现了星火语音大模型超拟人对话和更深度的理解力,可极大提升后台客服的能力。“我相信,万物互联时代在新技术的推动下,全新的语音大模型会赋能整个行业,极大地推动我们的产业升级。”刘庆峰说道。

分享到:
至顶 反馈 至底