科大讯飞发布语音大模型首批37个主流语种效果超过 Whisper V3

2024-02-03 来源：互联网网络编辑：编辑阅读次

有语种、有内容、有韵律、有音色、有情绪……1月30日，科大讯飞举办星火认知大模型V3.5升级发布会，展示大模型底层能力到应用场景的新发展，同时还重磅发布了“星火语音大模型”，带来万物互联时代人机对话的全新变革。

从创业之初，科大讯飞的梦想和使命就是要实现人机信息沟通无障碍，其25年来初心不改地在“智能语音”这条赛道上一路驰骋，持续走在世界前列。科大讯飞多年来在语音识别、语音合成等多领域始终保持源头技术创新迭代，并斩获大量国际权威赛事冠军。比如语音识别技术方面，科大讯飞蝉联多届国际多通道语音分离与识别大赛CHiME冠军，语音合成技术方面，科大讯飞获国际语音合成大赛Blizzard Challenge十四连冠。

在科大讯飞董事长刘庆峰看来，当下通用认知大模型带来了智能语音技术发展的全新机会，使语音识别可以进一步突破高噪、远场、多人说话等传统“鸡尾酒会”重大难题。“简单来说，借助大模型，我们让一段语音具备更加丰富的属性，有语种、有内容、有韵律、有音色，还有情绪。”刘庆峰解释。

根据发布会现场披露，星火语音大模型首批37个主流语种已超越OpenAI推出的Whisper V3；在多语种语音合成方面，星火语音大模型的首批40个语种平均MOS分绝对提升0.25，拟人度超83，在智能语音技术方面保持国际领先水平。

星火语音大模型的发布，也再次彰显科大讯飞在智能语音方面的技术顶尖实力，大模型为语音技术的发展带来了新的机遇，在通用人工智能时代，科大讯飞依旧再次夯实语音王者地位。

目前，星火语音大模型已经向开发者完全开放，并且首发搭载在讯飞翻译机上面，让翻译机从纯文本到文本的翻译工具，变成带来丰富帮助的实用工具。

“它不仅支持80多个语种，还新上线了多语种自动识别和增强式翻译两个重要功能，大幅延伸了我们翻译的场景，不论是旅游景点、美食还是到各种文化艺术展馆，都可以使用。”结合科大讯飞研究院院长刘聪的现场演示，刘庆峰介绍，多语种自动识别可支持35种语言，为跨语言沟通提质增效；增强式翻译提供中英双语服务，让翻译机化身AI翻译助手，跨语言交流更加省心出彩。翻译机即将上线的多语种自动识别和增强式翻译两个重要功能，将分别于今年1月底和3月中旬完成升级。

除了助力国际沟通，星火语音大模型还能“百搭”更多场景，赋能实际应用。刘庆峰介绍，在汽车、客服、家庭、陪伴机器人等场景中，星火语音大模型还有更多用武之地，带来人机交互变革。如赋能汽车，智能驾舱、智能座舱、智能导航、音乐控制等交互体验将进一步优化；陪伴机器人、导购机器人、辅诊机器人、智能家居、穿戴式设备等产业也将随着语音大模型的赋能进一步被引爆。

在发布会现场，刘庆峰用一段AI客服的视频演示，生动展现了星火语音大模型超拟人对话和更深度的理解力，可极大提升后台客服的能力。“我相信，万物互联时代在新技术的推动下，全新的语音大模型会赋能整个行业，极大地推动我们的产业升级。”刘庆峰说道。

相关新闻

科大讯飞发布语音大模型首批37个	十年生态先锋！领峰贵金属喜提「
龙年喜聚遇见好彩头莉婕X艺龙旅	建设充电站，想要盈利能力更强且
剔除Yeezy影响，阿迪达斯2023年货币	樊文花首届中式手法大赛巅峰之战
金融与法律的完美结合，老高的翻	原来金融老高是靠法律翻身的
中建八局浙江公司江河汇12号地块项	威努特与伟仕佳杰正式达成战略合
老铁!注意防冻!——零下30度:长城润	平安壹钱包“聚合加油平台”加速
携手向前日立建机举办2023年度中国	闲置交易成“新身份”标识，95分
2024撬动企业战略大会即将强势来袭	恭喜长兴制药通过2023年湖州市知识
老高的转型密码：金融+法律=成功	简一实景案例：别墅已经OUT了，大
唐宋陶业有限公司：专属耀州，陶	润祥生态之源—金银花茶

科大讯飞发布语音大模型首批37个主流语种效果超过 Whisper V3

相关新闻

新闻热点榜

推荐文章

特别推荐

科大讯飞发布语音大模型 首批37个主流语种效果超过 Whisper V3

相关新闻

新闻热点榜

推荐文章

特别推荐

科大讯飞发布语音大模型首批37个主流语种效果超过 Whisper V3