实时语音转写-讯飞开放平台

产品优势

准确率高，高效稳定

行业先进的语音识别技术，通用语音识别率98%（注：安徽电子产品监督检验所检测，报告编号151209010027）

语义理解，智能纠错

针对上下文进行语义理解，将中间结果进行智能纠错，确保识别的高准确率

快速响应，毫秒级返回

对于音频流实现毫秒级识别，并返回带有时间戳的文字流，便于二次开发

个性热词，效果优化

无需算法开发，简单上传常用词句。优化识别效果，提高专业用语识别准确率

格式转化，标点智能预测

对数字、日期、时间等返回格式化文本，根据对话语境，智能断句并匹配标点符号

多方言，多语种

支持12种方言、8大语种和2个民族语言，提供通用方言、中英文混合识别以适应复杂的语言环境

应用场景

视频直播字幕

将视频、现场直播场景中的音频实时转换成文字，用于实时字幕展示，提升直播效果

实时会议记录

将视频、电话会议场景中每个人的语音实时记录，防止错过重要内容，提高会议效率

智能外呼&客服

将客服通话记录实时转成文字，用于电话质检和客户信息同步，也为数据挖掘提供原料

演讲字幕同屏

在线上、线下演讲场景中用于屏幕上实时展示嘉宾演讲字幕，动态识别并智能纠正内容

产品价格

套餐一

按时长套餐计费

时长

20小时

有效期

一年

方言/语种

中英文

套餐二

按时长套餐计费

时长

200小时

有效期

一年

方言/语种

中英文

套餐三

按时长套餐计费，赠送3个方言/语种

时长

1000小时

有效期

一年

方言/语种

额外赠送3个

套餐四

按时长套餐计费, 赠送5个方言/语种

时长

3000小时

有效期

一年

方言/语种

额外赠送5个

商务定制

有特殊环境或功能需求的客户

私有化部署

个性化功能

专属并发

定制方言/语种

不限时长

商务优惠

温馨提示：

1、默认支持中文、英文、中英混合识别；购买套餐三可领取3个方言/语种，购买套餐四可领取5个方言/语种；购买套餐后，可在控制台领取所需方言/语种；购买多个套餐的情况下，赠送的方言/语种数量不叠加；

2、购买时长套餐，默认支持10路并发，若需要更多并发或者一次性购买量较大，可进行商务合作申请；

3、时长套餐与并发套餐成本计算方式不同，暂不提供套餐转换功能，请根据您的需要选择。

方言语种

方言

语种

民族语言

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

类型

温馨提示：

1、默认支持中文、英文、中英混合识别；中文包含普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；

2、西南官话包含云南话、贵州话、重庆话、四川话；

3、购买时长套餐，可在控制台领取方言/语种；藏语和维语不参与套餐赠送。

技术规格

输入

接口输入规格

形式：

实时音频流

声道：

单声道

支持格式：

PCM

采样率：

16KHz

采样精度：

16bits

输出

接口输出规格

形式：

JSON格式字符串

编码：

UTF-8

结果：

句子开始&结束时间&词识别内容&词标识&词开始时间&词结束时间&结果类型标识&段落ID，整句的中间结果，整句的最终结果

注：

1、文法格式智能转换包括电话号码、车牌、日期、时间以及量词的规整，如“五点三十”引擎会识别规整为“5:30”。

2、词属性包括：普通词；语气犹豫词，如“嗯”、“啊”、“呃”或者无意义的重复词等；标点符号，如“，”等。

3、如您是无编程基础的个人用户，可前往讯飞听见官网使用

开发者资源

WebAPI

可直接调用的WebAPI接口，具备流式传输能力，具备轻量、跨平台的特点

常见问题

1、 “已录制音频转写”和“实时音频流转写”的区别是？

实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现；

已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时。

非实时语音转写已上线，欢迎使用。

2、实时语音转写支持什么语言？

默认支持中文、英文、中英混合识别；中文包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：中文、英语、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

3、实时语音转写支持的音频时长有什么限制？

实时语音转写可以实时识别持续的音频流，结果是实时返回，音频流长度理论上不做限制，典型的应用场景是要求展示实时字幕的会议或直播。

4、实时语音转写支持并发吗？

支持，默认10路并发。

5、实时语音转写的分片时长40ms是什么意思？

可以理解为上传的间隔为40ms，建议音频流每40ms向服务器发送1280字节，发送过快可能导致引擎出错，音频发送间隔超时时间为15s，超时服务端报错并主动断开连接。

咨询

建议

售前在线咨询

加入官方社群

意见投诉

体验中心