语音转写-讯飞开放平台

产品优势

准确率高，高效稳定

行业先进的语音识别技术，通用语音识别率98%（注：安徽电子产品监督检验所检测，报告编号151209010027）

个性热词，效果优化

无需算法开发，简单上传常用词句。优化识别效果，提高个性化准确率

格式转化，标点预测

对数字、日期、时间等返回格式化文本，根据对话语境，智能断句并匹配标点

方言语种，高效识别

支持除中英文外的多方言语种识别，适应复杂的语言环境

应用场景

电话销售&客服

将坐席大量录音文件转成文字，帮助电话质检和信息同步，也为数据挖掘提供原料基础

会议&访谈记录

将会议和访谈的音频转换成文字存稿，让后期的信息检索和整理更方便快捷

字幕生成

将视频中的音频进行语音识别并标记时间戳，生成对应字幕，提升配置字幕效率

语音质检

可以从转写出的文字结果中搜索匹配相关词类，对黄暴/涉政内容进行高效鉴别

课堂录音分析

批量识别课堂录音文件，返回文本内容，快速分析教学内容，提升教学质量

产品价格

套餐一

按时长套餐计费

时长

20小时

有效期

一年

方言/语种

中英文

套餐二

按时长套餐计费

时长

200小时

有效期

一年

方言/语种

中英文

套餐三

按时长套餐计费，赠送3个方言/语种

时长

1000小时

有效期

一年

方言/语种

额外赠送3个

套餐四

按时长套餐计费, 赠送5个方言/语种

时长

3000小时

有效期

一年

方言/语种

额外赠送5个

商务定制

有特殊环境或功能需求的客户

私有化部署

个性化功能

专属并发

定制方言/语种

大量采购

商务优惠

温馨提示：

1、默认支持中文、英文、中英混合识别；购买套餐三可领取3个方言/语种，购买套餐四可领取5个方言/语种；购买套餐后，可在控制台领取所需方言/语种；购买多个套餐的情况下，赠送的方言/语种数量不叠加；

2、后台计量系统将根据使用情况，以秒为单位向上取整，进行使用量扣除；

3、以上套餐【仅针对开发者】用户调用接口时使用，如果您希望直接上传录音进行转文字，可访问讯飞听见官网

方言语种

方言

语种

民族语言

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

类型

温馨提示：

1、默认支持中文、英文、中英混合识别；中文包含普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；

2、西南官话包含云南话、贵州话、重庆话、四川话；

3、购买时长套餐，可在控制台领取方言/语种；藏语和维语不参与套餐赠送。

技术规格

输入

接口输入规格

形式：

已录制音频

声道：

单声道&多声道

支持格式：

wav,flac,opus,m4a,mp3

采样率：

8KHz,16KHz

采样精度：

8bits,16bits

输出

接口输出规格

形式：

JSON格式字符串

编码：

UTF-8

结果：

分词形式&完整句子形式，词&句置信息度词&句时间戳，词属性，多候选词，文法格式智能转换，多发音人分离

注：

1、文法格式智能转换包括电话号码、车牌、日期、时间以及量词的规整，如“五点三十”引擎会识别规整为“5:30”。

2、词属性包括：普通词；语气犹豫词，如“嗯”、“啊”、“呃”或者无意义的重复词等；标点符号，如“，”等。

3、语音转写的识别文字结果为异步获取，最长5小时之内获取。

4、语音转写引擎是适用于5小时以内的长音频识别，若您有大量1分钟以内的短音频需要识别，为了提高识别效率，建议使用语音听写服务。

5、使用本服务前请参阅实践指南，以获得更高的转写准确率。

开发者资源

WebAPI

可直接调用的WebAPI接口，具备流式传输能力，具备轻量、跨平台的特点

Java

Java平台智能语音SDK开发者资源，快速集成智能语音能力

视频教程

常见问题

1、 “语音转写 ”与 “语音听写 ”的区别是？

产品名称	支持的音频时长	使用场景
语音听写	一分钟以内	人机对话，如输入法、语音搜索
语音转写	五小时以内	更自然地贴近日常的对话、演讲

2、 “已录制音频转写”和“实时音频流转写”的区别是？

已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时；

实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现。

实时语音转写已上线，欢迎使用。

3、语音转写支持什么语言？

答：默认支持中文、英文、中英混合识别；中文包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：中文、英文、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

4、目前语音转写支持的音频格式为：

已录制音频（5小时内），wav,flac,opus,m4a,mp3，单声道&多声道；采样率：8KHz,16KHz

5、语音转写支不支持并发？

答：支持，要保证同一个appid每秒请求接口次数最大值在20次以下。

咨询

建议

售前在线咨询

加入官方社群

意见投诉

体验中心