Android、iOS、Windows、Linux、WebAPI。
- 英文口语评测:支持单词,句子,篇章等题型评测。
- 中文口语评测:支持字、词、句,篇章等题型评测。
对于所有评测题型,都只支持最长 3分钟 的语音输入。
sdk支持的音频类型是:单声道 16bit Inter PCM,支持的音频采样率是:16000HZ。 webapi支持类型参考webapi评测参数说明文档
不同的题型支持的多维度有所不同:
- 英文单词题型 支持总分、准确度分;文本中每个单词的打分。
- 英文句子题型 支持总分、准确度分、流畅度分、完整度分;每个分句的准确度分、流畅度分;每个单词的打分。
- 英文篇章题型 支持总分、准确度分、流畅度分、完整度分;每个分句的准确度分、流畅度分;每个单词的打分。
同一维度在不同题型中表示的含义基本相同。
- 准确度分,对朗读内容的正确程度进行评分。
- 流畅度分,对朗读的流利程度进行评分。
- 完整度分,针对有固定文本的试题,对朗读的完整性进行评分。
- 总分,对语音的总体评价,可以是各维度平均,或根据需要进行加权,也可以作为一个独立维度。
- 引擎将用户不按文本要求录入语音的行为称为“用户行为异常”。
- 引擎重点支持11类的异常场景检测,包括:乱说英文、乱说普通话、纯音乐、咳嗽、敲键盘、敲桌子、乱说方言、触碰话筒、唱歌、聊天、吹气等。除此之外的用户行为异常也能进行检测,具体效果需要视情况而定。同时还支持对音量过小,截幅,低信噪比的数据检测。
- 引擎将用户录音设备或者环境异常导致录入的语音异常称为“音质异常”。
- 引擎支持对音量过小,截幅,低信噪比的数据检测。当存在音质异常时,根据不同的异常程度,得分存在不同的置信度。
- 中文口语评测:支持字、词、句,篇章等题型评测。
- 评测试题和结果格式及字段含义详见 语音评测试题格式及结果说明 文档。
- 英文口语评测:支持单词,句子,篇章等题型评测。
- 评测试题和结果格式及字段含义详见 语音评测试题格式及结果说明 文档。
用户可通过试卷音标标注指定单词发音,以下是几个题型的示例,供参考。
英文句子题型
[content]
May I help you. Yes please. Does this sweater come in yellow.
[vocabulary]
help/hh eh l p/
英文单词题型
示例一:
[word]
kitchen
[vocabulary]
kitchen/'k ih - ch ih n/
示例二:
[word]
off
[vocabulary]
off/oo f | ao f/
示例三:
[word]
they
there
[vocabulary]
there/dh ar/
注:以上采用的音标均为讯飞音标,详细请参见 科大讯飞语音评测试题格式及结果说明 文档中评测结果格式 --> 音标对照表。
文本中的标点符号不能省略,否则会认为是非法格式。
常见错误码:28682(试卷内容有误),28693(试卷格式有误),28694(存在未登录词)
- 引擎支持多发音匹配,会自动匹配发音。如果匹配出是美式发音,就按美式发音进行评分;如果匹配出是英式发音,就按英式发音进行评分。
beg_pos 和 end_pos 标记了对应节点下内容在语音中的边界,单位是帧,每帧10ms,例如一个单词“word“,其 beg_pos = n1,end_pos = n2,那么在语音中,“word”的位置在 n110ms 到 n210ms。
- dp_message标记内容的切分信息,当值为0时,表示正常;值为16,表示漏读,值为32表示增读。
- 在解析效果的时候,如果遇到dp_message不为 0 的情况,要进行相应的处理。一般情况下,word节点下dp_message值为16的时候,相关的效果信息都会缺失;值为32的时候,会选择得分最高的word节点作为最终结果。
- 我们的单词音标兼顾了各种发音的可能,如果您的发音恰好是其中一种,但您的预期是不应该打高分时,就会产生误差,建议您自己定义该单词发音,具体使用方法请参见 试卷制作 中英文单词自定义发音。
- 我们的评分标准参考了每个音素的得分情况,对于发音相近的音素或单词,引擎会产生混淆。例如单词“about”和“above”,这样有可能造成打分不准。
- 对于极个别人的发音,由于声学模型限制,可能识别不准,所以导致评测也有可能不准。
如果,以上解答仍有疑问,可联系我们,提供相关音频数据和试卷内容,我们具体分析后再做答复。
- 评测结果中会给出 is_rejected 字段,当字段值为 true 时,说明此时是用户乱说导致的拒识,开发者可根据这个字段判断此次用户是否为乱说。
- 在拒识的同时依然会给出得分,因为目前识别乱说的准确率没有100%,所以存在误拒的情况。如果引擎给0分的话,也不合适。
- 引擎可以检测出来用户是乱说的,但无法保证一定是低分。所以说,如果引擎报出乱说,那么就可以认为评分已经不可信。这种情况下,开发者可以给用户显示 0 分,也可以在显示引擎分数的同时,给出乱说的检测结果。这个由开发者自己来决定哪一种方式更合适。
- 还有个属性字段 except_info,如果其属性值为28673(音量小/无语音),28680(信噪比低),28690(有截幅),则说明使用环境存在问题,打分也是不可信的。
其实这两者之间并没有严格的对应关系,以下对应关系仅供参考:
等级 | 五分制分值 | 百分制分值 |
---|---|---|
优 | 4.3分~5分 | 86分~100分 |
良 | 3.5分~4.2分 | 70分~85分 |
中 | 2.5分~3.4分 | 50分~69分 |
差 | 1.5分~2.4分 | 30分~49分 |
很差 | 0分~1.4分 | 0分~29分 |