歌曲识别技术分为歌曲原声识别以及哼唱识别。歌曲原声识别通过听筒收集音乐播放信息,生成音频指纹,在曲库中识别到对应的歌曲。 哼唱识别通过用户对着话筒哼唱小段歌曲,系统自动识别并检索出所哼唱的歌曲。现仅支持哼唱识别,原声识别效果仍在优化中,暂时未能开放,敬请期待。
调用歌曲识别的哼唱接口可以得到哼唱歌曲的一组歌名和歌手。该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景,即将音频一次性发送至云端,块式传输。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域。
示例demo请点击 这里 下载。
目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。
集成歌曲识别API时,需按照以下要求。
内容 | 说明 |
---|---|
请求协议 | http[s] (为提高安全性,强烈推荐https) |
请求地址 | http[s]: //webqbh.xfyun.cn/v1/service/v1/qbh 注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用 |
请求方式 | POST |
接口鉴权 | 签名机制,见授权认证 |
字符编码 | UTF-8 |
响应格式 | 统一采用JSON格式 |
开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 |
适用范围 | 任意操作系统,但因不支持跨域不适用于浏览器,请在后端调用接口 |
音频属性 | 采样率16k或8k、位长16bit、单声道 |
音频格式 | PCM、WAV、AAC,样例音频可点击 这里 下载 |
音频大小 | 不超过2M |
注: 若需配置IP白名单,请前往控制台。IP白名单规则请参照 IP白名单。
接口地址示例:
POST http[s]://webqbh.xfyun.cn/v1/service/v1/qbh
在调用该业务接口时
IP白名单规则
{
"code":"10105",
"desc":"illegal access|illegal client_ip",
"data":"",
"sid":"xxxxxx"
}
在 Http Request Header 中配置以下参数。
以下参数用于授权认证:
参数 | 格式 | 说明 | 必须 |
---|---|---|---|
X-Appid | string | 讯飞开放平台注册申请应用的应用ID(appid) | 是 |
X-CurTime | string | 当前UTC时间戳 从1970年1月1日0点0 分0 秒开始到现在的秒数 | 是 |
X-Param | string | 相关参数JSON串经Base64编码后的字符串,详见业务参数 | 是 |
X-CheckSum | string | 令牌,计算方法:MD5(APIKey + X-CurTime + X-Param),三个值拼接的字符串,进行MD5哈希计算(32位小写) | 是 |
注:
*X-CheckSum *生成示例:
String APIKey="abcd1234";
String X-CurTime="1502607694";
String X-Param="eyAiYXVmIjogImF1ZGlvL0wxNjtyYXR...";
String X-CheckSum=MD5(apiKey + X-CurTime + X-Param);
X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串,原始 JSON 串各字段说明如下:
参数 | 类型 | 必须 | 说明 | 示例 |
---|---|---|---|---|
engine_type | string | 是 | 引擎类型,可选值:afs(哼唱) | afs |
aue | string | 否 | 音频编码,可选值:raw(pcm、wav格式)、aac,默认raw | raw |
sample_rate | string | 否 | 采样率,可选值:8000、16000,默认16000,aue是aac,sample_rate必须是8000 | 8000 |
audio_url | string | 否 | 哼唱音频存放地址url | 示例 |
X-Param生成示例:
原始JSON串:
{
"aue": "raw",
"sample_rate":"16000"
}
BASE64编码(即X-Param):
eyJlbmdpbmVfdHlwZSI6InNtczE2ayIsImF1ZSI6InJhdyJ9
以POST表单的形式提交以下参数:
将音频流二进制数据写入 Http Request Body 中
注:
音频数据可以通过两种方式进行传输。
1)客户端传输一个audio_url参数,服务端根据传输的audio_url去获取哼唱音频数据;
2)直接把哼唱音频二进制数据写入到Http Request Body中,通过http请求发送给服务端;
如果有audio_url参数则根据这个参数去获取音频数据而不会从http body中去取数据,只有当没有传audio_url参数,才会从http body中去取数据。
不论是上述哪种方式,音频大小都需要控制在2M以内,否则服务会报错10109。
返回值为 json 串,各字段如下:
参数 | 类型 | 说明 |
---|---|---|
code | string | 结果码(具体见SDK&API错误码查询) |
data | array | 哼唱检索结果 |
desc | string | 描述 |
sid | string | 会话ID |
其中 sid 字段主要用于追查问题,如果出现问题,可以提供 sid 给讯飞技术人员帮助确认问题。
示例如下:
失败:
{
"code":"10107",
"data":[],
"desc":"illegal parameter|10107",
"sid":"wbh00000003@ch25a90e5dac692a0100"
}
成功:
{
"code":"0",
"data":[
{
"song":"千里之外",
"song_id":"6433782",
"singer":"周杰伦",
"singer_id":"313264",
"start_time":245,
"end_time":33340
},
{
"song":"千里之外",
"song_id":"5233627",
"singer":"刘芳",
"singer_id":"347675",
"start_time":1200,
"end_time":16440
},
{
"song":"千里之外",
"song_id":"5625263",
"singer":"费玉清",
"singer_id":"278025",
"start_time":1350,
"end_time":18290
}
],
"desc":"success",
"sid":"wbh00000eff@ch676e0e61c4562a0100"
}
注: 音频文件格式转换工具请参考这里 音频格式说明
答:歌曲识别技术分为歌曲原声识别以及哼唱识别。歌曲原声识别通过听筒收集音乐播放信息,生成音频指纹,在曲库中识别到对应的歌曲。 哼唱识别通过用户对着话筒哼唱小段歌曲,系统自动识别并检索出所哼唱的歌曲。
答:目前歌曲识别只支持Web API应用平台。
答:可以的,登录讯飞开放平台---控制台---我的应用(没有应用先创建一个应用)---语音扩展---歌曲识别(可免费调用Web api接口500次服务量)。