以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供针对 中文(简体) 的关键词提取服务。关键词提取(Keyword Extraction) 是从文本中将与文本意义最相关的一些词抽取出来的技术。早期在全文搜索还未普及时,其在搜索检索领域扮演着不可或缺的角色,随着nlp的发展,关键词提取在文本聚类、分类、摘要等领域中继续起着重要的作用。
该能力是通过HTTP API的方式给开发者提供一个通用的接口,适用于一次性交互数据传输的AI服务场景。相较于SDK,API具有轻量、跨语言的特点,不过请注意该接口使用的HTTP API协议不支持跨域。
示例demo 请点击 这里 下载。
目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。
集成关键词提取API时,需按照以下要求。
内容 | 说明 |
---|---|
请求协议 | http[s] (为提高安全性,强烈推荐https) |
请求地址 | http[s]: //ltpapi.xfyun.cn/v1/ke 注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用 |
请求方式 | POST |
接口鉴权 | 签名机制,见授权认证 |
字符编码 | UTF-8 |
响应格式 | 统一采用JSON格式 |
开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 |
适用范围 | 任意操作系统,但因不支持跨域不适用于浏览器,请在后端调用接口 |
文本语种 | 中文简体 |
文本长度 | 不超过30000字节 |
注: 若需配置IP白名单,请前往控制台。IP白名单规则请参照 IP白名单。
接口地址示例:
POST http[s]://ltpapi.xfyun.cn/v1/ke HTTP/1.1
Content-Type:application/x-www-form-urlencoded; charset=utf-8
在调用该业务接口时
IP白名单规则
{
"code":"10105",
"desc":"illegal access|illegal client_ip",
"data":"",
"sid":"xxxxxx"
}
在 Http Request Header 中配置以下参数。
以下参数用于授权认证:
参数 | 格式 | 说明 | 必须 |
---|---|---|---|
X-Appid | string | 讯飞开放平台注册申请应用的应用ID(appid) | 是 |
X-CurTime | string | 当前UTC时间戳 从1970年1月1日0点0 分0 秒开始到现在的秒数 | 是 |
X-Param | string | 相关参数JSON串经Base64编码后的字符串,详见业务参数 | 是 |
X-CheckSum | string | 令牌,计算方法:MD5(APIKey + X-CurTime + X-Param),三个值拼接的字符串,进行MD5哈希计算(32位小写) | 是 |
注:
*X-CheckSum *生成示例:
String APIKey="abcd1234";
String X-CurTime="1502607694";
String X-Param="eyAiYXVmIjogImF1ZGlvL0wxNjtyYXR...";
String X-CheckSum=MD5(apiKey + X-CurTime + X-Param);
X-Param 为各配置参数组成的 JSON 串经 BASE64 编码之后的字符串,原始 JSON 串各字段说明如下:
参数 | 类型 | 必填 | 说明 | 示例 |
---|---|---|---|---|
type | string | 是 | 服务类型,调用关键词提取功能固定为dependent | dependent |
X-Param生成示例:
原始JSON串:
{
"type": "dependent"
}
BASE64编码(即X-Param):
eyJ0eXBlIjoiZGVwZW5kZW50In0=
以POST表单的形式提交以下参数:
参数 | 类型 | 必须 | 说明 |
---|---|---|---|
text | string | 是 | 待分析文本(中文简体),长度限制为30000字节 |
文档所用的text参数示例:
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
返回值为json串,各字段如下:
参数 | 类型 | 说明 |
---|---|---|
code | string | 结果码(具体见SDK&API错误码查询) |
data | json对象 | 关键词提取结果 |
desc | string | 错误描述,会话成功为success |
sid | string | 会话ID,用来唯一标识本次会话,如会话报错无法解决,可以提供 sid 给讯飞技术人员分析解决。 |
data中各字段说明如下:
标记 | 说明 |
---|---|
word | 关键词 |
score | 候选词成为关键词的概率 |
注意:如果data中ke字段内容为空,则表示输入的文本过于简短或者意义不明确,导致引擎无法提取出关键字。
结果示例如下:
失败结果:
{
"code": "10105",
"desc": "illegal access|invalid X-Appid",
"data": {},
"sid": "ltp0000a744@ch78290eb1e128000100"
}
成功结果:
{
"code": "0",
"data": {
"ke": [
{
"score": "0.598",
"word": "计算机"
},
{
"score": "0.590",
"word": "自然"
},
{
"score": "0.581",
"word": "科学"
},
{
"score": "0.570",
"word": "语言学"
},
{
"score": "0.570",
"word": "领域"
},
{
"score": "0.561",
"word": "研究"
},
{
"score": "0.561",
"word": "处理"
},
{
"score": "0.553",
"word": "通信"
},
{
"score": "0.550",
"word": "人工智能"
},
{
"score": "0.550",
"word": "系统"
}
]
},
"desc": "success",
"sid": "ltp00000001@dx4a810f1a863f000100"
}
答:关键词提取是把文本中包含的信息进行结构化处理,并将提取的信息以统一形式集成在一起。
答:目前关键词提取支持Web api应用平台。
答:请检查appid,apiKey,ip白名单,checkSum等授权参数是否正确。
答:登录讯飞开放平台后,进入关键词提取页面,点击“服务管理”,添加IP白名单,下载相应的demo,填写appid和apikey即可调用Web api接口。