智能多媒体服务 > API 文档 > 智能语音 >一句话识别

一句话识别

最近更新时间: 2021-11-29 17:14:27

一句话识别可对60s之内的语音进行识别，针对请求的语音返回文本，适用于语音消息转文字、语音输入法等时间较短的语音交互场景，使用前需提交工单开通，暂不支持直接开放使用。

请求参数

请求URL: https://audio-recognition.qiniuapi.com/?cmd=sync

请求方式: POST

请求 Header:

字段	取值
Content-Type	application/json
Authorization	Qiniu <AccessKey>:<Sign> 注意: 用户请根据 AccessKey 和 SuccessKey 生成鉴权，以便进行身份验证。<Sign> 的取值请参考七牛鉴权

请求 Body:

字段	类型	是否必选	说明
voice_id	string	Y	语音流id
format	string	N	音频文件格式，支持 wav、mp3 等常见格式
need_words	int32	N	是否需要返回词的时间信息，0:不需要;1:需要。默认0
need_dia	int32	N	是否需要对单通道文件做说话人分离，0:不需要;1:需要。默认0
need_role	int32	N	是否需要角色识别，0:不需要;1:需要。目前识别两个角色，”C”: 客户; “S”:客服
audio	string	Y	base64encode后的音频数据，最大支持 100MB
model_type	string	N	模型id，默认"0"。 0: 普通话; en: 英语; cantonese: 粤语; cn_en_16k: 中英混合
hot_words	list[hot_word]	N	用户自定义热词，最多100词，每个热词40字节以内

hot_word

字段	类型	是否必选	说明
hot_word	string	Y	去除特殊符合的热词
factor	float	Y	热词权重；范围[-10,10];正数为增加权重，负数为减少权重；绝对值越大调整越多；推荐1.0

返回参数

字段	类型	说明
ret	int32	返回标志码，0为正常，否则异常，详见下文
msg	string	错误信息说明
all_text	string	文件所有解码文本
c_text	string	文件解码客户文本
s_text	string	文件解码客服文本
texts.chan_no	int32	文本片段通道编号
texts.seg_no	int32	文本片段编号
texts.mbtm	int32	文本片段起始时间，毫秒
texts.metm	int32	文本片段终止时间，毫秒
texts.text	string	文本
texts.words	jsonArray	词时间信息
texts.words.word	string	词本身
texts.words.seg_start	float32	毫秒，当前词在该分段中的起始位置
texts.words.seg_end	float32	毫秒，当前词在该分段中的结束位置
texts.words.voice_start	float32	毫秒，当前词在该文件中的起始位置
texts.words.voice_end	float32	毫秒，当前词在该文件中的结束位置

API 示例

请求示例

POST /?cmd=sync HTTP/1.1
Host: audio-recognition.qiniuapi.com
Content-Type: application/json
Authorization: Qiniu xxxxxxx

{
    "voice_id":"test_voice",
    "audio": "base64_encode_audio"
}

返回示例

HTTP/1.1 200 OK
Content-Type: application/json

{
    "ret":0,
    "msg":"success",
    "all_text":"测试语音\n",
    "c_text":"",
    "s_text":"",
    "duration":7.275000095367432,
    "texts":[
        {
            "chan_id":0,
            "seg_no":0,
            "mbtm":0,
            "metm":7279,
            "text":"测试语音。",
            "role":"unk"
        }
    ]
}

错误码

ret 值	含义
0	成功
100	传入参数错误
101	识别服务异常
102	获取音频失败
103	识别错误返回
105	识别返回空
106	识别返回超时
107	文件为空
114	文本后处理失败
119	可能传入音频数据有误
120	音频格式不支持
1000	错误的请求包
1001	Speex解码错误
1003	声纹服务异常
1004	音频格式转换失败

价格

每月用量（千次）	单价（元/千次）
0~8999	3
9000~29999	2.5
30000~89999	2
90000~149999	1.5
150000以上	1

以上内容是否对您有帮助？