智能多媒体服务

  • 智能多媒体 > API 文档 > Open API >阿里音频转文字服务

    阿里音频转文字服务

    最近更新时间:2020-09-28 11:34:07

    录音文件识别 (ali_audio_trans)能够针对已经录制完成的录音文件,进行识别的服务。录音文件识别是非实时的,识别的文件需要提交基于HTTP可访问的URL地址,不支持提交本地文件。

    本服务由阿里云计算有限公司(以下简称阿里云)提供。启用服务后,您存储在七牛云空间的文件将在您主动请求的情况下被提供给阿里云以供其计算使用。服务价格请您参考具体的服务价格,您使用本服务产生的费用由七牛代收。启用服务则表示您知晓并同意以上内容。

    注意

    • 服务地域:华东、华北、华南。
    • 支持单轨/双轨WAV格式、MP3格式的录音文件识别。
    • 支持调用方式:轮询方式/回调方式。
    • 支持语言模型定制和热词。
    • 支持汉语普通话、方言、欧美英语等多种模型识别。

    如何开启

    进入七牛开发者平台第三方数据处理,找到 阿里语音转文字审核 点击并开始使用。

    使用方式

    使用方式分成三步:

    1. 发送异步请求
    2. 查询异步请求状态
    3. 查询结果

    一.发送异步请求

    请求语法和请求头部信息

    相关参考持久化处理

    请求参数

    请求参数以表单形式组织,作为请求内容提交,格式如下:

    bucket=<urlEncodedBucket>&key=<urlEncodedKey>&fops=<urlEncodedFops>&notifyURL=<urlEncodedPersistentNotifyUrl>&force=<Force>&pipeline=<Pipeline Name>

    参数名称 必填 需要URL编码: 说明
    bucket 资源空间
    key 源资源名
    fops fops名称:'ali_audio_trans'。
    notifyURL 处理结果通知接收 URL,七牛将会向你设置的 URL 发起 Content-Type: application/json 的 POST 请求。请参考持久化处理结果通知
    force 强制执行数据处理。 当服务端发现 fops 指定的数据处理结果已经存在,那就认为已经处理成功,避免重复处理浪费资源。加上本字段并设为 1,则可强制执行数据处理并覆盖原结果。
    pipeline 为空则表示使用默认队列。建议指定队列,转码时与其他队列分别使用独立的计算资源。

    响应

    响应语法相关参考:持久化处理

    二.查询异步请求状态

    请求参数相关参考: 查询状态

    响应

    请求状态的响应内容,如果请求成功,返回类似如下结果:

    {
        "code": 0,
        "desc": "The fop was completed successfully",
        "id": "z2.0A2C241C106D99415A5E05B7427CD33C",
        "inputBucket": "xxx",
        "inputKey": "audio.aux",
        "items": [
            {
                "cmd": "ali_audio",
                "code": 0,
                "desc": "The fop was completed successfully",
                "hash": "FqJnzvHbjY2ciWKBg5fYOzZuoX6x",
                "key": "VFa6GGuRzbsSO7XgV_IxGmPolJo=/llI_rprtiP9N8VPR-RVNcaKXZr2N",
                "returnOld": 0
            }
        ],
        "pipeline": "1322233.pipeline",
        "reqid": "PzkAAHVVquDiKuQV"
    }
    

    三.查询结果

    根据二中成功返回的结果中key字段查询结果,查询结果参数格式如下:http://inputBucket的域名/key

    查询结果如下:

    {"TaskId":"0f3630daecca11ea872855028089e582","RequestId":"863B3762-F5C6-4D27-B92F-EBCE30E223B0","StatusText":"SUCCESS","BizDuration":3101,"SolveTime":1599016318136,"StatusCode":21050000,"Result":{"Sentences":[{"EndTime":2580,"SilenceDuration":0,"BeginTime":960,"Text":"北京的天气。","ChannelId":0,"SpeechRate":185,"EmotionValue":6.7}]}}
    

    结果参数说明

    公共头响应头参数说明

    字段 类型 是否必选 说明
    TaskId 整型 Y 识别任务ID
    StatusCode 字符串 Y 状态码
    StatuxText 字符串 Y 状态说明
    RequestId JSON对象 Y 请求id,用于调试
    Result Reslt Y 识别结果对象。

    Result

    字段 类型 是否必选 说明
    Sentences []SentenceResult Y 识别的结果数据。当StatuxText为SUCCEED时存在。

    SentenceResult

    字段 类型 是否必选 说明
    ChannelId Int Y 该句所属音轨ID
    BeginTime Int Y 该句的起始时间偏移,单位为毫秒
    EndTime Int Y 该句的结束时间偏移,单位为毫秒
    Text String N 该句的识别文本结果
    EmotionValue Int N 情绪能量值,取值为音量分贝值/10。取值范围:[1,10]。值越高情绪越强烈
    SilenceDuration Int N 本句与上一句之间的静音时长,单位为秒
    SpeechRate Int N 本句的平均语速,单位:字数/分钟

    状态码

    正常状态码

    状态码 状态描述 状态含义 解决方案
    21050000 SUCCESS 成功 POST方式的识别请求接口调用成功,或者GET方式的识别结果查询接口调用成功。
    21050001 RUNNING 录音文件识别任务运行中 请稍后再发送GET方式的识别结果查询请求。
    21050002 QUEUEING 录音文件识别任务排队中 请稍后再发送GET方式的识别结果查询请求。
    21050003 SUCCESS_WITH_NO_VALID_FRAGMENT 识别结果查询接口调用成功,但是没有识别到语音 检查录音文件是否有语音,或者语音时长太短。

    错误状态码

    状态码 状态描述 状态含义 解决方案
    41050001 USER_BIZDURATION_QUOTA_EXCEED 单日时间超限 如业务量较大,请请提交工单
    41050002 FILE_DOWNLOAD_FAILED 文件下载失败 检查录音文件路径是否正确,是否可以外网访问和下载。
    41050003 FILE_CHECK_FAILED 文件格式错误 检查录音文件是否是单轨/双轨的WAV格式、MP3格式。
    41050004 FILE_TOO_LARGE 文件过大 检查录音文件大小是否超过512 MB。
    41050005 FILE_NORMALIZE_FAILED 文件归一化失败 检查录音文件是否有损坏,是否可以正常播放。
    41050006 FILE_PARSE_FAILED 文件解析失败 检查录音文件是否有损坏,是否可以正常播放。
    41050007 MKV_PARSE_FAILED MKV解析失败 检查录音文件是否有损坏,是否可以正常播放。
    41050008 UNSUPPORTED_SAMPLE_RATE 采样率不匹配 检查调用时设置的采样率和管控台上appkey绑定的ASR模型采样率是否一致。
    41050009 UNSUPPORTED_ASR_GROUP ASR分组不支持 确认ak和appkey是否一致。
    41050010 FILE_TRANS_TASK_EXPIRED 录音文件识别任务过期 TaskId不存在,或者已过期。
    41050011 REQUEST_INVALID_FILE_URL_VALUE 请求file_link参数非法 确认file_link参数格式是否正确。
    41050012 REQUEST_INVALID_CALLBACK_VALUE 请求callback_url参数非法 确认callback_url参数格式是否正确,是否为空。
    41050013 REQUEST_PARAMETER_INVALID 请求参数无效 确认请求task值为有效JSON格式字符串。
    41050021 RAM_CHECK_FAILED RAM检查失败 检查您的RAM用户是否已经授权调用语音服务的API,请参见RAM用户鉴权配置。
    41050023 CONTENT_LENGTH_CHECK_FAILED content-length 检查失败 检查下载文件时,HTTP response中的content-length与文件实际大小是否一致。
    41050024 FILE_404_NOT_FOUND 需要下载的文件不存在 检查需要下载的文件是否存在。
    41050025 FILE_403_FORBIDDEN 没有权限下载需要的文件 检查是否有权限下载录音文件。
    41050026 FILE_SERVER_ERROR 请求的文件所在的服务不可用 检查请求的文件所在的服务是否可用。
    51050000 INTERNAL_ERROR 内部通用错误 如果偶现可以忽略,重复出现请提交工单。
    51050001 VAD_FAILED VAD失败 如果偶现可以忽略,重复出现请提交工单。
    51050002 RECOGNIZE_FAILED 内部alisr识别失败 如果偶现可以忽略,重复出现请提交工单。
    51050003 RECOGNIZE_INTERRUPT 内部alisr识别中断 如果偶现可以忽略,重复出现请提交工单。
    51050004 OFFER_INTERRUPT 内部写入队列中断 如果偶现可以忽略,重复出现请提交工单。
    51050005 FILE_TRANS_TIMEOUT 内部整体超时失败 如果偶现可以忽略,重复出现请提交工单。
    51050006 FRAGMENT_FAILED 内部分断失败 如果偶现可以忽略,重复出现请提交工单。

    计费说明

    服务价格
    资源包(预付费)

    资源包规格 资源包价格(元) 单价
    1000小时 1200 1.8元/小时
    20000小时 20000 1.5元/小时
    100000小时 90000 1.0元/小时

    按量计费(后付费)

    标准价 每月用量 梯度折扣价
    2.5元/小时 0~9000小时(含) 2.5元/小时
    2.5元/小时 9000~30000小时(含) 2.2元/小时
    2.5元/小时 30000~90000小时(含) 1.8元/小时
    2.5元/小时 90000~150000小时(含) 1.5元/小时
    2.5元/小时 150000小时以上 1.0元/小时
    以上内容是否对您有帮助?
  • Qvm free helper
    Close