初始百度人工智能
人工智能听起来高大上,现有阶段我们可以借助第三方开发好的库来服务于各个领域,其中百度就给我们提供了很多如图像识别、语音识别、语音合成、自然语言等多种产品服务,今天和大家一起接触下。
环境准备
前提我认为你已经在百度ai开放平台上登录且创建好了相应的应用,本文中用到了简单的语音合成和图像识别,所以创建应用是,选择接口应该包含以上接口。
请在操作前安装第三方百度ai
库
1 | pip install baidu-aip |
语音合成
新建AipSpeech
1 | from aip import AipSpeech |
接口描述
基于该接口,开发者可以轻松的获取语音合成能力
请求说明
- 合成文本长度必须小于1024字节,如果本文长度较长,可以采用多次请求的方式。文本长度不可超过限制
举例,要把一段文字合成为语音文件:
1 | result = client.synthesis('我在上海,你在哪儿?', 'zh', 1, { |
参数 | 类型 | 描述 | 是否必须 |
---|---|---|---|
tex | String | 合成的文本,使用UTF-8 编码, 请注意文本长度必须小于1024字节 | 是 |
cuid | String | 用户唯一标识,用来区分用户, 填写机器 MAC 地址或 IMEI 码,长度为60以内 | 否 |
spd | String | 语速,取值0-15,默认为5中语速 | 否 |
pit | String | 音调,取值0-15,默认为5中语调 | 否 |
vol | String | 音量,取值0-15,默认为5中音量 | 否 |
per | String | 发音人选择, 0为女声,1为男声, 3为情感合成-度逍遥,4为情感合成-度丫丫,默认为普通女 | 否 |
返回样例:
1 | // 成功返回二进制文件流 |
返回文件:
此时在当前文件夹会出现一个auido.mp3
的文件,内容就是“我在上海,你在哪儿?”的语音
图像识别
新建AipImageClassify
AipImageClassify
是图像识别的Python SDK
客户端,为使用图像识别的开发人员提供了一系列的交互方法。
参考如下代码新建一个AipImageClassify
:
1 | from aip import AipImageClassify |
在上面代码中,常量APP_ID
在百度智能云控制台中创建,常量API_KEY
与SECRET_KEY
是在创建完毕应用后,系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证,可在AI服务控制台中的应用列表中查看。
注意:如您以前是百度智能云的老用户,其中API_KEY
对应百度智能云的“Access Key ID”,SECRET_KEY
对应百度智能云的“Access Key Secret”。
车辆识别
该请求用于检测一张车辆图片的具体车型。即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片的车辆品牌及型号。
1 | """ 读取图片 """ |
车辆识别 请求参数详情
参数名称 | 是否必选 | 类型 | 默认值 | 说明 |
---|---|---|---|---|
image | 是 | string | 图像数据,base64 编码,要求base64 编码后大小不超过4M ,最短边至少15px ,最长边最大4096px ,支持jpg/png/bmp 格式 | |
top_num | 否 | string | 返回预测得分top结果数,默认为5 | |
baike_num | 否 | string | 0 | 返回百科信息的结果数,默认不返回 |
车辆识别 返回数据参数详情
字段 | 是否必选 | 类型 | 说明 |
---|---|---|---|
log_id | 否 | uint64 | 唯一的log id,用于问题定位 |
color_result | 是 | string | 颜色 |
result | 否 | car-result() | 车型识别结果数组 |
+name | 否 | string | 车型名称,示例:宝马x6 |
+score | 否 | double | 置信度,示例:0.5321 |
+year | 否 | string | 年份 |
+baike_info | object | 否 | 对应识别结果的百科词条名称 |
++baike_url | string | 否 | 对应识别结果百度百科页面链接 |
++image_url | string | 否 | 对应识别结果百科图片链接 |
++description | string | 否 | 对应识别结果百科内容描述 |
location_result | 否 | string | 车在图片中的位置信息 |
车辆识别 返回示例
1 | { |
以上就完成了两个简单的语音合成和图像识别小功能,你大可以封装为类,运用在你的项目中!关于百度ai库,还有很多接口功能,大致类似,参照以上做一个多功能的智能系统吧!