初始百度人工智能

发表于 2019-10-08 更新于 2020-09-04 分类于 rd ， python Changyan：本文字数： 1.4k 阅读时长 ≈ 5 分钟

人工智能听起来高大上，现有阶段我们可以借助第三方开发好的库来服务于各个领域，其中百度就给我们提供了很多如图像识别、语音识别、语音合成、自然语言等多种产品服务，今天和大家一起接触下。

环境准备

前提我认为你已经在百度ai开放平台上登录且创建好了相应的应用，本文中用到了简单的语音合成和图像识别，所以创建应用是，选择接口应该包含以上接口。

请在操作前安装第三方百度ai库

1	pip install baidu-aip

语音合成

新建`AipSpeech`

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

接口描述

基于该接口，开发者可以轻松的获取语音合成能力

请求说明

合成文本长度必须小于1024字节，如果本文长度较长，可以采用多次请求的方式。文本长度不可超过限制

举例，要把一段文字合成为语音文件：

result  = client.synthesis('我在上海，你在哪儿？', 'zh', 1, {
    'vol': 5,
})

# 识别正确返回语音二进制 错误则返回dict 参照下面错误码
if not isinstance(result, dict):
    with open('auido.mp3', 'wb') as f:
        f.write(result)

参数	类型	描述	是否必须
`tex`	String	合成的文本，使用`UTF-8`编码，请注意文本长度必须小于1024字节	是
`cuid`	String	用户唯一标识，用来区分用户，填写机器 `MAC` 地址或 `IMEI` 码，长度为60以内	否
`spd`	String	语速，取值0-15，默认为5中语速	否
`pit`	String	音调，取值0-15，默认为5中语调	否
`vol`	String	音量，取值0-15，默认为5中音量	否
`per`	String	发音人选择, 0为女声，1为男声， 3为情感合成-度逍遥，4为情感合成-度丫丫，默认为普通女	否

返回样例：

// 成功返回二进制文件流
// 失败返回
{
    "err_no":500,
    "err_msg":"notsupport.",
    "sn":"abcdefgh",
    "idx":1
}

返回文件：

此时在当前文件夹会出现一个auido.mp3的文件，内容就是“我在上海，你在哪儿？”的语音

图像识别

新建`AipImageClassify`

AipImageClassify是图像识别的Python SDK客户端，为使用图像识别的开发人员提供了一系列的交互方法。

参考如下代码新建一个AipImageClassify：

from aip import AipImageClassify

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)

在上面代码中，常量APP_ID在百度智能云控制台中创建，常量API_KEY与SECRET_KEY是在创建完毕应用后，系统分配给用户的，均为字符串，用于标识用户，为访问做签名验证，可在AI服务控制台中的应用列表中查看。

注意：如您以前是百度智能云的老用户，其中API_KEY对应百度智能云的“Access Key ID”，SECRET_KEY对应百度智能云的“Access Key Secret”。

车辆识别

该请求用于检测一张车辆图片的具体车型。即对于输入的一张图片（可正常解码，且长宽比适宜），输出图片的车辆品牌及型号。

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

image = get_file_content('example.jpg')

""" 调用车辆识别 """
client.carDetect(image);

""" 如果有可选参数 """
options = {}
options["top_num"] = 3
options["baike_num"] = 5

""" 带参数调用车辆识别 """
client.carDetect(image, options)

车辆识别请求参数详情

参数名称	是否必选	类型	默认值	说明
image	是	string		图像数据，`base64`编码，要求`base64`编码后大小不超过`4M`，最短边至少`15px`，最长边最大`4096px`,支持`jpg/png/bmp`格式
`top_num`	否	string		返回预测得分top结果数，默认为5
`baike_num`	否	string	0	返回百科信息的结果数，默认不返回

车辆识别返回数据参数详情

字段	是否必选	类型	说明
log_id	否	`uint64`	唯一的log id，用于问题定位
color_result	是	string	颜色
result	否	car-result()	车型识别结果数组
+name	否	string	车型名称，示例：宝马x6
+score	否	double	置信度，示例：0.5321
+year	否	string	年份
`+baike_info`	object	否	对应识别结果的百科词条名称
`++baike_url`	string	否	对应识别结果百度百科页面链接
`++image_url`	string	否	对应识别结果百科图片链接
++description	string	否	对应识别结果百科内容描述
location_result	否	string	车在图片中的位置信息

车辆识别返回示例

{
  "log_id": 4086212218842203806,
  "location_result": {
    "width": 447,
    "top": 226,
    "height": 209,
    "left": 188
  },
  "result": [{
    "baike_info": {
      "baike_url": "http://baike.baidu.com/item/%E5%B8%83%E5%8A%A0%E8%BF%AAChiron/20419512",
      "description": "布加迪Chiron是法国跑车品牌布加迪出品的豪华超跑车。配置四涡轮增压发动机，420 公里每小时，有23种颜色的选择，售价高达260万美元。"
    },
    "score": 0.98793351650238,
    "name": "布加迪Chiron",
    "year": "无年份信息"
  },
  {
    "score": 0.0021970034576952,
    "name": "奥迪RS5",
    "year": "2011-2017"
  },
  {
    "score": 0.0021096928976476,
    "name": "奥迪RS4",
    "year": "无年份信息"
  },
  {
    "score": 0.0015581247862428,
    "name": "奥迪RS7",
    "year": "2014-2016"
  },
  {
    "score": 0.00082337751518935,
    "name": "布加迪威航",
    "year": "2004-2015"
  }],
  "color_result": "颜色无法识别"
}

以上就完成了两个简单的语音合成和图像识别小功能，你大可以封装为类，运用在你的项目中！关于百度ai库，还有很多接口功能，大致类似，参照以上做一个多功能的智能系统吧！