在爬取网站的时候都遇到过验证码,那么我们有什么方法让程序自动的识别验证码呢?其实网上已有很多打码平台,但是这些都是需要money。但对于仅仅爬取点数据而接入打码平台实属浪费。所以百度免费orc正好可以利用。(每天500次免费)
1、注册百度账号、百度云管理中心创建应用、生成AppKey、SecretKey(程序调用接口是要生成access_token)
2、利用AppKey、SecretKey生成access_token向授权服务地址https://aip.baidubce.com/oaut...发送请求(推荐使用POST)并在URL中带上以下参数:grant_type: 必须参数,固定为client_credentials;client_id: 必须参数,应用的API Key;client_secret: 必须参数,应用的Secret Key代码如下:
3、请求百度orc通用文字识别API(下面以百度通用识别api识别为例)请求API的URL https://aip.baidubce.com/rest...请求方法 POST请求URL参数 access_token请求头 (Header) Content-Type application/x-www-form-urlencodedBody中放置请求参数,主要参数详情如下:
image : 图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式,当image字段存在时url字段失效
url : 图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式,当image字段存在时url字段失效
对图片进行base64编码字符
项目github地址:https://github.com/xwlmdd/ipP...注:orc图片识别模块在这个项目里的一个工具类
我的公众号,喜欢的朋友可以关注哦