我尝试让百度识图识别一张图片,它是一种芯片的图片来自于忆阻器,但得到了如下的结果: 它将我的图片联想到二维码。
这已经不错,但是还说不上“好“。让我们想想看,它尝试找出它的线条分布规律,发现竖条的分布非常明显,显然这是对于它而已,如果这幅图片是个谜题的话,我们的度娘完成的相当的棒。但是事实不是这样的。
现在我们来想像一下我们的人眼是如何完成这幅超级复杂图片的识别的:即使我们从未见过这种东西,我们也会说出:”数个类似于芯片的东西嵌在透明板上,他们排成一排。“因为我们不仅拥有类似的经验,我们还拥有从现有图片提取出方便匹配经验的能力。
进化造成了这一切,所以这一定很实用。总结一下该过程:
- 人眼对物体结构的兴趣点以及色彩
- 立体视觉还原
- 随着兴趣浓度阶梯进行区域的特征物检测。
详细来看 1. 通过对图像的二维结构的识别划分出兴趣梯度,色彩显然会影响这种梯度的划分 2. 尝试还原立体视觉,人已经有了这种经验,”这是一个物体在某个角度时候的样子“ 3. 对不同兴趣梯度进行文字符号检测,在这幅图中我们可以看到黄色平坦区域有DRAM字样,中心红色平坦区域有SOC字样以及忆阻器的图标。 原图地址:http://www.hpl.hp.com/assets/images/global/research/systems-research/the-machine-hero-bg.jpg
其实这个识别问题很难只是基于像素去思考而又想得绝佳的效果,就像有人说的那样:”一切计算机问题都可以通过增加一个层来解决“从像素级别来考虑宏观问题对此很难有所助益。我们尝试将图中的像素信息转换为一种中间层信息,譬如:材质,形状,相对位置。从中提取规则使关于此的一切变得不再纠结。 过程如下: 1. 从像素中理解材质和形状; 2. 从上一层得出相对关系,得出兴趣区域; 3. 从上一层的兴趣区域按需做进一步的处理。
新年快乐。 2015年2月19日 13:40:55
本文地址:http://sicmodule.glev.cn/quote/11385.html 歌乐夫 http://sicmodule.glev.cn/ , 查看更多