双眼可以测距和建立立体环（huán）境，双摄像（xiàng）头（tóu）可以吗（ma）？

答案（àn）是可（kě）以！

这方面一直是计算机视觉的研究热点，并且已经有了不错的成（chéng）果（guǒ）！本人研究生阶段主要做三（sān）维重建，简（jiǎn）单写（xiě）一些自己所了解的。

首先三维和二维的（de）区别，这（zhè）个大家（jiā）都容（róng）易理解，二维只有x、y两个轴，比如一张素描画，我们整体的（de）感觉是“平”的（de），而三维则是多了一（yī）个z轴（zhóu）的维度，这（zhè）个z轴的直观理解就是点离（lí）我们的距（jù）离（lí），也即 “depth(深度)”。

再来看看（kàn）我们人眼，人眼是一（yī）个（gè）典型的双目系统，大家可以做（zuò）个小（xiǎo）实（shí）验：闭上一只眼（yǎn）睛，然后左右手分别（bié）拿着一只笔，试着让笔（bǐ）尖相碰，哈哈，是（shì）不是有怀疑人生的（de）感觉？我们分别用（yòng）左（zuǒ）右眼（yǎn）看同（tóng）一个物体，可以清楚地感觉到图（tú）像（xiàng）的差异，这个差异就是我们形成三维视（shì）觉（jiào）的（de）基础，有了这左（zuǒ）右眼图像的差异，配合大（dà）脑强大的识别匹配能力，我们就能基本确（què）定物体离我们的距离，也即（jí）之前说的"深度（dù）"，上（shàng）个实验中我们只（zhī）睁开一只（zhī）眼（yǎn）睛，虽然能清（qīng）楚的看到左右手中的笔，但是大脑没法得出深度信息（xī），所以你（nǐ）在“上下左右”方向上能准确定位，但是“前后”方向上却无能为力。

现在来说说（shuō）左右图像的（de）“差异”到（dào）“深（shēn）度”的转换，这里可能需要（yào）一点点空间几何知识（shí），其实也很简单

物体上的（de）点p12分别对应左右图像上点（diǎn）p1和p2，求解p1、p2、p12构成（chéng）的三角形，我们就能得到点p12的坐标，也就（jiù）能得到p12的深度。这（zhè）个（gè）计算（suàn）对于人脑来说是小case，我们更多地（dì）依赖经验（yàn）和强大的脑补能力，虽然（rán）我们不能（néng）计算出某个（gè）物（wù）体（tǐ）离我们的精确距离，我（wǒ）们却能（néng）非常准确地建（jiàn）立物体距离的相对关系，即哪个物（wù）体在前，哪个在后，这对（duì）日（rì）常生活已经（jīng）足够了（le）。

而我们做（zuò）工程上的双目（mù）视觉三维重建，核心（xīn）目标就是解上图所示的三角形，相机可以抽象（xiàng）成一个简单的透视系（xì）统：

空（kōng）间点p经过相机成像，映（yìng）射到（dào）图像上点（diǎn）(x,y)，其中Oc是相机光心，WCS、DCS、ICS分别（bié）是世界坐（zuò）标（biāo）系、设（shè）备(相机)坐（zuò）标系、图像坐标系。空间点p到相机图像上（shàng）点的几何变换可（kě）以用相机内（nèi）参来描述，具体公式（shì）就不（bú）说了，可以（yǐ）简单地理（lǐ）解为相机拍照是（shì）对点的几何坐标（biāo）变（biàn）换，而（ér）相机内参就是决定这个变换的一些参数（shù）。

继续看（kàn）之前的光学（xué）三角关系图，O1、O2分（fèn）别是左右相机的光心，现在（zài）我们要做的就是确定（dìng）这两个相机的相对位置关（guān）系：可以用旋转矩阵R和平移向（xiàng）量T来（lái）描述（shù），确定了R和T，两（liǎng）个相（xiàng）机的位（wèi）置关系就确定了，这个步骤叫做相（xiàng）机（jī）的外参标定。一般（bān）的做法是（shì）用三维重建的（de）逆过（guò）程来做（zuò），即由一系（xì）列已知的p1、p2和（hé）p12来（lái）求解光学三角形，估计出最优的（de）R、T。简而言之，外（wài）参标定（dìng）确定相机之（zhī）间（jiān）的相对位置关系。

好了，现在我们（men）只需要知道p1、p2的（de）坐标（biāo），我（wǒ）们就能轻松算出p12的坐标，完成三（sān）维（wéi）重建。我们把p1、p2称为一个点（diǎn）对(pair)，他（tā）们是同一个空间点在不同（tóng）相机中的成像点。寻（xún）找这样的点对的过程称为（wéi）立体（tǐ）匹配，它（tā）是三维重建最关键，也可以说是最难的（de）一步（bù）。我（wǒ）们都玩过（guò）“大家来找（zhǎo）茬”，找（zhǎo）的是两幅（fú）图的不同点，而立体匹配则是找（zhǎo）“相同点”。对人脑来说，这个问题太easy了，给你同（tóng）一个物体的两（liǎng）幅图，你能轻松找（zhǎo）出一副图像（xiàng）上的点（diǎn）在另一幅图（tú）像中的（de）对应点，因为我们人脑的物体识别、分割（gē）、特（tè）征提取等等（děng）能力实在太强了，而且性（xìng）能特别高，估计几岁的小孩（hái）就能秒杀（shā）现（xiàn）有的最好的算法。

常规的匹配算法一般通过特征点（diǎn）来做，即（jí）分别提（tí）取左右（yòu）图（tú）像的特征点(常用sift算法（fǎ）)，然后基（jī）于特（tè）征点配合对极几何等约（yuē）束条件（jiàn）进行匹（pǐ）配。不过这类匹配算（suàn）法（fǎ）精度都不是太（tài）高，所以人们（men）又想了其它一些方法来（lái）辅（fǔ）助匹配，结构光方法是目前用的（de）比（bǐ）较多（duō）的，原理不难（nán）理解，就是向目（mù）标物（wù）体投（tóu）射编（biān）码的光，然后对（duì）相机图像进（jìn）行解码，从而（ér）得（dé）到点对，举（jǔ）个（gè）简单的（de）例子，我们把一个小方块的图案用投影仪投到物体表（biǎo）面，然后识别左右相机图像中的小方块（kuài），如果这个小方块很（hěn）小（xiǎo），看作一个点，那么我们就（jiù）得到了一个点（diǎn）对。

贴（tiē）个线结构光的示意图：

这个示意图里面只有（yǒu）一个相机，其实投影仪是可以看作相机的：投（tóu）出（chū）的光图案照射在物体表面相当于被拍照的物体，而投影仪的输入图像则相当于相机拍出（chū）来的照片（piàn），所以投影（yǐng）仪（yí）也是当作相机并（bìng）用同样的方法来标（biāo）定（dìng）内外参，即上（shàng）图本质上也是双目视（shì）觉（jiào）系统。

总（zǒng）结一下（xià），双目视觉三维重建的基本（běn）过（guò）程：相机内参、外参标（biāo）定 -> 立体（tǐ）匹配 -> 光学三角形求解（jiě），这（zhè）里面最核（hé）心、也最影响重建效果的就（jiù）是立体匹（pǐ）配。

贴几张本人实验的图(用的（de）最基本（běn）的格雷码（mǎ）结构光（guāng）)：

以上说的都（dōu）是双目（mù）视（shì）觉三维重建，实际上还有其它一些重建方法（fǎ），如早期的探针法，简单粗暴，直接拿探针在（zài）物体（tǐ）表面移（yí）动，一个点（diǎn）一个点（diǎn）测坐标；还（hái）有一（yī）类通过直接测距来（lái）进行三维（wéi）重（chóng）建，如（rú）超（chāo）声波、TOF，即对物体表面（miàn）逐点用声、光程差来（lái）测距（jù），从（cóng）而得到（dào）三维（wéi）点云；光（guāng）学（xué）方法分为主动和被动两（liǎng）大类，主（zhǔ）动和被动（dòng）指的（de）是是否向（xiàng）物（wù）体表面投光，主动方法有激（jī）光扫描、相位测量以（yǐ）及（jí）我毕设的研究（jiū）课题结构光方法等，被动方（fāng）法有（yǒu）单目视觉(如阴（yīn）影法)和（hé）上文所述的立（lì）体（tǐ）视差方（fāng）法等（děng）等。

目前还有一类三维重建方（fāng）法（fǎ）非（fēi）常（cháng）火：SFM(Structure from Motion)，这类方法（fǎ）的特点是不需要相（xiàng）机（jī）参数，仅仅根据一（yī）系列（liè）图像（xiàng）就能进行（háng）三（sān）维（wéi）重建，也（yě）就是（shì）说，你（nǐ）随便拿（ná）个手机对着（zhe）物体拍（pāi）一些图（tú）片就能重建这个物体的（de）三维模型，大家可以去（qù）体验（yàn）下AutoDesk公司的Autodesk 123D Catch，除了近（jìn）距离物（wù）体的三维重（chóng）建（jiàn），SFM还（hái）有更激动人心的应用（yòng）：大型场（chǎng）景三维重建（jiàn），感兴趣的可以（yǐ）看看这个（gè）Building Rome in a Day，他们在flickr上（shàng）搜索两百万张罗（luó）马的（de）照（zhào）片，通过（guò）亚马逊（xùn）提供的计算服务，最终得出整（zhěng）个城（chéng）市的三（sān）维模型，是不是又有云计（jì）算、大（dà）数据的（de）感觉。。。这（zhè）波（bō）人貌似有几（jǐ）个是Google Earth团队的（de）。

原理上其（qí）实也不难理解：从特征点对入手（shǒu），反向求解出相机的内外参(选定一个相机作为世界坐标（biāo）系)，然后重建更（gèng）多的点。

大家（jiā）应该对电影《普（pǔ）罗米修斯》里面的用于洞（dòng）穴建模的飞行器印象深刻：