澳门威斯尼斯人手机版泰坦尼克号是怎么从2D转成

当我们在电影院里看灾难片的时候,并不会担心影片中的景象有一天会变成现实。但是《2012》这部片子大概是个例外。就在那个传说中的日期(2012年12月21日)快要到来的时候,这部电影又出了3D视觉重建版,让观众可以提前一个月感受一下被世界末日的恐惧包围的感觉。

澳门威斯尼斯人手机版 1

(一)关键技术

确实划时代,但重点不在技术领域,而在美学和更恐怖的就是人类感官的体验上,《环太平洋》是第一个真正能通过IMAX3D而非体感控制、全息影像或神经连接就达到了身临其境的梦境感的电影,或者说互动娱乐艺术品,是一部真正将基于现代计算机图像技术和光学成像技术进行创作的视觉艺术形式(即电影)和传统的实体的视觉艺术(如绘画、雕塑、建筑、装置艺术)进行完美结合的伟大作品。相比之下,文本层面的艺术创作已经不太重要了。《环太平洋》距离绘画和雕塑艺术要比文学更近。早上我在微博上写了一些片段,下面汇总成文。

澳门威斯尼斯人手机版 2HoloLens

澳门威斯尼斯人手机版 3

并不是所有人都喜欢3D电影,很多人认为传统电影转换为3D电影的效果,却经常粗制滥造令人失望。詹姆斯·卡梅隆也是这么认为的,但是他决心打破这个偏见,花费了1800万美元将原本已是登峰造极的泰坦尼克号制作成3D电影,于原版播出15年之后再度回归银屏

1、虚拟现实技术(VR)

澳门威斯尼斯人手机版 4

虚拟现实

刚刚从IMAX影厅出来。第一排看《环太平洋》的非凡体验让我头一回感受到了IMAX尺寸的1:1等比物体的身临其境感。这也是至今以来最具真实感的3D体验。德尔托罗万岁!迈克尔贝去屎!

HoloLens 是什么?

《2012》电影海报(图:豆瓣)

4月10号,3D版泰坦尼克号已在全国上映。不管你是否已经看过这部影片,应该都会对2D电影转换为3D电影的技术有所好奇吧。

定义

虚拟现实 = Virtual Reality

虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真,并使用户沉浸到该环境中。

还挺难组织好语言的,第一排IMAX看《环太平洋》的真实感远远胜过了TF和阿凡达,除了3D效果的溢出感,最主要的是等比物体的身临其境感,也就是说,如果把自己代入到情景里,机甲、人、怪兽几乎都是1:1的,这和过去看所有电影眼睛接收到光学放大缩小后的图像产生的成像效果的不真实是完全不一样的。

HoloLens 是微软发布的可穿戴式增强现实计算设备,它拥有这么几个关键要素:

当然这是在开玩笑,2012并不会出现“世界末日”(对这一点有疑问的同学请点击: 果壳网2012专区 )。但是电影的魅力就在于把人类的想象力具象化成看得见的实景,这种实景还是3D的,让你置身其中。

简单来说,2D-3D转换技术需要将2D影像的各部分嵌入3D的计算机图形(CG)空间中。要制作出比较协调的自然3D影像,需要数百名工作人员手工进行的大规模调整工作。即便工作量巨大,但一方面可避免购置价格高昂的3D器材,另一方面又可对经典老片进行修补和加工,免去了容颜老去的演员们风采不再、后起小生风韵不足的尴尬,所以2D-3D转换技术获得大批3D电影导演的青睐。即使是直接3D拍摄的电影,也不可避免要用到2D-3D转换技术,比如《阿凡达》。

原理

虚拟现实技术是仿真技术的一个重要方向,是仿真技术与计算机图形学、人机交互技术、多媒体技术、传感技术、网络技术等多种技术的集合,是一门富有挑战性的交叉技术前沿学科和研究领域。

通常电影观影的观看体验,强调的是视线最大化,也就是视线的上下左右的边缘正好被银幕占据,保证画面中的图像信息都被容纳进视觉神经的接受范围内的同时尽量不接收银幕外的现实视觉信息(也就是影院的墙体、邻座的观众等)。但这和真实世界还是有差距,特别是特写镜头和状物的全身镜头总有不真实感。实际上我们的视觉神经并不是这样二维而是三维运作的,因此通常的影片包括3D阿凡达,即使坐第一排也是有平面感的,这并不是说效果不好,而是画面中的物体过分放大了,不符合人眼对现实物体体积的光学变焦成像,特别是人脸特写镜头,坐前排太大,坐后排视线就无法被画面充满,总之距离梦境差距太大。

它是增强现实产品,即 Augmented Reality,AR 技术将计算机生成的图像与真实的世界相叠加。类似的产品有图像投射到视网膜上的 Google Glass,以及叠加在手机摄像头画面上的手机 AR 应用。

在3D版《2012》即将上线的时候,我们采访了整个3D视觉重建项目的技术总监Keith Collea和在项目中国团队的负责人、视觉工程师崔晓宇,了解一下工程师们究竟对这部影片做了什么,让它能激发剧场中更多的尖叫声。

卡梅隆曾经说过:“在3D转换技术中,最难实现的一点是怎样将其‘以对的方式’来进行转换。”导演需要对每一个场景要营造出怎样的立体视觉效果做出决断,需要确定观众与不同场景物体的“亲密接触”程度,这些对观众的3D观影体验有着至关重要的影响。比如说,怪兽和子弹需要从屏幕里呼啸而出,让观众全身后缩哇呀大叫。而属于背景的场景,则需要“嵌”进屏幕里去,这就需要依靠3D图形学的渲染技术来制造出透视感和距离感。几乎对于影片中的每一帧每一幅图片都要增加这种“前凸后翘”的效果,但是不同场景下所采用的技术又大相径庭,甚至只是拍摄的角度变化了一点,就会带来转换技术上的全盘变动。

构成

虚拟现实技术主要由模拟环境、感知、自然技能和传感设备等方面组成。

  • 模拟环境是由计算机生成的、实时动态的三维立体逼真图像。
  • 感知是指理想的虚拟现实应该具有一切人所具有的感知。
    除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。
  • 自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。
  • 传感设备是指三维交互设备。

电影发展了一百多年,实际上一直没能解决戏剧级的身临其境感。目前的大银幕和小荧幕体验,大银幕上看小物体硕大无比到失真,小荧幕上看大物体严重缩小到缺乏震撼感(只能根据比例去脑补,大部分女性观众缺少这一能力)。当我们看画展时,需要恰当的距离体会画家创作时的视线,而电影放映就是这问题。以前的IMAX电影,包括3D的,最大的问题就是,即使画面中的信息主要是视觉奇观比如变形金刚,实际画面体积也还是比机体大得多,加上镜头视角带来的视觉变形,无论观众坐在第一排还是中间的所谓黄金位置还是最后一排,都只有视频观看的体验,而没有身临其境的梦境感。

它拥有是独立的计算单元,自带 CPU + GPU +HPU,不需要外接计算机。它的 CPU 和 GPU 基于英特尔的 14纳米工艺的 Cherry Trail 芯片,HPU 是微软发明的缩写,全称是 Holographic Processing Unit,即全息处理单元。按照知乎匿名用户的回答,HPU 是一块 ASIC(Application-specific integrated circuit),是微软为 HoloLens定制的集成电路,对此,我只能说“有钱任性”。

3D视觉重建的工程量有多大

拍摄3D电影与把2D电影转换成3D,两者虽目标一致,工作状态却完全不同:前者好比生态生物学家,整天出野外;后者更像是分子生物学家,整天钻在实验室里。Keith说,对他来说整个项目里最困难的部分,就是要在一间黑暗的放映厅里,一小时又一小时地看片子,不出门也不上厕所。在影片制作的过程中,每个步骤都可能做出多个版本,需要拍板定夺。因此光是看样片,就是一项令人抓狂的工作。

在果壳网 《泰坦尼克号是怎么从2D转成3D的?》 这篇文章里介绍了一些2D电影转制3D电影的知识。文章提到,在3D影片制作中,相当一部分工作是计算机无法取代的,需要由人来进行。另一方面,要处理的数据是海量的。影片的每一帧都要制作出分别提供给左右眼看的画面。以每秒24帧计算,《2012》这部158分钟的影片包含22.75万帧。尽管在计算机的辅助下,不用一帧一帧地去修改画面,但要追求细节完美,整个工程还是耗时很久。《2012》的3D重建工作从2012年4、5月份进入具体操作阶段,终于赶在年底,玛雅人预言的日期到来之前完工。

而其中主要关注的问题有下面三点:

特征

虚拟现实技术主要包括多感性、存在感、交互性和自主性四个重要特征。

  • 多感知性:理想的虚拟现实,应该具有人体所具有的一切感知功能;
  • 存在感:理想的模拟环境,应该达到让用户都难以分辨真假的程度;
  • 交互性:用户对模拟环境内物体的可操作和从环境得到反馈上相互的,而且这种操作和反馈是实时的;
  • 自主性:用户在虚拟现实运行中处于主导地位。

《环太平洋》依靠超巨型的机体(大约几十层楼高)结合开创性的CG光影(豆瓣这位朋友分析了光影,但没结合人眼的体验),特别是神乎其技的透视效果和镜头语言,第一次实现了身临其境的梦境感动态视觉艺术创作,也就是诺兰试图用《Inception》表达,但并没有在影像层面实现的欺骗观众的视觉神经。至于这种身临其境感的体验真的很难用语言说得清,说实话,当具体到人类主观叙述自己的感官体验时,语言是非常无力的。比如性快感,我们只能用麻麻的、酥遍全身来形容高潮。亲眼看到长城、尼亚加拉大瀑布之类的奇迹时,我们也只会用一声WOW代替。相信我,放弃传统的全景感到近处看《环》,你会WOW的。

HoloLens 不是什么?

《2012》如何从2D变成3D

具体来说,3D视觉重建是如何实现的呢?视觉工程师崔晓宇解释了大致的工作流程。

首先要对一段影片中每一幅画面做的是:“区分出不同的物体(如每一个人、每一辆车、每一幢建筑物等)”和“标识出每个物体的深度信息”。

澳门威斯尼斯人手机版 5

《2012》电影画面(图:豆瓣)

物体的区分属于计算机视觉中的图像分割领域,目前尚未有普遍适应的自动算法。同时,3D电影的恢弘场景中往往包含很多物体,其运动方式繁杂不一,却又需要遵循视觉上的协调和美感。这项工作绝非计算机能自动处理的,必须有大量的人工操作。

这些标识出的物体会分别添加“Z轴”信息。2D画面是由横轴X和纵轴Y组成的。3D画面与之最本质的区别就在于具备“Z轴”,也就是“深度”上的信息。这项工作不仅需要准确把握场景中的立体信息、物理信息、碰撞关系,甚至还要恢复正确的力学信息。

为二十多万帧画面添加深度信息已属不易。更不幸的是,《2012》这部电影大部分场景里,几乎所有的东西都在动!到处是倒塌的房屋,碎石、车辆和人四处乱飞,这样的画面里标识出上千、几千个物体是常有的事。不仅工作量巨大,而且如果深度信息不够准确,呈现出的画面就会有违和感。人类的深度感知方式多种多样又非常敏感,对电影中深度信息的精确性要求很高,需要反复审查和调整。

澳门威斯尼斯人手机版 6

《2012》电影画面(图:豆瓣)

上面的步骤完成之后,通过计算机合成,添加了深度信息的画面就构建出了一个具有深度层次的虚拟三维世界。(但它与真正的三维世界不同的是,无论你在电影院里怎么歪脑袋扭身子,都看不到侧面和背面是什么样。)这时就可以在这个三维世界中重新“拍摄”一遍电影,为左右眼制作不同的画面。

这里还需要解决的问题是:随着深度的恢复,原本的平面画面就有了凹凸信息。此时,“暴露出”的表面积(如物体的侧面)就增加了。如何填补这些信息,会对画面整体效果和视觉表现力产生非常明显的差异。这些“无中生有”的信息需要通过“视差恢复”等计算机视觉的相关算法来实现。

上面的几个步骤分别会由不同的技术团队来分工。各个影片片段经过一个部门处理之后,再传给下一个部门。由于部门繁多,甚至需要专门的人来负责追踪每一小段影片的去向和处理进度。《2012》的3D重建项目有多达460名技术工程师参与其中。终于知道电影片尾字幕为什么那么长了。

1. 利用视差形成景深

制作3D效果时,关键一步是要做出景深。其基本技术原理是人眼观察物体时所形成的视差(parallax)。简单来说,视差就是从有一定距离的两个点上观察同一个目标所产生的方向差异。从目标看两个点之间的夹角,叫做这两个点的视差,两点之间的距离称作基线。只要知道视差角度和基线长度,就可以计算出目标和观测者之间的距离。人类正是通过这种方式,感知到观察物体的深度信息。同时,自然界中也有些动物会利用运动视差,依靠自身移动来获得不同的观点。比如,鸽子的两眼视场没有重叠,因此没有立体视觉,但是它们上下摆动头部以获得深度。该方式如图所示,随着观测点从一测移至另一侧,远方物体的移动比近处物体缓慢。

澳门威斯尼斯人手机版 7

这两种视差处理方式都可以在3D电影拍摄或者转换的技术加以借鉴。

然而,仅仅明确这一点还不够,实际上的3D电影拍摄可不仅仅是摆出来两台立体摄像机就足够了。

首先,导演必须对场景布局做到足够的“胸有成竹”,明确在电影放映的时候,哪些物体“呼之欲出”,那些场景要“推之千里”,以此来确定摄像机的光轴方式、距离差和角度差。可以想象,拍摄团队中必定有这样的剧务,拍摄期间手持一沓草稿纸,画出比上图复杂更多的计算图,以时刻校准两台摄像机的拍摄位置。

在将2D电影转为3D电影,由于原拍摄过程中可能存在剪辑和角度切换,所以首先需要对于每一帧的画面都恢复原拍摄视角,继而确定3D虚拟立体摄像机的位置,一部90分钟左右的电影长达十万多帧图像,计算量和工作量都十分繁复。

其次,转换过程中,要考虑针对于到正负视差的不同处理技术。

澳门威斯尼斯人手机版 8

正视差是指,两眼视线相交于屏幕后方,即所形成的3D效果时“嵌”到屏幕里的。此时可以简单地认为,两视线基本平行,利用人类两眼的平均瞳距为6.4厘米,则在3D屏幕上,左右两幅图像应该会有约为6.4厘米的位移差。不过,研究表明,多数人脑并不擅长将两幅差异超过2.5%的图像融合为一体,所以对于屏幕宽度小于2.5米的屏幕而言,如果不对两幅图像的位移差加以限制,则很可能无法实现立体成像的效果。所以,根据屏幕宽度的不同,要对正视差的图像进行不同方式处理。

负视差是指,两眼观察时所形成的视线会在屏幕前相交。也就是,感受到的这个物体应该是跑出屏幕靠近观众的。人脑对这种图像的处理限制,要甚于正视差。如果负视差的出现次数过多,深度频率切换过快,一定会引起观影者的不适应。同时,真正好的3D转换效果,必定要考虑到影厅不同位置拥有相同观影体验,无论前排还是后排,都会有同样的负视差效果。

其实,如果直接拍摄一部3D电影,场景可以被事先安排,拍摄角度的变化,视察的变换就不会有频繁的切换,同一画面中的场景遵守相同的深度规则,符合人眼观察物体和人脑处理观察所得的方式。然而,将一部电影转换为3D就完全不一样了,很可能在同一场景中为了实现不同物品的深度效果,会带来冲突的信息。如果这种冲突处理不当,就会引起观影者的极大不适应,为影片效果大打折扣。

关键技术

当前,以网络/互联网为基础的虚拟现实技术,可划分为两个范畴:

  1. 以图像为基础的三维全景技术
  2. 以三维模型为基础的3D建模技术

澳门威斯尼斯人手机版 9

未来的电影会是什么样子

为什么要把以前的电影制作成3D版?本质上还是因为3D同2D相比,看起来更真实,更像我们用双眼看到的世界。

澳门威斯尼斯人手机版 10

(图:filmschoolrejects.com)

最初,人类在岩壁上用白垩画画。后来我们用照相机描绘更真实的图像。再后来图像可以动了,有了声音,从黑白变成彩色。总体趋势上,电影作为一种媒体,正在向着越来越“仿真”的方向发展。3D电影比起2D,能够呈现出更加接近真实世界的效果。这个过程中,每一点技术上的进步都会让我们在“讲故事”的能力方面提高一小步。3D电影技术方兴未艾,Keith这样的先驱者们正在尝试各种可能性,探索3D电影的发展之路。

至于未来的电影会是什么样子,Keith认为,放映技术会更加成熟,帧数会更高,同时屏幕与真实世界的界限可能会更加模糊,比如也许我们能感受到剧中人经过时带起的微风。当然这还需要很长的路要走。最重要的是,发展这些技术的目的,是为了走进影院的人们忘记它们的存在,而完全沉浸在故事本身。

听起来是非常美好的展望。不过对我个人来说,如果未来电影变得如此真实,那我不知道还敢不敢去看《2012》这样的灾难片……

感谢 @唯一 对本文的帮助。

2. 为电影画面增加深度信息

在3D电影制作之前,导演需要拥有一个“深度预算”,即为负视差和正视差的范围。控制在深度视差范围内将确保眼疲劳控制到最低限度,这关乎在某时观看2-3小时的电影而非几分钟的节目人眼的舒适度。该范围要求日益严格。例如,英国天空电视台最近对大部分素材规定了2%正视差和1%负视差(以帧宽度的百分比来计量它)的深度预算,短期冲击效应分别不超过4%和2.5%。

一旦导演确定下来理想的深度预算,就可以来设计场景中的深度信息了。

澳门威斯尼斯人手机版 11

首先,需要将每幅图想转化为一个深度图,如上图所示,黑白色表示景深范围,白色最近黑色最远。最本原也是最粗略的判断方法是,明亮的更近,深色的更远。这是一些可以将2D图片自动转换为假3D场景惯用的手段。

幸运的是,实拍出的电影,凭借于常识,大概可以推断出场景中物体之间的位置关系。所以,对整体场景复原建模之后,再确定每幅画面的拍摄角度,就可以对深度信息了然于胸了。然而,一幅一幅手工增加深度信息,仍是一个很大的工作量。这就是为什么泰坦尼克号3D版本需要450个人员夜以继日地工作才行。

其实,目前的3D制作软件都具有非常出色的目标追踪功能,一旦场景和模型确定之后,绑定摄像机视角,就基本不会出现物体深度信息混乱的情况。然而卡梅隆却不愿意享受这样的便利,他十分苛刻地要求工作人员逐帧检查每幅图像转换效果,有人抱怨称这个过程是“十分让人心烦意乱的,就像是用指甲剪修剪草坪”。

一旦每幅图像的深度值都被确定了,那么就可以对每幅图像制作出立体成像。有些视频软件也具有简单的2D到3D转换效果,比如说QQ影音。然而该类软件只是从颜色上加以处理,然后对每幅画面做一个位移差,完全是忽视了场景中物体的立体结构,无法考虑不同视角带来的角度变化。

复杂的转换需要重建物体的网格模型,增加立体信息,包括曲面的曲率信息和深度信息等等。由此得到画面上的复合深度映射,也就是说每个像素点上代表的都是不同物体的深度值的叠加。以确保物体进出视线时,是循序渐进的。确保物体旋转的过程中,具有平滑的过度。这些,都需要符合人类的日常视觉体验。所以,卡梅隆导演要求工作人员在完成双视图之后,必须反复检查每一帧的立体成像效果,精益求精。

2、3D建模

看完微软栩栩如生的宣传视频后,如果你的反应是

3. 3D的真实效果

在正常的视觉过程中,我们主观判断一个物体的特征时所搜索到深度信息的方式,将加剧2D转3D的难度。比如说,我们在看3D电影的时候,所感知的并不一定是导演所营造的3D效果,人脑具有玄妙复杂的信息处理能力。

在高质量的3D电影转换过程中,必定会考虑大脑的处理信息方式,作为辅助技巧增强影片质量。然而难度在于,人脑对于深度细节的处理又有着非常微妙的变化方式。比如说,如果两个物体仅仅是遮挡关系,那么立刻就可以判断出,被遮挡的物体应该是远离观察者的。

然而,如果观察类似于下图的这样一个景象,我们会在脑海中构建一个透视图,借助于常识经验,物体会随着距离的远离而变小变模糊,所以观察者判断更大更清晰的物体离自己更近。

澳门威斯尼斯人手机版 12

对比于人类处理深度信息的这些方式,并且灵活运用这些方式的组合。如果仅仅用视差来转换3D深度信息,简直是弱爆了。即便是增加了处理深度信息的算法,也无法灵活地随机应变组合运用,甚至在同一场景中对于不同物体会带来冲突的处理方式。这就是为什么3D转换目前还不能用自动的方式来进行,人脑视觉处理信息太复杂了,我们捉摸不透它的规律,还需要迎合它的处理机制。这正是最大的难点。

定义

3D:三维的,立体的

通俗来说,3D建模技术就是使用三维制作工具通过虚拟三维空间构建出具有三维数据的模型,从而创建虚拟现实场景。

卧槽,Matrix 要来了。

4. 泰坦尼克号3D版的转换经验

卡梅隆称,之前诸多3D转换电影的效果不尽如人意,主要原因还是因为其投入的时间和精力不足,太过于追求抢占市场先机,无法全身心投入,确保影片转换质量。同时,他也强调说,在此之前拍摄《阿凡达》的经验将有助于泰坦尼克3D版本的转换,这是其他的电影人所没有的切身体会。

不过,阿凡达中使用的2D-3D转换技术又与真人电影有所不同,因为原本就存储了物体的三维模型,所以其转换过程只需要在计算机渲染的时候,多增加一个视点信息就足够了。

在泰坦尼克3D版本的转换中,卡梅隆与著名制片人威廉·谢拉克(William Sherak)的团队强强联手。带领着300名艺术家的团队逐帧去绘制出每幅画面的轮廓线,建立起每个物体的三维网格模型,继而增加视点信息,得到其深度映射图。这项工作不但需要很充分的经验,还需要特别设计的软件来完成,为了泰坦尼克号,全球3D影像巨头In-Three公司专门就制作出了辅助该步骤完成的软件。

卡梅隆导演在之前接受IBC采访时称:“至少目前,不要妄想3D转换有什么自动的过程。这纯粹是一个高度主观并且重复性的机械性的人工劳动。必须这么一帧一帧地抓住各幅画面中的深度信息。”

所以,这部电影的转换用了超过两年的时间,一年用来做前期的准备工作,一年用来转换。卡梅隆称,他心甘情愿花费这样的人力物力财力来转变这个电影,并不仅仅是希望搭载3D电影的风潮,更重要的是希望能够将泰坦尼克号带回到更大的屏幕上去,为观众们带来更加震撼的视觉体验。

这位苛刻的导演称,即便这样精益求精,《泰坦尼克号3D》仍不是真正的3D,只有2.8D,最好的镜头也只做到了2.99D。不过,他说,其他的3D电影充其量也只达到了2.4D。

参考文章:

三维模型

那么你要好好看这一段,因为 Matrix 是 Virtual Reality / VR / 虚拟现实,VR 的特点是让参与者置身于计算机生成的三维图像世界中,淡化真实的世界。VR 近期的代表产品是 Oculus Rift,戴上 Rift 后你是看不到真实世界的。在我看来 VR 最大的问题是:这个虚拟世界很真实很精彩,但是有什么用呢?也就是说 VR 只能做到更逼真的三维世界,它无法帮助人们更好地理解真实的世界。

概述

三维模型是物体的多边形表示,通常用三维软件制作出物体的模型,然后在计算机中模拟显示出真实的三维物体或场景。显示的物体可以是现实世界的实体,也可以是虚构的物体。任何物理自然界存在的东西都可以用三维模型表示。

澳门威斯尼斯人手机版 13Oculus

构成

  • 网格:网格是由物体的众多点云组成的,通过点云形成三维模型网格,这些网格通常由三角形、四边形或者其它的简单凸多边形组成。
  • 纹理:纹理既包括通常意义上物体表面的纹理即使物体表面呈现凹凸不平的沟纹,同时也包括在物体的光滑表面上的彩色图案,也称纹理贴图(texture),当把纹理按照特定的方式映射到物体网格表面的时候,能使物体看上去更真实,最终形成三维模型。

HoloLens 也不是 Google Glass,它比 GG 多了:

建模技术

多边形建模技术的思想就是用小平面(实际中我们多用三角形或矩形)来模拟曲面,从而制作出各种形状的三维物体。这是最基本的几何模型的方法,也是现在最流行的建模方法之一。

三维感知能力,可以对身边的三维场景进行建模。而 GG 只能看到 RGB 像素值。

建模工具

  • 3ds Max
  • Maya
  • Cinema 4D
  • Blender
  • ...

三维模型示例如下所示:

澳门威斯尼斯人手机版 14

3D模型

三维渲染能力。

基于3D建模的虚拟现实技术

==有待补充==

效果如图所示:

澳门威斯尼斯人手机版 15

vr

人机交互能力,可以用手势来进行控制。

实例展示

sketchfab:A website where you can publish,share,and discover 3D content on Web, mobile, AR, and VR.

HoloLens 也不是市场上常见的的 AR,常见的基于摄像头的 AR 应用基于摄像头有:

3、全景技术

基于丑陋的黑白标记图片的 AR

定义/原理

三维全景技术是利用实景照片建立虚拟环境,按照照片拍摄->数字化->图像拼接->生成场景的模式来完成虚拟现实的创建。

  • 全:全方位
  • 景:实景
  • 全景:真实的三维立体空间感觉

澳门威斯尼斯人手机版 16

技术简介

  • 全景图片

    传统的光学摄影的三维全景照片的视角是水平360度,垂直180度,即全视角360*180。

    例如,立方体全景照片通常是使用常规相机,以接片形式将拍摄对象前、后、左、右、上、下所有的场景都拍摄下来,展示时须将照片逐幅拼接起来,形成空心球形,画面朝内,然后观赏者在球内观看。

    随着数字影像技术和Internet技术的不断发展,现在可以用一个专用的播放软件在互联网上显示全景图片,用户可以用鼠标和键盘控制环视的方向,可左可右可近可远,使您感到就在环境当中。

  • 全景视频

    全景视频(又称360°视频)是一种用3D摄像机进行全方位360度拍摄的视频,用户在观看视频的时候,可以随意调节视频上下左右进行观看,仿佛身处真实场景一般。

  • 全景VR

    全景VR(又称VR全景,虚拟全景,虚拟实景)就是对全景照片或者全景视频添加交互操作,实现自由浏览,以VR的方式体验全景世界。
    一般来说,全景技术指的就是全景VR,全景VR也称为虚拟实景,是基于静态图像的虚拟现实技术,它是通过计算机技术实现全方位互动式观看真实场景的还原展示。

全景VR展示效果如下图所示:

澳门威斯尼斯人手机版 17

全景VR

以及基于任意图片的 AR。

全景技术和虚拟现实的关系

全景技术≠VR,全景技术是虚拟现实技术的一个分支

  • 全景技术基于实景照片只能做到虚拟实景,而VR是创建虚拟世界;
  • 虚拟现实能够让体验者获得沉浸于虚拟世界的体验,并且能够在这个虚拟世界中与虚拟环境实现交互,而全景技术做不到这一点。

感受一下,如下图所示:

澳门威斯尼斯人手机版 18

全景技术和VR的区别

或者,举个简单的例子:

  • 全景VR:你坐在球场边看了一场球赛
  • VR:你在球场亲自打了一场球赛

澳门威斯尼斯人手机版 19

优点

  1. 实地拍摄,真实感强,是真实场景的三维再现;
  2. 有一定的交互性,用户可以任意选择自己的视角,任意放大缩小,实现自由浏览;
  3. 全景图片文件数据量较小,非常有利于网络传输,易传播,易推广;
  4. 开发周期短,开发成本低(相对于三维制作来说);
  5. 播放设备硬件要求低,可以使用电脑或手机上的播放器。

很炫是吗,但是它们只能检测到图片所在的那个平面。HoloLens 比它们都牛,它能检测到各个角度的三维场景!

不足

  1. 虽有3D效果,但无法进行深度交互,沉浸感不强;
  2. 全景摄像机拍摄出来的图片或视频,理论上是不可能有“360度无死角”的全景体验,只能靠提升摄像头的数量来降低丢失立体角度的几率;
  3. 全景技术不可能无中生有,只能做到虚拟实景,达不到真正的虚拟现实(而3D建模可以制作并展现任何你能想到的)。

HoloLens 的 AR 是如何得到三维场景深度信息的?

Demo展示

全景VR看房(真不是打广告,没广告费的!)

澳门威斯尼斯人手机版泰坦尼克号是怎么从2D转成3D的,一件可以入选大都会博物馆的伟大艺术品。我们回到 AR 的定义,想要实现增强现实,必须先理解现实,那么对于 HoloLens 而言现实是什么呢?是传感器的数据。

4、立体摄像

传感器是啥?是摄像头。

定义

立体摄像又称3D立体拍摄技术,是指通过专业的3D立体拍摄设备,使用两台高清摄像机和立体拍摄架,同时以一定间距和夹角来记录影像的方式,突出画面的立体感,达到身临其境的直观感受。

同样是摄像头,为什么 HoloLens 就可以感知深度呢?微软的 Kinect 在这方面很成功,那么是不是 HoloLens 上放了一台嵌入式的 Kinect 呢?

技术简介

立体摄像技术主要应用于3D电影的拍摄与制作过程中

3D电影效果如下图所示:

澳门威斯尼斯人手机版 20

3D电影

答案在下面的原型图片中:

立体摄像和虚拟现实的关系

立体摄像技术并不是虚拟现实技术的范畴,它属于3D技术而不是VR技术。

为什么要在讲虚拟现实技术时提到立体摄像呢?是为了帮助大家更好的区别3D技术和VR技术!

澳门威斯尼斯人手机版 21原型图片

3D技术和VR技术的区别

VR:交互式虚拟现实体验

  • VR是利用计算机为用户提供一个交互式的可沉浸的身临其境的虚拟三维空间。它的特征主要有多感知性、交互性、沉浸性。
  • VR是通过特定的头盔为用户形成密闭的虚拟现实体验空间,让用户根据头盔内的影像全方位感受虚拟场景。
  • VR影像以用户为主体,随着用户肢体或者思维的改变,它会开辟出不同的画面和内容。

3D:立体视觉特效

  • 3D电影是将两个影像重合后产生逼真三维立体视觉效果。
  • 3D电影中,游客只需佩戴相关的3D眼镜就可以获得唯美精致的三维立体影像画面。
  • 在3D电影中,游客不是自行开辟三维路线,而是随着屏幕内影像的移动改编空间、场景,从而产生身临其境的效果。

未来随着3D技术的提升,4D电影将会出现。相对于3D电影只是简单给用户视觉的逼真体验,4D电影则会根据影片的情节制造出烟雾、喷水、座椅摇晃等效果,让用户从知觉、触觉、视觉等多方面感受虚拟现实的效果。但是这和VR所提供的交互式虚拟现实体验仍旧不同!

HoloLens 拥有有四台摄像头,左右两边各两台。通过对这四台摄像头的实时画面进行分析,HoloLens 可覆盖的水平视角和垂直视角都达到 120 度。

5、3D建模VS全景技术VS立体摄像

==有待详细总结补充==

  • 3D建模和全景技术是虚拟现实技术的两个分支,而立体摄像不属于虚拟现实技术的范畴;
  • 基于3D建模技术的虚拟现实,良好的沉浸体验和深度交互能力;
  • 基于全景技术的虚拟现实,,沉浸感不强且无法进行深度交互;
  • 立体摄像,只能提供3D立体视觉特效;

也就是说它采用的是立体视觉 / Stereo Vision 技术来获取类似下图的深度图 (depth map)。

6、参考资料

  • 虚拟现实(百度百科)
  • VR、VR全景是什么?
  • VR视频和全景视频有什么区别?
  • VR技术与360度全景视频的区别?
  • 360度全景视频(Stereo3D)的现状以及发展趋势?
  • vr和3d的区别是什么?

澳门威斯尼斯人手机版 22深度图

立体视觉是计算机视觉学科的一个子学科,专注于从两个摄像头的图像数据中得到真实场景中的物体离摄像头的距离。示意图如下:

澳门威斯尼斯人手机版 23示意图

下面是基本的步骤,查阅 OpenCV 文档可以了解具体到函数用法:

摄像头校正,undistortion。由于摄像头的镜片出厂时都存在扭曲,为了得到精确的数据需要在使用前进行较正。常用的方法是基于棋盘的各个姿态拍几次,然后计算相机的矩阵参赛。下图便是常见的标定界面。

澳门威斯尼斯人手机版 24标定界面

图像对齐,rectification。因为两个摄像头的位置不同,因此它们各自看到的场景是有偏差的,左边的摄像头能看到最左的场景,右边的看到最右的场景。图像对齐的目的是得到相同的场景部分。

左右图像匹配,correspondence。可以使用 OpenCV,得到 disparity map。

通过重映射函数,比如 OpenCV 中的 cv::reprojectImageTo3D,得到一张深度图。

只有一张深度图是不够的,它只是某一时刻真实的场景在摄像头中的映射。要想得到完整的三维场景,我们需要分析一系列的深度图。

HoloLens 如何从多张深度图重建三维场景?

答案是 SLAM,Simultaneous Localization And Mapping,即同步定位与建图系统。这个技术被用于机器人、无人汽车、无人飞行器的定位与寻路系统。解决的是非常哲学的问题:

我现在在哪里?

我可以去哪里?

SLAM 有很多实现的方式,有一个开源的方式,实现了很多深度图的处理和匹配算法,可以认为是三维版本的 OpenCV。

而微软围绕着 Kinect 的深度图数据发明了 Kinect Fushion 算法,并发表了两篇论文:

KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera;

KinectFusion: Real-Time Dense Surface Mapping and Tracking。

为什么我认为 HoloLens 与 Kinect Fushion 有关?答案在这个页面中。 Shahram Izadi 是微软剑桥研究院的 principal researcher 及 research manager。他所领导的互动 3D 技术组 / interactive 3D technologies 为微软的多项产品提供了研究力量,包括 Kinect for Windows, Kinect Fusion 以及 HoloLens。顺便说一句,他们组在招人:)

Kinect Fushion,通过在室内移动 Kinect 设备,获取不同角度的深度图,实时迭代,对不同对深度图进行累积,计算出精确的房间以及房间内物体的三维模型。

澳门威斯尼斯人手机版 25

它分四个阶段:

深度图格式转换,转化后的深度的单位是米,用浮点数保存。并计算顶点坐标和表面的法向量。

计算世界坐标系下的相机姿态,通过迭代的对齐算法跟踪这两个值,这样系统总是知道当前的相机与最初的姿态相比变了多少。

第三阶段将姿态已知情况下的深度数据融合到单个三维乐高空间里,你也可以叫它为 MineCraft 空间,因为这个空间的基本元素不是三角形,而是方格子。演示视频中频频出现 MineCraft 场景估计也和这个阶段有关。

基于 Raycasting 的三维渲染,Raycasting 需要从当前的相机位置发出射线,与三维空间求交集。乐高空间特别适合Raycasting,可以用八叉树来加速射线的求交运算。Raycasting、Raytracing 以及 Rasterization 是三种常见的渲染方式,这里就不展开了。

在 HoloLens 的应用中我们运行到第三步,即获取三维乐高模型就可以了,第四步并不是必需的。因为 HoloLens 的屏幕是透明的,不需要再把房屋的模型渲染一遍,我们自带的眼睛已经渲染了一遍了:)

HoloLens 炫酷的 demo 都是怎么制作的?

澳门威斯尼斯人手机版泰坦尼克号是怎么从2D转成3D的,一件可以入选大都会博物馆的伟大艺术品。还剩下三个难点,留待后续文章叙说:

手势识别怎么做的?

眼球跟踪怎么做的?

非常贴合的三维渲染是怎么做的?

本文作者张静是前微软上海Xbox ATG软件工程师,微信公众号“黑客与画家”(HackerAndPainter),欢迎各位童鞋与他交流探讨。

[本文来自读者的投稿,不代表36氪立场]

-----分割线君-----

新版36氪iOS客户端正式上线!该有的都有了,你想要看创业资讯,你想要分享,想看视频,想来活动现场...下载36氪iOS客户端,即氪触达。

下载地址戳:36氪iOS客户端

或直接在 App Store 搜索“36氪”或“36Kr”

本文由澳门威斯尼斯人手机版发布于澳门威斯尼斯人手机版,转载请注明出处:澳门威斯尼斯人手机版泰坦尼克号是怎么从2D转成

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。