英特尔发起新设备战争?——微软、苹果、谷歌谁是敌手(附原稿,聊Primesense)

paulaugust 发布于 2014年05月09日 | 更新于 2014年05月14日
cnsoft 等1人欣赏。

这是之前煮机网约稿讨论深度摄像头以及图形图像领域技术发展的文章,后来也被网易啥的转了。笔者是个絮叨的PM,之前在tiny4cocoa时发帖招聘还被嫌话多,这次还是本性难移写了篇特别长的稿件,欢迎有耐心对图形图像感兴趣的程序小哥小姐们读读,讨论讨论~

我这次发的是原稿与煮机网和网易的稿件有2个章节是不一样的,后者有删减 深度摄像头,新设备战争之群雄 http://3g.163.com/ntes/special/0034073A/iframe.html?url=http://help.3g.163.com/14/0429/17/9R118HRR00964KO4.html 深度摄像头,新设备战争之巨头之战 http://3g.163.com/ntes/special/0034073A/iframe.html?url=http://help.3g.163.com/14/0504/19/9RE49QAS00964KO4.html

话题引导:我很看好苹果买下的Primesense,看好在appletv、mac os以及ios中对深度摄像头的应用,将触屏进化到体感,这种事情理应由苹果自己来颠覆!

----------原稿分割线----------

  • 标题1:英特尔发起新设备战争?——微软、苹果、谷歌谁是敌手 标题2:深度摄像头是英特尔的移动时代船票吗?- 标题3:触屏后又一革命——英特尔要颠覆移动时代? 标题4:英特尔vs微软vs苹果vs谷歌——深度摄像头,新设备战争?

撰稿 黎明明&宫勐

(第一部分) 群雄:微软、英特尔、苹果与谷歌 史记淮阴侯列传写道“秦失其鹿,天下共逐之。”,后来这段话有了三国演义里“群雄逐鹿”的成语,用以形容多势力对统治权的争夺。对于一直在图形图像领域边缘创业的笔者来说,似乎正在亲眼见证群雄的一次新的争夺战。争夺战的主角都是耳熟能详的大厂——率先进场的微软,通过收购布局的苹果,以及两位追赶者谷歌和英特尔。

相信此前关注IT业界新闻的读者们已经知悉英特尔在CES2014上正式公布其深度摄像头系列产品一事。更有意思的是,英特尔将中国作为发布此事的重要地点之一,在之后不久的IDF大会深圳站不仅宣布联想的产品线将第一时间搭载其深度摄像头,更是拉来腾讯、汉王等一干中国中坚技术公司做协同展示,一场声势浩大的宣传站看起来呼声甚至盖过了更早在这个领域取得成功的微软之上。

不过在英特尔的深度摄像头产品发布会之后,笔者就应邀参加了微软Kinect内部开发者大会以及编程马拉松,从得到的情报来看,可以确定一点:目前微软与英特尔选择了不同的发力点,一个主打游戏机,一个主要瞄准移动设备,至少在短期内很难正面交锋。加之谷歌也是刚刚发布其Project Tango计划,主要精力还在Google Glass上,苹果如何使用PrimeSense的摄像头也只是几则流言,所以笔者很难对目前各大厂的形势做出准确判断。

但有一点笔者可以喊出来;“深度摄像头,也许是继触屏之后又一次设备革命!”

争霸:虚在设备 英特尔在深圳召开的IDF峰会上,公布了包含手机、平板、笔记本包括PC的深度摄像头,并将其深度摄像头统称为——RealSense,与微软的Kinect、苹果的PrimeSense形成对照。如果说英特尔为了弥补自2007年主动放弃ARM导致丢失移动时代主要份额,而在移动芯片以及其设备上下功夫,这件事是非常显性的需求,那么唯一和2007年苹果刮起的那波触屏风暴不同。这一次革新的可能性不止是设备这么简单了。

如果是经历过2007年那场触屏革命的用户们应该可以理解,在一个新的操作方式初期——是需要给人一个熟悉过程的。就好像从键盘时代到触屏时代,甚至触屏也经历了好几年才从单点到多点。这是一个硬件的进步,带动软件进步的过程。在2007年那会,这个世界上应该很少人会知道在屏幕下下拉就能刷新是多么爽的一件事。

同理,让人现在就知道在摄像头面前虚空做个动作就知道好用,实际上还不现实。微软在这点上努力了三四年,在利用摄像头进行基础操作上的开发进展并不顺利,这点从其SDK就能看出,这个细节我会在此后的文章中详细说明。所以我们可以预想到的是:英特尔从发布,再到将深度摄像头装入所有的手机、平板,期间所花费的时间是难以估量的。

当然,这里简单介绍下各大厂关于深度摄像头相关技术以及主力应用设备: 微软——Kinect1 xbox360、Kinect4windows v1、Kinect2 xbox one、Kinect4windows v2 微软最早从PrimeSense手里买来其深度摄像头产品,并为Xbox量身打造了KInect,数千万的装机量也证明了其的成功。不过其随后推出的Windows版Kinect并没有获得像其Xbox版那样的推广资源,大部分产品也仅限于与合作厂商的合作。据可靠消息,微软短期内也没有计划要推出移动版的Kinect。

苹果——苹果是在2013年收购的以色列公司PrimeSense,在2014年3月份PrimeSense官方宣布不再供应其主要产品,这件事在相关开源社区引起了很多反响和担忧。PrimeSense早期从事的是工业级深度摄像头开放,随后在开源社区的帮助下,借助”openni“项目完善了其民用深度摄像头技术。随后他将其授权给了微软、华硕,并在2011年与华硕生产了移动端的深度摄像头MEMS,也就是后来的Capri,不过项目以失败告终。在微软选择Kinect2不再使用PrimeSense的技术后,这家公司也很少出现在主流媒体的视野中。国内的互联网电视品牌LeTV也使用的是PrimeSense,这应是华硕之外唯一还能买到其产品的途径。

目前苹果将如何使用PrimeSense的技术还未知。流言认为苹果会将深度摄像头率先用在新版的AplleTV上,随后再放入iPhone。

谷歌——Project Tango,这个在CES2014上公布的项目,除了几张概念图和叙述文字外,并未看到其他东西。不过可以推测,谷歌这一次是将鸡蛋放在了两个篮子里,一个是Google Glass里,一个则是主流移动端的Tango。Google Glass主要使用的图形图像技术也统称为OpenCV(这个此后会做介绍),其使用的是普通摄像头,而相信Tango是搭配深度摄像头。

至此大家就会发现深度摄像头的普及还远未开始,有的大厂如微软、苹果还稳坐钓鱼台,主要是对自己原先优势领域的一次升级,而英特尔和谷歌则是将鸡蛋分散的放在了各处。这就好像在没有iPhone的那个时代,还需要一个设备来起到关键性作用。这个设备不太可能是游戏机或者PC,但具体是可穿戴设备还是手机?天知道呢……

战场:实在数据 虽然我们难以预计哪种设备甚至是否有设备能够引领深度摄像头的潮流,但技术的发展就好像摩尔定律一样,是有经验可寻的。在这里笔者可以引用业界大牛Michael Abrash的预演来下个判断——新设备战争虚在硬件,实在数据。赢得深度摄像头革命的关键已经不再是谁的销量更高占有率更高能够衡量的了,谁能过获取并学习更多数据,才是胜负的关键。

Abrash何许人也?Valve虚拟现实项目负责人,图形图像传奇程序员,大神卡马克的好基友。还记得几周前Oculus Rift被FaceBook收购的新闻吧,Abrash和卡马克就先后加盟了Oculus Rift。Abrash认为无论是AR(增强现实)也好还是VR(虚拟现实),他们成败的关键将是机器学习。Oculus Rift未来将面临的三大难点之一,即如何进行机器学习。这句话放在深度摄像头这个更为基础的设备上就更为明智——因为她将采集大量的数据,你的每一次动作,你的肌肉变化,你的心率变化,甚至是你的情绪。机器学习所有搜集的数据,并为使用者提供更好的服务,这就是未来技术,人机交互的重要基础。

数据——这就是深度摄像头如此诱人的原因。她提供给了所有用户一个一天24小时打开摄像头的理由,你不仅是挥一挥手就能切换操作界面那么简单。深度摄像头所采集的人机数据,将会把用户所处的世界,用户的兴趣,用户的所思所想都摸得清清楚楚。如果说以前的机器学习,还需要通过文字、点击来判断一个人的喜好,现在则完全不同。游戏公司可以依照玩家在摄像头面前每一次的情绪变化,来调整其游戏,电视台也可以直接通过摄像头来采集观众反馈。

是不是觉得自己的隐私被侵犯了?没关系,反正人们已经习惯在社交媒体上分享一切了。这就是为何那么多家人脸识别公司首先被超级公司收购的原因,而如致力于利用普通摄像头感知用户情绪的Emotient、被英特尔收购的Baisis现在备受瞩目的原因。他们将所搜集的数据,不仅回馈给了用户以形成无尽的生产力,更是积累足够的财富。 就像Google利用其搜索以及邮件的行为数据来推送精准广告一样,深度摄像头所捕捉的数据将难以想象值钱并被所有公司所垂涎。

掉队者:LeapMotion 这里是应小编要求,加入部分命题作文。英特尔公布深度摄像头计划时有人问我:”英特尔的RealSense与LeapMotion比,谁好?“我这么回答的”LeapMotion虽好,但早已掉队了”。

有人可能会问LeapMotion掉队了吗?掉队的原因是财力吗?笔者认为这是一个很自然的猜测,既然业界四巨头齐齐杀入,还不是大公司的LeapMotion自然面临淘汰。但实际原因其实不在财力问题,而是在于其定位过于狭窄。一个很好的逻辑,如果其发展顺利面临财力问题,早该有家超级公司将其纳入其中了,但事实是英特尔选了其他公司作为RealSense技术的基础。

Leapmotion定位于小巧便携的体积和更加精准的体感定位,Leapmotion的目标是让其开发者围绕各类应用开放基于LeapMotion的操作工具。简单来解释,就是LeapMotion造了一个利用摄像头的虚拟鼠标,开发者要做的是让其兼容现有的软件应用。她的定位相当清楚——替代鼠标。

LeapMotion在小型化以及精度上确实表现的很卓越:79 x 30 x 11mm的体积和0.1磅的重量使得使用者可以随身携带,当连接电脑后,它将在一个8立方英尺的锥形区域中追踪用户的十根手指,精度达到了惊人的百分之一毫米。完全满足一些精细操作的要求。这符合其替代鼠标的定位。

类似的思想一直存在,在以primesense相关技术为基础的开源社区openni中很早就出现了类似于leapmotion的尝试,知名研究机构FORTH (*1) 在2012年提供了可以基于primesense在锥形视觉区域中追踪双手的库文件,并持续维护至2013年5月。

不过成也萧何败也萧何,LeapMotion为了其精确性,导致其对计算机资源的需求,甚至高过Primesense和Kinect,导致其不能对应手机和平板,导致小型化优势全无。而其并不廉价的售价,也使得用户和开发者都会非常犹豫。在体感这个新鲜劲过去后,其高精细度和丰富的手势控制既有卖点又是鸡肋,由于可追踪范围在50cm以内,且整个锥形区域被划分为识别区和触碰区两部分,实际操作的空间是很有限的,使用者稍不注意就可能越过追踪区域。

如将LeapMotion当做跟鼠标的替代品——即生产力工具,比如追踪画笔和实现艺术构想,不如伏案在绘图板上尽情发挥。前者可是很考验臂力的。如今便携性、性能、适用性——这三大决定普及率的要素均已经被英特尔赶超,LeapMotion大限将至。

唯一可以注意的是LeapMotion公司宣布将在2014年第三季公开其面向移动设备的产品,看来是要做最后一搏了。但笔者认为,除非有超级公司愿意为其铺陈平台,不然LeapMotion注定会是掉队者吧。

(*1 The Foundation for Research and Technology-Hellas (FORTH), established in 1983, is one of the largest research centers in Greece with well-organized facilities, highly qualified personnel and a reputation as a top-level research foundation worldwide. The research and technological directions of FORTH focus on areas of major scientific, social, and economic interest.)

(第二部分) 英特尔vs微软 大家都知道微软与英特尔渊源不浅,不过到了移动时代似乎这对好基友的利益并没有那么紧密了。这一次在深度摄像头领域,英特尔紧接着微软的Kinect推出Realsense,这是要大战一场了吗?

实则不然,微软与英特尔有两点不同:其一,产品线不同,微软将精力集中在其游戏机平台Xbox上,走得是单产品路线,而英特尔则选择了多产品路线;其二,目标不同,从微软着力游戏机,Kinect并未有计划靠拢如今火热的移动设备市场,而从笔者对Kinect公开的相关SDK可以看出,微软的研发着重于追踪1米至2米内人体骨骼运动,他们的目标很明确就是客厅,而英特尔初期的产品线就包含对应移动设备的深度摄像头,很明显他们的目标是切入还未被打开的移动市场。

截止笔者提笔时,对英特尔所公开硬件与SDK也没有研究透,这里不好做过于深度的点评。不过从目前所获信息,可以看出英特尔的野心,更能看出英特尔当初将ARM拱手想让移动时代后急于收复失地的决心。关于英特尔在IDF大会上所公开的移动处理芯片,笔者不是专家没有发言权,这里略微介绍下Realsense的硬件规格与SDK特点,也算让大家知道英特尔对于移动市场的布局是最高规格的。

首先,Realsense是全球首款集成深度摄像头和2D彩色镜头的设备,在体积与功耗上从公开的数据来看业界领跑,而性能也不输微软最高规格的产品。

其产品线中最小规格产品的体积几乎与普通手机摄像头别无二致,更为重要的是英特尔公开的功耗看,也是市面所有深度摄像头最低,放入所有移动设备最后的问题也被解决了。即便是做到如此小体积,其1080p的全彩图像相对Kinect v1的分辨率(640x480)可以获取更高的性能、适用性、功能升级空间。目前尚不清楚Realsense与Kinect v2的性能对比谁强,但用一个触屏时代的进化:就好比从单点时代进化至多点触控时代,所以Realsense和Kinect v2性能差别应该是微乎其微的。对于致力于移动设备的英特尔来说,能跟游戏机平台发展的微软在性能上打个平手,也算足够了。

其次,从开发者的角度讲,截至目前相对于Kinect的SDK,英特尔的解决方案包含了更多有趣的内容,给了开发者更多想象空间。

除了传统的人体骨骼跟踪、前景和背景设别、人脸的追踪外,英特尔在手部骨骼追踪上走的更远,而Kinect v1则依赖开发者本身的技能,在Kinect v1的平台上,虽然有开源的CCT.NUI库以及商业版的诸多解决方案让开发者理解手指动作, 但精度和持续维护升级都是问题。通俗来说,就是微软只看重客厅体验,他们只对追踪整身运动做了优化,更为细致的比如“表情追踪、手势追踪”这些更精细的活,都抛给了开发者自己解决。从目前Xbox所有体感游戏看,大部分游戏的动作识别均不佳也因Kinect的SDK之故。

除此之外,Realsense SDK更带来了激动人心的3D CONSTRUCTION功能,用户可以试用该摄像头扫描一个物体并形成3D建模。这个功能从英特尔公开的概念视频里就能看到。直观的功能即对应3D打印,以后用户们看中了什么,手机随便扫一扫就可以打印出来,是不是觉得特别酷?其实Kinect也有同类产品,但一是因需要开发者完整开放而使得软件价格昂贵,二是Kinect不具备便携性,导致其应用场景过于固定了。

笔者从一名这个领域的创业者的角度看,英特尔发力移动设备的方向会更得人心,至少笔者已经准备将此前为Kinect v1做优化的动作识别算法、表情追踪应用等纷纷移植至英特尔平台了。

英特尔vs苹果 如果说新设备战争,看起来微软还没有准备开疆拓土多点作战,那么英特尔是否是可以在多平台上独领风骚呢?我想至少苹果是不会答应的,他们既然早早收购PrimeSense就是计划布局。并且从此前宣布不对外公开发售深度引擎,到前几天传闻PrimeSense的新产品将植入新的AppleTV和iPhone。一个准备力拼客厅和移动平台的苹果,确实是英特尔真正的对手。

2005年创建于以色列的PrimeSense公司定位Fabless Semiconductor——即为消费市场提供更好的输入设备。在8年前,在消费市场(即民用)推广深度摄像头实际还处在概念阶段,实际此前深度摄像头仅使用在工业领域,为机械臂、机器人等提供图形视觉等服务。这里可以普及一下,实际深度摄像头(后也称3D摄像头)早在上世纪80年代就由IBM提出相关概念,这家持有过去、现在和未来几乎所有硬盘底层数据的超级公司,可谓是时代领跑者。

只是就像早在60年代末就被提出过概念的平板与触屏,深度摄像头也是经历了数十年的发展。其在工业领域的发展也是牢牢的被掌握在诸如LMI这样二战时期就从事图形图像工业化的大公司手中。从这样的历史,不然看出PrimeSense所带来的革命。未被苹果收购前,Primesense基于自己的芯片,为名为openni的开源项目提供了SDK解决方案。openni这个创建于2010年11月的社区,在当时是世界上最大的3D感知设备框架提供源。

良好的框架设计使得整个框架有着极好的灵活性,来自开源社区的共同开放,也在很大程度上让微软等试用Primesense解决方案的厂商在早期就能够提供稳定的SDK。开源社区的前瞻和灵活带给了Primesense更多的活力,让它可以看到设备前进的方向。openni项目在“游戏引擎的直接支持、3D扫描、手部跟踪、表情分析”等方面都极具前瞻性,甚至超过了KInect本身提供的SDK。相信英特尔在SDK的维护升级,甚至是与开源社区的合作上,要追赶PrimeSense的地方还有很多。

也恰恰是PrimeSense的开源性,也同时诞生了诸如Faceshift、ConstructMe、Playoke等图形图像领域新概念的领跑者。对英特尔如何拉拢可靠的开发者,Primesense也会形成强有力的挑战。毕竟依托苹果的笔记本、手机和平板,开发者可以得到足够的发挥空间。更不要忘记PrimeSense在2011年就跟华硕一起合作推出过面向手机的深度摄像头,他们具备帮助苹果多线作战的能力。

不过PrimeSense也并非没有忧患,首先是其突然的停产,导致开源社区上下的惊慌,纷纷担忧苹果的封闭性,会导致Primesense选择闭源。而诸如AppleTV这样深度摄像头早期的战场,却因苹果从未在此平台上允许开发者开放应用,也存在不少疑问。这也就促成了4月底Playoke公司在科隆游戏展上宣布转投Kinect v2的原因。

所以说留给英特尔的空间还有很多,可以看到英特尔官方的SDK已经在上述很多方面提供了支持。他们不仅投资并依靠一家类似于PrimeSense业务的公司Creative来维护SDK,似乎也对开源社区合作保持开放态度。如果他们能够取代Primesense,与openni这样的项目合作,相信深度摄像头的民用步伐会走得更加快吧!

若非要就双方目前的局势判断个高下,由于苹果没有任何官方消息,笔者自然不能在此下断言。但可以重复笔者在此之前的判断,这场战争的关键不在设备的普及率,而在于双方对数据的应用是否足够好。英特尔有能力将战线放置X86和安卓等不同平台,苹果也有IOS和MacOS这样稳定的平台,双方之间的新设备之争,看起来更像是大数据战争吧……

(第三部分) 革命还需努力 笔者写到此似乎已经渲染了一场即将到来的新设备战争,似乎革命就要在几个月之后。但其实真实情况远未如此,就像苹果只是在iPhone5s里加入了指纹,而对深度摄像头完全不提。谷歌也是着力推动Google Glass,而也对Project Tango只是只言片语一样。这个新兴领域其实至少4个地方存在明显差距:价格、平台门槛、软硬件厂商支持、功耗,这些都会是问题,当然X因素还包括游戏化。

差距1:价格

苹果等厂商在80年代就推出过带触摸屏的设备,但为何直到2007年才逐渐被苹果所普及呢?制造工艺以及其所牵扯的成本价格问题就是关键。相对于工业领域,一个动辄十几万人民币的深度摄像头还能被接受。但在对价格极为敏感的消费市场,逼近千元人民币的Kinect和LeapMotion都还不能被主流市场所接受,何况是被大量手机厂商所接受呢?所以这里可以总结出深度摄像头距离普及的第一大差距:价格以及硬件厂商的支持。

这里可以普及下关于深度摄像头起源的小知识,这个概念源于——“Time-of-flight camera”,据此分为三种:“RF-modulated light sources with phase detector、Range gated imagers、Direct Time-of-Flight imagers”。我们所熟知的Kinect就是上述中的第二种,最初深度摄像头应用于机器人视觉,通过机器臂大量部署,由于可以取得深度信息,机器人抛弃过去”看到的平面信息”,能够直接”看到平面上的突起”,对于一些精密制造业是很关键的进步。松下、MESA、LMI等均是该领域老牌的生产商。

看出来了吧?深度摄像头在工业领域的普及是率先为“机器”能看见和操作什么做准备的,也就是扮演机器学习的眼镜。这里的深度摄像头即昂贵,也没有为人的操作去做优化。所以无论是从价格上,还是从操作习惯上,深度摄像头要走的路还很远呢。

差距2:平台门槛 即便有了开源社区的帮助,似乎Kinect和Primesense都在民用领域有了长足的发展。但实际上,这些设备在处理过于复杂多变的需求时,还是存在巨大的问题。其表现出的最大问题就是对高性能硬件的依赖。比如Kinect v2,其Windows版不仅要求最低配至少i5,也因摄像头问题对环境光源会有一定要求。这一切总结来看,就汇成了深度摄像头普及的第二个差距:平台门槛。即挑硬件又挑环境,对于一个民用消费品来说,看起来短期内都不会是主流。

当然随着技术进步,深度摄像头的生产价格和功耗逐步降低。做为该领域老牌公司的LMI, 就在尝试将自身的一些技术逐步民用化。在硬件生产端,他们推出了民用版的HDI 3D Scanner,可以在极端时间内扫描并形成高达197万多边形的高精度建模的设备。在软件端他们推出的KSCAN3D可以使用单个Kinect对物品扫描并形成建模以弥补Kinect本身SDK的不足.但是这些解决方案售价还很高昂。虽然LMI公司积极的推动整个产品的低价化,甚至授权中国代理商直接进行组装和生产(笔者的公司也与其有所接触)。但最终产品价格依然不低于5000美元,这样的价格普通人谁能接受呢?

民用领域的这些厂商所提供的SDK,除去都提供了相似的骨骼追踪和背景去除技术之余,则各有一些特色功能。并且包括骨骼追踪在内的功能都不太稳定,很多实验性的尝试,比如手部骨骼追踪、脸部表情分析、实时建模都是概念大于实用。虽然在这些领域有一些公司成功的实现了产品并商业化。但可以看到为了完善SDK中这些不成熟的部分,相关公司投入了巨大的研发力量,所采用的技术也早已超越了设备本身。

不过联想到为苹果提供金刚玻璃的康宁,可以想见随着深度摄像头的普及,会有大量的科技公司进入这个领域,为成为下一个康宁而努力(比如笔者)。期间会藏着无限的商机,也会因此而大大推动深度摄像头的民用化步伐。这点在触屏时代就有所验证:从电阻屏到电容屏,从单点触控到实时跟踪,触屏技术也是走过了很多坎坷,从概念一步一步走到如今取代了手机键盘。我们相信在体感技术上,每一毫秒延迟的优化,每一微米精度的提升都是走向成功的阶梯。

差距3:游戏化 就像当初Voodoo推出显卡,虽说是改变了PC业格局,但如果没有游戏厂商不断为其做适配,也是不会有任何价值的。所以说对于现在的科技消费领域,一个新设备的普及,很大程度上初期需要依靠游戏的推动。这是深度摄像头距离普及的第三个差距。不过这也许是目前深度摄像头领域做的还不赖的地方。

随着Unity等游戏引擎的兴起,能直接支持多少种游戏引擎也成了外设的一个衡量标准。我们可以看到Oculus创建之处就直接提供了Unity的插件以方便开发者。开源社区的Openni在2010年12月份开始启动了Unity插件开发计划并发布了Alpha版本,此时这个开发社区成立仅仅一个月,可见开发人员认为对于游戏引擎的直接支持是好的SDK的必备属性。相对于这些设备, 老牌的体感设备生产商则反映慢的多,Kinect迄今没有官方的插件支持,有些开发者可以使用卡内基梅隆大学提供的方案来将Kinect的SDK和Unity整合在一起。

根据笔者参加Kinect内部开发者大会的经验,大部分开发者最为关注的问题之一就是官方何时能够对应游戏引擎。在这点上英特尔似乎更为积极主动,或许这将是胜负手也说不定呢?

在这里值得关注的另一个方向,则是与VR设备的结合。刚刚说到的Oculus Rift除了在早期就对应Unity引擎外,他们很早就标明了对深度摄像头支持的计划。这样做是有原因的,因为在图形界大神Abrash表述的VR设备发展三大难点中,除开此前提到的“机器学习”,感知操作者的动作则是另一个难点。Abrash认为目前包括Oculus在内的VR设备,阻碍其体验的最大问题是操作者相对是固定的,但视觉体验确实动态的,此时带来的反差,会造成操作者身体的不适。

这就是为何Oculus等VR设备或者HMV设备不适合久带的原因,在这点上笔者非常看好VR设备与英特尔的便携式深度摄像头产品的结合。

差距4:电池 在此前解释LeapMotion为何掉队时我们已经提到,其对硬件性能的依赖,以及超高的功耗,都限制了其用武之地。你可以相信一个无线鼠标只能用半小时吗?这就是深度摄像头距离普及的第四大原因:电池。

LeapMotion虽然用USB端口供电,看起来本身功耗不会太高,根据笔者与LeapMotion官方社区开发人员交流, 平均耗电量在1.5w左右(此数值非官方)。但同时我们可以注意到由于Leapmotion依赖所关联设备的计算资源,当需要精准跟踪移动物体时,CPU消耗甚至可以达到80%,即使是普通的待机状态(锥形区域中无可跟踪物体) 都需要将近10%的计算资源。高的CPU消耗意味着更高的能耗。体积和能耗问题制约着Leapmotion的开发团队,首年销售崩盘导致10%的裁员。

Kinect的功耗在5w左右,集成了计算、麦克风、马达、陀螺仪等设备后不但体积较大,整体耗电量也较高。开发版甚至需要外置电源。这限制了他们在移动端的表现能力,一些机器人制作团队,如北科大的机器人团队虽然试用Kinect来作为机器人视觉的输入端,但是受限于kinect本身高功耗,所产出的机器人概念性远超实用性,无法快速的实现产品化。

在解决能耗问题上,Kinect没有给出解决路线,根据已经试用kinect V2的部分开发者在网络上的交流,可以看到Kinect v2的功耗相对v1没有改善甚至进一步提高。Kinect本身的产品定位需要它处理更多的周边数据,来自笔者与微软内部Kinect相关研发团队的交流来看,进行微型化和进入移动设备似乎不是当前的开发方向。

似乎这个功耗问题,就落在了志在拿回移动门票的英特尔的肩上。不过考虑到即便是谷歌也在研发Google Glass的过程中至今还面临电池的困扰,似乎英特尔也得好好努力。这里笔者虽然是很简单粗暴的将其总结为电池问题,但实际牵扯的问题是四大差距的总和:因为对高性能硬件的依赖,导致了高功耗,也导致了价格与电池问题。

总结:感知一切的未来 试想下这么一个场景,你坐着谷歌的无人驾驶汽车来到一家商城。你走进一家服装店,3D全息影像的模特吸引了你,走进后模特身上的衣服以全息影像的方式“穿”(投射)在了你的身上,根据你的反应以及喜好,系统自动为您推荐自己衣柜或店内的配饰作为搭配。当你决定购买的那一刻,机器人店员已经将适合尺寸型号的衣物给你打包好送去家里了……

这一切都因摄像头在背后采集你的身材数据、情绪数据、识别你的身份后提取你家衣柜的信息,并确定店内是否有适合的款式,一体化完成所有服务。别忘记那辆谷歌的无人驾驶汽车,她也需要摄像头帮助他捕捉汽车周边环境。未来的一切,将会被机器更好的感知和学习。

共2条回复
vinjn 回复于 2014年05月11日 | 更新于 2014年05月14日

文章有点内容,但是不够严谨。感觉你没有没有太多体感设备的开发经验。

"由于可追踪范围在50cm以内,且整个锥形区域被划分为识别区和触碰区两部分。“
触碰区是什么?希望能看到官方链接。

"首先,Realsense是全球首款集成深度摄像头和2D彩色镜头的设备。 "
你觉得Kinect不是这样的?

"差距4:电池 在此前解释LeapMotion为何掉队时我们已经提到,其对硬件性能的依赖,以及超高的功耗,都限制了其用武之地。你可以相信一个无线鼠标只能用半小时吗?这就是深度摄像头距离普及的第四大原因:电池。"
在电脑上使用设备时没人会在意耗电(怪兽级别的显卡是另一回事),LeapMotion的掉队(?)与耗电还真没啥关系。

"微软的研发着重于追踪1米至2米内人体骨骼运动"
Kinect的检测距离不是1~2米,而是0.8~4米,或0.4~3米(Near Mode)。

"恰恰是PrimeSense的开源性,也同时诞生了诸如Faceshift、ConstructMe、Playoke等图形图像领域新概念的领跑者。"
Playoke 的开发SDK是Kinect,而不是openni,他们是微软的重要合作伙伴。我和他们当面聊过。

"逼近千元人民币的Kinect和LeapMotion都还不能被主流市场所接受"
Kinect 只要500,LeapMotion 在600左右。

"Abrash何许人也?Valve虚拟现实项目负责人,图形图像传奇程序员"
体感设备和VR没啥直接关系,不用搬他出来。

"LeapMotion在小型化以及精度上确实表现的很卓越"
LeapMotion 的精度一塌糊涂,非常不稳定。如果他们能提高精度和稳定性,不至于表现这么糟糕。

最后,Intel 的摄像头2013年用的是比利时设备商 SoftKinetic 的产品(我和 SoftKinetic 的中国区负责人聊过,所以知道这事),就我手上的这款设备而言,是不能跟踪人体全身骨骼的。我不清楚Intel今年有没有改进设备,如果没有的话,它和 Kinect 还是不同的设备。

Realsense到底是什么?在我看来就是Intel拿SoftKinetic的设备,加上第三方的AR的SDK,加上第三方的的语音识别SDK,拼拼凑凑的东西。

另外,openni 这个项目已经死了。

paulaugust 回复于 2014年05月14日

以下是相关回复: 1 最早发布的时候, 分为hover zone和touch zone, 原文可以去追下官方的开发者社区, 我们的翻译不太好...翻译成悬停区?触控区?

2根据官方信息两者结构不同, 可参看realsense官方说明

3 是指leapmotion暂无法向移动端转移,导致连转型的机会也没有,虽然他们老大宣布会出移动版。所以以此为题说了这个事情。

4 您的数据是对的, kinect1有seated模式来玩近距, v2没有. (PS:我们填写的数据,是基于自己开发的骨骼追踪运动识别;1到2米的算法,是这样的:在开发者大会上举例是4x4的空间,我们认为在这个空间下2米这个距离是最好的全身骨骼追踪距离,以此来估算NUI相关的体验;自己测试后,觉得确实这个距离最适合,且是kinect1为参考。确实是我们没有表达清晰哈)

5 playoke是openni社区的官方案例,没有和playoke聊过,只能通过openni官方渠道得知他们是openni的使用者. 在primesense被收购后,并宣布停售后, playoke官方在科隆游戏展上声称用kinectv2, 且因为openni关闭, primesense不出货, 当前它们是kinect sdk使用者. 但鉴于他们在opnni社区出现的时间早于他们声称使用kinect, 使用了playoke作为opnni的案例.

6 我们是以中国行货的价格写的,水货嘛求采购

7 leapmotion的开发者社区确实反映了不稳定这方面, 不过单看官方数据...卖点就是精细...ps我认为精细和不稳定是不矛盾的,鼠标同理哈

8 softkinetic在CES2013声称他们将把手部骨骼追踪扩展到全身追踪,他们甚至发布了演示图. 结合@intelrealsense的信息, 我们说intel 的sdk会提供传统的身体骨骼追踪. 不过这个说法确实不对, intel年初发布的develop zone的幻灯片里确实没有提到全身skeleton. 只提到他们发布的特色功能包含了手部骨骼和3D 建模. 其他的功能,是我们预估的,这个在发稿的邮件里提了,文章中没提

就是因为提早预估出primesense被收购openni可能会关闭,我们早早的转移到kinect 的sdk上了。

顺带,我们非常想找playoke的人来沟通,求介绍啊?

再次感谢沟通指正,我们很多方面的东西莫说文章了,技术上也不够成熟,多多指教哦!

登录 或者 注册
相关帖子