光場相機,計算成像的靈魂
為什麼要研究光場?
目前的科學技術發展趨勢大部分都可以歸納為 「模仿人」、「代替人」以及「超越人」,比如目前最熱門的人工智能技術,其實質就是利用相關技術讓計算機對人的感知、思考、語言、行動等方面進行建模和模擬,學習人類甚至超越人類在某些方面的能力。
在電腦能夠「思考」之前,必須讓其「學會」感知,而在人類的感知能力中,視覺主導了大部分的活動。透過視覺感知的方式,我們可以在不進行實際接觸的情況下獲取周圍環境的許多訊息,例如深度和色彩。
人眼視覺成像的原理如右圖所示,物體反射的光線透過角膜、虹膜、水晶體、玻璃體等的折射,在視網膜上成像,視覺神經感受到亮度訊號形成神經脈動,進而傳遞到大腦皮質的視覺中樞,完成這樣的一個「視覺路徑」後,我們才能看見物體。人的眼睛時刻感知著來自周圍不同角度不同位置的光線,這些光線的集合相當於前面提到的光場。如果想完全模擬出人眼的視覺感知功能,特別對深度資訊的感知,就必須對光場技術展開相關研究。

在視覺資訊擷取方面,一般透過視覺感測器獲取視覺訊息,對光場進行研究可以幫助感測器獲取更多維度的光場資訊以確保視覺資訊的完備性,進而可以利用這些資訊模擬人眼的功能,例如利用光場技術實現重聚焦、多視角、三維成像等功能,然後進一步應用於現實生活中。
而在視覺資訊顯示方面,如果能完全記錄環境的光場資訊並且不失真地進行顯示,人眼便可以獲得類似在自然狀態下觀看的感覺。關於視覺顯示方式,目前主要有顯示器、3D顯示技術以及虛擬實境(VR)技術:
(1)傳統顯示屏
大多數只能呈現二維位置(x,y)、波長 λ 以及時間 t 這四個維度的信息,左右眼接收到相同的圖像,眼睛無法產生雙目視差,當觀察者在屏幕前運動時,顯示屏上的內容進行相同的運動,也就是運動方向遠近不同的物體在運動方向和運動方向上存在差異的現象,也就是運動方向上存在差異的現象,也就是運動方向上存在差異。另外,螢幕上的每一個像素到人眼的距離相同,因此不會有動態對焦

(2)3D顯示技術
通常用於電影製作中(例如當年橫空出世、引領3D熱潮的《阿凡達》),透過一副立體眼鏡將兩張有著細微偏差的影像分別呈現給左右眼,讓人眼感知到雙眼視差進而達到三維成像的效果。但3D顯示技術同樣不能讓眼睛產生運動視差以及動態聚焦,左右眼看到的是相同的且固定的畫面,因此3D電影呈現的效果距離人眼觀測到的真實世界仍然存在相當大的差距。
另外,觀眾在觀看3D電影時,在雙眼視差的影響下會看到三維效果,但是上述差距又會讓人感受到2D的觀看效果,大腦在3D與2D之間來回切換會產生不適感,因此很多觀眾第一次看3D電影時會感覺自己有點「暈3D」。

有別於 3D 顯示技術,VR 技術在提供雙眼視差的同時,還能提供運動視差,進而為觀眾帶來更好的觀看體驗,但缺乏動態聚焦。現實世界中,人眼接收到的光線來自遠近不同的物體,而當觀眾佩戴市面上現有的 VR 頭盔時,人眼實際聚焦在頭盔的顯示屏上,接收的光線來自處於固定距離的顯示屏。由上述可知,目前的視覺顯示技術在許多方面仍需進一步改進,而引入光場技術將會為其帶來變革性改變,為使用者真正帶來身臨其境般的視覺體驗,因此光場研究將具有重要意義。
明白了光場研究的重要性,那麼光場到底該如何描述?光場的形式是什麼,在計算光學中扮演者怎樣的角色?
光場的定義及其參數化
作為描述光在物理空間中的分佈狀態的概念,「光場(Light field)」最早由Faraday提出設想:透過空間中每一個點每一個方向的光通量。為了準確地描述空間光場, Adelson等人提出了七維全光函數 L=L(X,Y,Z,θ,φ, λ, t)用光線的空間座標(x,y,z),傳播角度(θ,φ),波長λ 以及時間變化t這七個變數對光場進行參數化表徵。

五維全光函數(左)與四維全光函數(右)
考慮到在大部分應用場景中,光線的波長通常透過RGB通道表示,且時間可以記錄在不同幀中,於是可忽略 λ 和 t ,將七維全光函數簡化為一個五維全光函數 L=F(X,Y,Z,θ,φ)。進一步地,當光線在均勻透明介質(如空氣)中傳播且輻射強度沿其傳播方向保持恆定時,描述光場的五維函數可被簡化為四維的形式L=F(u,v,s,t),也就是著名的雙平面模型。此函數以光線在空間中沿傳播方向先後與兩個平面的交點空間座標(u,v) 和(s,t)來定義光場,為後續的光場的理論和應用研究奠定了基礎。