智能手機上的3D傳感器是這一時期的開端,想要更深入的開啟攝影拍照的新時期,還需要不斷的摸索研究。未來,在推進機器學習技術方面,會有另一個重要的階段。我們有可能會放棄使用3D傳感器,而僅僅使用卷積神經網絡(CNN)來推斷物體在空間中的坐標,這將節省在手機中安裝傳感器的費用。然而,就像微軟的研究人員和學術合作者在本周發表的一份報告中所討論的那樣,目前這種只使用軟件的方法收效甚微。他們寫道,只使用軟件的方法被稱為“絕對姿態回歸”(absolute pose regression),在經過訓練后它并未能推而廣之,這意味著無論卷積神經網絡掌握了什么技術,在用新圖像進行測試時,它都無法準確估量幾何圖形。
換句話說,它將利用所有的這些活動來持續進行學習,總有一天,只要有足夠的3D圖像,卷積神經網絡或任何其它被使用的算法都能足夠聰明地觀察這個世界,即使沒有3D傳感器幫助提供深度感知能力,也能準確地知道這個世界是什么樣的。
人們做了大量的統計工作來實現移軸鏡頭那樣的物理特性,不管是有特殊攝像裝置的,還是沒有特殊攝像裝置的。例如,一項名為“隨機抽樣一致性”(RANSAC)的技術可以追溯到1981年,專門用于尋找三維世界中的地標,這些地標可以映射到二維圖像平面上的點,以便了解二維圖像與三維現實世界之間的關系。使用這種技術,可以更好地理解二維呈現是如何與現實世界相對應的。
2015年,佛羅倫薩大學的一組研究人員在RANSAC技術的基礎上,通過對相機拍攝的照片進行逆向推理,推導出了一種泛傾斜變焦相機的結構,他們能夠通過軟件來分析相機位置的不同在多大程度上引發了失真,從而有效地將控制相機的執行機構調至佳狀態,他們可以將這種技術用于視頻,而不僅僅是用于靜止的圖像。
2017年,德國埃爾蘭根-紐倫堡大學和伍茲霍爾海洋學研究所的研究人員展示了一個名為CameraTransform的Python庫,該庫可讓人們通過對拍攝的圖像進行逆向計算,來估算物體在現實世界中的真實尺寸。
去年,德國慕尼黑工業大學和佳能公司的研究人員表示,只需拍一張圖片就可以推斷出被另一個物體遮擋的場景中有什么。這種技術被稱為“分層深度圖像”,可以通過從照片中移除一個物體來創建新的場景,呈現相機從未見過的背景,但這是通過圖像計算實現的。該方法使用了許多神經網絡應用中常見的編碼-解碼器方法來估計場景的深度,也使用了“生成對抗網絡”(GAN)來構造場景中在拍攝照片時從未實際出現在視野里的部分。
所有的這些研究正在不斷涌現,并將在下一代配備3D傳感器的智能手機攝像頭上達到高潮,帶來一些不可思議的功能特性。這種研究應該會帶來令人驚嘆的成果。至少,人們可以想象,用智能手機拍攝出的人像不再會出現怪異的面部扭曲。超分辨率的建筑圖片將有可能通過消除鏡頭上的所有扭曲而形成平行線。隨著手機變得能夠大量產生精確度和逼真度皆十分驚人的照片,智能手機行業將能夠在與單反相機的交鋒中取得又一場勝利。
但是,智能手機攝影的長期趨勢當然是遠離現實主義,而轉向取得更引人注目的效果。這在計算攝影誕生之前是無法想象的。因此,我們可能會看到3D傳感技術的應用趨向于超現實主義。舉例來說,移軸相機可以用來創造一些出奇漂亮的效果,比如縮小景深到一個極端的程度,這會使得風景看起來就像玩具模型,但效果還是出奇的好,有些手機應用程序也能做到類似的事情,但將3D傳感器與人工智能技術結合起來的效果,將遠遠超出那些應用程序所能達到的效果,Photoshop中有實現移軸的技術,但是每次按下快門按鈕,相機都會產生同樣的效果,毫無疑問會讓人更加心滿意足。