如今,由于人工智能能力的重大飛躍,基于計算機視覺(CV)的技術(shù)已經(jīng)成為許多應(yīng)用程序和設(shè)備的關(guān)鍵功能,包括人們?nèi)粘J褂玫膽?yīng)用。
沒有計算機視覺,人臉識別生物識別軟件將無法存在。自動駕駛汽車需要它來實現(xiàn)安全駕駛。醫(yī)學影像分析和機器人質(zhì)量保證檢查過程都需要計算機視覺。而我所在的公司Shopic則利用計算機視覺來識別放置在購物車中的物品。
這些技術(shù)本質(zhì)上利用計算機視覺來利用視覺數(shù)據(jù)作為輸入來自動化有用的過程,系統(tǒng)包括掃描硬件和算法,使機器能夠分析、處理和從數(shù)字圖像和視頻中提取信息。它嚴重依賴于機器學習、深度學習和復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
近幾個月來,計算機視覺以新的、令人興奮的方式發(fā)展。對于一些人來說,這些變化也令人不安,但我看到這個領(lǐng)域充滿了潛力和機會。以下是我認為在現(xiàn)階段和可預(yù)見的未來將主導該行業(yè)的一些突出趨勢。
獲取門檻逐漸降低
邊緣云存儲的不斷進步導致邊緣設(shè)備(如數(shù)碼相機和視覺傳感器)能夠在現(xiàn)場運行計算機視覺處理,而不是將其發(fā)送到云端。這將計算機視覺人工智能處理移至邊緣設(shè)備,降低延遲,減少能源和帶寬消耗。Nvidia等公司正在開發(fā)邊緣云服務(wù),以改善計算機視覺資源的部署。擺脫昂貴的云處理和存儲,降低了采用成本,使CV系統(tǒng)更加可訪問和負擔得起。轉(zhuǎn)向邊緣處理還提高了計算機視覺應(yīng)用的數(shù)據(jù)隱私,克服了此前困擾許多公司采用的合規(guī)問題。
計算機視覺應(yīng)用范圍擴大
隨著采用門檻的降低,越來越多的行業(yè)在越來越多的用例中實施計算機視覺。醫(yī)療保健領(lǐng)域是熱衷于采用計算機視覺的領(lǐng)域,計算機視覺可以實現(xiàn)更準確的成像診斷和遠程醫(yī)療服務(wù),并有望實現(xiàn)機器人輔助手術(shù)。
我們親眼目睹了零售行業(yè)計算機視覺用例的增長,包括自助購物系統(tǒng)和無人收銀店。自動駕駛車輛和道路安全設(shè)備正在采用計算機視覺來提高安全性,農(nóng)民正在采用計算機視覺進行農(nóng)作物監(jiān)測和病害檢測,vSLAM系統(tǒng)則利用計算機視覺提供更準確的災(zāi)難救援、天氣預(yù)測等方面的地圖繪制。
隨著用例的不斷堆疊,計算機視覺市場將擴大。Global Data預(yù)測,計算機視覺市場規(guī)模將從2023年的177.3億美元增長到2026年的303億美元。
系統(tǒng)變得更加復(fù)雜
隨著支撐計算機視覺解決方案的人工智能算法變得更加強大,計算機視覺系統(tǒng)將改善對物體和人臉的識別能力。這將使計算機視覺系統(tǒng)能夠更精確地檢測情緒并跟蹤身體動作,為行為洞察和異常檢測開辟新的能力。雖然對個人的監(jiān)控具有很大問題,并在近年來受到審查,但匿名化的人群情感分析是符合倫理的應(yīng)用案例之一。
我們還看到計算機視覺系統(tǒng)正在開發(fā)創(chuàng)新的圖像處理模型和方法。當今的"注意力模型"本質(zhì)上是一種輸入處理技術(shù),使神經(jīng)網(wǎng)絡(luò)能夠?qū)W⒂趶?fù)雜圖像或視頻的特定部分,從而使計算機視覺系統(tǒng)能夠理解繁忙圖像或視頻的每個部分。此外,"圖神經(jīng)網(wǎng)絡(luò)"將深度學習預(yù)測應(yīng)用于富有關(guān)系的數(shù)據(jù)結(jié)構(gòu),從而增強計算機視覺的能力,理解和解釋上下文。
與其他數(shù)據(jù)源連接視覺數(shù)據(jù)可以豐富對事件的整體背景和理解,就像人類將視覺與風的感覺、速度的感知和環(huán)境背景聲音結(jié)合起來理解周圍世界一樣。通過這種方式,CV解決方案可以在更廣泛的背景下理解和提取整個場景的見解,而不僅僅是選定的片段。
這種成熟將實現(xiàn)更準確的解釋和分析,改善決策,在繁忙的制造工廠或城市街道等復(fù)雜和快速變化的情況下發(fā)揮更大的作用。
AR進入新時代
當今的增強現(xiàn)實(AR)解決方案可以產(chǎn)生任何真實環(huán)境的交互式3D重現(xiàn),并通過跟蹤平面表面上的變化光線進行有限的調(diào)整。它們可以通過頭部追蹤和控制器對用戶的動作做出響應(yīng),但僅限于此。
然而,計算機視覺攝像頭與眼球追蹤解決方案和陀螺儀的整合開始產(chǎn)生更復(fù)雜的系統(tǒng)。增強的計算機視覺(CV-enhanced AR)解決方案可以感知用戶的整個環(huán)境,引導用戶避開障礙物,根據(jù)用戶的身體動作調(diào)整虛擬環(huán)境等。
這對于殘障輔助設(shè)備、導航應(yīng)用程序和游戲/元宇宙體驗具有重要意義。
依然存在挑戰(zhàn)
盡管計算機視覺取得了巨大的發(fā)展,并且前景看好,但該領(lǐng)域的領(lǐng)導者仍然面臨一些挑戰(zhàn)。由于計算機視覺在商業(yè)領(lǐng)域是一個相對新的領(lǐng)域,因此在大規(guī)模開發(fā)和推廣方面缺乏專家。公司需要提升員工的技能來滿足這些需求。
作為行業(yè),我們還需要更好地解決與隱私、信任和道德使用相關(guān)的問題。關(guān)鍵在于要進行嚴格的數(shù)據(jù)收集,要么完全由用戶選擇參與,要么真正匿名化。計算機視覺系統(tǒng)需要符合不斷演變的隱私法規(guī)和公眾對隱私的要求。
"對于人工智能的透明度和可解釋性的要求不斷增加。計算機視覺不能僅僅是一個黑盒子,但它所依賴的人工智能模型如此復(fù)雜,以至于很難使其可解釋。"負責實施人工智能系統(tǒng)的人將更加努力確保他們能夠解釋決策的制定方式以及使用了哪些信息來進行決策。" Bernard Marr寫道,但隨著計算機視覺變得更加復(fù)雜,挑戰(zhàn)也會增加。
計算機視覺仍在形成中
與其他人工智能解決方案一樣,計算機視覺以光速前進,新的方法、應(yīng)用、用例和能力不斷涌現(xiàn)。在如此快速變化的環(huán)境中,很難預(yù)測未來會發(fā)生什么。
盡管仍然存在許多需要克服的挑戰(zhàn),尤其是隱私和道德使用方面的問題,但計算機視覺系統(tǒng)有望為眾多行業(yè)提供新的功能,為所有相關(guān)方開啟新的機遇。
2024-06-24 07:48
2024-06-24 07:41
2024-06-19 11:06
2024-06-18 09:56
2024-06-17 08:17
2024-06-15 10:06
2024-06-12 09:28
2024-06-11 09:44
2024-06-10 09:48