人工智能模型能從圖像中找出規(guī)律,其效果往往比人眼更好,但并不總是如此。如果放射科醫(yī)生使用人工智能模型來幫助她判斷病人的 X 光片是否顯示出肺炎的跡象,那么她什么時候應(yīng)該相信模型的建議,什么時候應(yīng)該忽略它呢?
美國麻省理工學(xué)院和麻省理工學(xué)院-IBM 沃森人工智能實驗室的研究人員表示,定制的入職流程可以幫助這位放射科醫(yī)生回答這個問題。他們設(shè)計了一個系統(tǒng),教用戶何時與人工智能助手合作。
在這種情況下,訓(xùn)練方法可能會發(fā)現(xiàn)放射科醫(yī)生相信模型建議的情況--但她不應(yīng)該相信,因為模型是錯的。系統(tǒng)會自動學(xué)習(xí)她應(yīng)該如何與人工智能合作的規(guī)則,并用自然語言進(jìn)行描述。
在入職培訓(xùn)期間,放射科醫(yī)生會根據(jù)這些規(guī)則通過訓(xùn)練練習(xí)與人工智能進(jìn)行協(xié)作,并獲得有關(guān)她的表現(xiàn)和人工智能表現(xiàn)的反饋。
研究人員發(fā)現(xiàn),當(dāng)人類和人工智能合作完成一項圖像預(yù)測任務(wù)時,這種入職程序可將準(zhǔn)確率提高約 5%。他們的研究結(jié)果還表明,僅僅告訴用戶何時信任人工智能,而不進(jìn)行培訓(xùn),會導(dǎo)致性能下降。
重要的是,研究人員的系統(tǒng)是完全自動化的,因此它可以根據(jù)人類和人工智能執(zhí)行特定任務(wù)的數(shù)據(jù),學(xué)習(xí)創(chuàng)建入職流程。它還能適應(yīng)不同的任務(wù),因此可以擴(kuò)大規(guī)模,用于人類和人工智能模型共同工作的許多場合,例如社交媒體內(nèi)容管理、寫作和編程。
"很多時候,人們在沒有任何培訓(xùn)的情況下就會得到這些人工智能工具,以幫助他們弄清這些工具何時會有幫助。我們在使用幾乎所有其他工具時都不會這樣做--幾乎總是會有一些附帶的教程。但對于人工智能來說,這似乎是缺失的。我們正試圖從方法論和行為學(xué)的角度來解決這個問題。"MIT數(shù)據(jù)、系統(tǒng)與社會研究所(IDSS)社會與工程系統(tǒng)博士項目的研究生、有關(guān)這一訓(xùn)練過程的論文的第一作者侯賽因-莫扎納爾(Hussein Mozannar)說。
研究人員設(shè)想,這種入職培訓(xùn)將成為醫(yī)療專業(yè)人員培訓(xùn)的重要組成部分。
"例如,我們可以想象,醫(yī)生在人工智能的幫助下做出治療決定時,首先必須進(jìn)行類似于我們建議的培訓(xùn)。"資深作者大衛(wèi)-桑塔格(David Sontag)說:"我們可能需要重新思考從繼續(xù)醫(yī)學(xué)教育到臨床試驗設(shè)計方式的一切問題。"他是電子電子工程學(xué)教授、麻省理工學(xué)院-IBM沃森人工智能實驗室和麻省理工學(xué)院賈米爾診所的成員,也是計算機(jī)科學(xué)與人工智能實驗室(CSAIL)臨床機(jī)器學(xué)習(xí)小組的負(fù)責(zé)人。
Mozannar 也是臨床機(jī)器學(xué)習(xí)小組的研究員,與他共同完成論文的還有電子工程和計算機(jī)科學(xué)專業(yè)的本科生 Jimin J. Lee、IBM Research 的高級研究科學(xué)家 Dennis Wei 以及 MIT-IBM Watson AI 實驗室的研究人員 Prasanna Sattigeri 和 Subhro Das。論文可在 arXiv 預(yù)印本服務(wù)器上查閱,并將在神經(jīng)信息處理系統(tǒng)會議上發(fā)表。
不斷發(fā)展的培訓(xùn)
現(xiàn)有的人機(jī)協(xié)作入職培訓(xùn)方法通常由人類專家針對特定用例制作的培訓(xùn)材料組成,因此很難推廣。一些相關(guān)技術(shù)依賴于解釋,即人工智能告訴用戶它對每個決策的信心,但研究表明,解釋很少有幫助,Mozannar 說。
"人工智能模型的能力在不斷發(fā)展,因此人類有可能從中受益的用例也在不斷增加。與此同時,用戶對模型的感知也在不斷變化。因此,我們需要一種也能隨時間不斷發(fā)展的訓(xùn)練程序。"他補(bǔ)充道。
為了實現(xiàn)這一目標(biāo),他們的上機(jī)方法是從數(shù)據(jù)中自動學(xué)習(xí)的。它由一個包含許多任務(wù)實例的數(shù)據(jù)集構(gòu)建而成,例如從模糊的圖像中檢測交通信號燈的存在。
系統(tǒng)的第一步是收集執(zhí)行這項任務(wù)的人類和人工智能的數(shù)據(jù)。在這種情況下,人類將在人工智能的幫助下嘗試預(yù)測模糊圖像中是否包含交通信號燈。
系統(tǒng)會將這些數(shù)據(jù)點嵌入一個潛在空間,這是一種數(shù)據(jù)表示方式,其中相似的數(shù)據(jù)點之間距離較近。它使用一種算法來發(fā)現(xiàn)人類與人工智能錯誤合作的空間區(qū)域。這些區(qū)域捕捉了人類信任人工智能的預(yù)測但預(yù)測錯誤的情況,反之亦然。
也許當(dāng)圖像顯示夜間的高速公路時,人類錯誤地相信了人工智能。
發(fā)現(xiàn)區(qū)域后,第二種算法利用大型語言模型,使用自然語言將每個區(qū)域描述為一條規(guī)則。算法通過尋找對比示例對規(guī)則進(jìn)行迭代微調(diào)。它可以將該區(qū)域描述為 "當(dāng)夜間是高速公路時,忽略人工智能"。
這些規(guī)則被用來建立訓(xùn)練練習(xí)。上機(jī)系統(tǒng)會向人類展示一個示例,在本例中是一個模糊的夜間高速公路場景,以及人工智能的預(yù)測,并詢問用戶圖像中是否有交通信號燈。用戶可以回答 "是"、"否 "或使用人工智能的預(yù)測。
如果人類回答錯誤,系統(tǒng)會向他們顯示正確答案以及人類和人工智能在這些任務(wù)實例中的性能統(tǒng)計。系統(tǒng)對每個區(qū)域都會這樣做,并在訓(xùn)練過程結(jié)束時重復(fù)人類出錯的練習(xí)。
"Mozannar說:"在這之后,人類就學(xué)到了一些關(guān)于這些區(qū)域的知識,我們希望他們將來能從中學(xué)到一些東西,從而做出更準(zhǔn)確的預(yù)測。
上機(jī)操作提高準(zhǔn)確性
研究人員對該系統(tǒng)的用戶進(jìn)行了兩項任務(wù)測試--檢測模糊圖像中的紅綠燈和回答多個領(lǐng)域(如生物學(xué)、哲學(xué)、計算機(jī)科學(xué)等)的選擇題。
他們首先向用戶展示了一張卡片,上面有人工智能模型的相關(guān)信息、訓(xùn)練方法以及在大類問題上的具體表現(xiàn)。用戶被分成五組:有些人只看了卡片,有些人通過了研究人員的上機(jī)程序,有些人通過了基線上機(jī)程序,有些人通過了研究人員的上機(jī)程序,并得到了關(guān)于何時應(yīng)該或不應(yīng)該信任人工智能的建議,還有一些人只得到了建議。
只有研究人員的入職程序沒有提供建議,用戶的準(zhǔn)確率才有顯著提高,在交通信號燈預(yù)測任務(wù)中的表現(xiàn)提高了約 5%,而速度卻沒有減慢。然而,在回答問題的任務(wù)中,上機(jī)操作的效果并不明顯。研究人員認(rèn)為,這是因為人工智能模型 ChatGPT 在每個答案中都提供了解釋,以表達(dá)是否應(yīng)該信任該答案。
但是,在沒有上機(jī)的情況下提供建議卻產(chǎn)生了相反的效果--用戶不僅表現(xiàn)更差,而且花了更多的時間來進(jìn)行預(yù)測。
"當(dāng)你只給別人提供建議時,他們似乎會感到困惑,不知道該怎么做。這會破壞他們的進(jìn)程。人們也不喜歡別人告訴他們該做什么,所以這也是一個因素。"Mozannar 說。
他補(bǔ)充說,如果建議是錯誤的,僅僅提供建議可能會對用戶造成傷害。另一方面,入職培訓(xùn)的最大限制在于可用數(shù)據(jù)的數(shù)量。他說,如果沒有足夠的數(shù)據(jù),入職階段就不會那么有效。
未來,他和他的合作者希望開展更大規(guī)模的研究,以評估入職培訓(xùn)的短期和長期效果。他們還希望在入職過程中利用未標(biāo)記的數(shù)據(jù),并找到既能有效減少區(qū)域數(shù)量又不遺漏重要示例的方法。
2024-06-24 07:48
2024-06-24 07:41
2024-06-19 11:06
2024-06-18 09:56
2024-06-17 08:17
2024-06-15 10:06
2024-06-12 09:28
2024-06-11 09:44
2024-06-10 09:48