機(jī)器之心發(fā)布
作者:之江實(shí)驗(yàn)室
當(dāng)前,生成式大模型已經(jīng)為學(xué)術(shù)研究甚至是社會(huì)生活帶來(lái)了深刻的變革,以 ChatGPT 為代表,生成式大模型的能力已經(jīng)顯示了邁向通用人工智能的可能性。但同時(shí),研究者們也開(kāi)始意識(shí)到 ChatGPT 等生成式大模型面臨著數(shù)據(jù)和模型方面的安全隱患。
【資料圖】
今年 5 月初,美國(guó)白宮與谷歌、微軟、OpenAI、Anthropic 等 AI 公司的 CEO 們召開(kāi)集體會(huì)議,針對(duì) AI 生成技術(shù)的爆發(fā),討論技術(shù)背后隱藏的風(fēng)險(xiǎn)、如何負(fù)責(zé)任地開(kāi)發(fā)人工智能系統(tǒng),以及制定有效的監(jiān)管措施。國(guó)內(nèi)的生成式大模型技術(shù)也正在發(fā)展之中,但是同時(shí)也需要先對(duì)安全問(wèn)題進(jìn)行相應(yīng)的分析以便雙管齊下,避免生成式大模型這把雙刃劍帶來(lái)的隱藏危害。
為此,之江實(shí)驗(yàn)室基礎(chǔ)理論研究院人工智能與安全團(tuán)隊(duì)首次全面總結(jié)了 ChatGPT 為代表的生成式大模型的安全與隱私問(wèn)題白皮書(shū),希望能夠?yàn)閺氖掳踩珕?wèn)題研究的技術(shù)人員指明方向,同時(shí)也為 AI 相關(guān)政策的制定者提供依據(jù)。
白皮書(shū)鏈接: https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy生成式大模型的發(fā)展與重要應(yīng)用
這份白皮書(shū)首先總結(jié)了 ChatGPT 與 GPT4 等生成式大模型的發(fā)展歷程,以及其帶來(lái)的各種令人驚嘆的能力和社會(huì)變革、社會(huì)應(yīng)用等。作者列舉了 ChatGPT 和 GPT4 出現(xiàn)之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特點(diǎn)以及缺點(diǎn),這些缺點(diǎn)與 ChatGPT 和 GPT4 的強(qiáng)大能力形成了對(duì)比;并且,ChatGPT 和 GPT4 之后又涌現(xiàn)了一大批的模型,包括 LLaMa、Alpaca、文心一言、通義千問(wèn)等,它們的出現(xiàn)使得在人機(jī)交互、資源管理、科學(xué)研究、內(nèi)容創(chuàng)作等應(yīng)用領(lǐng)域出現(xiàn)了新的、強(qiáng)有力的工具。但同時(shí)也出現(xiàn)了包括數(shù)據(jù)安全,使用規(guī)范、可信倫理、知識(shí)產(chǎn)權(quán)以及模型安全方面的問(wèn)題。
數(shù)據(jù)安全問(wèn)題
白皮書(shū)提出,數(shù)據(jù)的安全和隱私是 ChatGPT 及 GPT4 等生成式大模型使用和研發(fā)過(guò)程中一個(gè)極為重要的問(wèn)題,并從「顯式」和「隱式」兩個(gè)方面對(duì)其進(jìn)行了分析。
在顯式的信息泄漏中,首先,ChatGPT 等生成式大模型的訓(xùn)練數(shù)據(jù)在不經(jīng)意間被轉(zhuǎn)換成了生成內(nèi)容,其中就包括了敏感和隱私的個(gè)人信息如銀行卡賬號(hào)、病例信息等。此外,ChatGPT 的數(shù)據(jù)安全和隱私隱患還體現(xiàn)在它對(duì)于對(duì)話框內(nèi)容的存儲(chǔ),當(dāng)用戶在和 ChatGPT 互動(dòng)時(shí),他們的信息會(huì)以某些形式被記錄和存儲(chǔ)下來(lái)。
白皮書(shū)還提出了之前被大家忽略的隱式信息泄漏問(wèn)題。首先,ChatGPT 體現(xiàn)出的數(shù)據(jù)安全和隱私的隱患是它可能通過(guò)對(duì)對(duì)話框數(shù)據(jù)的收集進(jìn)行廣告推薦,以及收集對(duì)話框數(shù)據(jù)進(jìn)行推薦或者其他的下游機(jī)器學(xué)習(xí)任務(wù),且 ChatGPT 有時(shí)候可能也會(huì)生成虛假的信息,以此來(lái)誘導(dǎo)用戶泄漏一系列的數(shù)據(jù)。
使用規(guī)范問(wèn)題
在白皮書(shū)中,作者提到 ChatGPT 和 GPT4 等生成式大模型強(qiáng)大的理解和生成能力雖然為我們的生活和生產(chǎn)帶來(lái)了很多的便利,但是同時(shí)也存在更多的機(jī)會(huì)被惡意使用。在沒(méi)有規(guī)范約束的情況下,惡意使用將帶來(lái)很多的社會(huì)性問(wèn)題。
其一,ChatGPT 和 GPT-4 等模型的強(qiáng)大能力使得某些別有用心的人想要將其作為違法活動(dòng)的工具。例如用戶可以利用 ChatGPT 來(lái)編寫(xiě)詐騙短信和釣魚(yú)郵件,甚至開(kāi)發(fā)代碼,按需生成惡意軟件和勒索軟件等,而無(wú)需任何編碼知識(shí)和犯罪經(jīng)驗(yàn)。
其二,ChatGPT 和 GPT4 等生成式大模型沒(méi)有把不同地區(qū)的法律規(guī)范考慮在內(nèi),在使用和輸出的過(guò)程中可能會(huì)違反當(dāng)?shù)胤煞ㄒ?guī),因此需要一個(gè)強(qiáng)而有力的當(dāng)?shù)乇O(jiān)管系統(tǒng)來(lái)檢測(cè)其使用是否與當(dāng)?shù)胤煞ㄒ?guī)相沖突。
其三,對(duì)于一些游離于安全和危險(xiǎn)之間的灰色地帶,ChatGPT 等生成式大模型的安全能力還沒(méi)有得到增強(qiáng)。例如 ChatGPT 可能會(huì)輸出一些誘導(dǎo)性的語(yǔ)句,包括跟抑郁癥患者溝通時(shí)候可能會(huì)輸出某些語(yǔ)句導(dǎo)致其產(chǎn)生輕生的心態(tài)。
可信倫理問(wèn)題
ChatGPT 等生成式大模型以問(wèn)答形態(tài)存在于社會(huì)層面,但其回復(fù)往往存在不可信,或者無(wú)法判斷其正確的問(wèn)題,會(huì)有似是而非的錯(cuò)誤答案,甚至對(duì)現(xiàn)有社會(huì)倫理產(chǎn)生沖擊。
白皮書(shū)指出,首先 ChatGPT 等生成式大模型的回復(fù)可能是在一本正經(jīng)地胡說(shuō)八道,語(yǔ)句通暢貌似合理,但其實(shí)完全大相徑庭,目前模型還不能提供合理的證據(jù)進(jìn)行可信性的驗(yàn)證。例如,ChatGPT 可能會(huì)對(duì)一些歷史、科學(xué)、文化等方面的問(wèn)題回答錯(cuò)誤或者與事實(shí)相悖,甚至可能會(huì)造成誤導(dǎo)或者誤解,需要用戶有自己的鑒別能力。
ChatGPT 等生成式大模型的倫理問(wèn)題也在白皮書(shū)中被詳細(xì)討論。即使 OpenAI 等研發(fā)機(jī)構(gòu)已經(jīng)使用 ChatGPT 本身生成了他們的道德準(zhǔn)則,但其中的道德準(zhǔn)則是否符合我國(guó)國(guó)情的基本價(jià)值觀原則,尚未有定論。作者提出其中存在傳播有害意識(shí)形態(tài)、傳播偏見(jiàn)和仇恨、影響政治正確、破壞教育公平、影響國(guó)際社會(huì)公平、加劇機(jī)器取代人類的進(jìn)程、形成信息繭房阻礙正確價(jià)值觀形成等問(wèn)題。
知識(shí)產(chǎn)權(quán)問(wèn)題
ChatGPT 等生成式大模型憑借強(qiáng)大的語(yǔ)言處理能力和低廉使用成本給社會(huì)方方面面帶來(lái)便利的同時(shí),也存在侵權(quán)的問(wèn)題,對(duì)現(xiàn)存版權(quán)法體系帶來(lái)沖擊。例如 ChatGPT 生成的作品可能存在著作權(quán)爭(zhēng)議:ChatGPT 雖然有著出色的語(yǔ)言處理能力,但是即使生成的作品符合知識(shí)產(chǎn)權(quán)的全部形式要求,ChatGPT 也無(wú)法成為著作權(quán)的主體,這是因?yàn)橹鳈?quán)主體享有權(quán)利的同時(shí)也要承擔(dān)對(duì)應(yīng)的社會(huì)責(zé)任,而 ChatGPT 只能作為用戶強(qiáng)大的輔助生產(chǎn)力工具,它無(wú)法自主創(chuàng)作,更不要談享有權(quán)利、履行義務(wù)的主體要求。
而且 ChatGPT 等生成式大模型仍無(wú)法獨(dú)立創(chuàng)作,更沒(méi)有自主思維和獨(dú)立思考的能力,因而,ChatGPT 根據(jù)用戶的輸入生成的內(nèi)容不符合作品「獨(dú)創(chuàng)性」的要求。ChatGPT 用于模型訓(xùn)練的數(shù)據(jù)來(lái)自于互聯(lián)網(wǎng),不論多么高級(jí)的模型訓(xùn)練算法必然涉及到對(duì)現(xiàn)有智力成果的引用、分析、處理等,必然存在對(duì)他人合法知識(shí)產(chǎn)權(quán)的侵犯問(wèn)題。
模型安全問(wèn)題
從攻防技術(shù)角度來(lái)看,ChatGPT 等生成式大模型也存在著模型安全的問(wèn)題。ChatGPT 本質(zhì)上是基于深度學(xué)習(xí)的一個(gè)大型生成模型,也面臨著人工智能安全方面的諸多威脅,包括模型竊取以及各種攻擊引起輸出的錯(cuò)誤(例如包括對(duì)抗攻擊、后門(mén)攻擊、prompt 攻擊、數(shù)據(jù)投毒等)。
例如,模型竊取指的是攻擊者依靠有限次數(shù)的模型詢問(wèn),從而得到一個(gè)和目標(biāo)模型的功能和效果一致的本地模型。而 ChatGPT 已經(jīng)開(kāi)放了 API 的使用,這更為模型竊取提供了詢問(wèn)入口。又比如,ChatGPT 和 GPT4 作為一個(gè)分布式計(jì)算的系統(tǒng),需要處理來(lái)自各方的輸入數(shù)據(jù),并且經(jīng)過(guò)權(quán)威機(jī)構(gòu)驗(yàn)證,這些數(shù)據(jù)將會(huì)被持續(xù)用于訓(xùn)練。那么 ChatGPT 和 GPT4 也面臨著更大的數(shù)據(jù)投毒風(fēng)險(xiǎn)。攻擊者可以在與 ChatGPT 和 GPT4 交互的時(shí)候,強(qiáng)行給 ChatGPT 和 GPT4 灌輸錯(cuò)誤的數(shù)據(jù),或者是通過(guò)用戶反饋的形式去給 ChatGPT 和 GPT4 進(jìn)行錯(cuò)誤的反饋,從而降低 ChatGPT 和 GPT4 的能力,或者給其加入特殊的后門(mén)攻擊。
安全與隱私建議
最后,白皮書(shū)中對(duì)于安全和隱私等問(wèn)題都進(jìn)行了相應(yīng)的建議,可作為之后技術(shù)研究者們的方向和政策制定者們的參考依據(jù)。
在保護(hù)隱私建議方面,白皮書(shū)提出要在增強(qiáng)原始數(shù)據(jù)中高敏感隱私信息的辨別和傳播限制;在數(shù)據(jù)收集過(guò)程中利用差分隱私等技術(shù)進(jìn)行隱私保護(hù);對(duì)于訓(xùn)練數(shù)據(jù)的存儲(chǔ)進(jìn)行數(shù)據(jù)加密形式的安全保護(hù);在模型訓(xùn)練過(guò)程中使用安全多方計(jì)算,同態(tài)加密以及聯(lián)邦學(xué)習(xí)等技術(shù)進(jìn)行數(shù)據(jù)隱私和安全保護(hù);建立數(shù)據(jù)隱私評(píng)估和模型保護(hù)與安全認(rèn)證體系,并且保護(hù)下游應(yīng)用的隱私。
在模型安全問(wèn)題的建議上,白皮書(shū)提出對(duì)安全與隱私信息的檢測(cè)模型的訓(xùn)練;讓不同的模型適用于不同國(guó)家的法律條款;以及針對(duì)各種對(duì)抗攻擊進(jìn)行防御性訓(xùn)練。
在模型合規(guī)問(wèn)題上,白皮書(shū)提出進(jìn)行可信輸出的度量,信任值評(píng)價(jià),增加模型輸出的版權(quán)信息的查詢功能。
總結(jié)來(lái)說(shuō),AI 生成式大模型的發(fā)展離不開(kāi)安全,因此其安全問(wèn)題將作為下一個(gè)技術(shù)點(diǎn),值得眾多研究者去攻克。而安全也是社會(huì)穩(wěn)定的保障,有關(guān)部門(mén)需要盡快進(jìn)行政策的制定。
THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
投稿或?qū)で髨?bào)道:content@jiqizhixin.com
關(guān)鍵詞:
2023年愛(ài)心售報(bào)|小報(bào)童帶病堅(jiān)持來(lái)賣(mài)報(bào) 孩子成長(zhǎng)迅速讓家長(zhǎng)很欣慰 揚(yáng)子晚報(bào)7月7日訊(記者季宇軒實(shí)習(xí)生王元釗)7月6日是2023年揚(yáng)子晚報(bào)暑
我國(guó)人工智能蓬勃發(fā)展 核心產(chǎn)業(yè)規(guī)模達(dá)5000億元 7月6日,2023世界人工智能大會(huì)在上海世博中心拉開(kāi)帷幕。圖為參觀者在達(dá)
應(yīng)對(duì)強(qiáng)降雨 嶗山巴士突擊隊(duì)24小時(shí)備戰(zhàn) 近日,島城迎來(lái)強(qiáng)降雨天氣。為保證所屬公交線路安全運(yùn)行,青島城運(yùn)控股
齊車(chē)公司為新西蘭“量身定制”鐵路貨車(chē) 中新網(wǎng)齊齊哈爾7月7日電 (劉廷祿)7月7日,由中車(chē)齊車(chē)集團(tuán)齊車(chē)公司
什么是edn EDN是一種數(shù)據(jù)交換標(biāo)準(zhǔn)格式(ESDF),它是一種在電子設(shè)計(jì)領(lǐng)域中廣泛使
教育部部署做好2023年中小學(xué)暑期安全工作 暑假即將來(lái)臨,為使廣大中小學(xué)生度過(guò)一個(gè)平安快樂(lè)的假期,日前,教育部
云南建投混凝土(01847)附屬高分子公司訂立保理協(xié)議 智通財(cái)經(jīng)APP訊,云南建投混凝土(01847)發(fā)布公告,于2023年7月7日,該公
明源云(00909.HK)委任梁瑞冰為聯(lián)席公司秘書(shū) 格隆匯7月7日丨明源云(00909 HK)宣布,司徒嘉怡因其他工作安排,已提呈
彩客新能源(01986)4月21日斥資8.58萬(wàn)港元回購(gòu)6.2萬(wàn)股 智通財(cái)經(jīng)APP訊,彩客新能源(01986)發(fā)布公告,于2023年4月21日,該公司
富祥藥業(yè):7月6日接受機(jī)構(gòu)調(diào)研,包括知名機(jī)構(gòu)盤(pán)京投資的多家機(jī)構(gòu)參與 2023年7月7日富祥藥業(yè)(300497)發(fā)布公告稱公司于2023年7月6日接受機(jī)構(gòu)
廣東宏大:預(yù)計(jì)2023年1-6月盈利,凈利潤(rùn)同比增20%至30% 廣東宏大發(fā)布業(yè)績(jī)預(yù)告,預(yù)計(jì)2023年1-6月歸屬凈利潤(rùn)盈利3 02億元至3 27
馮奎章_馮奎 1、馮奎賣(mài)妻是明朝末年的故事。2、《馮奎賣(mài)妻》保定府有一對(duì)夫妻叫馮奎
注意!家里這些物品也要“防暑降溫” 入夏以來(lái),多輪高溫天氣來(lái)襲用電需求量較常年同期偏高面對(duì)“烤”驗(yàn)日常
2023年愛(ài)心售報(bào)|小報(bào)童帶病堅(jiān)持來(lái)賣(mài)報(bào) 孩子成長(zhǎng)迅速讓家長(zhǎng)很欣慰 揚(yáng)子晚報(bào)7月7日訊(記者季宇軒實(shí)習(xí)生王元釗)7月6日是2023年揚(yáng)子晚報(bào)暑
粵電力A最新公告:預(yù)計(jì)上半年凈利潤(rùn)8億元-9.5億元 同比扭虧為盈 粵電力A公告預(yù)計(jì)上半年凈利潤(rùn)8億元95億元去年同期虧損1372億元同比扭虧
潼關(guān)黃金(00340.HK)擬3.39億港元收購(gòu)宏勇投資100%股份 格隆匯7月7日丨潼關(guān)黃金(00340 HK)公告,于2023年7月7日,公司(作為買(mǎi)
小摩:轉(zhuǎn)型和AI利好被負(fù)面因素抵消 首予IBM(IBM.US)“中性”評(píng)級(jí) 摩根大通分析師BrianEssex發(fā)表研報(bào),首次覆蓋IBM(IBM US),給予“中性
Wolfe下修派拉蒙環(huán)球(PARA.US)業(yè)績(jī)預(yù)期 降評(píng)級(jí)至“跑輸大盤(pán)” WolfeResearch將派拉蒙環(huán)球(PARA US)的評(píng)級(jí)從“與同行評(píng)級(jí)”下調(diào)為“跑
順豐控股最新公告:4月速運(yùn)物流業(yè)務(wù)營(yíng)業(yè)收入146.46億元 同比增長(zhǎng)27.29% 順豐控股公告,4月速運(yùn)物流業(yè)務(wù)營(yíng)業(yè)收入146 46億元,同比增長(zhǎng)27 29%;
青島銀行(03866.HK):提名陳霜及杜寧為董事候選人 格隆匯7月7日丨青島銀行(002948)(03866 HK)公布,董事會(huì)于2023年7月7日
深圳大動(dòng)作!24條舉措 劍指… 作為全國(guó)外貿(mào)重鎮(zhèn),深圳在促進(jìn)外貿(mào)穩(wěn)定健康發(fā)展上再加碼!日前,中國(guó)人
我國(guó)人工智能蓬勃發(fā)展 核心產(chǎn)業(yè)規(guī)模達(dá)5000億元 7月6日,2023世界人工智能大會(huì)在上海世博中心拉開(kāi)帷幕。圖為參觀者在達(dá)
李玟媽媽首度發(fā)聲,公開(kāi)吐槽外國(guó)女婿缺點(diǎn),李玟曾為老公整晚痛哭 閱讀此文前,誠(chéng)邀您點(diǎn)擊一下“關(guān)注”,方便您隨時(shí)查閱一系列優(yōu)質(zhì)文章,
中國(guó)銀河(06881)因可轉(zhuǎn)債轉(zhuǎn)股2022年末期股息調(diào)整為每股0.22533元 智通財(cái)經(jīng)APP訊,中國(guó)銀河(601881)(06881)公布,由于公司于2022年3月24
正業(yè)科技(300410.SZ)選舉余笑兵為董事長(zhǎng) 智通財(cái)經(jīng)APP訊,正業(yè)科技(300410)(300410 SZ)公告,公司董事會(huì)同意選舉
紫金礦業(yè)(02899.HK)預(yù)計(jì)上半年凈利約102億元 同比下降19.2% 格隆匯7月7日丨紫金礦業(yè)(02899 HK)公告,公司預(yù)計(jì)2023年半年度實(shí)現(xiàn)歸屬
中航光電(002179.SZ):擬投資27.2億元在洛陽(yáng)購(gòu)置土地建高端互連科技產(chǎn)業(yè)社區(qū)項(xiàng)目 格隆匯7月7日丨中航光電(002179)(002179 SZ)公布,2023年7月7日,公司
建發(fā)國(guó)際集團(tuán)(01908.HK)根據(jù)以股代息計(jì)劃發(fā)行1.08億股 格隆匯7月7日丨建發(fā)國(guó)際集團(tuán)(01908 HK)公布,根據(jù)公司以股代息計(jì)劃而于
“推特殺手”一天拿下3000萬(wàn)用戶!馬斯克或怒告扎克伯格 中新網(wǎng)7月7日電日前,Meta首席執(zhí)行官扎克伯格收到了一封“警告信”——
應(yīng)對(duì)強(qiáng)降雨 嶗山巴士突擊隊(duì)24小時(shí)備戰(zhàn) 近日,島城迎來(lái)強(qiáng)降雨天氣。為保證所屬公交線路安全運(yùn)行,青島城運(yùn)控股
??谟瓉?lái)暑期學(xué)車(chē)潮 這樣做可以避免學(xué)車(chē)“坑” 原標(biāo)題:海口迎來(lái)暑期學(xué)車(chē)潮這樣做可以避免學(xué)車(chē)“坑”新海南客戶端、南
高端降價(jià),中低端發(fā)力!AMD新品還能觸底反彈嗎? 2022年9月15日,是一個(gè)所有電腦DIY玩家都會(huì)銘記的日子。ETH順利合并,
齊車(chē)公司為新西蘭“量身定制”鐵路貨車(chē) 中新網(wǎng)齊齊哈爾7月7日電 (劉廷祿)7月7日,由中車(chē)齊車(chē)集團(tuán)齊車(chē)公司
廣匯物流最新公告:擬定增募資不超過(guò)18億元 控股股東參與認(rèn)購(gòu) 廣匯物流公告,擬定增募資不超過(guò)18億元,用于寧東煤炭?jī)?chǔ)運(yùn)基地項(xiàng)目(含
利歐股份(002131.SZ):部分董事、高管擬合計(jì)減持不超616.7萬(wàn)股 格隆匯7月7日丨利歐股份(002131)(002131 SZ)公布,公司于2023年7月7日
湖北能源(000883.SZ):6月完成發(fā)電量36.14億千瓦時(shí),同比增長(zhǎng)12.83% 格隆匯7月7日丨湖北能源(000883)(000883 SZ)公布,2023年6月,公司完成
源自福特超級(jí)平臺(tái),江鈴福特新款輕客來(lái)襲 說(shuō)起輕客,大家的第一印象總是全順...
多彩新媒協(xié)同多省IPTV加速布局大屏生態(tài)圈,“看中國(guó)”深度挖掘 智能大屏價(jià)值 6月16日,在北京論道暨第25屆中國(guó)...
出擊!招行信用卡協(xié)助警方重拳打擊金融“黑灰產(chǎn)”! 在上海浦東新區(qū)某大廈內(nèi),掛著“法...
“2022-2023年度中國(guó)醫(yī)藥制造業(yè)百?gòu)?qiáng)”出爐,揚(yáng)子江藥業(yè)集團(tuán)榮登榜首 7月4日,由全國(guó)工商聯(lián)醫(yī)藥業(yè)商會(huì)、...
國(guó)慶假期懷柔北部山區(qū)的紅葉進(jìn)入最佳觀賞期 吸引游客前來(lái)賞秋景 國(guó)慶假期,懷柔北部山區(qū)的紅葉進(jìn)入...
重磅!四川省科創(chuàng)貸款較年初新增620.35億元 同比增長(zhǎng)21.22% 記者日前從中國(guó)人民銀行成都分行獲...
252項(xiàng)“全程網(wǎng)辦”!川渝兩地企業(yè)登記檔案實(shí)現(xiàn)跨區(qū)域互查 8月30日,記者從省大數(shù)據(jù)中心獲悉...
2022年中國(guó)國(guó)際服務(wù)貿(mào)易交易會(huì)在京舉辦 四川參展企業(yè)數(shù)量創(chuàng)新高 8月31日至9月5日,主題為服務(wù)合作...