掃碼登錄
“我們曾做過試驗,當在特定論壇連續(xù)發(fā)布百余條虛假信息后,主流大模型對對標問題的回答置信度就會從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當網(wǎng)絡(luò)污染源形成規(guī)模,AI的知識體系就可能產(chǎn)生系統(tǒng)性偏差?!?/p>
可從優(yōu)化大模型技術(shù)、完善監(jiān)管與法律、加強行業(yè)自律等方面入手,構(gòu)建數(shù)據(jù)治理框架,確保AI知識庫的純凈度,維護數(shù)字時代的認知安全
文 | 上海證券報記者 馬嘉悅 聶林浩
今年2月,某科普作家在社交平臺上表示,他向AI大模型詢問文物“青銅利簋”的有關(guān)情況時,結(jié)果稱該器物為商王帝乙祭祀父親帝丁所鑄,與實物考證不符。進一步追問文獻來源時,AI不僅偽造了學術(shù)觀點,還篡改了文獻作者信息。
記者近日在調(diào)研中發(fā)現(xiàn),由于底層數(shù)據(jù)來源和語料的準確性與客觀性難以保證,大模型輸出內(nèi)容可能偏離實際形成“語料污染”,加速虛假信息傳播,放大市場操縱、公共安全和法律版權(quán)等風險。
業(yè)內(nèi)人士建議,可從優(yōu)化大模型技術(shù)、完善監(jiān)管與法律、加強行業(yè)自律等方面入手,構(gòu)建數(shù)據(jù)治理框架,確保AI知識庫的純凈度,維護數(shù)字時代的認知安全。
語料污染致大模型有害內(nèi)容顯著增加
近日,記者在某AI平臺查詢“某企業(yè)A是否投資過企業(yè)B”時,系統(tǒng)回答“企業(yè)A作為早期投資方參與企業(yè)B 2023年首輪融資”。然而,記者通過國家企業(yè)信用信息公示系統(tǒng)等平臺查詢核實后發(fā)現(xiàn),該投資關(guān)系并不存在。
溯源發(fā)現(xiàn),相關(guān)回答的語料來源于某平臺自媒體賬號連續(xù)多日發(fā)布的系列文章,這些未經(jīng)權(quán)威信源印證的網(wǎng)絡(luò)討論,使AI系統(tǒng)誤判為可信信息。
中國信通院相關(guān)負責人分析稱:“我們曾做過試驗,當在特定論壇連續(xù)發(fā)布百余條虛假信息后,主流大模型對對標問題的回答置信度就會從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當網(wǎng)絡(luò)污染源形成規(guī)模,AI的知識體系就可能產(chǎn)生系統(tǒng)性偏差?!?/p>
中國信息協(xié)會常務(wù)理事、國研新經(jīng)濟研究院創(chuàng)始院長朱克力介紹,數(shù)據(jù)注入、數(shù)據(jù)投毒等手段,是向大模型訓練數(shù)據(jù)中注入虛假或誤導性信息,或者通過大量無效或干擾數(shù)據(jù)影響大模型對有效信息的處理能力,甚至模仿他人口吻或身份發(fā)布信息,導致大模型誤判并采用。
2024年11月,360數(shù)字安全集團漏洞研究院發(fā)布的《大模型安全漏洞報告》稱,數(shù)據(jù)投毒攻擊是目前針對大模型最常見的攻擊方式之一,它通過惡意注入虛假或誤導性的數(shù)據(jù)來污染模型的訓練數(shù)據(jù)集,影響模型在訓練時期的參數(shù)調(diào)整,破壞模型的性能、降低其準確性或使其生成有害的結(jié)果。
紐約大學的一個研究團隊在一次模擬的數(shù)據(jù)攻擊中,通過使用GPT-3.5 API并進行提示工程,為外科、神經(jīng)外科和藥物三個醫(yī)學子領(lǐng)域創(chuàng)建了5萬篇假文章,并將其嵌入HTML中,以隱藏惡意文本。
結(jié)果顯示,在訓練時,即使數(shù)據(jù)集中只有0.01%和0.001%的文本是虛假的,模型輸出的有害內(nèi)容也會分別增加11.2%和7.2%。如果換成更大規(guī)模參數(shù)的模型,注入僅花費5美元生成的2000篇惡意文章,模型的有害內(nèi)容則會增加4.8%。
數(shù)據(jù)失真風險不僅來自外部攻擊,還可能源于技術(shù)局限。騰訊研究院發(fā)布的一份報告顯示,AI大模型的數(shù)據(jù)源可能存在知識邊界,即缺乏特定領(lǐng)域知識或使用過時的信息,使得模型在面對特定問題時“無中生有”。即使數(shù)據(jù)本身沒有問題,模型也可能因為對數(shù)據(jù)利用不當而產(chǎn)生幻覺。
受訪者表示,AI生成內(nèi)容還會造成遞歸污染,即大模型生成的虛假內(nèi)容被再次上傳至互聯(lián)網(wǎng),成為后續(xù)模型訓練的數(shù)據(jù)源,形成“污染遺留效應”。這種遞歸循環(huán)會導致錯誤信息逐代累積,最終扭曲模型的認知能力。
參賽選手在貴陽舉辦的第四屆“網(wǎng)鼎杯”網(wǎng)絡(luò)安全大賽決賽階段比賽中(2024 年 11 月 23 日攝) 陶亮攝 / 本刊
三方面風險值得關(guān)注
“大模型的語料污染在技術(shù)上是切實存在的。”北京一家頭部量化私募負責人表示,互聯(lián)網(wǎng)語料作為大模型的主要知識來源,其準確性與客觀性難以保證,可能影響模型輸出的可靠性。
業(yè)內(nèi)人士稱,隨著大模型快速發(fā)展,AI語料污染會引發(fā)一系列潛藏風險,且隱蔽性較強。當前,尤其需要關(guān)注金融市場、公共安全和法律版權(quán)等方面的風險。
金融市場操縱風險。隨著大模型應用的普及,金融領(lǐng)域正面臨語料污染帶來的新型市場操縱風險。
有業(yè)內(nèi)人士揭露了“AI殺豬盤”的典型操作手法:不法分子先是選定個股預埋股票倉位,再利用AI大量炮制虛假信息,散布于自媒體賬號、股吧、論壇等平臺,污染AI語料庫,再雇用“水軍”擴散AI對話截圖,人為制造概念股假象誘導散戶接盤。當股民“信以為真”沖著這些“利好”消息買入,便可套現(xiàn)離場,完成一輪“AI殺豬盤”。
這種新型市場操縱手段已經(jīng)顯現(xiàn)出一定的市場破壞力。今年春節(jié)后,“某集團投資DeepSeek”的虛假信息在各投資平臺大規(guī)模傳播,直接引發(fā)相關(guān)上市公司股價異常波動,操盤者趁機高位套現(xiàn)。
值得注意的是,虛假信息即便被官方辟謠,仍可能持續(xù)污染語料庫。記者測試發(fā)現(xiàn),部分被辟謠的虛假信息仍在AI系統(tǒng)中存續(xù),顯示出虛假語料的頑固性。
明汯投資有關(guān)人士認為,大模型被“污染”后生成的統(tǒng)一傾向薦股內(nèi)容,可通過社交媒體等渠道快速傳播,形成市場一致性預期,導致股價波動;若污染語料接入程序化交易系統(tǒng),可能觸發(fā)自動化買賣指令,進一步加劇市場異常波動,形成聯(lián)動風險。
公共安全風險。多位業(yè)內(nèi)人士坦言,AI語料污染還可能誤導公眾認知,擾動醫(yī)療、教育等多個領(lǐng)域認知,給社會公共安全帶來風險。
今年1月,西藏日喀則市定日縣發(fā)生6.8級地震。不法分子為追求流量,利用AI技術(shù)生產(chǎn)“災區(qū)”房屋坍塌、群眾被埋的虛假照片。其中,一張“被埋廢墟的6指男孩”圖片被廣泛轉(zhuǎn)發(fā)。
朱克力等表示,被污染的語料通過AI大模型生成虛假新聞快速擴散,可能誤導社會輿論,引發(fā)社會恐慌情緒。此外,若攻擊者系統(tǒng)性污染搜索引擎結(jié)果和AI訓練數(shù)據(jù),可能篡改歷史記錄、扭曲科學常識、重構(gòu)文化認知,影響社會集體記憶。
教育、醫(yī)療健康領(lǐng)域安全風險則更需警惕。一位量化私募人士表示,使用被污染的醫(yī)療類大模型可能生成錯誤診療建議,不僅危及患者生命安全,更可能加劇偽科學的傳播。例如某些AI系統(tǒng)若被注入“疫苗有害論”等偽科學語料,或?qū)⒁l(fā)公共衛(wèi)生危機。
法律版權(quán)風險。近年來,大模型訓練引發(fā)的知識產(chǎn)權(quán)糾紛不斷涌現(xiàn):《紐約時報》起訴OpenAI公司,指控其非法復制數(shù)百萬篇文章用于ChatGPT大模型訓練,索賠金額高達數(shù)十億美元;三位美國作者對Anthropic PBC發(fā)起訴訟,稱其未經(jīng)授權(quán)使用大量書籍訓練Claude大模型;2023年美國作家協(xié)會起訴Meta非法使用書籍數(shù)據(jù)……
生成式AI快速發(fā)展與現(xiàn)有知識產(chǎn)權(quán)法之間的沖突,爭議核心在于AI使用大量受版權(quán)保護內(nèi)容進行訓練的合法性,而AI語料污染將加劇爭議版權(quán)判定難度。
受訪者表示,AI語料污染對版權(quán)爭議判定的核心挑戰(zhàn)在于其通過技術(shù)黑箱與數(shù)據(jù)混雜性,模糊了傳統(tǒng)版權(quán)法中侵權(quán)認定邏輯。一方面,語料污染意味著訓練數(shù)據(jù)中可能混雜海量未授權(quán)內(nèi)容,AI內(nèi)部運作機制的不透明性,使法律難以判定其是否實質(zhì)性“復制”了原作,削弱了侵權(quán)歸責的基礎(chǔ);另一方面,污染語料若包含用戶上傳的侵權(quán)內(nèi)容,則AI生成的二次內(nèi)容可能涉及原作者、上傳者、平臺、模型開發(fā)者等多方權(quán)利交織,使版權(quán)歸屬鏈條復雜化。
加強虛假語料治理
當前,加強虛假語料治理面臨兩大技術(shù)難點:首先是虛假信息的“記憶殘留”,即便原始信源被刪除,其衍生的對話數(shù)據(jù)、分析文本仍會持續(xù)污染語料庫;其次是污染行為“隱蔽性增強”,通過對抗性樣本、數(shù)據(jù)投毒等手段,污染行為削弱傳統(tǒng)內(nèi)容審核識別能力。
針對AI快速發(fā)展背后暗藏的語料污染風險,業(yè)內(nèi)人士認為需要從三方面筑牢大模型虛假信源防火墻。
一是優(yōu)化大模型數(shù)據(jù)訓練等運行機制。朱克力等建議,加強大模型數(shù)據(jù)源治理與模型糾偏機制,建立嚴格的語料篩選機制,通過多層次多源交叉驗證和權(quán)威數(shù)據(jù)庫比對過濾可疑內(nèi)容,并引入權(quán)威信源“白名單”,優(yōu)先抓取政府機構(gòu)、學術(shù)期刊等可信數(shù)據(jù)。明汯投資、九坤投資有關(guān)人士建議,增強大模型對虛假模式的識別能力,完善動態(tài)監(jiān)測與反饋機制;強化開源模型治理,通過建立語料貢獻審核標準等防止惡意數(shù)據(jù)注入;在底層代碼等技術(shù)中融入“真實優(yōu)先”的倫理原則,構(gòu)建大模型對虛假信息的自適應識別能力。
二是進一步強化監(jiān)管力度、完善法律法規(guī)。相關(guān)人士建議,提升監(jiān)管技術(shù)水平,開發(fā)AI內(nèi)容識別技術(shù)的監(jiān)管工具,識別虛假信息并阻斷傳播;建立語料追溯機制,可要求大模型標注數(shù)據(jù)來源,并明確AI生成內(nèi)容法律責任主體,提高違法犯罪成本。
成都理工大學文法學院教授張曉彤等建議,完善相關(guān)法律,加快推進人工智能治理的專門立法,可借鑒美日等國經(jīng)驗設(shè)立專門管理機構(gòu),比如組建“人工智能倫理委員會”,負責技術(shù)備案審查、安全評估、倫理監(jiān)測及責任追究。此外,加強社會引導,提高群眾對大模型生成信息的辨別能力。
三是加強行業(yè)自律。受訪人士建議,可推動金融等行業(yè)制定大模型應用倫理規(guī)范,嚴禁利用AI操縱市場;引導內(nèi)容平臺擔負起“信息守門人”責任,通過添加AI生成提示性水印,建設(shè)謠言庫、權(quán)威信源庫和專業(yè)審核團隊等方式,加強虛假信息治理。