論文圖片誤用?AI:這條路已被我堵死了
現(xiàn)在的AI已經(jīng)開始參與論文打假了!
就像是這樣,經(jīng)過旋轉(zhuǎn)、拉伸和縮放之后的圖片,人眼或許無法辨認(rèn),但AI能看到數(shù)百個(gè)相似的特征:
△藍(lán)色線條表示相似特征
即使通過高超的“圖像處理手段”把一張完整圖像中的局部畫面挪到自己的圖像里,也能一眼分辨:
對于AI來說,這可能是秒認(rèn)的活兒,甚至就算是一篇圖像繁雜的完整論文,也不過花費(fèi)一兩分鐘。
但對于人眼可就沒那么簡單了,比如知名學(xué)術(shù)打假人Elisabeth Bik為了尋找不同論文中使用相同圖片展示各自不同的實(shí)驗(yàn)結(jié)果的例子,曾花費(fèi)了整整2年時(shí)間。
而對于出版商們來說,刊登又撤稿中間的損失就更大了……
因此,最近幾年,AI打假員愈發(fā)頻繁地被引入了論文審查,尤其是圖像問題中。
比如,自今年1月份開始,世界上最大、最古老的癌癥研究專業(yè)協(xié)會,美國癌癥協(xié)會(AACR)就已經(jīng)開始使用AI軟件來評審旗下期刊文章里的圖片造假或重復(fù)問題了。
官方網(wǎng)站上也已經(jīng)寫明:提交手稿中的所有圖像都需要通過AI軟件進(jìn)行篩選。
不僅是AACR,世界第五大出版商SAGE、老牌經(jīng)典醫(yī)學(xué)期刊JCI、 JCI Insight都已經(jīng)用上了這種方法。
自動圖像校對
這些期刊和出版商們所使用的是一個(gè)由以色列公司Proofig開發(fā)的同名軟件。
Proofig軟件基于AI技術(shù)和圖像處理技術(shù),面向各種科學(xué)文稿中的圖像,包括所有類型的顯微鏡照片(光學(xué)、電學(xué)、共聚焦)、載玻片、蛋白免疫印跡(Western blot)、生物體內(nèi)和體外圖像、植物圖像等等。
軟件會從論文中識別圖像,然后提取它們共同的特征進(jìn)行比較。
這些“共同的特征”包括對圖像整體的縮放或旋轉(zhuǎn)、部分重復(fù)或重疊、還有一些方位上的不同。
除此之外,軟件也能額外檢測到一些問題,比如高分辨率的原始數(shù)據(jù)被壓縮到更小的文件中時(shí),可能出現(xiàn)的壓縮失真或壓縮偽影(Compression artifact)情況。
一篇普通的論文通常在2分鐘以內(nèi)可以檢查完畢,最多不超過10分鐘。
對于很多出版商來說,一篇已刊登的科學(xué)文稿里如果出現(xiàn)圖像剽竊這種學(xué)術(shù)不端的現(xiàn)象,那么從調(diào)查、撤稿到后續(xù)的法律費(fèi)用,平均每篇文章可能要損失百萬美元。
因此,很多出版商都樂意引入性價(jià)比較高的AI來和人工審查組一起工作。
AACR的一位期刊運(yùn)營總監(jiān)就表示:
很多作者也很高興能在出版前注意到一些“無意中的”圖像復(fù)制錯(cuò)誤。
而對于我們來說,嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)是我們期刊的一個(gè)顯著的標(biāo)志,因此,這(Proofig)絕對是值得投入的時(shí)間和金錢。
出版商們聯(lián)合起來
其實(shí),科學(xué)文稿中的圖像重復(fù)或剽竊的現(xiàn)象已經(jīng)是屢見不鮮了。
2016年,Nature上就有一篇文章對約2萬篇生物醫(yī)學(xué)論文進(jìn)行人工分析后發(fā)現(xiàn),其中4%的論文都可能包含上述問題。
而通常每年只有1%的文稿得到更正,因此撤回的文章就更少了。
因此,去年5月份,一些出版商聯(lián)合起來成立了一個(gè)為解決論文中圖像問題的小組,其中包括荷蘭出版業(yè)巨頭愛思唯爾(Elsevier)、Wiley、Springer Nature和Taylor & Francis。
愛思唯爾表示,小組最終的目標(biāo)是“創(chuàng)造一個(gè)能夠幫助我們自動識別圖像變化的環(huán)境?!?/p>
還有很多出版商試圖自己解決問題,比如瑞士出版商Frontiers開發(fā)了自己的論文圖像檢查軟件,作為自動檢查系統(tǒng)AIRA的一部分。
Frontiers內(nèi)部的一位發(fā)言人表示,軟件自2020年8月投入使用,標(biāo)記的大多數(shù)論文都沒有問題, 只有大約10%的論文需要人工檢查小組的跟蹤處理。
而有些尚未引入AI手段的出版商也展現(xiàn)出了對這種方法的懷疑:
在可靠性上,AI檢查還沒有大規(guī)模地投入使用。比如愛思唯爾的軟件目前的進(jìn)度還是“正在測試中“,只對部分期刊開放使用。
在成本上,AI軟件偶爾的“誤殺”依舊需要人工參與,甚至?xí)鹌渌募m紛。
不過有人從另一個(gè)角度提出了問題:
如果所有的論文都是開放存取的,那么圖像誤用/重復(fù)問題將更容易得到審查,訓(xùn)練AI也會更有效率。
參考鏈接:
[1]https://www.nature.com/articles/d41586-021-03807-6
[2]https://www.nature.com/articles/nature.2016.19802
本文來自微信公眾號“量子位”(ID:QbitAI),作者:博雯,36氪經(jīng)授權(quán)發(fā)布。