打假神器来了?AI图像查重4小时筛查3500篇论文

光山新闻网 林晓舟 2020-07-24 22:36:55
浏览

 
 
打假神器来了?AI图像查重4小时筛查3500篇论文  
 

7月23日,据“DeepTech深科技”微信公号报道,北京大学常务副校长詹启敏在Pubpeer网站上被指涉嫌25篇论文存在尝试图像反复、尝试要领存在错误等问题。

7月24日,署名詹启敏的作者在“潇敏ScienceArt”公号上回应称,已与论文相助者仔细核实相关文章表述和尝试功效,当真开展接头,今朝并未发明数据造假和学术不端环境。

“尝试图像反复”是论文被质疑的常见问题之一。此前,已有数起论文打假对准了生物医学规模,个中的一个要害靶点就是“尝试图像反复”。

克日,Nature报道了美国计较机学者研发的一款图像查重软件,好像为快速办理这一问题带来了但愿。该软件在4小时内筛查了3500篇论文,并最终发明白400个大概反复的图像。

不外,有学者认为,这款软件的缺点也很明明,因为图像反复不必然是错误。并且,软件甚至会将相似的图像标志为反复。

知名学术打假人Elisabeth Bik评价称,该软件“仍需要人工监视,以确保它不会呈现标志错误”。

新冠论文大筛查:4小时、3500篇论文、2.1万张图像

本年6月,雪城大学计较机学者丹尼尔·阿库纳(Daniel Acuna)操作开拓的图像查重软件,提取和较量了预印本网站bioRxiv和medRxiv上的3500篇论文,共2.1万张图像。

打假神器来了?AI图像查重4小时筛查3500篇论文

Daniel Acuna (图源:Syracuse University)

这一软件可批量筛查论文,找出反复图像,纵然颠末旋转、裁剪的图片也难逃它的高眼。Acuna的公司Resis利用这一软件为期刊和研究机构提供处事,但今朝还未果真利用。

他说,在4个小时内,该软件就发明白约400个大概存在反复的图像。不外,Acuna认为大大都都没有问题。

他选择了24篇包括“有趣”反复图片的论文,同时发布在他本身建设的网站和PubPeer上。

这引起了不小的惊动。论文作者们也回响纷歧。一些作者选择了认可错误并当即纠正;一些论文的作者则答复说,有些错误在经同行评议的论文版本中已经纠正。

芬兰赫尔辛基大学病毒学家Giuseppe Ballistreri对Acuna所做的事情暗示感激。他写道:“假如这个软件的运行功效是精确的,我认为应默认在PubMed中实施。”

辅佐出书商筛查造假

今朝,期刊审稿大多依赖于作者提交的手稿图像,举办手动筛查。《欧洲分子生物学学会杂志》主编Bernd Pulverer先容说,整个进程很耗时,早就应该举办自动筛查以简化进程。

Acuna暗示,假如期刊编辑回收雷同软件,他们也许能更轻松地完成审查事情。

荷兰出书业巨头爱思唯尔科研诚信认真人IJsbrand Jan Aalbersberg说,为发明图像反复利用问题,出书商需要建设一个包括所有已出书图像的共享数据库,以便举办较量。

2015年,Acuna及相助者就从其时颁发在PubMed生物医学文献数据库开放存取的76万篇文章中提取了260万张图像。他们从中抽取约3750张标志图像举办手动筛查,并按照功效预测,该数据库中1.5%的论文包括可疑图像,而0.6%的论文存在图像造假。

需要人工调解功效

不外,也有人暗示,反复不必然是错误。Bik认为,该软件“需要人工监视。”

Acuna同意她的概念。他说,该软件尚无法按照上下文判定反复图片是否存在问题,需要工钱审查。

“但这仍然是有用的,尽量Bik擅长在论文中查找反复的图像,但计较机可以通过较量数十万、数百万篇论文,来找到两篇论文中的反复之处,这对人类来说是不行能完成的任务。”Acuna说。

一些研究人员则反应,Acuna的软件将相似的图像也标志为反复。同时,软件无法兼容广为风行的PDF文件名目,也是一个问题。

厥后,Acuna从他的网站中删除了约1/3的反复文章阐明,并将其加密。作者只有从他哪里得到会见密钥,才气看到相关功效。