梦晨 发自 凹非寺量子位 报导 | 大众号 QbitAI
Colossal Information(巨型信息)、Counterfeit Consciousness(伪认识)、Elite Figuring(精英策画)……
这些看起来比机翻都不如的学术名词,居然都是从计算机类SCI期刊上找到的。
法国图卢兹大学一位副教授Cabanac,从4月份开端注意到这个现象。
他先是发现30篇左右用词真实别扭的论文,去文献查找渠道搜一下这些词又发现更多同类论文。
再把新论文中呈现的词汇收集起来挨个去查找,又能找出更多论文……
这么滚雪球下来,Cabanac收集到了一大堆辣眼睛词汇,再结合上下文挨个把原本的意思估测出来,做成一张对照表:
本来“巨型信息”便是大数据,“伪认识”指的是人工智能,“深入神经安排”其实是深度神经网络……
就像是把英语名词机翻成其他言语,通过多道翻译后再翻回英语弄出来的。
到这儿Cabanac真实看不下去了,决议带领团队着手查一下到底是谁在搞事。
60%来自同一期刊,大部分来自我国
他运用Dimension文献查找引擎查询深度神经网络的替代词“profound neural organization”。
发现这个词在《微处理器与微体系》(Microprocessors and Microsystems)这个期刊上呈现次数最多。
《微处理器与微体系》是SCI期刊,由爱思唯尔发行,首要重视计算机软件、硬件与架构、网络与通讯和AI这4个范畴。
这本期刊成了要点研讨目标,终究计算成果860篇至少包括一个辣眼词汇的论文里有500多篇都来自这儿。
为了深入查询,Cabanac团队下载了2018-2021年间宣布在《微处理器与微体系》上的一切论文。
对论文的提交日期、承受日期等数据进行剖析,发现2021年的论文的评定时刻缩短了5倍,只要均匀只要42天。
乃至一部分呈现在特刊(Special Issues)上的论文,提交、修订和承受日期都相同。
然后,最离谱的来了。
在404篇评定时刻少于30天的论文中,有394篇的作者来自我国研讨机构,占比97.5%。
而615篇评定时刻大于40天的论文中,只要58篇的作者与我国相关,占比只要9.5%。
面临这个挨近10倍的距离,研讨人员只能估测在我国有着非常规的论文评定进程。
可是为什么从2021年开端?
Cabanac猜想与以GPT-3为代表的言语模型逐步老练有关。
为了验证这一主意,他们找来了检测工具GPT Detector给论文摘要部分打分,分数高代表文本更有可能是通过GPT系列模型生成的。
终究试验成果是,《微处理器与微体系》389篇评定时刻少于30天的论文得分明显高于其他控制组。
生成后的论文为了躲避查重,才把专业名词都换成通过多道机翻出来的。再配合上不标准的评定流程,这些论文得以许多宣布在SCI期刊上。
除了《微处理器与微体系》之外,团队还在其他35种计算机学科期刊上发现带辣眼机翻的论文。
Cabanac的研讨成果一经发布,许多计算机学科之外的学者表明:啊这,我也见过这种辣眼机翻。
一位教授置疑他学生的论文都是在网上找人把维基百科内容替换名词搞出来的:
在化学上,用“瘦电影”替代“薄膜”就太奇怪了:
为了躲避抄袭查看
7月中旬,《微处理器与微体系》的出版商爱思唯尔对这一现象打开查询,对6期特刊上的400多篇论文进行逐个从头评定。
爱思唯尔发言人表明,这些论文运用反向翻译进行名词替换很可能是为了躲避抄袭查看,也找出了流程中担任论文的修改不按规则操作的现象。
查询还发现有49篇论文开始被提交给特刊并被特邀修改承受,但随后应作者的要求,以定期刊物的方式宣布。
看到这儿我嗅到了一丝了解的滋味,究竟刚才在查找《微处理器与微体系》期刊的基本情况时,跳出来的广告便是这个。
论文地址:https://arxiv.org/abs/2107.06751
参阅链接:[1]https://www.nature.com/articles/d41586-021-02134-0[2]https://retractionwatch.com/2021/07/19/tortured-phrases-lost-in-translation-sleuths-find-even-more-problems-at-journal-that-just-flagged-400-papers/