时间:2014-03-25 编辑整理:早检测网 来源:早检测网
学术不端行为的种类很多,概念的界定也不尽相,同,公认的学术不端包括一稿多投抄袭剽窃重复发,表虚假注释不实参考文献等,另外国内学者还提出,了一些其他学术不端行为,如学术成果低水平重复发,表,期刊的增刊及加大页码等。
2008年底,中国学,术期刊(,光盘版),电子杂志社与同方知网技术有限公,司合作成立CNKI,科研诚信管理系统研究中心,成功,开发出旨在检测学术文献当中不端行为的学术不端文,献检测系统,包括科技期刊AMLC系,统,学,位,论,文,AMLC系统和社会科学AMLC系统,该系统以中国,学术文献网络出版总库为全文对比数据库,可检测,抄袭剽窃伪造篆改不当署名,一稿多投等学术不,端行为,并支持各刊自建对比库。
放射学实践自2010年初开始使用该系统,对,全部来稿进行了检测,并对检测结果进行了统计分析,,认为该系统对医学科技期刊遏制学术不端行为具有一,定的作用,但尚不能代替编辑的这一部分工作。
检测指标:,主要指标有总重合字数总文字重合度,及连续重合文字,辅助指标有首部重合文字数首部重,合度尾部重合文字数及尾部重合度,总文字重合度,也叫总文字复制比,是最重要的检测指标,即系统将提,交的文章与对比库中的文献进行对比,统计出总重合,字数,除以提交文章的总字数得出的一个比例,首部,重合度即论文开头部分重合字数所占的比例,尾部重,合度即论文结尾部分重合字数所占的比例,对于医学,学术论文,一般开头部分均是综述性的报告介绍,其重,要性远低于论文尾部,所以一般首部重合度较高,而尾,部重合度较低。
系统主要以总文字重合度的10%,30%,50%为,界进行划分,以连续重合文字为辅助指标,对所提交,论文的划分为以下5种情况(,表1):提交论文后,系统会很快(1天之内)给出检测数据,那我们怎么根据检测数据进行判断呢首先最根本的判断。依据是文字重合度,依照现在国内的做法是:如果文字重合30%,可认为不存在整体抄袭,30%-50%需重点排查,而50%的稿件会被认定为存在整体抄袭的很大可能性。
放射学实践自2010年初使用本系统,对全部来稿进行检测,共检测论文433篇,其中220篇出现重合文字,约占所有被检测论文的50.8%(220/433);文字重合度在30%以上的有57篇,约占所有被检测论文的13.2%(57/433);文字重合度在50%以上的有20篇,约占所有被检测论文的4.6%(20/433);经本刊编辑人员仔细对比分析,认定为整体抄袭的论文有8篇,约占所有被检测论文的1.8%(8/433)被认定为整体抄袭的8篇论文的相关检测数据见表2,从表2中可以看出,7篇(7/8)论文的文字重合度比50%,只有1篇论文的文字重合度50%,但此篇论文的研究方法部分和结果部分的实验数据和数据库中的一篇论文完全一样,所以被认定为整体抄袭而单篇文献最大文字重合度分布大致和文字重合度相当。首部重合度作为辅助检测指标,作用有限,从被认定为整体抄袭的8篇文章中可以看出,首部重合度数据的分布没有规律可循,因此对于判定是否为整体抄袭的价值较小。尾部重合度作为另外一个辅助指标,从8篇整体抄袭的文章可以看出,7篇( 7/8) 论文的尾部重合度均50%,因此尾部重合度是一个比较重要的参考指标。
从表中可以看出,此13篇论文的文字重合度虽然。均50%,但单篇文献最大文字重合度均50%(论文1为综述,经过编辑人员仔细对比分析,不认为是整体抄袭),而被认定为整体抄袭的8篇论文中,7篇的。单篇文献最大文字重合度50%,可见,单篇文献最大文字重合度是判定是否为整体抄袭的最敏感指标。而尾部重合度和文字重合度的分布具有相似性,在判定。是否整体抄袭上具有一定价值,但不及单篇文献最大文字重合度敏感
论文提交后,系统在首页给出最基本的检测数据,。包括连续重合文字和总文字重合度,其中总文字重合。度作为判定抄袭的最根本指标。下面根据三种不同的。情况进行分析:第一种情况:文字重合度30%的稿件,这种稿件基本可以认定为不存在整体抄袭,但是也。不能确定其不存在整体抄袭的可能,以下是存在整体。抄袭,但系统无法检测的情况:(1)在网络上通过其他途径,比如其他网络数据库,论坛,博客,微博等传播的文献,在科普性期刊中容易出现此类整体抄袭,而专业的科技期刊则比较少见。[4];(2)编辑部在审稿件,审通过待录用的稿件,已经发表但还未录入数据库的稿件。以及退稿和增刊中的稿件;(3)其他未在网络上公开。的稿件,如仅有纸质版的稿件等。第二种情况:文字重合度50%的稿件,这种稿件系统认为存在整体抄袭。的很大可能性,但以下几种情况需要我们具体情况具。体分析:(1)退稿重投,主要是先前被退稿件被加入了。自对比数据库,这种情况需仔细分析,如果新投来的稿。件和以前被退稿件没有什么差别,也可以退掉,如果确实修改到位了,可以继续审稿;(2)同一作者撰写的有。延续性的研究成果,这类稿件,往往文字重合度较高,。因为文章延续了此前文章的方法和某些结果结论,此时不应武断地认定为整体抄袭;(3)综述类文章文字。重合度一般较高,但由于好的综述类文章肯定有作者。独到的见解,因此单纯因文字重合度高而否定价值是。值得商榷的。根据本组数据,文字重合度50%的论。文中,仅有35%(7/20)被认定为整体抄袭,因此对于文字重合度50%的论文不应简单地认定为整体抄袭,而应查看更具体的检测数据,其中最重要的指标就。是单篇文献最大文字重合度,如果单篇文献最大文字重合度也50%,可基本认定为整体抄袭,最终确认还。需与文章进行仔细对比分析第三种情况,对于文字复制比在30%-50%的稿件,为保险起见,可将其视为文字重合度50%的情况进行处理。
文献不端检测系统具有以下优点:(1)该系统支持多种格式的论文,如最常用的WORD格式和PDF格。式等;(2)海量比对文献资源:涵盖期刊博硕士学位论文会议论文报纸专利等学术资源数据,还包括网。页资源数据数百万的英文学术文献数据,并实现定期比对数据更新;(3)检测速度快:秒级响应速度,实时。检测结果反馈,一篇5000字的文献只需1秒钟;(4)支持英文文献检测:对中文期刊的英文摘要可以进行检测,对英文期刊可以进行全文检测,丰富检测内容;(5)对检测结果进行分类,并用不同的颜色进行标注:如没有文字重合的文章用绿色标注,文字重合度0-30%的文章用黄色进行标注,文字重合度30%-50%的文章用橙色进行标注,文章重合度50%以上的文章用红色进行标注由于需要对每篇来稿进行检测,工作量较大,编辑可以只看检测结果为橙色和红色标注的文章,而这两类的文章数量较少,从而减轻了工作量,提高了效率。
文献不端检测系统有如下缺点:(1)此系统对数字符号图表及字母不敏感,检测结果往往将这些显示为乱码而无法识别,同一句话即使其中的数据或符号不同,也会被认为文字重复,如一个课题的系列研究中需要研究多个因子时,则容易被认为文字重复,甚至被认为是段落抄袭或整体抄袭,本刊为影像期刊,图片较多,对此系统无法进行检测,限制了其使用范围;(2)系统不仅仅对比标题摘要和正文,还对比作者单位和参考文献,如果作者单位和参考文献相同,也会被认定为文字重复这样就提高了文字重合度,造成某种程度上的数据失真;(3)文章格式对检测结果有影响虽然此系统支持多种格式的对比,但实际效果却不同,比如同一篇文章,用WORD格式和PDF格式进行对比,其文字重合度却并非100%[2];(4)下面情况容易出现高的文字重合度:不同作者研究同一组资料时,对资料的描述可能一样,此时文字重合度较高;研究性论文在讨论部分容易抄袭其他文章,此部分会出现较高的文字重合度;统计方法部分,统计软件和统计方法的一般描述经常是一样的,此时会出现较高的文字重合度[5],对以上几种情况都需编辑进行仔细核查;由于系统只是进行简单的比对,容易通过简单的修改降低文字重合度有些作者投稿之前,先通过某些途径利用此系统进行检测,如果文字重合度较高,通过修改个别字或者符号等就可以降低文字重合度,从而顺利通过系统检测。
本刊使用此系统3个月以来,共检出8篇整体抄袭文章,效率远远高于此前未采用本系统时,使用中有三点体会:(1)及时检测来稿,对检测属于整体抄袭的稿件,直接退稿,不用送审,以免浪费人力物力;(2)在每一期发稿之前再进行一遍检测,因为从来稿到发稿,一般都需要半年到1年,甚至更长时间,来稿的时候检测没问题的文章并不代表发稿的时候检测也没问题原因在于从来稿到发稿这段时间内对比数据库发生了改变,数据库文章增多了;(3)及时更新对比数据库,首先就是及时把已发表的文章上传至数据库,另外就是把一些退稿,增刊等其他形式的未在正刊录用的文章加进对比库,以免重复劳动。
此系统是智能很强的系统,能帮助我们快速有效地检索,时效性也很强,提高了工作效率但稿件情况非常复杂,说到底,此系统只不过是程序的集合体,并不能代替编辑的工作,只是给我们提供参考信息,电脑不能代替人脑,具体问题需要具体分析。
石鹤,明 桥,夏黎明,汪 晓,汪 玲,杨 岷