你的位置:论文检测软件 > 英文查重知识 > >> 毕业论文查重软件

ithenticate论文查重原理是什么?

发表时间:2021-06-02 11:18| 作者: 毕业在线网

  crosscheck(CrossCheck by iThenticate)这个查重软件,知道的人想必都清楚,专业的查重软件,各大杂志社都在使用,很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说,论文的总体相似率超过30%,编辑就会要求修改或者可能直接拒稿。后果还是很严重的。那ithenticate到底是如何进行判定的呢?ithenticate论文查重原理是什么?

 

  

ithenticate论文查重原理是什么?

 

  根据对自己检测的相似性报告分析。初步推测下软件对文章的查重处理。一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化。说来也很合理。因为一篇文章中,除了单词以外,还有大量的符号(标点符号,数学符号及特殊符号等)。这些并不是crosscheck查重的对象,所以会把他们处理掉。这些符号会通通被替换为空格。这种文本处理方式也是很常见的,在python和matlab的数据处理中经常会使用。

 

  处理后的文章就只剩下单词了。然后软件会对文章进行比对处理。根据软件设置的重复原则对文本进行标记。最终得出一份相似性报告。

 

  这里的重点是软件判定重复的原则。了解了原则之后,我们就可以有针对性的进行修改。网上很多关于这些规则的说法,大部分是说连续六个单词即判定重复,或者根据语言风格相似即判定重复。这些说法不够准确,也没有依据。我们还是回到软件本身来回答这个问题。crosscheck它是一款软件,它不是人,不能判断文章的内容,只会把文章和系统内的进行比对,根据规则做出判断。那这样的规则到底有哪些?

 

  其实,crosscheck查重的基本规则只有一条:不连续的六个单词中间连续不重复的单词小于四个(不包括四个)即判定这六个单词重复(注意:这里的规则是软件系统默认的规则,大部分期刊使用默认规则)。

 

  所有的查重结果都是基于这条进行的。这句话比较绕口。具体怎么理解,我们来看下具体的实例。

 

  先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个,即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词,0表示不重复的单词。那么这种情况就是:111111。

 

  再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑,有时候几个单词距离的很远,也被判定重复了,很是苦恼。

一篇被ithenticate处理的文章,这个软件第一步应该做的是进行文本的格式化

 

  1)中间只有一个不重复的。例如:1011111;1101111;1111011等。

 

  实例:Computer science has been widely considered as...(斜体表示和已有文献重复)

 

  这里面单纯插入一个widely单词,是不足以骗过系统的。

 

  2)中间有两个重复的。例如:1100110011;110010011001;1100110011等。

 

  实例1:Computer science has been widely percieved asan...

 

  这里替换两个不重复单词widely percieved,但是Computer,science,has,been,as,an已经是六个不连续的重复了。

 

  实例2:Computer science and technology has been widely percieved as an...

 

  在Computer science后面加上两个不重复的单词and technology是不是就可以了呢?答案是否定的,Computer,science,has,been,as,an这六个词中间只有两个是不重复的,不能判定为整句不重复。

 

  3)中间有三个不重复的。这个一眼乍看不觉得重复,但其实是重复了。例如:100010001111;100010001000100010001等。

 

  100010001000100010001这种情况是不是很刺激。对!按照规则,这个也算重复。因为六个不连续重复的单词直接是三个重复的。

 

  实例1:Computer science,resulting from America,has been widely percieved as an...

 

  这种形式是11000110011模式,依旧是重复的。

 

  实例2:Computer science,resulting from America,has been widely percieved as one of most promising....

 

  好,我们把改成one of most。虽然这三个没有重复,但紧接着后面的promising和已有文献重复了,很不幸,整个句子还是重复了。重复形式为11000110010001。

 

  上面分析的是单纯的单词,不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的,系统该如何处理他们?

 

  • 原文地址:https://www.gyreye.com/ywcczs/2051.html 如有转载请标明出处,谢谢。