※ 컴퓨터과학 박사이신 이정빈 선생님께서 연구진실성검증센터(센터장 황의원) 앞으로 표절 문제와 관련 '6단어 연쇄 동일 여부 기준' 연구들에 대한 리뷰를 보내주셨습니다. 많은 분들에게 회람시킬만한 출중한 리뷰인지라 이를 주간 미디어워치에도 편집해 소개하고자 합니다. 흔치않은 전문성 깊은 글을 보내주신 이 박사님께 이 자리를 빌려 사의(謝意)를 표합니다. |
반면 캐나다의 인류학자이자 종교학자인 어빙 헥삼(Irving Hexham) 교수[4]는 단어 연쇄 동일 여부 기준이 옳다고 주장한다. 그는 표절을 “저자가 인용부호와 정확한 출처표시 없이, 4단어 이상을 반복적으로 사용하는 경우”라고 명확하게 정의한다.[5] 단, 왜 4단어 이상 반복인지에 대하여서 그는 학계에서 일반적으로 받아들여지는 경험 범칙(rule of thumb)이라고 설명하고 있다. 어빙 헥삼 교수의 주장에서 이외의 과학적 근거는 제시되지 않았다.
어빙 헥삼 교수 외에도 단어 연쇄 동일 여부 기준이 옳다는 가정 하에, 표절의 기준 단어 개수를 논의한 논문은 많다. 라서스(Rathus)의 경우[6]는 2-3단어 연쇄, 소로키나(Sorokina) 등의 경우[7]는 7단어 연쇄가 적절하다고 주장한다. 소로키나(Sorokina) 등은 실험적으로, 6단어 연쇄로 잡으면 표절이 아닌데 표절로 판정되는 경우가 많고, 8단어 연쇄면 표절인데 표절로 잡지 못하는 경우가 생기기 때문에 7단어 연쇄가 적절하다고 주장한다. 물론, 이에 대한 심도 있는 연구가 필요하다고 밝히고 있다.
단어 연쇄 동일 여부 기준과 관련한 여러 논의들
의외로, 정확히 ‘6단어’를 명시해서 연쇄 동일 여부 기준의 근거를 제시하는 연구는 찾기 힘들었다. 다만, 6개 단어 연쇄 동일 여부 기준에 유리하게 해석 가능한 실험을 하나 발견할 수 있었다. 미국의 저명한 연구윤리 학자 중 하나인 미구엘 로이그(Miguel Roig)는 하나의 문단을 여러 명의 교수에게 ‘바꿔쓰기(paraphrasing, 같은 의미의 다른 말로 다시 쓰기)’를 시켰다.[8] 이 결과에 대하여, 단어 연쇄 동일 여부 기준이 얼마나 잘 지켜졌는지를 살펴보았다. 5단어 연쇄 동일 부분이 나타난 경우가 30%, 6단어 연쇄 동일 부분이 22%, 7개가 18%, 8개가 9% 나왔다.
본 결과에 대하여, 각 교수는 자신의 ‘바꿔쓰기’의 결과가 표절의 선을 넘지 않는다고 인식하였다고 가정할 수 있다. 즉, 한 교수의 ‘바꿔쓰기‘의 결과에 n단어 연쇄 동일 부분이 있다면, 그는 n단어 연쇄 동일까지는 표절에 안전하다고 해석할 가능성이 많다고 가정할 수 있다. 이러한 가정 하에 위 결과를 해석하여 보자. 5단어 이하 연쇄 동일 부분이 안전하다고 생각하는 사람의 비율은 30+22+18+9=79%이다. 6단어/7단어/8단어 연쇄 동일 부분을 사용한 경우도 6, 7, 8개까지 안전하다고 생각한다는 말이니까, 5개 이하 역시 안전하다고 생각할 것이다. 같은 원리에 의하면, 6단어 이하 연쇄 동일 부분이 안전하다고 생각하는 비율은 22+18+9=49%이다. 7단어 이하는 27%, 8단어 이하는 9%이다. 이 결과에 의하면, 다수의 연구자(79%)가 5단어 연쇄까지는 안전하다고 판단하지만, 6단어 연쇄에 대하여 안전하다고 판단하는 비율은 다수라고 표현하기 힘든 49%임을 알 수 있다.
즉, ‘6단어 이상 연쇄 동일한 경우, 다수가 표절에 안전하다 판단했다고 보기는 힘들다.’는 결론을 내릴 수 있다. 다수가 표절에 안전하다고 판단하는 경계를 6단어에서부터 넘어가기 때문에, 이는 6단어가 표절 판단의 기준이 된다는 일반적인 통념에 맞는 결과라 볼 수 있다.
카스프작(Kasprzak) 등의 연구에서는 표절의 기준으로 문서 간 유사도를 이용했다.[9] 문서의 유사도 비교시 단어 연쇄 동일 여부 기준이 활용된다. n개의 단어가 연쇄로 동일한 경우의 개수가 많을수록 문서의 유사도가 높아지기 때문이다. 이 n의 개수를 몇 개로 하면 좋은지에 대하여, 논문의 저자들은 4-6개인 경우 가장 좋은 결과가 나왔다고 주장한다. 즉, 4단어 연쇄 에서 6단어 연쇄의 동일 여부 기준이 적절하다는 판단이다.
‘6단어 연쇄 동일 여부 기준’은 표절을 추적하는 좋은 실용적, 보조적 수단
결론으로 들어가 보자. 6단어 연쇄 동일 여부가 절대기준이라고 단언을 할 만한 과학적 근거는 찾기 힘들었다. 그 이유는 어찌 보면 당연하다. 6단어가 절대기준이라고 확언을 한다면 많은 문제가 생길 수 있다. 이정민 교수의 지적처럼 5단어 이하이면서 분명한 독창적 표현이자 생각인 “침대는 과학이다”를 모방해도 표절로 잡을 수 없다. 한편으로는 7단어이면서 많은 문헌들에서 별 의미 없이 반복 사용되곤 하는 상용(常用)적 문구인 “this work was supported in part by”, “can be expressed in terms of the”가 표절이 될 수도 있다. 다시 말해서, 6단어 연쇄 연쇄 여부 자체가 반드시 표절의 절대적 기준이 될 수 없다는 것이다.
그럼에도 불구하고, 6단어 연쇄 동일 여부가 통념적, 혹은 참고적 기준이 될 수 있는 이유는, 소로키나(Sorokina) 등, 미구엘 로이그(Miguel Roig), 카스프작(Kasprzak) 등의 연구에서 알 수 있듯이, 경험적, 인지적으로 “적절하다”는 판단이 가능하기 때문이다.**[7][8][9]
(**물론 소로키나(Sorokina) 등의 경우, 7단어가 적절하다고 주장하고 있지만, 이것은 영어에서의 실험이고, 어절과 형태소 단위가 다른 한국어로 오면, 6단어 정도도 적절하다는 판단이 가능할 수 있다.[7])
즉, 6단어 이상이 같다고 무조건 표절로 보는 것이 아니라, 실용적, 보조적 수단으로서 ‘6단어’ 전후 단어 연쇄 동일을 중심으로 표절 여부를 가리는 것에 유용성이 있다는 것이다. 이는 적어도 표절 검증 프로그램에서 매우 중요한 기준으로 활용될 수 있다. 미국 버지니아 주립대 물리학과 루 블룸필드(Lou Bloomfield) 교수는 이 기준을 이용한 표절 검증 프로그램으로 표절 추적의 효율성을 높인 바 있다.[10] 부산대 컴퓨터공학과 조환규 교수도 리포트 표절 적발 등에 있어 ‘디박’이라는 컴퓨터 프로그램을 활용하면서 이 기준이 유용성이 있었음을 증언했던 바 있다.[11] ‘6단어 연쇄 동일 여부 기준’이 이처럼 간단하면서도, 표절 추적의 보조적 수단으로 상당히 유용한 결과를 도출할 수 있기 때문에, 통념적으로 “표절의 기준”이라는 인식까지 생겼다고 본다.
‘6단어 연쇄 동일 여부 기준’이 추정(推定)의 수단으로는 이론적으로 실천적으로 나름 적절하다 할 수 있겠지만, 물론 취약점을 보완할 만한 다양한 보조 수단은 필요할 것이다. 예를 들어, ‘6단어 이상 연쇄 동일이기는 하지만 표절이 아닌 상용(常用)적인 내용이나 문구’의 경우는 제외시킬 수 있는 수단이 필요하다. 아울러 ‘6단어 미만 연쇄 동일이라고 하더라도 표절이 될 수 있는 독창적 내용이나 문구’를 표절로 인식할 수 있는 수단도 필요하다. 이들 또한 프로그램적인 자동화 수단을 갖출 수 있는 수준의 기준화 연구가 가능하다면, 표절 추적에 좀 더 숨통을 틔워 줄 수 있을 것이다.
우리나라 표절 논의에 대한 아쉬움
사족으로, 2014년에 한국연구재단이 발간한 연구윤리교재인 ‘이공계 연구윤리 및 출판윤리 매뉴얼’에서는, 타인의 글을 그대로 가져다 쓸 수 있는 한계를 '1개 문장'으로 하는 국제의학계의 의견을 싣고 있다.[12] 이것은 그래도 출처표시는 했으되 인용부호(“”)가 빠진 경우에 관련된 표절 기준이므로, 우리가 논의한 ‘출처조차 밝히지 않은 경우의 기준’과는 약간 다른 맥락이며 사실상 보다 더 엄격한 기준이라고도 할 수 있겠다. 하여간 출처표시를 했다고 하더라도 인용부호 없이 마음대로 가져다 쓰는 것도 역시 원칙상 표절임을 분명 명심하여야 할 것이다.
사실 우리나라에서 이처럼 ‘6단어 연쇄 동일 여부 기준’이냐 ‘1개 문장 동일 여부 기준’이냐를 따지는 것은 다소 한가한 얘기처럼 들리기도 한다. 적어도 우리나라에서는 6단어 연쇄나 8단어 연쇄에는 해당했으나 그것이 단일 ‘마디’나 단일 ‘문장’ 수준이라서 표절 여부가 불명확해 학문적, 또는 사회적으로 논란이 됐던 경우가 없었다. 지금껏 언론에 거론된 거의 모든 표절 사례의 경우는, 애초 6단어 연쇄 또는 8단어 연쇄가 특정 문헌에서 수십, 수백군데나 확인이 되어서 표절의 존재 여부, 사실관계 여부 자체로는 이견이 전혀 없었던 경우였다는 점은 실로 유감스런 일이 아닐 수 있다.
서울대 언어학과 이정민 교수가 6단어 연쇄 표절 판정 관련 가이드라인을 제안했던 본 논문은 현재 한국연구재단 등의 비협조로 확보할 수가 없었다. 단, '표절과 저작권'(세명대학교 & 한국저작권위원회, 2012년) 2장 ‘연구윤리와 표절’ 87페이지에서 다음과 같이 이정민 교수의 연구 내용을 요약해놓은 대목이 있음을 확인할 수 있었다.(2015년 1월 15일 편집자 내용 추가)
참고문헌
[1] 경향신문 2007년 11월 20일자 기사, ‘6단어 연속 표현’ 표절판정 기준?
[2] 경향신문 2014년 7월 27일 기사, [과학 오디세이]표절의 과학, 공학, 정치학
[3] Mathieu Bouville, Plagiarism: Words and Ideas, Science and Engineering Ethics, 2008.
[4] 위키피디아 '어빙 헥삼(Irving Hexham) 교수' 소개 항목
[5] Irving Hexham, The Plague of Plagiarism:Academic Plagiarism Defined, Department of Religious Studies, 2013.
[6] S. A. Rathus, Thinking and writing about psychology, New York: Holt, Rinehart & Winston, 1993.
[7] D. Sorokina, J. Gehrke, S. Warner and P. Ginsparg, Plagiarism detection in arXiv. In Proceedings of the Sixth International Conference on Data Mining, pp. 1070–1075, 2006.
[8] Miguel Roig, Plagiarism and Paraphrasing Criteria of College and University Professors, Ethics&Behavior, 2010.
[9] Jan Kasprzak, Michal Brandejs, and Miroslav Křipač, Finding Plagiarism by Evaluating Document Similarities, 3rd PAN Workshop & 1st Competition on Plagiarism Detection
[10] 동아일보 2001년 5월 10일 기사,[NOW]학생 리포트 표절 검사 프로그램 개발
[11] 교수신문 2008년 9월 22일 기사, 표절 찾아내는 ‘디박’… 자기 말로 글쓰기 교육 강조하기도
위 기사에서 부산대 컴퓨터공학과 조환규 교수는 리포트 표절 적발을 위해 컴퓨터 프로그램을 활용했다면서 다음과 같이 증언하고 있다. “유사 단어 빈도가 높다고 표절을 단언할 수는 없습니다. 사연을 들어봐야죠. 그런데 5~6단어가 유사하면 거의 맞다고 봐요. 이런 학생들은 대부분 자인합니다.”
[12] 황은성, 조은희, 김영목, 박기범, 손화철, 윤태웅, 임정묵, 이공계 연구윤리 및 출판윤리 매뉴얼, 한국연구재단, 2014.
ⓒ 미디어워치 & mediawatch.kr