‘6단어 연쇄’ 표절 판정 기준에 대한 소고

아카데미워치 (학술/대학)

‘6단어 연쇄’ 표절 판정 기준에 대한 소고

객관적인 ‘텍스트 표절’ 판정 기준은 어떻게 성립되고 어떻게 활용할 수 있는가

이정빈 컴퓨터과학 박사 center4integrity@gmail.com
등록 2014.10.17 14:10:44

경향신문 2008년 2월 23일자 기사 '연이어 6단어 표현 일치 표절'

※ 컴퓨터과학 박사이신 이정빈 선생님께서 연구진실성검증센터(센터장 황의원) 앞으로 표절 문제와 관련 '6단어 연쇄 동일 여부 기준' 연구들에 대한 리뷰를 보내주셨습니다. 많은 분들에게 회람시킬만한 출중한 리뷰인지라 이를 주간 미디어워치에도 편집해 소개하고자 합니다. 흔치않은 전문성 깊은 글을 보내주신 이 박사님께 이 자리를 빌려 사의(謝意)를 표합니다.

오랜 기간 창조성과 노력을 쏟아부은 자신의 저작물이 타인에 의하여 표절당하고 있다면 무척 억울할 것이다. 또한, 연구성과에 몰두하다 보면, 자기도 모르는 사이에 어디선가 들어서 머리 속에 남아있는 문구나 아이디어를 자신의 생각으로 착각하여, 저작물에 포함시키는 경우도 있다.

이처럼, 표절은 그 행위가 미치는 악영향에 비하여, 매우 쉽게 피해자가 되기도 하고, 가해자가 되기도 한다. 어떠한 인용 행위가 표절인지 아닌지에 대하여, 사람들 사이에 의견이 엇갈리는 경우 또한 허다하다. 그 이유는, 누구나 자신의 주관적 기준에서 표절 여부를 판단하기 때문이다. 표절의 악영향을 근절시키기 위하여, 표절을 어떻게 판정할 것인가에 대한 객관적 기준을 확립하는 것은 그만큼 중요한 일이다.

하지만, 표절에 대한 객관적 기준을 세우는 일은 말처럼 쉽지가 않다. 학자들의 합의에 의하여, 어렵게 하나의 기준을 제시한다 하더라도, 그것에 예외되는 경우는 얼마든지 존재할 수 있기 때문이다. 그럼에도 불구하고, 우리는 객관적 기준을 세우기 위한 최선의 노력을 할 필요가 있다. 어떤 최소한의 객관적 기준을 세우지 않았을 때는, 이를 악용하여 온갖 표절이 난무할 것임은 불보듯 뻔하기 때문이다. 그런 의미에서 본 아티클에서는, 우리 사회에서 가장 널리 통용되고 있는, 텍스트표절(word-for-word plagiarism)의 객관적 기준인 ‘6단어 연쇄 동일 여부 기준’의 유효성과 적절성에 대하여 살펴 보고자 한다.

‘6단어 연쇄 동일 여부 기준’이란?

‘6단어 연쇄 동일 여부 기준(criteria for 6 consecutive same words)’이란, 인용부호(“”)와 출처표시 없이 남의 표현을 그대로 가져와서 쓰는 경우, 6단어부터는 표절로 추정(推定)한다는 것을 의미한다. 우리나라에서는 6단어 연쇄 동일 여부 기준이 언론과 표절 검증 프로그램 업체 등을 중심으로 보편적으로 퍼져 있는데, 이에 대한 아주 명확한 근거에 대한 설명은 쉽게 찾을 수가 없었다. 다만, 이 기준에 대하여, 학자들의 의견은 다양함을 볼 수 있다.

서울대 언어학과의 이정민 교수는 2007년 ‘인문사회분야 표절 가이드라인 제정을 위한 기초연구 공청회’을 통해 ‘6단어 연쇄 동일 여부 기준’의 적절성을 제안하면서도, 오히려 “침대는 과학이다”와 같이 독창성이 분명한 표현에 대해서는 2단어 연쇄나 3단어 연쇄에서 표절이 성립할 수 있음을 지적한다.[1] 이정민 교수의 해당 제안은 지금껏 교육과학기술부의 ‘인문사회과학분야 논문에 대한 표절 가이드라인’으로도 널리 통용되고 있기도 하다.* 한편, 부산대학교 컴퓨터공학과 조환규 교수는 다른 확률 모형을 제안하면서 ‘6단어 연쇄 동일 여부 기준’만을 일괄적으로 적용하는 것은 비과학적이라고 지적하기도 한다.[2]

(* 사유는 확인되지 않고 있으나 이정민 교수의 ‘6단어 연쇄 동일 여부 기준’과 관련한 학회 발표 논문은 한국연구재단에서 대외비로 분류되고 있는 상황으로, 원문을 확인할 수가 없다. 여기서는 따라서 주로 관련 논의를 다루는 해외의 문헌들을 살펴보았다.)

해외의 사례를 보면 상황은 더욱 복잡하다. 몇 단어 연쇄를 동일 여부 기준으로 볼 것인가에 대한 의견이 분분할 뿐 아니라, ‘단어 연쇄 동일 여부’ 자체가 표절의 기준이 될 수 있느냐에 대하여서도 의견이 많다. 마띠유 부비유(Mathieu Bouville)는 단어 연쇄 동일 여부 기준 자체가 옳은지에 대한 문제, 옳다면 몇 단어를 기준으로 삼는 것이 옳은지에 대하여, 명확한 이성적 근거가 존재하는 것이 아니라고 말하고 있다. 사람들이 그 문제에 관심을 갖는 이유는 단순히 컴퓨터를 이용한 단순 매칭으로 판별하기 쉽기 때문이라고 주장한다. 그의 논문인 ‘표절 : 단어와 생각(Plagiarism: Words and Ideas)’은 이러한 접근법이 가지는 문제점으로, 만일 6단어 기준이 옳은 것이라면, 5단어만 표절하는 것은 괜찮다는 것인가를 물어보고 있다.[3]

캐나다 캘거리대학 인류학과 교수인 어빙 헥삼(Irving Hexham). 자신의 저서인 Understanding World Religions를 소개하는 동영상 중 일부.

반면 캐나다의 인류학자이자 종교학자인 어빙 헥삼(Irving Hexham) 교수[4]는 단어 연쇄 동일 여부 기준이 옳다고 주장한다. 그는 표절을 “저자가 인용부호와 정확한 출처표시 없이, 4단어 이상을 반복적으로 사용하는 경우”라고 명확하게 정의한다.[5] 단, 왜 4단어 이상 반복인지에 대하여서 그는 학계에서 일반적으로 받아들여지는 경험 범칙(rule of thumb)이라고 설명하고 있다. 어빙 헥삼 교수의 주장에서 이외의 과학적 근거는 제시되지 않았다.

어빙 헥삼 교수 외에도 단어 연쇄 동일 여부 기준이 옳다는 가정 하에, 표절의 기준 단어 개수를 논의한 논문은 많다. 라서스(Rathus)의 경우[6]는 2-3단어 연쇄, 소로키나(Sorokina) 등의 경우[7]는 7단어 연쇄가 적절하다고 주장한다. 소로키나(Sorokina) 등은 실험적으로, 6단어 연쇄로 잡으면 표절이 아닌데 표절로 판정되는 경우가 많고, 8단어 연쇄면 표절인데 표절로 잡지 못하는 경우가 생기기 때문에 7단어 연쇄가 적절하다고 주장한다. 물론, 이에 대한 심도 있는 연구가 필요하다고 밝히고 있다.

단어 연쇄 동일 여부 기준과 관련한 여러 논의들

의외로, 정확히 ‘6단어’를 명시해서 연쇄 동일 여부 기준의 근거를 제시하는 연구는 찾기 힘들었다. 다만, 6개 단어 연쇄 동일 여부 기준에 유리하게 해석 가능한 실험을 하나 발견할 수 있었다. 미국의 저명한 연구윤리 학자 중 하나인 미구엘 로이그(Miguel Roig)는 하나의 문단을 여러 명의 교수에게 ‘바꿔쓰기(paraphrasing, 같은 의미의 다른 말로 다시 쓰기)’를 시켰다.[8] 이 결과에 대하여, 단어 연쇄 동일 여부 기준이 얼마나 잘 지켜졌는지를 살펴보았다. 5단어 연쇄 동일 부분이 나타난 경우가 30%, 6단어 연쇄 동일 부분이 22%, 7개가 18%, 8개가 9% 나왔다.

본 결과에 대하여, 각 교수는 자신의 ‘바꿔쓰기’의 결과가 표절의 선을 넘지 않는다고 인식하였다고 가정할 수 있다. 즉, 한 교수의 ‘바꿔쓰기‘의 결과에 n단어 연쇄 동일 부분이 있다면, 그는 n단어 연쇄 동일까지는 표절에 안전하다고 해석할 가능성이 많다고 가정할 수 있다. 이러한 가정 하에 위 결과를 해석하여 보자. 5단어 이하 연쇄 동일 부분이 안전하다고 생각하는 사람의 비율은 30+22+18+9=79%이다. 6단어/7단어/8단어 연쇄 동일 부분을 사용한 경우도 6, 7, 8개까지 안전하다고 생각한다는 말이니까, 5개 이하 역시 안전하다고 생각할 것이다. 같은 원리에 의하면, 6단어 이하 연쇄 동일 부분이 안전하다고 생각하는 비율은 22+18+9=49%이다. 7단어 이하는 27%, 8단어 이하는 9%이다. 이 결과에 의하면, 다수의 연구자(79%)가 5단어 연쇄까지는 안전하다고 판단하지만, 6단어 연쇄에 대하여 안전하다고 판단하는 비율은 다수라고 표현하기 힘든 49%임을 알 수 있다.

즉, ‘6단어 이상 연쇄 동일한 경우, 다수가 표절에 안전하다 판단했다고 보기는 힘들다.’는 결론을 내릴 수 있다. 다수가 표절에 안전하다고 판단하는 경계를 6단어에서부터 넘어가기 때문에, 이는 6단어가 표절 판단의 기준이 된다는 일반적인 통념에 맞는 결과라 볼 수 있다.

카스프작(Kasprzak) 등의 연구에서는 표절의 기준으로 문서 간 유사도를 이용했다.[9] 문서의 유사도 비교시 단어 연쇄 동일 여부 기준이 활용된다. n개의 단어가 연쇄로 동일한 경우의 개수가 많을수록 문서의 유사도가 높아지기 때문이다. 이 n의 개수를 몇 개로 하면 좋은지에 대하여, 논문의 저자들은 4-6개인 경우 가장 좋은 결과가 나왔다고 주장한다. 즉, 4단어 연쇄 에서 6단어 연쇄의 동일 여부 기준이 적절하다는 판단이다.

‘이공계 연구윤리 및 출판윤리 매뉴얼’(한국연구재단, 2014년)

서울신문 2013년 3월 29일자 기사 '표절이란...판단 기준은'

‘6단어 연쇄 동일 여부 기준’은 표절을 추적하는 좋은 실용적, 보조적 수단

결론으로 들어가 보자. 6단어 연쇄 동일 여부가 절대기준이라고 단언을 할 만한 과학적 근거는 찾기 힘들었다. 그 이유는 어찌 보면 당연하다. 6단어가 절대기준이라고 확언을 한다면 많은 문제가 생길 수 있다. 이정민 교수의 지적처럼 5단어 이하이면서 분명한 독창적 표현이자 생각인 “침대는 과학이다”를 모방해도 표절로 잡을 수 없다. 한편으로는 7단어이면서 많은 문헌들에서 별 의미 없이 반복 사용되곤 하는 상용(常用)적 문구인 “this work was supported in part by”, “can be expressed in terms of the”가 표절이 될 수도 있다. 다시 말해서, 6단어 연쇄 연쇄 여부 자체가 반드시 표절의 절대적 기준이 될 수 없다는 것이다.

그럼에도 불구하고, 6단어 연쇄 동일 여부가 통념적, 혹은 참고적 기준이 될 수 있는 이유는, 소로키나(Sorokina) 등, 미구엘 로이그(Miguel Roig), 카스프작(Kasprzak) 등의 연구에서 알 수 있듯이, 경험적, 인지적으로 “적절하다”는 판단이 가능하기 때문이다.**[7][8][9]

(**물론 소로키나(Sorokina) 등의 경우, 7단어가 적절하다고 주장하고 있지만, 이것은 영어에서의 실험이고, 어절과 형태소 단위가 다른 한국어로 오면, 6단어 정도도 적절하다는 판단이 가능할 수 있다.[7])

즉, 6단어 이상이 같다고 무조건 표절로 보는 것이 아니라, 실용적, 보조적 수단으로서 ‘6단어’ 전후 단어 연쇄 동일을 중심으로 표절 여부를 가리는 것에 유용성이 있다는 것이다. 이는 적어도 표절 검증 프로그램에서 매우 중요한 기준으로 활용될 수 있다. 미국 버지니아 주립대 물리학과 루 블룸필드(Lou Bloomfield) 교수는 이 기준을 이용한 표절 검증 프로그램으로 표절 추적의 효율성을 높인 바 있다.[10] 부산대 컴퓨터공학과 조환규 교수도 리포트 표절 적발 등에 있어 ‘디박’이라는 컴퓨터 프로그램을 활용하면서 이 기준이 유용성이 있었음을 증언했던 바 있다.[11] ‘6단어 연쇄 동일 여부 기준’이 이처럼 간단하면서도, 표절 추적의 보조적 수단으로 상당히 유용한 결과를 도출할 수 있기 때문에, 통념적으로 “표절의 기준”이라는 인식까지 생겼다고 본다.

‘6단어 연쇄 동일 여부 기준’이 추정(推定)의 수단으로는 이론적으로 실천적으로 나름 적절하다 할 수 있겠지만, 물론 취약점을 보완할 만한 다양한 보조 수단은 필요할 것이다. 예를 들어, ‘6단어 이상 연쇄 동일이기는 하지만 표절이 아닌 상용(常用)적인 내용이나 문구’의 경우는 제외시킬 수 있는 수단이 필요하다. 아울러 ‘6단어 미만 연쇄 동일이라고 하더라도 표절이 될 수 있는 독창적 내용이나 문구’를 표절로 인식할 수 있는 수단도 필요하다. 이들 또한 프로그램적인 자동화 수단을 갖출 수 있는 수준의 기준화 연구가 가능하다면, 표절 추적에 좀 더 숨통을 틔워 줄 수 있을 것이다.

우리나라 표절 논의에 대한 아쉬움

사족으로, 2014년에 한국연구재단이 발간한 연구윤리교재인 ‘이공계 연구윤리 및 출판윤리 매뉴얼’에서는, 타인의 글을 그대로 가져다 쓸 수 있는 한계를 '1개 문장'으로 하는 국제의학계의 의견을 싣고 있다.[12] 이것은 그래도 출처표시는 했으되 인용부호(“”)가 빠진 경우에 관련된 표절 기준이므로, 우리가 논의한 ‘출처조차 밝히지 않은 경우의 기준’과는 약간 다른 맥락이며 사실상 보다 더 엄격한 기준이라고도 할 수 있겠다. 하여간 출처표시를 했다고 하더라도 인용부호 없이 마음대로 가져다 쓰는 것도 역시 원칙상 표절임을 분명 명심하여야 할 것이다.

사실 우리나라에서 이처럼 ‘6단어 연쇄 동일 여부 기준’이냐 ‘1개 문장 동일 여부 기준’이냐를 따지는 것은 다소 한가한 얘기처럼 들리기도 한다. 적어도 우리나라에서는 6단어 연쇄나 8단어 연쇄에는 해당했으나 그것이 단일 ‘마디’나 단일 ‘문장’ 수준이라서 표절 여부가 불명확해 학문적, 또는 사회적으로 논란이 됐던 경우가 없었다. 지금껏 언론에 거론된 거의 모든 표절 사례의 경우는, 애초 6단어 연쇄 또는 8단어 연쇄가 특정 문헌에서 수십, 수백군데나 확인이 되어서 표절의 존재 여부, 사실관계 여부 자체로는 이견이 전혀 없었던 경우였다는 점은 실로 유감스런 일이 아닐 수 있다.

국내 6단어 연쇄 표절 판정 관련 가이드라인의 계량적 근거

서울대 언어학과 이정민 교수가 6단어 연쇄 표절 판정 관련 가이드라인을 제안했던 본 논문은 현재 한국연구재단 등의 비협조로 확보할 수가 없었다. 단, '표절과 저작권'(세명대학교 & 한국저작권위원회, 2012년) 2장 ‘연구윤리와 표절’ 87페이지에서 다음과 같이 이정민 교수의 연구 내용을 요약해놓은 대목이 있음을 확인할 수 있었다.(2015년 1월 15일 편집자 내용 추가)

* * *
인문사회과학 분야 표절 가이드라인 제정을 위한 기초 연구(학진 정책연구, 연구책임자 이인재) : 주요 단어를 중심을 여섯 단어 이상의 연쇄표현이 일치하는데도 출처표시가 없는 경우

- 근거 : 세종 말뭉치 사전을 대상으로 전산조사를 할 경우 3단어가 연쇄될 경우는 있으나, 6단어가 연쇄되는 경우 많지 않음에 따라 6단어를 기준으로 함.

※ 전산조사 결과 1,000편의 텍스트 문서 파일 중 6단어 연쇄 비교를 한 결과 49만 9천 5백 쌍이 나온 가운데, 99.6%(49만 7천 36쌍)에서 6단어 연쇄 일치가 전혀 없음.

참고문헌

[1] 경향신문 2007년 11월 20일자 기사, ‘6단어 연속 표현’ 표절판정 기준?

[2] 경향신문 2014년 7월 27일 기사, [과학 오디세이]표절의 과학, 공학, 정치학

[3] Mathieu Bouville, Plagiarism: Words and Ideas, Science and Engineering Ethics, 2008.

[4] 위키피디아 '어빙 헥삼(Irving Hexham) 교수' 소개 항목

[5] Irving Hexham, The Plague of Plagiarism:Academic Plagiarism Defined, Department of Religious Studies, 2013.

[6] S. A. Rathus, Thinking and writing about psychology, New York: Holt, Rinehart & Winston, 1993.

[7] D. Sorokina, J. Gehrke, S. Warner and P. Ginsparg, Plagiarism detection in arXiv. In Proceedings of the Sixth International Conference on Data Mining, pp. 1070–1075, 2006.

[8] Miguel Roig, Plagiarism and Paraphrasing Criteria of College and University Professors, Ethics&Behavior, 2010.

[9] Jan Kasprzak, Michal Brandejs, and Miroslav Křipač, Finding Plagiarism by Evaluating Document Similarities, 3rd PAN Workshop & 1st Competition on Plagiarism Detection

[10] 동아일보 2001년 5월 10일 기사,[NOW]학생 리포트 표절 검사 프로그램 개발

[11] 교수신문 2008년 9월 22일 기사, 표절 찾아내는 ‘디박’… 자기 말로 글쓰기 교육 강조하기도

위 기사에서 부산대 컴퓨터공학과 조환규 교수는 리포트 표절 적발을 위해 컴퓨터 프로그램을 활용했다면서 다음과 같이 증언하고 있다. “유사 단어 빈도가 높다고 표절을 단언할 수는 없습니다. 사연을 들어봐야죠. 그런데 5~6단어가 유사하면 거의 맞다고 봐요. 이런 학생들은 대부분 자인합니다.”

[12] 황은성, 조은희, 김영목, 박기범, 손화철, 윤태웅, 임정묵, 이공계 연구윤리 및 출판윤리 매뉴얼, 한국연구재단, 2014.