텍스트 워터마킹의 치명적 허점: SIRA 공격의 등장
최근 연구에 따르면 기존 텍스트 워터마킹 기술이 Self-Information Rewrite Attack (SIRA)에 취약하다는 사실이 밝혀졌습니다. SIRA는 저렴한 비용으로 높은 성공률을 보이며, 다양한 LLM에 적용 가능하여 워터마킹 기술의 재검토를 요구하고 있습니다.

최근 몇 년 동안, 대규모 언어 모델(LLM)의 발전과 함께 텍스트 워터마킹 기술이 주목받고 있습니다. LLM의 생성물에 워터마크를 삽입하여 저작권 보호 및 출처 확인을 위한 기술로서 말이죠. 하지만, Cheng, Guo, Li, Sigal 등의 연구진이 발표한 논문 "Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks"은 이러한 텍스트 워터마킹의 심각한 취약점을 드러냈습니다.
핵심은 무엇일까요? 기존 텍스트 워터마킹 알고리즘은 높은 엔트로피 토큰에 워터마크를 삽입하는 방식을 사용합니다. 하지만 연구진은 이러한 방식이 Self-Information Rewrite Attack (SIRA) 라는 새로운 공격에 취약하다는 것을 밝혀냈습니다.
SIRA는 각 토큰의 자기 정보량을 계산하여 워터마크 패턴을 식별하고, 이를 제거하는 방식으로 작동합니다. 마치 숨바꼭질에서 숨는 장소가 너무 뻔하면 쉽게 찾아낼 수 있는 것과 같습니다. 연구 결과는 놀랍습니다. SIRA는 7가지 최신 워터마킹 방법에 대해 거의 100%의 공격 성공률을 기록했습니다. 그것도 토큰 100만 개당 0.88달러라는 저렴한 비용으로 말이죠!
더욱 놀라운 점은 SIRA가 워터마킹 알고리즘이나 워터마크된 LLM에 대한 접근 권한 없이도 작동한다는 점입니다. 심지어 모바일 수준의 LLM에서도 사용 가능합니다. 이는 마치 만능열쇠처럼, 어떤 워터마킹 시스템에도 적용 가능하다는 것을 의미합니다.
결론적으로, 이 연구는 텍스트 워터마킹 기술의 안전성에 대한 심각한 우려를 제기합니다. 현재의 워터마킹 방법들은 SIRA와 같은 공격에 취약하며, 보다 강력하고 안전한 워터마킹 기술의 개발이 시급함을 보여줍니다. 이제 단순히 워터마크를 삽입하는 것만으로는 충분하지 않다는 것을 알게 되었습니다. 새로운 패러다임이 필요한 시점입니다.
참고: 본 기사는 Cheng, Guo, Li, Sigal 등의 연구 논문을 바탕으로 작성되었습니다. 자세한 내용은 원 논문을 참고하시기 바랍니다.
Reference
[arxiv] Revealing Weaknesses in Text Watermarking Through Self-Information Rewrite Attacks
Published: (Updated: )
Author: Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal
http://arxiv.org/abs/2505.05190v1