๐จ ์์ ๊ธฐ๋ฐ AI ์์ ์ฑ ์ํ๊ณผ ํ์ ์ ์ธ ํด๊ฒฐ์ฑ : VideoSafetyBench์ VideoSafety-R1
๋ณธ ๊ธฐ์ฌ๋ ์์ ๊ธฐ๋ฐ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์์ ์ฑ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ ์๊ฐํฉ๋๋ค. ์ฐ๊ตฌ์ง์ ์๋ก์ด ๋ฒค์น๋งํฌ VideoSafetyBench(VSB-77k)๋ฅผ ํตํด ์์ ๋ชจ๋ฌ๋ฆฌํฐ๊ฐ ์์ ์ฑ์ ์ ํ์ํจ๋ค๋ ์ฌ์ค์ ๋ฐํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ํ์ ์ ์ธ ํ๋ ์์ํฌ VideoSafety-R1์ ์ ์ํ์ต๋๋ค. VideoSafety-R1์ ๊ฒฝ๊ณ ํ ํฐ ๊ธฐ๋ฐ ๋ฏธ์ธ ์กฐ์ ๊ณผ ์์ ์ฑ ๊ธฐ๋ฐ ์ ์ฑ ์ต์ ํ๋ฅผ ํตํด ์์ ์ฑ์ ํฌ๊ฒ ํฅ์์์ผ, AI ์์ ์ฑ ํ๋ณด์ ์ค์ํ ๋ฐ๊ฑธ์์ ๋ด๋์์ต๋๋ค.

์์ AI ์๋์ ์์ ์ฑ ์ํ: ์ฐ๋ฆฌ๋ ์ผ๋ง๋ ์ค๋น๋์ด ์์๊น?
์ต๊ทผ ๊ธ์๋๋ก ๋ฐ์ ํ๋ ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ ์ฐ๋ฆฌ ์ถ์ ๋๋ผ์ด ๋ณํ๋ฅผ ๊ฐ์ ธ๋ค์ฃผ๊ณ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ ๊ธฐ์ ๋ฐ์ ๊ณผ ๋๋ถ์ด, ํนํ ์์ ๊ธฐ๋ฐ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(Video LLM)๊ณผ ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ AI์ ์์ ์ฑ์ ๋ํ ์ฐ๋ ค ๋ํ ์ปค์ง๊ณ ์์ต๋๋ค. Yiwei Sun ๋ฑ ์ฐ๊ตฌ์ง์ด ๋ฐํํ ๋ ผ๋ฌธ "From Evaluation to Defense: Advancing Safety in Video Large Language Models"์ ๋ฐ๋ก ์ด๋ฌํ ๋ฌธ์ ์ ์ฌ๊ฐ์ฑ์ ์ผ๊นจ์์ฃผ๋ ์ค์ํ ์ฐ๊ตฌ์ ๋๋ค.
77,646๊ฐ์ ์์ ๋ฐ์ดํฐ๋ก ํ์ธ๋ ์ถฉ๊ฒฉ์ ์ธ ๊ฒฐ๊ณผ: VideoSafetyBench (VSB-77k)
์ฐ๊ตฌ์ง์ VideoSafetyBench (VSB-77k) ๋ผ๋ ๋๊ท๋ชจ ์์ ์์ ์ฑ ๋ฒค์น๋งํฌ๋ฅผ ์ต์ด๋ก ๊ณต๊ฐํ์ต๋๋ค. 10๊ฐ ์ธ์ด๊ถ์์ ์์ง๋ 77,646๊ฐ์ ์์-์ง๋ฌธ ์์ ์ฌ์ฉํ์ฌ 19๊ฐ์ง ์ฃผ์ ์ํ ๋ฒ์ฃผ๋ฅผ ๋ถ์ํ ๊ฒฐ๊ณผ, ๋๋๊ฒ๋ ์์ ๋ชจ๋ฌ๋ฆฌํฐ์ ํตํฉ์ ์์ ์ฑ ์ฑ๋ฅ์ ํ๊ท 42.3%๋ ์ ํ์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ด๊ฒ์ ๋ฉํฐ๋ชจ๋ฌ ๊ณต๊ฒฉ์ ๋ํ ์์คํ ์ ์ํ์ ๋ณด์ฌ์ฃผ๋ ๋งค์ฐ ์ฐ๋ ค์ค๋ฌ์ด ๊ฒฐ๊ณผ์ ๋๋ค.
ํ์ ์ ์ธ ์์ ์ฑ ๊ฐํ ํ๋ ์์ํฌ: VideoSafety-R1
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ VideoSafety-R1 ์ด๋ผ๋ ํ์ ์ ์ธ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค. VideoSafety-R1์ ๋ค์ ๋ ๊ฐ์ง ํต์ฌ ๊ธฐ์ ์ ํตํด ์์ ์ฑ์ ๋ํญ ํฅ์์ํต๋๋ค.
- ๊ฒฝ๊ณ ํ ํฐ ๊ธฐ๋ฐ ์์ ์ฑ ๋ฏธ์ธ ์กฐ์ (AT-SFT): ํ์ต ๊ฐ๋ฅํ ๊ฒฝ๊ณ ํ ํฐ์ ์๊ฐ ๋ฐ ํ ์คํธ ์ํ์ค์ ์ฃผ์ ํ์ฌ ๋ค์ค ์์ ๋ชฉํ๋ฅผ ํตํด ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ์์ ์ ํด์ฑ์ ๋ช ์์ ์ผ๋ก ์ธ์ํ๋๋ก ํฉ๋๋ค.
- ์์ ์ฑ ๊ธฐ๋ฐ GRPO: ์ด์ค ๋ชจ๋ฌ๋ฆฌํฐ ๊ฒ์ฆ์์ ํ์๋ ๊ท์น ๊ธฐ๋ฐ ๋ณด์์ ์ฌ์ฉํ์ฌ ๋์ ์ ์ฑ ์ต์ ํ๋ฅผ ํตํด ๋ฐฉ์ด์ ์ถ๋ก ์ ๊ฐํํฉ๋๋ค.
์ด๋ฌํ ๋ ๊ฐ์ง ๊ธฐ์ ์ ์๋์ง ํจ๊ณผ๋ฅผ ํตํด ์์ ์ฑ ์ ๋ ฌ์ ์๋์ ์ ํด์ฑ ์ธ์์์ ๋ฅ๋์ ์ถ๋ก ์ผ๋ก ์ ํํ๋ ๊ฒ์ด ํต์ฌ์ ๋๋ค. VideoSafety-R1์ VSB-Eval-HH์์ 65.1%์ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ์ผ๋ฉฐ, MMBench, VLGuard, FigStep๊ณผ ๊ฐ์ ๊ธฐ์กด ์ด๋ฏธ์ง ์์ ์ฑ ๋ฐ์ดํฐ์ ์์๋ ๊ฐ๊ฐ 59.1%, 44.3%, 15.0%์ ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.
(์ฃผ์: ๋ณธ ๋ ผ๋ฌธ์๋ ์ ํดํ ์ธ์ด์ ์์์ ์์๊ฐ ํฌํจ๋์ด ์์ผ๋ฏ๋ก, ๋ ์์ ์ ์คํ ํ๋จ์ด ํ์ํฉ๋๋ค.)
๊ฒฐ๋ก : ์์ ํ AI ์๋๋ฅผ ์ํ ์ง์์ ์ธ ๋ ธ๋ ฅ
VideoSafetyBench์ VideoSafety-R1์ ๊ฐ๋ฐ์ ์์ ๊ธฐ๋ฐ AI์ ์์ ์ฑ ๋ฌธ์ ์ ๋ํ ์ค์ํ ์ง์ ์ ์๋ฏธํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ์์์ ๋ถ๊ณผํ๋ฉฐ, ์์ผ๋ก๋ ์ง์์ ์ธ ์ฐ๊ตฌ์ ๊ฐ๋ฐ ๋ ธ๋ ฅ์ ํตํด ๋์ฑ ์์ ํ๊ณ ์ ๋ขฐํ ์ ์๋ AI ์์คํ ์ ๊ตฌ์ถํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ด ์ฐ๊ตฌ๋ AI ๊ธฐ์ ์ ์ค๋ฆฌ์ ์ฑ ์๊ณผ ์์ ์ฑ์ ๋ํ ๋์์๋ ๊ณ ๋ฏผ๊ณผ ์ฑ์ฐฐ์ ์ด๊ตฌํ๋ ์ค์ํ ๋ฉ์์ง๋ฅผ ์ ๋ฌํ๊ณ ์์ต๋๋ค.
Reference
[arxiv] From Evaluation to Defense: Advancing Safety in Video Large Language Models
Published: ย (Updated: )
Author: Yiwei Sun, Peiqi Jiang, Chuanbin Liu, Luohao Lin, Zhiying Lu, Hongtao Xie
http://arxiv.org/abs/2505.16643v1