๐Ÿšจ AI์˜ ์œค๋ฆฌ์  ๋ฌธ์ œ ํ•ด๊ฒฐ์— ํ•œ ๊ฑธ์Œ ๋”! ๋‹ค๊ตญ์–ด ๋…์„ฑ ์ œ๊ฑฐ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ


๋ณธ ๊ธฐ์‚ฌ๋Š” ๋‹ค๊ตญ์–ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์˜ ๋…์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ํš๊ธฐ์ ์ธ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. Himanshu Beniwal ๋“ฑ ์—ฐ๊ตฌ์ง„์€ '๋‹ค๊ตญ์–ด ๋…์„ฑ ์ œ๊ฑฐ'๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•˜๊ณ , 504๊ฐ€์ง€ ์‹คํ—˜์„ ํ†ตํ•ด ์ €์ž์› ์–ธ์–ด์—์„œ์˜ ํšจ๊ณผ์™€ ์•ˆ์ „์„ฑ ๋ฐ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ท ํ˜•์ ์„ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ณต๊ฐœ๋œ ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ์ง€์†์ ์ธ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.

related iamge

์ „ ์„ธ๊ณ„์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ๊ธ‰์ฆํ•˜๋ฉด์„œ, ๋‹ค์–‘ํ•œ ์–ธ์–ด ํ™˜๊ฒฝ์—์„œ์˜ ๋…์„ฑ ๋ฌธ์ œ ํ•ด๊ฒฐ์€ ๋งค์šฐ ์ค‘์š”ํ•œ ๊ณผ์ œ๋กœ ๋– ์˜ฌ๋ž์Šต๋‹ˆ๋‹ค. ์ตœ๊ทผ Himanshu Beniwal, Youngwoo Kim, Maarten Sap, Soham Dan, Thomas Hartvigsen ๋“ฑ ์—ฐ๊ตฌ์ง„์€ "Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification" ๋…ผ๋ฌธ์„ ํ†ตํ•ด ์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ํš๊ธฐ์ ์ธ ํ•ด๊ฒฐ์ฑ…์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์—ฐ๊ตฌ๋Š” ๋‹ค๊ตญ์–ด ๋…์„ฑ ์ œ๊ฑฐ(Cross-lingual Detoxification) ๋ผ๋Š” ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ์ž์› ์–ธ์–ด์™€ ์ €์ž์› ์–ธ์–ด ๊ฐ„์— ๋…์„ฑ ๊ฐ์†Œ ๊ธฐ๋Šฅ์„ ์ „์ด์‹œ์ผœ, ๋‹ค์–‘ํ•œ ์–ธ์–ด ๋ฐ ๋ฌธ์ž ์ฒด๊ณ„๋ฅผ ์•„์šฐ๋ฅด๋Š” ๋…์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

์—ฐ๊ตฌํŒ€์€ 504๊ฐ€์ง€์˜ ๊ด‘๋ฒ”์œ„ํ•œ ์„ค์ •์„ ํ†ตํ•ด ๋‹ค๊ตญ์–ด ๋…์„ฑ ์ œ๊ฑฐ์˜ ํšจ๊ณผ๋ฅผ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ์ ์ธ ํ™˜๊ฒฝ์—์„œ์˜ ๋…์„ฑ ๊ฐ์†Œ ํšจ๊ณผ์™€ ๋…์„ฑ์ด ์—†๋Š” ์ž‘์—…์—์„œ์˜ ๋ชจ๋ธ ์„ฑ๋Šฅ ์ €ํ•˜ ์‚ฌ์ด์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์•ˆ์ „์„ฑ๊ณผ ์ง€์‹ ๋ณด์กด ๊ฐ„์˜ ๊ท ํ˜•์ ์„ ์ฐพ๋Š” ๋ฐ ์ฃผ๋ ฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ๋…์„ฑ์„ ์ œ๊ฑฐํ•˜๋Š” ๊ฒƒ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, AI ๋ชจ๋ธ์˜ ์œ ์šฉ์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ์•ˆ์ „์„ฑ์„ ํ™•๋ณดํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ˜ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค.

๋”์šฑ ๊ณ ๋ฌด์ ์ธ ๊ฒƒ์€ ์—ฐ๊ตฌํŒ€์ด ์‚ฌ์šฉํ•œ ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ณต๊ฐœ์ ์œผ๋กœ ๊ณต์œ ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. (https://github.com/himanshubeniwal/Breaking-mBad) ์ด๋Š” ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์ด ์ด ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋”์šฑ ๋ฐœ์ „๋œ ๊ธฐ์ˆ ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋”์šฑ ์•ˆ์ „ํ•˜๊ณ  ์œค๋ฆฌ์ ์ธ AI ์‹œ์Šคํ…œ ๊ตฌ์ถ•์— ํ•œ ๊ฑธ์Œ ๋” ๋‹ค๊ฐ€๊ฐˆ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, ์ด ์—ฐ๊ตฌ๋Š” ๋‹ค๊ตญ์–ด ์ง€์› AI ๋ชจ๋ธ์˜ ๋…์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์ „ํ™˜์ ์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ ํ™˜๊ฒฝ์—์„œ๋„ ํšจ๊ณผ์ ์œผ๋กœ ๋…์„ฑ์„ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•จ์œผ๋กœ์จ, ์‹ค์ œ ์„ธ๊ณ„ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์•ˆ์ „์„ฑ๊ณผ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ท ํ˜•์„ ๊ณ ๋ คํ•œ ์ด ์—ฐ๊ตฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์•ž์œผ๋กœ AI ๊ฐœ๋ฐœ์˜ ์œค๋ฆฌ์ ์ธ ์ธก๋ฉด์„ ๊ณ ๋ คํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ํ‘œ์ค€์„ ์ œ์‹œํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.


์—ฐ๊ตฌ์˜ ํ•ต์‹ฌ:

  • ๋‹ค๊ตญ์–ด ๋…์„ฑ ์ œ๊ฑฐ(Cross-lingual Detoxification) ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ
  • 504๊ฐ€์ง€ ์„ค์ •์„ ํ†ตํ•œ ๊ด‘๋ฒ”์œ„ํ•œ ์‹คํ—˜ ๋ฐ ๋ถ„์„
  • ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ ์ฆ๋Œ€ ๋ฐ ์•ˆ์ „์„ฑ๊ณผ ์„ฑ๋Šฅ ๊ฐ„์˜ ๊ท ํ˜•์  ๋„์ถœ
  • ์ฝ”๋“œ ๋ฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ ๊ณต๊ฐœ๋ฅผ ํ†ตํ•œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ ๊ณต์œ  ๋ฐ ์ง€์†์ ์ธ ๋ฐœ์ „ ๊ฐ€๋Šฅ์„ฑ ์ œ์‹œ

*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification

Published: ย (Updated: )

Author: Himanshu Beniwal, Youngwoo Kim, Maarten Sap, Soham Dan, Thomas Hartvigsen

http://arxiv.org/abs/2505.16722v1