๐Ÿšจ ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ์˜ ํ•œ๊ณ„: ์ ๋Œ€์  SQuAD์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ์— ํšจ๊ณผ ์—†์–ด!


Paul K. Mandal์˜ ์—ฐ๊ตฌ๋Š” SQuAD ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ ๊ธฐ๋ฒ•์˜ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•œ ๊ฒฐ๊ณผ, ์ ๋Œ€์  ์˜ˆ์ œ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ์—๋Š” ํฐ ํšจ๊ณผ๊ฐ€ ์—†๋‹ค๋Š” ๊ฒƒ์„ ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ํ•™์Šต ์—ญ๋™์„ฑ ๋ถ„์„์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹์„ ๋ถ„๋ฅ˜ํ•˜์—ฌ ํ•™์Šตํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , SQuAD ๊ฒ€์ฆ ์„ธํŠธ ๋ฐ AddSent ์ ๋Œ€์  ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ์˜ ์ ์šฉ์— ์‹ ์ค‘ํ•œ ์ ‘๊ทผ์ด ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

related iamge

๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ, SQuAD์—์„œ๋Š” ํšจ๊ณผ ์—†๋‹ค? ๐Ÿค”

Paul K. Mandal์˜ ์ตœ๊ทผ ์—ฐ๊ตฌ ๋…ผ๋ฌธ์ด ์ถฉ๊ฒฉ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ๊ฐ€ ์ถ”์ถœ์  ์งˆ์˜์‘๋‹ต(Extractive Question Answering)์—์„œ ํ•ญ์ƒ ํšจ๊ณผ์ ์ธ ๊ฒƒ์€ ์•„๋‹ˆ๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠนํžˆ SQuAD ๋ฐ์ดํ„ฐ์…‹์„ ๋Œ€์ƒ์œผ๋กœ ์ง„ํ–‰๋œ ์ด ์—ฐ๊ตฌ๋Š”, ๊ธฐ์กด์˜ ๊ธ์ •์  ์‹œ๊ฐ๊ณผ๋Š” ์ƒ๋ฐ˜๋˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ œ์‹œํ•˜๋ฉฐ AI ์—ฐ๊ตฌ๊ณ„์— ์ƒˆ๋กœ์šด ๋…ผ์Ÿ๊ฑฐ๋ฆฌ๋ฅผ ๋˜์ ธ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

SQuAD์™€ ์ ๋Œ€์  ๋ฐ์ดํ„ฐ์…‹: AddSent & AddOneSent

์—ฐ๊ตฌ์ง„์€ SQuAD ๋ฐ์ดํ„ฐ์…‹์˜ ์ฃผ์„ ์˜ค๋ฅ˜๋ฅผ ๋ถ„์„ํ•˜๊ณ , ๋‘ ๊ฐ€์ง€ ์ ๋Œ€์  ๋ฐ์ดํ„ฐ์…‹์ธ AddSent์™€ AddOneSent๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ELECTRA-small ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. AddSent์™€ AddOneSent๋Š” SQuAD์— ํŠน๋ณ„ํžˆ ์–ด๋ ค์›€์„ ์ฃผ๋„๋ก ๊ณ ์•ˆ๋œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ, ๋ชจ๋ธ์˜ ๊ฐ•๊ฑด์„ฑ์„ ์‹œํ—˜ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•™์Šต ์—ญ๋™์„ฑ ๋ถ„์„: ๋ฐ์ดํ„ฐ์…‹์˜ ์žฌ๋ถ„๋ฅ˜

ํ•ต์‹ฌ์€ ๋ฐ”๋กœ ํ•™์Šต ์—ญ๋™์„ฑ(Training Dynamics) ๋ถ„์„์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ ํ•™์Šต ๊ณผ์ •์„ ๋ถ„์„ํ•˜์—ฌ SQuAD ๋ฐ์ดํ„ฐ์…‹์„ ์‰ฌ์šด, ์• ๋งคํ•œ, ์–ด๋ ค์šด ์„ธ ๊ฐ€์ง€ ํ•˜์œ„ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๋ถ„๋ฅ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐ ํ•˜์œ„ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ ํ›„, ์„ฑ๋Šฅ์„ ๋น„๊ต ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ์˜ ํšจ๊ณผ๋ฅผ ๊ฐ๊ด€์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ์ „๋žต์ด์—ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ: ๊ธฐ๋Œ€์™€ ๋‹ค๋ฅธ ์„ฑ๊ณผ

๊ฒฐ๊ณผ๋Š” ๋†€๋ผ์› ์Šต๋‹ˆ๋‹ค. ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ์…‹ ๋ถ„ํ•  ํ•™์Šต์€ SQuAD ๊ฒ€์ฆ ์„ธํŠธ๋‚˜ AddSent ์ ๋Œ€์  ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค์ง€ ๋ชปํ–ˆ์Šต๋‹ˆ๋‹ค. AddOneSent ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” '์–ด๋ ค์šด' ํ•˜์œ„ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ F1 ์ ์ˆ˜๊ฐ€ ์•ฝ๊ฐ„ ๋†’์•„์กŒ์ง€๋งŒ, ์ „์ฒด์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์€ ๋ฏธ๋ฏธํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก : SQuAD์™€ SNLI์˜ ์ฐจ์ด์ 

์—ฐ๊ตฌ๋Š” ๊ธฐ์กด SNLI ๋ฐ์ดํ„ฐ์…‹์—์„œ ์–ป์€ ๊ฒฐ๊ณผ์™€ ๋น„๊ต ๋ถ„์„ํ•˜์—ฌ SQuAD์—์„œ ๋‚˜ํƒ€๋‚œ ๊ฒฐ๊ณผ์˜ ์ฐจ์ด์ ์„ ์„ค๋ช…ํ•˜๋ ค๊ณ  ์‹œ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์…‹์˜ ํŠน์„ฑ๊ณผ ์ ๋Œ€์  ์˜ˆ์ œ์— ๋Œ€ํ•œ ๊ฐ•๊ฑด์„ฑ ํ™•๋ณด ์ „๋žต์— ๋Œ€ํ•œ ์‹ฌ๋„์žˆ๋Š” ๋…ผ์˜๊ฐ€ ํ•„์š”ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์‹œ์‚ฌ์ : ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ, ์‹ ์ค‘ํ•œ ์ ‘๊ทผ ํ•„์š”

์ด ์—ฐ๊ตฌ๋Š” ๋ฐ์ดํ„ฐ์…‹ ์นด๋ฅดํ† ๊ทธ๋ž˜ํ”ผ๊ฐ€ ๋งŒ๋Šฅ ํ•ด๊ฒฐ์ฑ…์ด ์•„๋‹ˆ๋ผ๋Š” ์ ์„ ๋ถ„๋ช…ํ•˜๊ฒŒ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์˜ ํŠน์„ฑ๊ณผ ๊ณผ์ œ์˜ ์œ ํ˜•์„ ๊ณ ๋ คํ•œ ์‹ ์ค‘ํ•œ ์ ‘๊ทผ์ด ํ•„์š”ํ•˜๋ฉฐ, ๋ชจ๋“  ๊ฒฝ์šฐ์— ํšจ๊ณผ์ ์ด๋ผ๋Š” ๋งน์‹ ์€ ๊ฒฝ๊ณ„ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. AI ๋ชจ๋ธ์˜ ๊ฐ•๊ฑด์„ฑ ํ–ฅ์ƒ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ์ „๋žต๊ณผ ์—ฐ๊ตฌ๊ฐ€ ๋”์šฑ ํ•„์š”ํ•œ ์‹œ์ ์ž…๋‹ˆ๋‹ค.


*์ด ๊ธฐ์‚ฌ๋Š” AI๊ฐ€ ์ƒ์„ฑํ•œ ๋‚ด์šฉ์œผ๋กœ, ์ผ๋ถ€ ์ •๋ณด๊ฐ€ ์‹ค์ œ์™€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ํ™•์ธ์„ ์œ„ํ•ด ์ถ”๊ฐ€์ ์ธ ๊ฒ€์ฆ์„ ๊ถŒ์žฅ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Reference

[arxiv] When is dataset cartography ineffective? Using training dynamics does not improve robustness against Adversarial SQuAD

Published: ย (Updated: )

Author: Paul K. Mandal

http://arxiv.org/abs/2503.18290v1