GPT-4o와 라마 모델, 윤리적 거부 응답에 3
페이지 정보
작성자 oreo 댓글 0건 조회 4회 작성일 25-05-24 17:07본문
GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수대규모 언어 모델(LLM)이 다른 AI 모델의 성능을 평가하는 '심판' 역할을 하는 사례가 급증하고 있다. 하지만 한국외국어대학교 AI사회과학부의 스테판 파쉬(Stefan Pasch) 연구팀이 발표한 논문에 따르면, AI가 평가하는 방식과 실제 사용자들이 평가하는 방식 사이에 상당한 차이가 존재한다는 것이 밝혀졌다. 특히 윤리적 거부 응답에 대해서는 AI 평가자들이 인간보다 훨씬 높은 점수를 주는 '조정 편향' 현상이 발견됐다.연구팀이 챗봇 아레나(Chatbot Arena) 데이터를 분석한 결과, GPT-4o가 윤리적 거부 응답을 평가할 때 승률이 31%에 달했다. 이는 인간 사용자들이 평가한 8%보다 무려 23%포인트 높은 수치다. 라마 3 70B 모델 역시 27%의 승률을 기록해 인간 평가보다 19%포인트 높았다.연구진은 49,938개의 응답 쌍을 분석했으며, 각 응답을 윤리적 거부, 기술적 거부, 면책조항, 일반 응답으로 분류했다. 윤리적 거부는 "해롭거나 부적절할 수 있어 도움을 드릴 수 없습니다"와 같이 도덕적 우려를 명시적으로 언급하는 응답이다. 반면 기술적 거부는 "실시간 데이터에 접근할 수 없어 답변드릴 수 없습니다"처럼 시스템 한계를 설명하는 응답이다.흥미롭게도 기술적 거부 응답에서는 이러한 편향이 나타나지 않았다. GPT-4o의 경우 기술적 거부 응답에서 인간 평가와 유사한 수준의 점수를 부여했고, 라마 3 70B는 오히려 더 낮은 점수를 주었다. 이는 AI 평가자들이 모든 거부 응답을 선호하는 것이 아니라, 특히 윤리적 정렬(ethical alignment)을 보여주는 응답에 높은 가치를 부여한다는 것을 시사한다.LLM-as-a-Judge 시스템의 숨겨진 가치 판단LLM-as-a-Judge(LaaJ) 프레임워크는 확장성과 비용 효율성 때문에 AI 모델 평가에서 점점 더 중요한 역할을 하고 있다. 이 시스템은 단순히 성능을 측정하는 것을 넘어서 모델 훈련, 벤치마킹, 모델 선택 과정에까지 영향을 미치고 있다. 그러나 이번 연구는 이러한 시스템들이 중립적인 평가자가 아니라 내재된 가치 판단을 가지고 있음을 보여준다.연구진은 이러한 현상을 '조정 편향(moderation bias)'이라고 명명했다. 이는 AI 모델들이 안전성과GPT-4o와 라마 모델, 윤리적 거부 응답에 32%포인트 높은 점수대규모 언어 모델(LLM)이 다른 AI 모델의 성능을 평가하는 '심판' 역할을 하는 사례가 급증하고 있다. 하지만 한국외국어대학교 AI사회과학부의 스테판 파쉬(Stefan Pasch) 연구팀이 발표한 논문에 따르면, AI가 평가하는 방식과 실제 사용자들이 평가하는 방식 사이에 상당한 차이가 존재한다는 것이 밝혀졌다. 특히 윤리적 거부 응답에 대해서는 AI 평가자들이 인간보다 훨씬 높은 점수를 주는 '조정 편향' 현상이 발견됐다.연구팀이 챗봇 아레나(Chatbot Arena) 데이터를 분석한 결과, GPT-4o가 윤리적 거부 응답을 평가할 때 승률이 31%에 달했다. 이는 인간 사용자들이 평가한 8%보다 무려 23%포인트 높은 수치다. 라마 3 70B 모델 역시 27%의 승률을 기록해 인간 평가보다 19%포인트 높았다.연구진은 49,938개의 응답 쌍을 분석했으며, 각 응답을 윤리적 거부, 기술적 거부, 면책조항, 일반 응답으로 분류했다. 윤리적 거부는 "해롭거나 부적절할 수 있어 도움을 드릴 수 없습니다"와 같이 도덕적 우려를 명시적으로 언급하는 응답이다. 반면 기술적 거부는 "실시간 데이터에 접근할 수 없어 답변드릴 수 없습니다"처럼 시스템 한계를 설명하는 응답이다.흥미롭게도 기술적 거부 응답에서는 이러한 편향이 나타나지 않았다. GPT-4o의 경우 기술적 거부 응답에서 인간 평가와 유사한 수준의 점수를 부여했고, 라마 3 70B는 오히려 더 낮은 점수를 주었다. 이는 AI 평가자들이 모든 거부 응답을 선호하는 것이 아니라, 특히 윤리적 정렬(ethical alignment)을 보여주는 응답에 높은 가치를 부여한다는 것을 시사한다.LLM-as-a-Judge 시스템의 숨겨진 가치 판단LLM-as-a-Judge(LaaJ) 프레임워크는 확장성과 비용 효율성 때문에 AI 모델 평가에서 점점 더 중요한 역할을 하고 있다. 이 시스템은 단순히 성능을 측정하는 것을 넘어서 모델 훈련, 벤치마킹, 모델 선택 과정에까지 영향을 미치고 있다. 그러나 이번 연구는 이러한 시스템들이 중립적인 평가자가 아니라 내재된 가치 판단을 가지고 있음을 보여준다.연구진은 이러한 현상을 '조정 편향(moderation bias)'이라고 명명했다. 이는 AI 모델들이 안전성과 윤리적 정렬을 중시하는 훈련 목표를 내재화하여, 윤리적 거부 응답을 책임감 있는 행동의 신호로 해
댓글목록
등록된 댓글이 없습니다.