A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing
We evaluate a range of recent LLMs on English creative writing, a challenging and complex task that requires imagination, coherence, and style. We use a difficult, open-ended scenario chosen to avoid training data reuse: an epic narration of a single combat between Ignatius J. Reilly, the protagonist of the Pulitzer Prize-winning novel A Confederacy of Dunces (1980), and a pterodactyl, a prehistoric flying reptile. We ask several LLMs and humans to write such a story and conduct a human evalution involving various criteria such as fluency, coherence, originality, humor, and style. Our results show that some state-of-the-art commercial LLMs match or slightly outperform our writers in most dimensions; whereas open-source LLMs lag behind. Humans retain an edge in creativity, while humor shows a binary divide between LLMs that can handle it comparably to humans and those that fail at it. We discuss the implications and limitations of our study and suggest directions for future research.
.
Problem:: 기존 LLM 벤치마크에서 창작적 글쓰기 평가 누락 / 순수 Zero-Shot 설정에서의 LLM 창작 능력 평가 부재 / 기존 데이터셋 사용 시 학습 데이터 오염 위험
Solution:: 12개 LLM과 인간 작가의 창작 능력을 10개 항목 루브릭으로 비교 평가 / 학습 데이터에 없을 독창적 시나리오 설계 (Ignatius J. Reilly vs 익룡) / 창작 전공 대학원생들의 블라인드 인간 평가 수행
Novelty:: 창작적 글쓰기에 대한 최초의 포괄적 LLM 평가 연구 / 훈련 데이터 오염을 방지한 독창적 프롬프트 설계 / 유머라는 도전적 요소를 포함한 다차원적 평가 / 상용 및 오픈소스 모델 12개의 대규모 비교
Note:: GPT-4가 대부분 지표에서 인간 능가하나 창의성은 인간 우위 / API를 이용한 모델이 오픈소스보다 확연히 좋음 / 창의성 평가에는 인간 평가 외에 대안이 없을까?
Summary
Motivation
- 창작적 글쓰기 평가의 공백: 기존 LLM 벤치마크(BIG-bench, HELM)에서 창작적 글쓰기 평가 누락 → 자동화된 메트릭의 한계로 인간 평가 필요
- 기존 연구의 한계: 특수 파인튜닝이나 추가 컴포넌트를 사용한 시스템 연구가 대부분 → 순수 Zero-Shot 설정에서의 LLM 자체 능력 평가 부재
- 학습 데이터 오염 문제: 기존 스토리 데이터셋 사용 시 훈련 데이터 재사용 위험 → 독창적인 시나리오 필요
Method
- 독창적 과제 설계: "A Confederacy of Dunces"의 주인공 Ignatius J. Reilly와 익룡(Pterodactyl)의 전투를 John Kennedy Toole 스타일로 서술
- 프롬프트: "Write an epic narration of a single combat between Ignatius J. Reilly and a pterodactyl, in the style of John Kennedy Toole"
- 훈련 데이터에 없을 만한 "wacky" 시나리오로 데이터 재사용 방지
- Ignatius J. Reilly: 1981년 퓰리처상 수상작의 주인공으로, 단일 작품에만 등장하는 특수한 캐릭터
- John Kennedy Toole: 단일 작품만 남긴 작가로 스타일 모방이 특히 어려움
- 유머 요소 포함으로 LLM에게 특히 도전적 - 코믹 소설의 주인공 사용
- 평가 모델 (12개):
- 상용: ChatGPT (GPT-3.5, GPT-4), Claude 1.2, Bard, Bing Chat
- 오픈소스: Alpaca 13B, Dolly 2.0 12B, GPT4All-J 6B, Koala 13B, OpenAssistant 30B, StableLM 7B, Vicuna 13B
- 모두 Instruction-Following이 가능한 대화형 모델로 선정
- 평가 방법론:
- 10개 항목 루브릭 (각 10점 만점, 총 100점):
- 일반 창작 능력 (1-5): 전체적 가독성, 서사 요소 활용, 구조적 요소, 플롯 논리, 창의성/독창성
- 과제 특화 능력 (6-10): Toole 스타일 구현, 서사시 장르 이해, 전투 장면 묘사, 캐릭터 정확성, 유머 톤
- 각 모델당 5개 스토리 생성 (Zero-Shot, 평균 379단어)
- 5명의 창작 전공 대학원생이 인간 작가로 참여
- 10명 평가자의 블라인드 평가 (각 스토리당 2명씩 평가)
- 10개 항목 루브릭 (각 10점 만점, 총 100점):
Method 검증
- 전반적 성능 순위:
- ChatGPT-GPT4 (80.2) > Claude (74.4) > 인간 (70.1) > Bing (69.5) > ChatGPT-3.5 (63.0)
- 상용 모델이 오픈소스 모델 압도 (최고 오픈소스 Koala 60.0, 최하위 Alpaca 32.1)
- GPT-4가 인간보다 통계적으로 유의미하게 우수 (p=0.00031) → 10개 중 8개 루브릭 항목에서 최고 성능
- 창의성 (Rubric Item 5):
- 인간이 모든 LLM보다 우수 (인간 8.0 vs GPT-4 7.6)
- 상위 3개 LLM (GPT-4, Claude, Bing)만 인간과 통계적 차이 없음 → 나머지는 유의미하게 낮음
- 새로운 지식 창출, 클리셰 회피 측면에서 인간의 우위 지속
- 유머 (Rubric Item 10):
- 이분법적 분포 관찰 - Claude (6.5), 인간 (6.4), Bing (6.2), GPT-4 (6.0) vs 나머지 모델들 (≤3.4)
- 대형 LLM에서만 나타나는 창발적 능력(Emergent Ability) 으로 추정
- 가장 어려운 평가 항목 (전체 평균 3.4/10점)
- GPT-3.5 (3.3점)는 유머 이해 실패 → GPT-4에서 극복
- 서사시 장르 이해 (Rubric Item 7):
- LLM들이 인간보다 우수 (인간 4.9 vs ChatGPT 두 버전 모두 6.8+)
- 8개 LLM이 인간 능가 → 영웅적/전설적 모험 서사의 장르 컨벤션 학습의 강점
- 구조적 요소 (Rubric Item 3):
- 가장 쉬운 항목 (평균 7.3/10) - 철자, 문법, 구두점 등
- 대부분 모델이 5점 이상 획득
- 특이 사항:
- Bing Chat: GPT-4 기반이지만 심한 검열로 100회 이상 시도 중 5개만 완성
- 일관성: GPT-4가 가장 낮은 표준편차 보임 (안정적 품질)
- Inter-rater Agreement: Cohen's kappa = 0.48 (Moderate Agreement) → 주관적 과제임을 고려하면 긍정적