Team Attention

Effective
Harnesses for
Long-Running
Codex

큰 단위의 작업을 끝까지 완수하기 위한
Long-Running Codex 활용 방식과 시행착오

정구봉 · 2026-03

01
Agenda

발표 구조

PartTimeContent
Part 15minRalphthon — Seoul에서 열린 장기 자율 에이전트 해커톤
Part 210minHarness Engineering — 복잡한 하네스가 이긴 이유
Part 310minCode Factory — 조직 차원의 Long-Running 도입
02
Part 1 · Ralphthon

AI Builders #4

AI가 밤새 코딩하고,
사람은 잠을 잔 1박 2일

Ralphthon 하이라이트

서울 · 에어비앤비 · 2026. 2. 28–3. 1

03
Part 1 · Ralphthon

핵심 실험

AI 에이전트가 사람이 잠든 동안
소프트웨어를 자율적으로 완성할 수 있는가?
43→13
팀 지원 → 선발 (3.3:1)
$18K
OpenAI 상금
12h
자율 실행 시간

스폰서: 카카오벤처스 (장소/식사/촬영) + OpenAI (상금/API 크레딧)

04
Part 1 · Ralphthon

타임라인

16:00 인간 셋업 (4시간) — 스펙 작성, 하네스 설정, 초기 테스트 20:00 핸드오프 — 노트북 닫기. 만지면 가재옷 착용. 20:00–08:00 자율 실행 (12시간) — 에이전트 독립 실행. 인간 개입 불가. 08:00 개봉 — 결과 확인, 데모, 발표.

가재옷 메커닉

  • 자율 실행 중 노트북 만지려면 가재옷 착용 (10분 제한)
  • 인간 개입의 물리적 표시 · 심리적 억제 · 공정성 보장
  • 처음엔 웃었지만, 이내 서로 핸즈온으로 도움 → 경쟁이 아니라 협력
가재옷 착용 참가자

실제 가재옷 착용 장면

05
Part 1 · Ralphthon

결과

ProjectTeamLOCDonePrize
houseops이재규, 정승아169,55395%1위 $10K
cyberthug-screenclone허예찬, 하도윤45,52285%2위 $5K
sansa황성현8,48385%3위 $3K
tonica김우영122,02897.6%
501,955
총 LOC
543
총 커밋
100%
AI가 작성
06
Part 1 · Ralphthon

핵심 발견 3가지

01
HOTL 증명
1, 2등이 100% AI 자율로 완성. 가재옷을 한 번도 입지 않았다.
02
설계 > 코딩
하네스 오픈소스를 직접 만든 사람들이 1, 2등.
03
하네스 복잡도 ↔ 순위
복잡한 하네스가 이겼다.
“에이전트 하네스를 잘 만드는 사람이 잘 만드는 것이
이제는 가장 큰 경쟁력이라는 것을 확신하게 되었다.”
밤새 코딩하는 환경

밤새 자율 코딩 환경

07
Part 2 · Harness Engineering

while 루프를
넘어서

왜 초기 Ralph만으로는 큰 작업을 끝낼 수 없는가

08
Part 2 · Harness Engineering

초기 Ralph의 한계

while true; do codex "다음 태스크를 진행해" done

이것만으로는 안 되는 이유

09
Part 2 · Harness Engineering

복잡한 하네스 vs 단순한 하네스

Complex Harness (1, 2위)Simple Harness
루프 구조세대별 진화, 스펙 자체가 변화고정 스펙을 순차 실행
상태 관리Event Sourcing, 크래시 복구없음 또는 watchdog
평가다단계 (기계적→의미적→합의)Pass/Fail 단일 판정
종료 조건수학적 수렴 (유사도 ≥ 0.95)고정 횟수
결과1등 169K LOC, 2등 45K LOC
10
Part 2 · Case Study

Case 1: Ouroboros — 진화하는 스펙

github.com/Q00/ouroboros · 1등 houseops

Generation 1: Interview → Seed(O₁) → Execute → Evaluate Generation 2+: Wonder → Reflect → Seed(O₂) → Execute → Evaluate ↑ ↑ "무엇을 모르는가?" "무엇을 바꿔야 하는가?"

핵심: 스펙 자체를 진화시키는 루프

고정된 스펙을 반복하는 하네스는 코드베이스가 수만 줄을 넘으면 drift가 벌어진다.
진화형 하네스는 매 세대마다 간극을 감지하고 스펙 자체를 수정한다.

11
Part 2 · Ouroboros Deep Dive

Ouroboros가 Long Running에 강한 이유

1. Socratic Interview
Ambiguity = 1 − Σ(clarity × weight)
≤ 0.2 이하가 되어야 코드 생성 허용
houseops: 133라운드 → 0.05
2. Wonder Phase
“무엇이 실패했는가?”가 아니라
“무엇을 가정하고 있는가?”를 묻는다
3. 병리 감지
Spinning → 측면 사고 트리거
Oscillation → 제3의 대안 탐색
Stagnation → 수렴 판정
4. Event Sourcing
모든 상태를 EventStore에서 재구성
크래시해도 정확히 그 지점에서 재개
12시간 밤새 실행의 안정성 보장
169,553
LOC (최대 커밋 94K줄)
12.8h
자율 실행
0회
가재옷
에이전트 코드 실행 장면
12
Part 2 · Case Study

Case 2: Oh My Codex — 5계층 하네스

github.com/Yeachan-Heo/oh-my-codex · 1.7K+ stars · 2등 cyberthug

Layer 5: tmux 멀티프로세스 런타임 (병렬 워커) Layer 4: MCP 서버 4종 (state, memory, code-intel, trace) Layer 3: 스킬 시스템 (워크플로우 스킬) Layer 2: 프롬프트 카탈로그 (역할별 프롬프트) Layer 1: AGENTS.md 주입 (프로젝트별 두뇌)
7h
논스톱 자율 실행
21/21
User Story 완료
$46.91
총 비용
13
Part 2 · Practical Pattern

실전 패턴: 좋은 하네스의 5단계

01
환경 분리 & 권한 부여
Worktree + --yolo
Yes를 사람이 눌러줘야 한다면 길게 맡길 수 없다
02
AI와 긴 인터뷰 (30분~1시간) — 가장 중요
모호성이 남지 않을 정도로. Unknown-Unknown 정의. 유저 시나리오만 집중.
03
검증 방법 설정 — 두 번째로 중요
사람과 Agent의 검증 환경을 동일하게. 유저와 동일하게 클릭/입력/관측.
04
Ralph 돌리기
선명한 스펙 + 검증 방법이 준비되었으니 시작. 창은 띄워둔다.
05
관측하면서 다음 Ralph 세팅
작은 삽질은 개입하지 않는다 — 실수할 여유를 준다 (위임의 원칙)
14
Part 3 · Code Factory

세션이 아니라
시스템을 만들어라

조직 차원의 Long-Running 도입

15
Part 3 · Code Factory

AI Agent의 발전 방향

01
병렬 실행 — 서브에이전트
여러 역할을 하는 에이전트를 동시에 실행해서 토큰을 효율적으로 사용
02
직렬 실행 — Ralph (Long Running Harness)
모델이 실행을 종료하더라도 다음 태스크를 강제하는 루프.
하지만 초기 스펙의 갭을 잡아주는 진화적 루프가 필요하다.
03
병렬 + 직렬 = Software Factory
요구사항을 넣으면 자동으로 소프트웨어가 생성되고 개선되는 공장
소프트웨어는 한 번 만들고 끝나는 것이 아니라
지속해서 유지보수해야 한다. Software Factory란
이 모든 과정을 AI가 자동으로 돌리는 것이다.
16
Part 3 · Code Factory

Ralph는 Long-Running Harness가 아니다

Ralph를 “Long Running Harness”라고 부르지만,
한 세션은 언제든지 stop될 수 있습니다.

세션이 죽어도, 다음 세션이 이어받을 수 있는 구조가
진짜 Long Running입니다.

에이전트가 코드의 100%를 작성하고, 에이전트가 리뷰하고,
리포가 정책을 강제하는 시스템

Ryan Carson · OpenAI Codex 팀: 5개월, 수동 코드 0줄, 100만 LOC, 엔지니어 1인당 3.5 PR/day

17
Part 3 · Code Factory

Code Factory의 7가지 기둥

01
단일 JSON 정책 계약서
에이전트가 볼 수 없는 정보는 존재하지 않는 것. 모든 정책은 리포 안에 versioned artifact.
02
Preflight Gate
실패 확정된 PR에 CI 비용을 쓸 이유 없음
03
Current-Head SHA Discipline
“가장 큰 practical lesson” — 오래된 SHA의 “clean” 결과를 믿지 마라
04
Remediation Agent
리뷰 피드백 → 자동 패치 → fix commit push
05
Bot-Only Thread 자동 해결
봇만 참여한 스레드 자동 resolve. 사람 스레드는 절대 안 건드림.
06
브라우저 증거 기계적 검증
스크린샷이 아니라 CI에서 기계적 검증
07
Harness-Gap Loop — 가장 중요
회귀 → 테스트 케이스 추가 → 반복 가능한 커버리지로 전환
18
Part 3 · Software Factory

Software Factory: SaaS 조합 시대의 종말

Ralph로 불리는 장시간 AI 사용법은 사실 “Software Factory”다.
이미 운영 중인 소프트웨어에 외부 자극이 들어왔을 때
자동으로 개선되는 시스템이다.
Geoffrey Huntley
PostHog, Pipedrive, Zendesk, Calendly
→ 전부 에이전트로 1st-party 내재화
“I'm on the loop, not in the loop.”
Karpathy autoresearch
GPU 1개, 하룻밤 83개 ML 실험
program.md 하나로 연구 방향 지시
“The best program.md wins.”
— Garry Tan
19
Part 3 · Software Factory

왜 작동하는가

Andrew Chen: AI는 코드 컴파일처럼 객관적으로 검증 가능한 문제에 압도적으로 강하다.
“이 이메일이 무례한가?” 같은 주관적 판단에는 약하다.

Software Factory가 작동하는 이유:
소프트웨어 빌드는 객관적 검증이 가능한 영역이니까.

인간의 역할: “만드는 사람” → “방향을 잡는 사람”
Taste가 경쟁력이 되는 시대.

20
Part 3 · Adoption

조직 도입의 최선책: 해커톤

Codex 사용법은 생각보다 쉽다.
문제는 “오늘 당장 효율이 나오는 방법”에 치여
새로운 도구를 시도할 시간이 없다는 것.
왜 해커톤인가
  • “지금 몇 시간은 Codex만 써야 하는” 강제 환경 조성
  • 어려운 목표 → 몰입 → 짧은 시간 안에 인텐스하게 접근
  • 일상 업무의 관성을 끊고 새 워크플로우를 체득
효과
  • 이론 교육 10시간 < 해커톤 하루
  • 동료와 함께하면 학습 속도 3×
  • 결과물이 나오니까 경영진 설득도 됨

함께하고 있는 파트너

Upstage· LG AI Research· Morgan Stanley PE· GS 지주사(52g 전 계열사 AX 허브)

+ 다양한 Seed, Series A, B 스타트업과 협업 중

21
Summary

Harness Engineering의 핵심 공식

Spec Clarity — 모호성 제거 (133라운드든 30분이든)
Harness Complexity — 자율 실행 시간에 비례
2~3h: AGENTS.md 67줄  |  10h+: 3-Strike  |  12h+: SSOT + 다중 WD
User-Identical E2E — 사람과 동일한 환경에서 검증
Harness-Gap Loop — 회귀 → 테스트 → 커버리지
22
Summary

3줄 요약

01
스펙을 선명하게
코드 전에 모호성을 제거하라
02
하네스를 진화시켜라
Gap을 감지하고 스펙 자체를 수정하는 루프가 필요하다
03
세션이 아니라 시스템을 만들어라
세션이 죽어도 이어지는 소프트웨어 생산 시스템

Ralphthon Report: team-attention.com  ·  Ouroboros: github.com/Q00/ouroboros  ·  Oh My Codex: github.com/Yeachan-Heo/oh-my-codex
Ryan Carson's Code Factory  ·  OpenAI Harness Engineering  ·  Geoffrey Huntley (Latent Patterns)  ·  Karpathy autoresearch  ·  Andrew Chen

Team Attention — www.team-attention.com

23