Team Attention

Effective
Harnesses for
Long-Running
Codex

큰 단위의 작업을 끝까지 완수하기 위한
Long-Running Codex 활용 방식과 시행착오

정구봉 · 2026-03

01

Agenda

발표 구조

Part	Time	Content
Part 1	5min	Ralphthon — Seoul에서 열린 장기 자율 에이전트 해커톤
Part 2	10min	Harness Engineering — 복잡한 하네스가 이긴 이유
Part 3	10min	Code Factory — 조직 차원의 Long-Running 도입

02

Part 1 · Ralphthon

AI Builders #4

AI가 밤새 코딩하고,
사람은 잠을 잔 1박 2일

서울 · 에어비앤비 · 2026. 2. 28–3. 1

03

Part 1 · Ralphthon

핵심 실험

AI 에이전트가 사람이 잠든 동안
소프트웨어를 자율적으로 완성할 수 있는가?

43→13

팀 지원 → 선발 (3.3:1)

$18K

OpenAI 상금

12h

자율 실행 시간

스폰서: 카카오벤처스 (장소/식사/촬영) + OpenAI (상금/API 크레딧)

04

Part 1 · Ralphthon

타임라인

00  인간 셋업 (4시간) — 스펙 작성, 하네스 설정, 초기 테스트
00  핸드오프 — 노트북 닫기. 만지면 가재옷 착용.
00–08:00  자율 실행 (12시간) — 에이전트 독립 실행. 인간 개입 불가.
00  개봉 — 결과 확인, 데모, 발표.

가재옷 메커닉

자율 실행 중 노트북 만지려면 가재옷 착용 (10분 제한)
인간 개입의 물리적 표시 · 심리적 억제 · 공정성 보장
처음엔 웃었지만, 이내 서로 핸즈온으로 도움 → 경쟁이 아니라 협력

실제 가재옷 착용 장면

05

Part 1 · Ralphthon

결과

Project	Team	LOC	Done	Prize
houseops	이재규, 정승아	169,553	95%	1위 $10K
cyberthug-screenclone	허예찬, 하도윤	45,522	85%	2위 $5K
sansa	황성현	8,483	85%	3위 $3K
tonica	김우영	122,028	97.6%

501,955

총 LOC

543

총 커밋

100%

AI가 작성

06

Part 1 · Ralphthon

핵심 발견 3가지

01

HOTL 증명

1, 2등이 100% AI 자율로 완성. 가재옷을 한 번도 입지 않았다.

02

설계 > 코딩

하네스 오픈소스를 직접 만든 사람들이 1, 2등.

03

하네스 복잡도 ↔ 순위

복잡한 하네스가 이겼다.

“에이전트 하네스를 잘 만드는 사람이 잘 만드는 것이
이제는 가장 큰 경쟁력이라는 것을 확신하게 되었다.”

밤새 자율 코딩 환경

07

Part 2 · Harness Engineering

while 루프를
넘어서

왜 초기 Ralph만으로는 큰 작업을 끝낼 수 없는가

08

Part 2 · Harness Engineering

초기 Ralph의 한계

while true; do
  codex "다음 태스크를 진행해"
done

이것만으로는 안 되는 이유

코드베이스가 커지면 스펙과 현실의 간극(drift)이 벌어진다
에이전트가 같은 실수를 반복한다 — 무한 진동
크래시 후 복구할 수 없다
검증 없이 “완료”를 선언한다

09

Part 2 · Harness Engineering

복잡한 하네스 vs 단순한 하네스

	Complex Harness (1, 2위)	Simple Harness
루프 구조	세대별 진화, 스펙 자체가 변화	고정 스펙을 순차 실행
상태 관리	Event Sourcing, 크래시 복구	없음 또는 watchdog
평가	다단계 (기계적→의미적→합의)	Pass/Fail 단일 판정
종료 조건	수학적 수렴 (유사도 ≥ 0.95)	고정 횟수
결과	1등 169K LOC, 2등 45K LOC	—

10

Part 2 · Case Study

Case 1: Ouroboros — 진화하는 스펙

github.com/Q00/ouroboros · 1등 houseops

Generation 1:  Interview → Seed(O₁) → Execute → Evaluate
Generation 2+: Wonder   → Reflect  → Seed(O₂) → Execute → Evaluate
                  ↑                              ↑
            "무엇을 모르는가?"              "무엇을 바꿔야 하는가?"

핵심: 스펙 자체를 진화시키는 루프

고정된 스펙을 반복하는 하네스는 코드베이스가 수만 줄을 넘으면 drift가 벌어진다.
진화형 하네스는 매 세대마다 간극을 감지하고 스펙 자체를 수정한다.

11

Part 2 · Ouroboros Deep Dive

Ouroboros가 Long Running에 강한 이유

1. Socratic Interview

Ambiguity = 1 − Σ(clarity × weight)
≤ 0.2 이하가 되어야 코드 생성 허용
houseops: 133라운드 → 0.05

2. Wonder Phase

“무엇이 실패했는가?”가 아니라
“무엇을 가정하고 있는가?”를 묻는다

3. 병리 감지

Spinning → 측면 사고 트리거
Oscillation → 제3의 대안 탐색
Stagnation → 수렴 판정

4. Event Sourcing

모든 상태를 EventStore에서 재구성
크래시해도 정확히 그 지점에서 재개
12시간 밤새 실행의 안정성 보장

169,553

LOC (최대 커밋 94K줄)

12.8h

자율 실행

0회

가재옷

12

Part 2 · Case Study

Case 2: Oh My Codex — 5계층 하네스

github.com/Yeachan-Heo/oh-my-codex · 1.7K+ stars · 2등 cyberthug

Layer 5: tmux 멀티프로세스 런타임 (병렬 워커)
Layer 4: MCP 서버 4종 (state, memory, code-intel, trace)
Layer 3: 스킬 시스템 (워크플로우 스킬)
Layer 2: 프롬프트 카탈로그 (역할별 프롬프트)
Layer 1: AGENTS.md 주입 (프로젝트별 두뇌)

파일 기반 조정 버스: .omx/state/ 디렉토리가 메시지 버스 역할
혼합 CLI 팀: codex,codex,claude,claude 이종 워커 구성
2계층 영속 메모리: 프로젝트 메모리 + 세션 노트패드 분리

7h

논스톱 자율 실행

21/21

User Story 완료

$46.91

총 비용

13

Part 2 · Practical Pattern

실전 패턴: 좋은 하네스의 5단계

01

환경 분리 & 권한 부여

Worktree + --yolo
Yes를 사람이 눌러줘야 한다면 길게 맡길 수 없다

02

AI와 긴 인터뷰 (30분~1시간) — 가장 중요

모호성이 남지 않을 정도로. Unknown-Unknown 정의. 유저 시나리오만 집중.

03

검증 방법 설정 — 두 번째로 중요

사람과 Agent의 검증 환경을 동일하게. 유저와 동일하게 클릭/입력/관측.

04

Ralph 돌리기

선명한 스펙 + 검증 방법이 준비되었으니 시작. 창은 띄워둔다.

05

관측하면서 다음 Ralph 세팅

작은 삽질은 개입하지 않는다 — 실수할 여유를 준다 (위임의 원칙)

14

Part 3 · Code Factory

세션이 아니라
시스템을 만들어라

조직 차원의 Long-Running 도입

15

Part 3 · Code Factory

AI Agent의 발전 방향

01

병렬 실행 — 서브에이전트

여러 역할을 하는 에이전트를 동시에 실행해서 토큰을 효율적으로 사용

02

직렬 실행 — Ralph (Long Running Harness)

모델이 실행을 종료하더라도 다음 태스크를 강제하는 루프.
하지만 초기 스펙의 갭을 잡아주는 진화적 루프가 필요하다.

03

병렬 + 직렬 = Software Factory

요구사항을 넣으면 자동으로 소프트웨어가 생성되고 개선되는 공장

소프트웨어는 한 번 만들고 끝나는 것이 아니라
지속해서 유지보수해야 한다. Software Factory란
이 모든 과정을 AI가 자동으로 돌리는 것이다.

16

Part 3 · Code Factory

Ralph는 Long-Running Harness가 아니다

Ralph를 “Long Running Harness”라고 부르지만,
한 세션은 언제든지 stop될 수 있습니다.

세션이 죽어도, 다음 세션이 이어받을 수 있는 구조가
진짜 Long Running입니다.

에이전트가 코드의 100%를 작성하고, 에이전트가 리뷰하고,
리포가 정책을 강제하는 시스템

Ryan Carson · OpenAI Codex 팀: 5개월, 수동 코드 0줄, 100만 LOC, 엔지니어 1인당 3.5 PR/day

17

Part 3 · Code Factory

Code Factory의 7가지 기둥

01

단일 JSON 정책 계약서

에이전트가 따를 모든 규칙을 리포 안에 versioned artifact로 관리

02

Preflight Gate

실패할 게 뻔한 PR에 CI 비용을 낭비하지 않도록 사전 검증

03

Current-Head SHA Discipline

오래된 커밋 기준의 “통과” 결과를 믿지 말고 항상 최신 HEAD에서 검증

04

Remediation Agent

코드 리뷰 피드백을 받으면 자동으로 패치 커밋을 생성

05

Bot-Only Thread 자동 해결

봇끼리만 대화한 PR 스레드는 자동 resolve, 사람 스레드는 보존

06

브라우저 증거 기계적 검증

스크린샷이 아니라 CI 파이프라인에서 기계적으로 검증

07

Harness-Gap Loop — 가장 중요

회귀 발생 → 테스트 케이스 추가 → 반복 가능한 커버리지로 전환하는 피드백 루프

핵심: 에이전트가 코드를 100% 작성하더라도, 리포 자체가 정책을 강제하는 구조가 없으면 품질을 유지할 수 없다.

18

Part 3 · Software Factory

Software Factory: SaaS 조합 시대의 종말

Ralph로 불리는 장시간 AI 사용법은 사실 “Software Factory”다.
이미 운영 중인 소프트웨어에 외부 자극이 들어왔을 때
자동으로 개선되는 시스템이다.

Geoffrey Huntley

PostHog, Pipedrive, Zendesk, Calendly
→ 전부 에이전트로 1st-party 내재화

“I'm on the loop, not in the loop.”

Karpathy autoresearch

GPU 1개, 하룻밤 83개 ML 실험
program.md 하나로 연구 방향 지시

“The best program.md wins.”
— Garry Tan

19

Part 3 · Software Factory

왜 작동하는가

Andrew Chen: AI는 코드 컴파일처럼 객관적으로 검증 가능한 문제에 압도적으로 강하다.
“이 이메일이 무례한가?” 같은 주관적 판단에는 약하다.

Software Factory가 작동하는 이유:
소프트웨어 빌드는 객관적 검증이 가능한 영역이니까.

인간의 역할: “만드는 사람” → “방향을 잡는 사람”
Taste가 경쟁력이 되는 시대.

20

Part 3 · Adoption

조직 도입의 최선책: 해커톤

Codex 사용법은 생각보다 쉽다.
문제는 “오늘 당장 효율이 나오는 방법”에 치여
새로운 도구를 시도할 시간이 없다는 것.

왜 해커톤인가

“지금 몇 시간은 Codex만 써야 하는” 강제 환경 조성
어려운 목표 → 몰입 → 짧은 시간 안에 인텐스하게 접근
일상 업무의 관성을 끊고 새 워크플로우를 체득

효과

이론 교육 10시간 < 해커톤 하루
동료와 함께하면 학습 속도 3×
결과물이 나오니까 경영진 설득도 됨

함께하고 있는 파트너

다양한 대기업·금융사·스타트업과 협업 중

21

Summary

Harness Engineering의 핵심 공식

Spec Clarity — 모호성 제거 (133라운드든 30분이든)

↓

Harness Complexity — 자율 실행 시간에 비례
2~3h: AGENTS.md 67줄  |  10h+: 3-Strike  |  12h+: SSOT + 다중 WD

↓

User-Identical E2E — 사람과 동일한 환경에서 검증

↓

Harness-Gap Loop — 회귀 → 테스트 → 커버리지

22

Summary

3줄 요약

01

스펙을 선명하게

코드 전에 모호성을 제거하라

02

하네스를 진화시켜라

Gap을 감지하고 스펙 자체를 수정하는 루프가 필요하다

03

세션이 아니라 시스템을 만들어라

세션이 죽어도 이어지는 소프트웨어 생산 시스템

Ralphthon Report: team-attention.com · Ouroboros: github.com/Q00/ouroboros · Oh My Codex: github.com/Yeachan-Heo/oh-my-codex
Ryan Carson's Code Factory · OpenAI Harness Engineering · Geoffrey Huntley (Latent Patterns) · Karpathy autoresearch · Andrew Chen

Team Attention — www.team-attention.com

23

EffectiveHarnesses forLong-RunningCodex

발표 구조

AI가 밤새 코딩하고,사람은 잠을 잔 1박 2일

핵심 실험

타임라인

가재옷 메커닉

결과

핵심 발견 3가지

while 루프를넘어서

초기 Ralph의 한계

이것만으로는 안 되는 이유

복잡한 하네스 vs 단순한 하네스

Case 1: Ouroboros — 진화하는 스펙

Ouroboros가 Long Running에 강한 이유

Case 2: Oh My Codex — 5계층 하네스

실전 패턴: 좋은 하네스의 5단계

세션이 아니라시스템을 만들어라

AI Agent의 발전 방향

Ralph는 Long-Running Harness가 아니다

Code Factory의 7가지 기둥

Software Factory: SaaS 조합 시대의 종말

왜 작동하는가

조직 도입의 최선책: 해커톤

Harness Engineering의 핵심 공식

3줄 요약

Effective
Harnesses for
Long-Running
Codex

AI가 밤새 코딩하고,
사람은 잠을 잔 1박 2일

while 루프를
넘어서

세션이 아니라
시스템을 만들어라