AI를 열심히 써봤는데 왜 자꾸 엉뚱하게 작동하는지 답답했던 경험, 한 번쯤 있을 겁니다. 프롬프트를 아무리 정교하게 다듬어도 해결이 안 되는 그 문제, 사실 원인은 다른 곳에 있습니다. AI가 움직이는 환경 자체를 설계하는 기술, 하네스 엔지니어링이 왜 지금 주목받는지 차근차근 살펴보겠습니다.
프롬프트의 시대가 저물고 있다
불과 2~3년 전만 해도 AI를 잘 쓰는 사람과 못 쓰는 사람의 차이는 프롬프트 실력에 달려 있었습니다. “더 구체적으로 써라”, “역할을 부여해라”, “예시를 넣어라” 같은 요령들이 실제로 큰 효과를 냈습니다. 하지만 AI가 단순한 질의응답 도구에서 스스로 과업을 수행하는 ‘자율 에이전트’로 기술이 빠르게 발전하면서 상황이 바뀌었습니다.
대형 언어모델의 등장으로 AI와 대화의 시대가 있었고, 그 다음은 프롬프트를 입력해서 내가 원하는 결과물을 만들도록 했었습니다.
그러나 전문 개발자나 나 같은 개인이 공통으로 느끼는 문제점은, AI가 자신의 철지난 과거 지식으로 추론을 개입하고 심지어 자신있게 지어내어 결과로 만들어 내는 것입니다. 또한 긴 대화나 작업이 이어지면 기존의 대화를 잃어버리는 단기 기억상실은 실무 작업에서는 엄청난 리크스로 작용하였습니다.
AI에게 하네스란?
하네스(Harness)는 원래 말에게 씌우는 마구, 즉 고삐와 안장 같은 장비를 뜻하는 단어입니다. 아무리 강력한 명마라도 마구가 없으면 기수가 원하는 방향으로 달리게 할 수 없습니다.
AI도 마찬가지입니다. 엄청난 재능을 가진 야생마가 있다고 가정하겠습니다. 그 야생마의 피지컬은 세계적인 수준이고 영리하기까지 합니다. 그러나 어디로 튈지 모르는 야생마의 본성상 다루기가 여간 쉽지 않습니다.
그 야생마에 하네스(마구, 고삐와 안장)을 채워서 반강제로 제어하여 실제로 그 말이 잠재한 최고의 모습을 보여주게 만들수 있습니다.
저는 처음에 하네스가 AI 업계에 프로그램이나 앱이 또 나왔나 부다 했습니다. 그러나 이건 빠르게 변하는 AI 생태계에서 건강한 결과물을 만들기 위한 개념이라는 것을 알게되었습니다.
기존까지 업무에 원하는 결과물을 만들어 내기 위해 AI를 활용하면서 수없이 많은 프롬프트 수정과 지시가 있었습니다. 그리고 단기 기억 상실 문제를 대신해서 항상 반복되는 지시서 자체를 입력했고, 불필요한 추론과 할루시를 최소한으로 없애기 위해 검증 단계를 넣었습니다. 여러 부분에 강제적인 사용자 승인전 필수 대기 대전제를 넣어야 했습니다.
드디어 비로소 내가 원하는 수준의 결과물이 나왔습니다. 또 작업을 시켜도 녀석에게 씌운 하네스가 녀석을 바른길로 인도해서 동일한 퀄리티의 결과물이 나올것을 확신하게 됩니다.
이게 쉽게 말하는 하네스의 역할입니다. 잘못된 길을 가지 않게 제어하여 AI 특유의 문제점을 제거하는 각자의 작업 환경에 맞는 일종의 장치라고 보면 될 듯 합니다.
하네스 세 가지 핵심 역할
하네스는 크게 세 가지 기능으로 작동합니다.
첫째는 제어입니다. 에이전트가 정해진 설계의 경계와 규칙을 벗어나지 못하도록 기계적으로 막습니다.
둘째는 감시입니다. 에이전트의 동작과 결과를 실시간으로 추적해 무슨 일이 벌어지는지 투명하게 파악할 수 있게 합니다.
셋째는 피드백입니다. 에러가 발생했을 때 실패했다는 정보만 전달하는 게 아니라, 이 방향으로 수정해야 한다는 구체적인 검증을 에이전트의 컨텍스트에 즉시 주입해 스스로 복구하도록 유도합니다.
이 세 가지가 갖춰졌을 때 비로소 에이전트는 사람이 개입하지 않아도 긴 작업을 안정적으로 완주할 수 있게 됩니다.
증명된 하네스의 힘
이론이 아니라 실제 사례들이 이미 이를 뒷받침하고 있습니다. 아래에 모은 사례들은 전문 개발자 환경을 기준으로 한 것임을 감안하고 읽어주세요.
OpenAI Codex를 활용한 사례에서는 엔지니어들이 코드를 직접 한 줄도 쓰지 않고 하네스 설계에만 집중한 결과, 수개월 만에 대규모 프로덕션 소프트웨어를 구축했다는 보고가 있습니다. 수동 개발과 비교했을 때 체감 속도 차이가 상당했다고 알려져 있습니다.
Hashline 방식의 실험은 더 인상적입니다. 모델 자체는 건드리지 않고, 에이전트가 파일을 다루는 방식인 하네스만 개선했습니다. 각 줄에 짧은 해시값을 부여해 참조하게 했더니, 코딩 성능이 수 퍼센트 수준에서 60% 후반대로 수직 상승했다는 결과가 보고되었습니다.
LangChain 관련 벤치마크에서도 실패 패턴 분석 도구와 사전 체크리스트 미들웨어를 추가하는 하네스 개선만으로 성능 순위가 크게 뛰어올랐다는 사례가 공유된 바 있습니다.
모델을 바꾸지 않고 환경만 바꿨는데 이런 차이가 생긴 겁니다.
지금 AI 경쟁에서 진짜 중요한 것
AI 에이전트 시대에 엔지니어와 실무자의 핵심 역량은 이제 코드를 잘 짜는 것이나 프롬프트를 잘 쓰는 것에서 에이전트가 유용하게 작동하는 환경을 설계하는 것으로 빠르게 바뀌고 있습니다.
거창하게 들릴 수 있지만, 사실 하네스는 개발자만의 영역이 아닙니다. 반복되는 지시서를 정리하고, 검증 단계를 넣고, AI가 함부로 진행하지 못하도록 멈춤 지점을 두는 것, 이것도 이미 하네스입니다. 다음 글에서는 비개발자가 실제 업무에서 하네스를 구성하는 방법을 구체적으로 다뤄보겠습니다.