코드베이스를 LLM으로 분석하려면 어떻게 해야할까요?
작은 프로젝트면 Cursor나 Claude Code를 사용하면 되겠지만, 프로젝트 크기가 어느정도 커지면 다른 방법이 필요합니다.
이 글에서는 아주 큰 프로젝트의 코드를 AI에게 최적화하여 입력하고 분석하는 방법을 소개합니다.
먼저 코드베이스의 내용을 추출하겠습니다.
Repomix라는 도구를 사용할 것입니다. Web 또는 CLI로 사용할 수 있습니다.
.gitignore 를 자동으로 반영하기 때문에, 불필요한 파일이 포함되지 않습니다.
결과 토큰 개수를 알 수 있습니다. 100만을 초과하는 경우 특정 확장자를 제외하거나, 코드 파일에서 반복되는/의미없는 내용을 제거하세요.
생성된 결과 파일을 큰 Context 옵션을 가진 모델에 첨부하여 분석하세요.
현재 gemini 2.5 pro가 100만 토큰으로 가장 큽니다. (in Google AI Studio)
아래는 분석 프롬프트 예시입니다. 내용은 필요에 따라 달라질 수 있습니다.
가능한 경우, 부분적으로 분석하세요. (glob 패턴 이용)
구조 분석만 필요한 경우 compress 옵션을 사용하세요. 인터페이스만 남기고 상세 구현을 제거하기 때문에 토큰 개수가 크게 절약됩니다.
파이썬 프로젝트의 경우 Gitingest를 사용하세요. 파이썬 문법에 더 특화되어있다고 합니다.
불필요한 내용을 제거하세요.
사용하지 않는 의존성, 참조되지 않는 코드를 모두 제거해주세요.