들어가며

코드베이스를 LLM으로 분석하려면 어떻게 해야할까요?

작은 프로젝트면 Cursor나 Claude Code를 사용하면 되겠지만, 프로젝트 크기가 어느정도 커지면 다른 방법이 필요합니다.

이 글에서는 아주 큰 프로젝트의 코드를 AI에게 최적화하여 입력하고 분석하는 방법을 소개합니다.

시작하기

  1. 먼저 코드베이스의 내용을 추출하겠습니다.

    Repomix라는 도구를 사용할 것입니다. Web 또는 CLI로 사용할 수 있습니다.

    Repomix

    .gitignore 를 자동으로 반영하기 때문에, 불필요한 파일이 포함되지 않습니다.

    결과 토큰 개수를 알 수 있습니다. 100만을 초과하는 경우 특정 확장자를 제외하거나, 코드 파일에서 반복되는/의미없는 내용을 제거하세요.

  2. 생성된 결과 파일을 큰 Context 옵션을 가진 모델에 첨부하여 분석하세요.

    현재 gemini 2.5 pro가 100만 토큰으로 가장 큽니다. (in Google AI Studio)

    아래는 분석 프롬프트 예시입니다. 내용은 필요에 따라 달라질 수 있습니다.

정확한 분석을 위한 팁

좋은 프롬프트 작성 팁