추론 비용 (Inference Cost)
학습이 끝난 모델이 실제 요청을 처리할 때 발생하는 단위당 실행 비용
#추론 비용#Inference Cost#토큰 비용#LLM 가격
추론 비용이란?
추론 비용은 모델 학습 이후, 실제 서비스에서 프롬프트를 처리하고 응답을 생성할 때 드는 비용입니다.
보통 어떻게 측정하나요?
API 환경에서는 주로 입력·출력 토큰 단가로 측정하고, 로컬 환경에서는 GPU 감가상각, 전력비, 운영비를 합산해 계산합니다.
왜 중요한가요?
추론 비용은 제품 가격 정책, 기능 범위, 사용자당 수익성에 직접 영향을 주기 때문에 AI 서비스의 사업성 판단 핵심 지표로 쓰입니다.
관련 용어
AI 기업·투자·사업
개인 지능 (Personal Intelligence)
사용자 이력·선호·상황 맥락을 학습해 개인별로 최적화된 판단과 추천을 제공하는 AI 활용 패턴
AI 협업·생산성 도구
깃허브 코파일럿 에이전트 (GitHub Copilot Agent)
이슈·PR 중심 개발 흐름에 통합되어 다단계 작업을 자동 수행하는 GitHub 기반 코딩 에이전트
development
데이터 포터빌리티 (Data Portability)
서비스 간 이동 시 사용자 데이터와 작업 이력을 표준 형식으로 내보내고 가져올 수 있는 권리와 기술
생성형 AI
디퓨전 모델 (Diffusion Model)
노이즈 제거 과정을 학습하여 고품질 이미지를 생성하는 AI 모델
AI 오픈소스 & 개발도구
딥시크 (DeepSeek)
오픈소스 LLM을 공개하며 고성능·저비용 전략으로 주목받는 AI 모델/연구 조직
AI 인프라/모델 최적화
레이트 리미팅 (Rate Limiting)
짧은 시간에 과도한 요청이 몰릴 때 API 호출량을 제한하는 제어 기법