요즘 직장에서 LLM 연구를 진행하고 있습니다. LLM 서비스를 만드는 사람들에게 조금이라도 되고자 시리즈를 작성합니다.
Ollama
Ollama는 로컬에서 LLM을 실행하기 위해 설계된 프로그램입니다. 로컬에서 LLM을 실행함으로 데이터 보안 및 비용 절감 등 여러 가지 이점을 가집니다. 특히 GGUF 포맷의 파일만 있으면 Hugging Face에 올라온 수많은 AI를 돌릴 수 있다는 장점을 가집니다.
설치 방법은 다음과 같습니다.
1. 하단의 링크로 접속 후 프로그램을 다운로드합니다.
Download Ollama on macOS
Download Ollama for macOS
ollama.com
추가로 PowerShell로 다운로드하는 방법도 공유합니다.
Invoke-WebRequest https://ollama.com/download/OllamaSetup.exe -OutFile $env:TEMP\OllamaSetup.exe
Start-Process "$env:TEMP\OllamaSetup.exe"
2. Ollama를 다운로드하면 모델을 다운로드하도록 합니다.
model을 설치하는 명령어는 다음과 같습니다.
ollama pull llama3.2
여기서 success가 성공입니다.
3. 설치를 완료하면 실행합니다.
ollama run llama3.2
유용한 명령어
명령어 | 설명 |
ollama run llama3.2 | llama3.2 모델 실행 |
ollama pull llama3.2 | llama3.2 사전 다운로드 |
ollama rm llama3.2 | llama3.2 모델 삭제 |
ollama list | 설치된 모델 목록 확인 |
파이썬에서 Ollama를 실행하자
Ollama의 또 하나의 장점이 파이썬과 쉽게 연동할 수 있다는 점입니다.
파이썬으로 크게 2가지 방식으로 실행할 수 있습니다.
클라이언트로 실행하는 방식과 API를 이용하는 방식이 있습니다.
클라이언트 방식은 Ollama가 제공하는 Python 패키지를 직접 사용하는 방식이며, API 방식은 HTTP 요청을 통해 Ollama 서버에 직접 요청하는 방식입니다.
1.클라이언트로 실행하는 방식
pip install ollama
먼저 ollama 패키지를 설치합니다.
from ollama import Client
client = Client()
response = client.chat(
model='llama3.2:latest',
messages=[
{'role': 'user', 'content': 'Hello World!'}
]
)
print(response['message']['content'])
# Hello! It's nice to meet you. Is there something I can help you with or would you like to chat?
2. API로 실행하는 방식 (로컬 : 11434 포트 참조)
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "llama3.2:latest",
"messages": [
{"role": "user", "content": "Hello World!"}
],
"stream": False
}
response = requests.post(url, json=payload)
print(response.json()["message"]["content"])
# Hello! It's nice to meet you. Is there something I can help you with or would you like to chat?
마지막으로
LLM은 최근 활발하게 연구되는 분야 중 하나로 RAG 서비스 등 다양한 활용 방식이 나오고 있습니다. 지금까지의 연구 경험을 바탕으로 로컬에서도 쓸만한 LLM 서비스를 구축할 수 있도록 다양한 예제를 다뤄보겠습니다.
'컴퓨터 > LLM' 카테고리의 다른 글
LLM (2) - 텍스트 파일을 바탕으로 RAG 검색을 해보자 (1) | 2025.05.27 |
---|