Supported:
- CPU
- M1 Metal GPU
- Cuda GPU
Warning:
- Docker MacOS üzerinde en az 5 kat yavaş çalışıyor, sanallaştırmadan kaynaklı. Native kurulum yapın.
- Linux üzerinde GPU kullanımı için ekran kartı sürücüleri host sisteme yüklenmeli ve docker kullanılacak ise "Cuda Container Toolkit" yüklenmeli
- Model dosyaları HuggingFace'ten otomatik olarak "models" dizinine indirilir. Bu dizin eğer docker ile kullanılacak ise paylaşım yapılmalı.
- MacOS için
xcode-select --install
gereklidir. - 7b 16GB - 13b 32GB - 70b 140GB ortalama Ram|vRam gerektirir.
- 70b CPU üzerinde çalıştırılmamalıdır.
Dependencies/Model:
- LLaMA.cpp
- LLaMA.cpp Python Binding
- Nvidia Cuda Pytorch Container
- Llama2 Chat Prompt Template
- Llama2 7B Chat GGUF
- Llama2 7B Chat GGUF Uncensored
- Llama2 13B Chat GGUF
- Llama2 70B Chat GGUF
ENV:
The predefined models are in the src/models.py
file.
MODEL=7b-Q4KM-CHAT
HOST=0.0.0.0
PORT=3000
git clone <repo>
sh ./install_mac.sh
git clone <repo>
sh ./install_linux.sh
- Install Cuda Driver
git clone <repo>
sh ./install_linux.sh
- Install Cuda Driver
- Install Cuda Container Toolkit
docker compose up --remove-orphans --build
python3 src/server.py
HTTP Server: 127.0.0.1:3000
endpoint: http://127.0.0.1:3000/ask
RAW JSON Content:
{
"textContext": "My name is Cesur Apaydın",
"pdfContextBase64": "",
"prompts": [
"What is person's full name?",
"What is person's role?",
"What are their skills?"
]
}