Кейс по NLP для смены по машинному обучению от Тинькофф в Университете "Сириус". В рамках задания необходимо обучить свою диалоговую языковую модель и сделать телеграм бота для взаимодействия с ней. Что нужно сделать:
- Скачать диалоговые данные из Telegram. Можно взять любой открытый чат
- Затюнить открытую модель с хаггинфейса (в качестве базовой модели рекомендуем взять https://huggingface.co/tinkoff-ai/ruDialoGPT-medium)
- Для сёрвинга модели напишите телеграм бота
- Будет плюсом, если вы обернёте телеграм бота в докер. Дополнительным плюсом будет, если вы также сделаете отдельный сервис для модели и будуте сёрвить её в отдельном докере
В качестве решения задания нужно прислать публичный репозиторий, в котором должен быть код решения задачи и readme с описанием решения. Для обучения модели рекомендуем использовать google colab.
В настройках выгрузки нужно выбрать формат json и убрать галочки со всех медиа файлов. Так как данные могут скачиваться долго, в репозитории лежит пример выгруженных данных.
python prepare_messages.py --tg-history-path 'chata_export.json' --output-path 'data.csv'