Пишем сервис классификации текстов
Страничка курса: https://maxcom.github.io/scala-course-2022/
Классификатор - алгоритм, относящий входные данные к одному из предопределенных классов.
Разработаем классификатор, определяющий, является ли короткий текст позитивным, негативным или нейтральным.
Первая задача - сам классификатор
На старте программы обучим классификатор на готовых текстах с оценками.
На основе статистики будем оценивать произвольный текст.
Реализуем наивный байесовский классификатор
Денис Баженов: Наивный байесовский классификатор
В статье есть:
Для обучения классификатора используем готовый корпус:
Корпус коротких текстов для настройки классификатора
При использовании корпуса, просьба ссылаться на следующую работу: Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора
Что делаем:
В примере реализации есть проблемы с производительностью!
Классификатор должен работать быстро,
максимум секунды.
Решение в репозитории scala-2022-classifier
Как и ранее - ветка work + merge request
Напоминаю: