Автоматическая классификация текстов
Задача автоматической классификации текстов довольно популярна (и сейчас и ранее), в силу а) все возрастающего объема текстовой информации, б) достаточно высокой стоимостью специалистов по обработке текстов (в сравнении с готовой автоматической программкой).
Существует несколько подходов:
A) "В лоб" - по старинке (Vариант реализации здесь: Шумков Е.А. 'Задача автоматической обработки новостей' // Научные труды КубГТУ, 2019, №6);
Б) --
В) Суперсовременный способ с help-ом нейронных сетей.
Изначально существовала одноуровневая классификация, а затем появилась многоуровневая (нет, но библиотекари о ней еще в Древнем Египте знали! Но у них абаки с ручным приводом были).
Предварительные этапы (перед классификацией):
1) Очистка
2) Нормализация
3) Векторизация (обычно с hl модели TF-IDF)
Наборы|datasets (готовые) текстов
Не поверите - написано в АПШЕРОНСКЕ! (апшер)
|