Я пришел к выводу, что при решении задачи классификации при ненормированных данных, наиболее информативной метрикой является ROC-AUC (Receiver Operating Characteristic ⎼ Area Under Curve).ROC-кривая и площадь под ней (ROC-AUC) предоставляют полное представление о производительности классификатора. Она измеряет способность модели различать между классами на основе значения «истинно положительных» и «ложно положительных» результатов.
Основное преимущество использования ROC-AUC состоит в том, что она устойчива к несбалансированным классам и не зависит от порогового значения, выбранного для классификации. Это особенно важно при работе с ненормированными данными, где присутствуют разные пропорции в классах.Чтобы использовать ROC-AUC, необходимо построить ROC-кривую, где по оси абсцисс отображается значение ложно положительной ошибки (False Positive Rate, FPR), а по оси ординат ― значение истинно положительной ошибки (True Positive Rate, TPR), также известной как чувствительность. Затем измерить площадь под этой кривой, которая и называется ROC-AUC.Чем выше значение ROC-AUC, тем лучше модель классификации.
Для ненормированных данных особенно важно использовать ROC-AUC, потому что другие метрики, такие как точность (accuracy) или F-мера (F1-score)٫ могут давать искаженные результаты из-за несбалансированных классов. ROC-AUC позволяет оценить модель независимо от пропорций классов и рассматривает модель в целом.