В языке Python для разбиения множества на тестовую и обучающую выборки используется функция ″train_test_split″. Я сам использовал эту функцию при работе с машинным обучением, и она оказалась очень удобной и эффективной.Функция ″train_test_split″ позволяет случайным образом разделить данные на две выборки⁚ обучающую и тестовую. Она позволяет контролировать размер тестовой выборки и самим задать пропорции разделения данных. Это крайне полезно при разработке и обучении моделей машинного обучения, чтобы иметь возможность оценить их производительность и обобщающую способность.Пример применения функции ″train_test_split″ в Python⁚
python
from sklearn.model_selection import train_test_split
import numpy as np
# Задаем данные
X np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y np.array([0, 1, 2, 3])
# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2٫ random_state42)
print(f″Размерность X_train⁚ {X_train.shape}″)
print(f″Размерность X_test⁚ {X_test.shape}″)
print(f″Размерность y_train⁚ {y_train.shape}″)
print(f″Размерность y_test⁚ {y_test.shape}″)
В результате выполнения данного кода мы получим следующий результат⁚
Размерность X_train⁚ (3, 2)
Размерность X_test⁚ (1, 2)
Размерность y_train⁚ (3,)
Размерность y_test⁚ (1,)
Из результатов видно, что данные были разделены на обучающую выборку (3 примера) и тестовую выборку (1 пример). Процентное соотношение выборок зависит от параметра ″test_size″, который можно настроить в соответствии с требованиями.
Функция ″train_test_split″ является незаменимым инструментом в машинном обучении и помогает обеспечить адекватную оценку модели. Рекомендую использовать ее в своих проектах на Python.