# -*- coding: utf-8 -*-
"""
###############################################################################
# 作者：wanglei5205
# 邮箱：wanglei5205@126.com
# 代码：http://github.com/wanglei5205
# 博客：http://cnblogs.com/wanglei5205
# 目的：xgboost基本用法
# 收录时间: 20221103byp
# 收录地址：https://www.cnblogs.com/wanglei5205/p/8578486.html
###############################################################################
"""
# load module
from sklearn import datasets
from sklearn.model_selection import train_test_split
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score

# load datasets
digits = datasets.load_digits()  # 载入手写数字识别数据集（mnist），共1797个样本，8*8个特征，标签为0-9十个数字

# data analysis
print(digits.data.shape)    # 输入空间维度
print(digits.target.shape)  # 输出空间维度

# data split 数据分割
x_train, x_test, y_train, y_test = train_test_split(digits.data,     # 特征空间
                                                 digits.target,      # 输出空间
                                                 test_size = 0.3,    # 测试集占30%
                                                 random_state = 33)  # 为了复现实验设置一个随机数

# fit model for train data 模型相关
model = XGBClassifier()      # 载入模型，命名为model
model.fit(x_train, y_train)  # 训练模型（训练集）

# make prediction for test data
y_pred = model.predict(x_test)  # 模型预测（测试集），y_pred为预测结果

# model evaluate 性能评估
accuracy = accuracy_score(y_test,y_pred)
print("accuarcy: %.2f%%" % (accuracy*100.0))
"""
95.0%
"""