Datasets

Datasets


数据集Scikit-learnKaggleUCICOCO


Project Gutenberg

Project Gutenberg is a library of over 70,000 free eBooks。

例如下载查尔斯·狄更斯的小说《圣诞颂歌》:

curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt


电子书资源

好读 | Z-Library |


使用"datasets"库访问Hugging Face的数据集库(代码01

{'instruction': 'Give three tips for staying healthy.', 'input': '', 'output': '1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.', 'text': 'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: Give three tips for staying healthy. ### Response: 1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.'}


Iris

Iris数据集,也成为“鸢尾花卉数据集”,是一类多重变量分析、并常用于分类实验的数据集,由Fisher于1936年收集整理。Iris数据集包含了150行数据,包括三种鸢尾花种类(山鸢尾、虹膜锦葵、变色鸢尾)各50各样品。

鸢尾花数据集包含四个特征和一个目标值。这四个特征确定了单株鸢尾花的下列植物学特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度


从左到右:山鸢尾(提供者:Radomil,依据 CC BY-SA 3.0 使用)、变色鸢尾(提供者:Dlanglois,依据 CC BY-SA 3.0 使用)和维吉尼亚鸢尾(提供者:Frank Mayfield,依据 CC BY-SA 2.0 使用)。

示例处理程序Datasets_Iris | XGBoost


Breast Cancer Wisconsin (Diagnostic) Data Set

数据UCI |

示例处理程序: KNN+DicisionTree | XBGoost |

from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
print("威斯康星州乳腺癌(诊断)数据集: ", data)
print("数据集为: ", data.data.shape)
print("数据的目标值: ", data.target_names)
#  ['malignant' 'benign']
print("数据集的描述: ", data.DESCR)


皮马族印第安人糖尿病(Pima Indians diabetes)数据集

皮马人,是美洲土著,很多居于美国亚利桑那州。皮马族印第安人70%都达到美国疾控中心的肥胖标准,患有世界上最高比例的2型糖尿病,据说其病因主要是由于他们的基因造成的。但是,与其共享一个非常类似的基因的,居住在墨西哥的马德雷山脉地区的皮马印第安人,则与他们的美国亲戚相反,墨西哥这边的皮马人,糖尿病和肥胖发病率都非常低。

众所周知,年龄是糖尿病的另一个风险因素,在相关研究中,55岁以上的皮马族老年人的情况是:在墨西哥,该人群的糖尿病发病率仅为8.3%,而在美国的亚利桑那州,发病率达到了惊人的82.2%。这些基因完全相同而发病率迥然不同的现象,主要差别在于饮食和体力活动。墨西哥的皮马人每天消耗的能量是亚利桑那皮马人的五倍之多。亚利桑那皮马人的饮食都是高脂肪,有些人称之为“现代美国饮食”。而在墨西哥,其传统饮食则为低脂肪、高碳水化合物,主要由豆类、土豆类以及由小麦面和玉米面做的薄饼。对这些皮马印第安人来说,基因并非命运的主宰。

1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别:
数据特征值名称:
1、Pregnancies:怀孕次数
2、Glucose:葡萄糖
3、BloodPressure:血压 (mm Hg)
4、SkinThickness:皮层厚度 (mm)
5、Insulin:胰岛素 2小时血清胰岛素(mu U / ml
6、BMI:体重指数 (体重/身高)^2
7、DiabetesPedigreeFunction:糖尿病谱系功能
8、Age:年龄 (岁)
9、Outcome:类标变量 (0或1)

数据: pima-indians-diabetes.csv | pima-indians-diabetes_names.csv
示例程序XGBoost | 混淆矩阵分析


Pascal VOC 2007数据集分析

介绍


参考资料

机器学习篇:sklearn.datasets




BypInformation