Datasets
Datasets
数据集: Scikit-learn、Kaggle、UCI 、COCO
Project Gutenberg
Project Gutenberg is a library of over 70,000 free eBooks。
例如下载查尔斯·狄更斯的小说《圣诞颂歌》:
curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt
电子书资源
{'instruction': 'Give three tips for staying healthy.', 'input': '', 'output': '1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.', 'text': 'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: Give three tips for staying healthy. ### Response: 1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.'}
Iris
Iris数据集,也成为“鸢尾花卉数据集”,是一类多重变量分析、并常用于分类实验的数据集,由Fisher于1936年收集整理。Iris数据集包含了150行数据,包括三种鸢尾花种类(山鸢尾、虹膜锦葵、变色鸢尾)各50各样品。
鸢尾花数据集包含四个特征和一个目标值。这四个特征确定了单株鸢尾花的下列植物学特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度
从左到右:山鸢尾(提供者:Radomil,依据 CC BY-SA 3.0 使用)、变色鸢尾(提供者:Dlanglois,依据 CC BY-SA 3.0 使用)和维吉尼亚鸢尾(提供者:Frank Mayfield,依据 CC BY-SA 2.0 使用)。
示例处理程序:Datasets_Iris | XGBoost
数据:UCI |
示例处理程序: KNN+DicisionTree | XBGoost |
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
print("威斯康星州乳腺癌(诊断)数据集:
", data)
print("数据集为:
", data.data.shape)
print("数据的目标值:
", data.target_names)
# ['malignant' 'benign']
print("数据集的描述:
", data.DESCR)
皮马人,是美洲土著,很多居于美国亚利桑那州。皮马族印第安人70%都达到美国疾控中心的肥胖标准,患有世界上最高比例的2型糖尿病,据说其病因主要是由于他们的基因造成的。但是,与其共享一个非常类似的基因的,居住在墨西哥的马德雷山脉地区的皮马印第安人,则与他们的美国亲戚相反,墨西哥这边的皮马人,糖尿病和肥胖发病率都非常低。
众所周知,年龄是糖尿病的另一个风险因素,在相关研究中,55岁以上的皮马族老年人的情况是:在墨西哥,该人群的糖尿病发病率仅为8.3%,而在美国的亚利桑那州,发病率达到了惊人的82.2%。这些基因完全相同而发病率迥然不同的现象,主要差别在于饮食和体力活动。墨西哥的皮马人每天消耗的能量是亚利桑那皮马人的五倍之多。亚利桑那皮马人的饮食都是高脂肪,有些人称之为“现代美国饮食”。而在墨西哥,其传统饮食则为低脂肪、高碳水化合物,主要由豆类、土豆类以及由小麦面和玉米面做的薄饼。对这些皮马印第安人来说,基因并非命运的主宰。
1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测 患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是,这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
4、数据集的内容是皮马人的医疗记录,以及过去5年内是否有糖尿病。所有的数据都是数字,问题是(是否有糖尿病是1或0),是二分类问题。数据有8个属性,1个类别:
数据特征值名称:
1、Pregnancies:怀孕次数
2、Glucose:葡萄糖
3、BloodPressure:血压 (mm Hg)
4、SkinThickness:皮层厚度 (mm)
5、Insulin:胰岛素 2小时血清胰岛素(mu U / ml
6、BMI:体重指数 (体重/身高)^2
7、DiabetesPedigreeFunction:糖尿病谱系功能
8、Age:年龄 (岁)
9、Outcome:类标变量 (0或1)
数据: pima-indians-diabetes.csv | pima-indians-diabetes_names.csv
示例程序:XGBoost | 混淆矩阵分析
Pascal VOC 2007数据集分析
参考资料: