Datasets |BYP’s Notes/白毅平的学习笔记天文地理古今中外

Datasets
Back

Datasets

数据集： Scikit-learn、Kaggle、UCI 、COCO

Project Gutenberg

Project Gutenberg is a library of over 70,000 free eBooks。

例如下载查尔斯·狄更斯的小说《圣诞颂歌》：

curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt > ./ragtest/input/book.txt

电子书资源

好读 | Z-Library |

使用"datasets"库访问Hugging Face的数据集库（代码01）

{'instruction': 'Give three tips for staying healthy.', 'input': '', 'output': '1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.', 'text': 'Below is an instruction that describes a task. Write a response that appropriately completes the request. ### Instruction: Give three tips for staying healthy. ### Response: 1.Eat a balanced diet and make sure to include plenty of fruits and vegetables. 2. Exercise regularly to keep your body active and strong. 3. Get enough sleep and maintain a consistent sleep schedule.'}

Iris

Iris数据集，也成为“鸢尾花卉数据集”，是一类多重变量分析、并常用于分类实验的数据集，由Fisher于1936年收集整理。Iris数据集包含了150行数据，包括三种鸢尾花种类（山鸢尾、虹膜锦葵、变色鸢尾）各50各样品。

鸢尾花数据集包含四个特征和一个目标值。这四个特征确定了单株鸢尾花的下列植物学特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度

从左到右：山鸢尾（提供者：Radomil，依据 CC BY-SA 3.0 使用）、变色鸢尾（提供者：Dlanglois，依据 CC BY-SA 3.0 使用）和维吉尼亚鸢尾（提供者：Frank Mayfield，依据 CC BY-SA 2.0 使用）。

示例处理程序：Datasets_Iris | XGBoost

Breast Cancer Wisconsin (Diagnostic) Data Set

数据：UCI |

示例处理程序: KNN+DicisionTree | XBGoost |

from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
print("威斯康星州乳腺癌(诊断)数据集： ", data)
print("数据集为： ", data.data.shape)
print("数据的目标值： ", data.target_names)
# ['malignant' 'benign']
print("数据集的描述： ", data.DESCR)

皮马族印第安人糖尿病（Pima Indians diabetes）数据集

皮马人，是美洲土著,很多居于美国亚利桑那州。皮马族印第安人70%都达到美国疾控中心的肥胖标准，患有世界上最高比例的2型糖尿病，据说其病因主要是由于他们的基因造成的。但是，与其共享一个非常类似的基因的，居住在墨西哥的马德雷山脉地区的皮马印第安人，则与他们的美国亲戚相反，墨西哥这边的皮马人，糖尿病和肥胖发病率都非常低。

众所周知，年龄是糖尿病的另一个风险因素，在相关研究中，55岁以上的皮马族老年人的情况是：在墨西哥，该人群的糖尿病发病率仅为8.3%，而在美国的亚利桑那州，发病率达到了惊人的82.2%。这些基因完全相同而发病率迥然不同的现象，主要差别在于饮食和体力活动。墨西哥的皮马人每天消耗的能量是亚利桑那皮马人的五倍之多。亚利桑那皮马人的饮食都是高脂肪，有些人称之为“现代美国饮食”。而在墨西哥，其传统饮食则为低脂肪、高碳水化合物，主要由豆类、土豆类以及由小麦面和玉米面做的薄饼。对这些皮马印第安人来说，基因并非命运的主宰。

1、该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。
2、从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。
3、数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。
4、数据集的内容是皮马人的医疗记录，以及过去5年内是否有糖尿病。所有的数据都是数字，问题是（是否有糖尿病是1或0），是二分类问题。数据有8个属性，1个类别：
数据特征值名称：
1、Pregnancies：怀孕次数
2、Glucose：葡萄糖
3、BloodPressure：血压 (mm Hg)
4、SkinThickness：皮层厚度 (mm)
5、Insulin：胰岛素 2小时血清胰岛素（mu U / ml
6、BMI：体重指数（体重/身高）^2
7、DiabetesPedigreeFunction：糖尿病谱系功能
8、Age：年龄（岁）
9、Outcome：类标变量（0或1）

数据: pima-indians-diabetes.csv | pima-indians-diabetes_names.csv
示例程序：XGBoost | 混淆矩阵分析

Pascal VOC 2007数据集分析

介绍

参考资料：

机器学习篇：sklearn.datasets

List All Datasets | Last update: 2024-08-13|Pageview:812