sklearn 加州房价数据集 fetch_california_housing 出错 403: Forbidden 修复方案

问题

加载加州房价数据时出现 403 错误 HTTP Error 403: Forbidden

from sklearn.datasets import fetch_california_housingcalifornia = fetch_california_housing()
print(california.target.shape) 

解决方案

运行下述代码,然后再运行上述的 fetch_california_housing() 可成功运行

import requests
import os
import tarfile
import numpy as np
from types import SimpleNamespacefrom sklearn import datasets
# 参考: 
# https://blog.csdn.net/getalong/article/details/141201658
# https://inria.github.io/scikit-learn-mooc/python_scripts/datasets_california_housing.htmlfetch_california_housing_manual_desc = '''
.. _california_housing_dataset:California Housing dataset
--------------------------**Data Set Characteristics:**:Number of Instances: 20640:Number of Attributes: 8 numeric, predictive attributes and the target:Attribute Information:- MedInc        median income in block group- HouseAge      median house age in block group- AveRooms      average number of rooms per household- AveBedrms     average number of bedrooms per household- Population    block group population- AveOccup      average number of household members- Latitude      block group latitude- Longitude     block group longitude:Missing Attribute Values: NoneThis dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.htmlThe target variable is the median house value for California districts,
expressed in hundreds of thousands of dollars ($100,000).This dataset was derived from the 1990 U.S. census, using one row per census
block group. A block group is the smallest geographical unit for which the U.S.
Census Bureau publishes sample data (a block group typically has a population
of 600 to 3,000 people).A household is a group of people residing within a home. Since the average
number of rooms and bedrooms in this dataset are provided per household, these
columns may take surprisingly large values for block groups with few households
and many empty houses, such as vacation resorts.It can be downloaded/loaded using the
:func:`sklearn.datasets.fetch_california_housing` function... rubric:: References- Pace, R. Kelley and Ronald Barry, Sparse Spatial Autoregressions,Statistics and Probability Letters, 33 (1997) 291-297
'''def download_file(url, directory, filename):# 确保目录存在os.makedirs(directory, exist_ok=True)# 完整文件路径filepath = os.path.join(directory, filename)# 下载文件response = requests.get(url, stream=True)response.raise_for_status()  # 检查请求是否成功# 将内容写入文件with open(filepath, 'wb') as file:for chunk in response.iter_content(chunk_size=8192):file.write(chunk)print(f"文件已下载到: {filepath}")def fetch_california_housing_manual():data_home = datasets.get_data_home()archive_path = os.path.join(data_home, 'cal_housing.tgz')if not os.path.exists(archive_path):download_file("https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.tgz", data_home, 'cal_housing.tgz')with tarfile.open(mode="r:gz", name=archive_path) as f:cal_housing = np.loadtxt(f.extractfile("CaliforniaHousing/cal_housing.data"), delimiter=",")# Columns are not in the same order compared to the previous# URL resource on lib.stat.cmu.educolumns_index = [8, 7, 2, 3, 4, 5, 6, 1, 0]cal_housing = cal_housing[:, columns_index]feature_names = ["MedInc","HouseAge","AveRooms","AveBedrms","Population","AveOccup","Latitude","Longitude",]target_names = ['MedHouseVal']target, data = cal_housing[:, 0], cal_housing[:, 1:]# avg rooms = total rooms / householdsdata[:, 2] /= data[:, 5]# avg bed rooms = total bed rooms / householdsdata[:, 3] /= data[:, 5]# avg occupancy = population / householdsdata[:, 5] = data[:, 4] / data[:, 5]# target in units of 100,000target = target / 100000.0result = {'data': data,'target': target,'feature_names': feature_names,'target_names': target_names,'DESCR': fetch_california_housing_manual_desc,}obj = SimpleNamespace(**result)return objcalifornia = fetch_california_housing_manual()
print(california.data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96652.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式学习---(硬件)

1、在LED实验中,在对Soc引脚配置时都做了哪些工作?复用功能配置操作寄存器:IOMUXC_SW_MUX_CTL_PAD_GPIO1_IO03将引脚的低 4 位设置为 0101,将引脚复用为 GPIO 功能电气特性配置操作寄存器:IOMUXC_SW_PAD_CTL_PAD_GPIO1…

微信小程序开发教程(十一)

目录:1.上拉触底案例-初步实现上拉触底效果2.上拉触底案例-添加loading效果3.上拉触底案例-节流处理4.扩展-自定义编译模式1.上拉触底案例-初步实现上拉触底效果页面加载的时候调用这个方法:设置样式:下拉触底后继续调用获取颜色的方法2.上拉…

Android相机API2,基于GLSurfaceView+SurfaceTexture实现相机预览,集成的相机算法采用GPU方案,简要说明

Android相机API2,基于GLSurfaceViewSurfaceTexture实现相机预览,集成的相机算法采用GPU方案,简要流程如下(不叠加相机算法的预览显示流程也大体如此,只是去掉了算法部分):进入相机:1,新建实现了…

[code-review] 日志机制 | `LOG_LEVEL`

第6章:日志机制(调试) 欢迎来到我们了解ChatGPT-CodeReview项目的最后一章 在第5章:文件过滤逻辑(范围管理器)中,我们学习了机器人如何智能地决定哪些文件需要发送给AI审查。 但一旦机器人开…

n8n工作流平台入门学习指南

目录 1、基础背景 2、核心概念 2.1 节点(Nodes) 2.2 连接(Connections) 2.3 工作流(Workflows) 3、常用节点说明 4、基于Docker快速部署 5、学习资料 6、常见问题 强烈推荐,大家不懂的直接问:N8N大师(GPT),科…

【Oracle经验分享】字符串拼接过长问题的解决方案 —— 巧用 XMLAGG

📑 目录🔍 问题背景⚠️ 常见拼接方式的限制💡 XMLAGG 的解决方案📝 示例代码📌 注意事项✅ 总结🔍 问题背景在日常开发中,我们经常需要把多行数据拼接成一个字符串。例如将某个字段的多条记录拼…

AJAX入门-URL、参数查询、案例查询

本系列可作为前端学习系列的笔记,代码的运行环境是在VS code中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 HTML、CSS、JavaScript系列文章 已经收录在前端专栏,有需要的宝宝们可以点击前端专栏查…

【SpringBoot】24 核心功能 - Web开发原理 -Spring Boot 异常处理机制

前言 在开发 Web 应用程序时,异常处理是一个至关重要的部分。Spring Boot 提供了一套强大的异常处理机制,使得开发者能够轻松地处理和响应各种异常情况。本文将深入探讨 Spring Boot 中的异常处理机制,包括默认的错误处理规则、定制错误处理逻…

JVM第一部分

PC寄存器:存储的是数字 0, 3, 6, 10, 17 这样的字节码偏移量。 LineNumberTable:是一个映射表,它将上述的偏移量“翻译”成我们程序员能看懂的源代码行号。 JVM堆 JVM堆由两部分组成:年轻代老年代 年轻代包括三部分:ed…

IDEA使用Maven和MyBatis简化数据库连接(配置篇)

目录: Maven:简化项目构建 MyBatis:简化Jdbc Maven:是一款项目构建与依赖管理工具,核心作用是自动化项目编译、打包等流程,并统一管理项目所需的第三方 Jar 包(如 MyBatis 的 Jar 包)。 MyBatis&#xf…

Java 泛型详解:从基础到高级应用

目录 一、泛型的基本概念 为什么需要泛型? 二、泛型类与泛型接口 【1】定义泛型类 【2】定义泛型接口 三、泛型方法 四、泛型通配符 【1】无界通配符(?) 【2】上界通配符(? extends T) 【3】下界通配符&am…

嵌入式 Linux 启动机制全解析:从 Boot 到 Rootfs

🚀 嵌入式 Linux 启动机制全解析:从 Boot 到 Rootfs 在嵌入式系统中,Linux 的启动流程不仅是内核加载的过程,更是 bootloader、设备树、初始根文件系统、启动配置文件等多个组件协同工作的结果。不同的文件系统和启动方式会影响系…

Python 操作Office的PPT、Word、Excel,同时兼容WPS

文章目录概要一、环境准备1. 安装必要的Python库2. 系统要求二、核心实现原理1. 检测已安装的Office类型2. 初始化对应的应用程序三、完整代码实现四、使用示例五、WPS兼容处理详解1. 形状和文本框访问兼容处理2. PPT图片粘贴兼容处理3. 资源释放的重要性六、图片操作实现详解1…

ISP之DHCPv6-PD(前缀代理)为用户下发前缀

一、组网需求家庭用户要使用IPv6地址接入互联网。为方便用户接入,运营商使用DHCPv6-PD的方式给家用路由器下发IPv6地址前缀,用户路由器LAN侧不需要手工指定链路的IPv6地址前缀,家用路由器可以给用户终端自动配置IPv6地址和其它网络参数。本例…

Django全栈班v1.04 Python基础语法 20250912 上午

rm 删除命令 注意:删除操作是不可逆的,一旦删除就无法撤销,请谨慎使用。删除文件: rm file.py递归删除目录: rm -r demo/强制删除: rm -f file.py交互式删除: rm -i *.txt课程定位 “学习Python…

Java 21 虚拟线程高并发落地:中间件适配、场景匹配与细节优化的技术实践

作为 Java 21 的核心特性,虚拟线程(Virtual Thread)凭借 “用户态调度”“轻量级资源占用” 的优势,成为高并发场景下线程模型优化的重要方向。但在实际落地中,不少团队会陷入 “技术用了却没效果” 的困境 ——QPS 提升有限、中间件调用阻塞、CPU 使用率异常升高。 本文…

数据库在并发访问时,不同隔离级别下脏读幻读问题

数据库隔离级别并非安装后就固定,绝大多数主流数据库(如MySQL、PostgreSQL、SQL Server)都支持动态调整和运行中自定义,具体调整范围可分为全局、会话和语句三个层级。 全局级别调整:修改数据库配置文件(如…

JVM从入门到实战:从字节码组成、类生命周期到双亲委派及打破双亲委派机制

摘要:本文围绕 Java 字节码与类加载机制展开,详解字节码文件组成、类的生命周期,介绍类加载器分类、双亲委派机制及打破该机制的方式,还阐述了线程上下文类加载器与 SPI 机制在 JDBC 驱动加载中的应用,帮助深入理解 Ja…

多源最短路(Floyd算法

多源最短路简介 多源最短路算法用于解决图中任意两节点间最短路径的问题,广泛应用于交通网络、社交关系分析、路由优化等场景。与单源最短路(如Dijkstra)不同,它一次性计算所有节点对的最短距离,适合需要全局路径规划的…

【攻防实战】记一次攻防实战全流程

那天我向众神祈祷,最后回答我的却只有挣扎十年依旧不甘的自己!成功究竟是馈赠还是偿还。 前言 网络安全技术学习,承认⾃⼰的弱点不是丑事,只有对原理了然于⼼,才能突破更多的限制。 拥有快速学习能力的安全研究员&…