“ “大模型调优”是个千亿级别的市场,入行3年就能年入百万!!!心动么?还不开始学起来!!”
以美国华盛顿特区 Capital Bikeshare 系统 2011–2012 年的日级共享单车租赁数据集,为例,以最简单的形式,形象地告诉大家,如何在机器学习中使用随机森林。 |
1、数据准备
明确「几乎无关」的特征
- holiday(是否节假日)→ 相关性非常低,是不是节假日对当天租车量影响很小。
- weekday(星期几)→ 周一到周日,对租车总量影响不大。→ 只有区分「工作日 / 周末」才有点用,单独星期几没用。
- windspeed(风速)→ 相关性很弱,几乎可以忽略。
——————————————————————————
2、数据导入
4、 提取日期特征值
5、 去掉无关参数
6、 划分训练集和测试集
7、 选择和训练模型
8、 评估模型
9、 特征分析
10、可视化特征重要性
11、预测值与实际值对比
12、参数调优
13、结论
14、结果分析
- 春季(1):平均租赁量最低,约为 2604 次 / 天。这可能是因为初春气温较低,且天气多变,影响了用户的骑行意愿。
- 夏季(2):租赁量显著提升,约为 4992 次 / 天。气温升高,户外活动增加,骑行需求随之上升。
- 秋季(3):达到全年峰值,约为 5644 次 / 天。秋高气爽,温度适宜,是全年最适合骑行的季节。
- 冬季(4):租赁量有所回落,约为 4728 次 / 天。虽然低于秋季,但仍远高于春季,说明冬季仍有稳定的骑行需求。
核心结论:季节对共享单车使用量影响显著,秋季是使用高峰,春季是使用低谷。
——————————————————
- 晴朗(1):平均租赁量最高,约为 4877 次 / 天。良好的天气是用户选择骑行的重要前提。
- 多云 / 雾(2):租赁量有所下降,约为 4036 次 / 天。虽然天气不如晴朗,但仍在可接受范围内,因此仍有较多用户选择骑行。
- 小雨 / 雪(3):租赁量大幅下降,仅约为 1803 次 / 天。恶劣天气会显著抑制用户的骑行意愿,安全风险也更高。
核心结论:天气状况与共享单车使用量呈明显负相关,天气越好,使用量越高;天气越差,使用量越低。
————————————————————
核心趋势:温度与租赁量呈明显正相关
- 当温度(横轴)从 0.1 向 0.6 升高时,租赁量(纵轴)整体呈现明显的上升趋势,从几百次 / 天增长到 8000+ 次 / 天。
- 这说明在这个数据集的环境下,温度越高,用户的骑行意愿越强,租赁量也随之增加。
关键拐点与区间特征
- 低温区(temp < 0.3):租赁量普遍偏低,大多集中在 0–4000 次 / 天,且数据点分布稀疏,说明低温天气下骑行需求被显著抑制。
- 中温区(0.3 < temp < 0.6):租赁量随温度升高快速增长,数据点密度明显增加,是需求增长的核心区间。
- 高温区(temp > 0.6):租赁量达到峰值,集中在 4000–8000+ 次 / 天,但增长趋势趋于平缓,甚至略有回落,说明过高的温度也会影响骑行体验。