Data Mining Course Project

亚马逊印度电商商品市场分析

1,465

Products Analyzed

16

Data Fields

13

Visualizations

3

ML Models

遵循 CRISP-DM 数据挖掘标准流程,对 Amazon India 产品数据实施从清洗、EDA 到 K-Means 聚类与随机森林回归的全流程分析,揭示电商定价与用户反馈的真实关系。

Executive Summary

核心发现

01

折扣与评分几乎零相关

皮尔逊 r = −0.16,随机森林 R² = 0.082。双重验证:降价不能有效提升用户满意度。产品品质和品牌口碑才是真正的竞争壁垒。

02

产品可明确分为三类运营群

K-Means(K=3)将产品分为低价冲量型(63.9% 折扣)、中价低折型(28.9% 折扣)、高价保利型(30.9% 折扣),为差异化运营提供量化依据。

03

价格仅能解释 8% 的评分方差

随机森林回归用 5 个可观测特征预测评分,R² 仅 0.082。评分 92% 由产品品质、品牌口碑等不可观测因素决定——不要在定价上内卷。

Key Evidence

关键数据证据

价格、折扣与品类结构

chart_01_category_dist
chart_04_price_scatter

Key Insight

三品类三足鼎立(Electronics 35.9%、Computers 30.9%、Home & Kitchen 30.5%),折扣率呈双峰分布(40–50% 和 60–70%),反映平台差异化定价策略。

K-Means 聚类:Elbow Method + 聚类结果

chart_09a_elbow
chart_09b_clusters

Key Insight

Elbow Method 确定 K=3。聚类将产品分为三类:低价冲量(795件,₹1,007,63.9%)、中价低折(564件,₹3,131,28.9%)、高价保利(68件,₹29,367,30.9%)。

Recommendations

运营建议

1

产品分群运营

低价群冲量引流,中价群稳利润,高价群树品牌。三类产品的营销预算、促销节奏、库存深度应完全不同。

2

Home & Kitchen 是安全赛道

评分中位数最高且方差最小,消费者预期匹配度好。新品首发优选该品类,避开 Cables & Accessories 红海。

3

投资产品力而非折扣战

价格仅解释 8% 的评分方差。与其在折扣上竞争,不如投资产品品质和品牌建设。

Deep Dive

查看完整报告

包含 13 张独立图表、完整 EDA 过程、K-Means 聚类与随机森林回归建模细节

阅读全文
Pythonpandasscikit-learnmatplotlibseabornK-MeansRandom ForestCRISP-DM