收入分布与不平等
test
收入分布与不平等
test
统计学的目标是在,从数据中提炼信息、揭示规律,并量化结论的可靠性。统计学习是统计学面向复杂数据和预测任务的延伸,既强调数学 rigor,又关注实际可用性。
具体到统计机器学习?
从一张图片可以提取出颜色直方图、边缘特征,或者用深度学习模型得到的特征向量来表示这张图片的内容; 对一段语音可以提取声音的频谱特征或者MFCC系数等; 对一篇文本可以提取词频向量、话题分布,或用词嵌入(word embedding)等方法将其转换为数字向量。
这里感觉可以提供一个示意图,三张图分别代表三种非结构化数据。
2.1 统计学与现实:从数据出发
这小节是否应该改成通过实例解释统计机器学习的意义?小节前两段都在讲统计学而不是统计机器学习。
从下一章开始,我们将深入探讨统计学习中的各种模型和方法。首先登场的是最基础也最重要的一类模型——回归模型。它们构成了统计学习的起点,也是理解更复杂机器学习算法的基石。让我们从回归分析开始,逐步展开统计机器学习的精彩旅程。
下一章节讲的是统计学习中的分布?这些连接部分可能需要提供整体大纲作为context。
大图景
大概范围?
(1)OLS全模型: 先对所有8个特征做普通最小二乘回归,结果显示:某些变量(如肿瘤体积、前列腺重量)系数显著,另一些(如年龄、某指标LCP等)变得不显著,甚至出现了符号反转现象。例如年龄与PSA在单变量散点图中呈微弱正相关,但在多元回归中年龄系数却为负。这并不意味着“年龄大PSA反而低”,而是由于年龄与其他变量相关,在控制了更主要的因素后,年龄的边际效应估计变为负值,用来“补偿”共线性带来的影响。类似地,一些本来正相关的特征在多元回归中可能出现负系数。这说明在强共线、小样本情形下,OLS系数的符号和大小不可靠,不能直接逐个解释因果作用。相应地,OLS的预测性能也可能受到共线性的损害。 (2)子集选择: 我们可以在训练集上尝试用前向/后向逐步法或最佳子集选择来挑选变量。对于8个特征,最佳子集需要评估28=256种模型。实际上可以发现,优化某些信息准则(如AIC、BIC)或直接看测试集误差,最终往往只需要其中很少的特征就能达到接近最佳的预测效果。在该例中,最佳子集方法选出的最优模型仅包含两个变量,其他全被剔除。如此激进的简化虽提升了解释性,但也有欠拟合风险。 (3)岭回归: 岭回归不会删除任何变量,而是将所有系数向零收缩。选取适当的λ后,岭回归在测试集上的预测性能明显优于OLS。由于惩罚项抑制了共线性导致的系数不稳定,岭回归的预测更稳健。比如在模拟中,真实β1,β2均为正,而OLS估计出现一个为负;岭回归估计则将两个系数都缩小且为正,更接近真实值。然而岭回归保留了所有8个特征,模型解释性没有提升。而且对于高度相关的一组变量,岭回归往往会给予它们相似的中等大小系数,让它们共同发挥作用,但因为不稀疏,我们难以明确哪几个是主要驱动因素。 (4)Lasso: Lasso通过调节λ可以产生从全入模到全零不同复杂度的模型。当λ=0时即为OLS全模型;随着λ增加,系数逐渐被压缩,不重要的变量系数会变为0。当λ大到某程度时,模型可能只剩下极少数非零系数甚至退化为零模型。在前列腺癌例子中,lasso在某个最佳λ下自动选出了与最佳子集法相似的一组变量。具体来说,lasso删去了大部分无关变量,仅保留了与PSA关系最强的三四个特征,且这些特征正是我们肉眼和专业知识预期的重要变量(如肿瘤体积、重量等)。在测试集上,lasso的预测误差与岭回归相当,同样远低于OLS。然而,相比岭回归保留所有变量,lasso提供了一个更简洁的模型,更便于解释——我们可以告诉医生或决策者,这几个变量对PSA有主要影响,其余变量作用很小可以忽略。 (5)主成分回归和偏最小二乘: 这两种方法通过提取综合变量来回归,也在该例中进行了比较。主成分回归(PCR)提取数据协方差矩阵的若干主成分,偏最小二乘(PLS)则综合考虑响应来提取分量。它们一定程度上也能缓解共线性、降低模型维度。在前列腺癌数据上,PCR和PLS的测试误差与岭回归、lasso处于同一量级。 (6)模型性能对比: 用独立测试集评估,各种正则化或降维方法(岭、lasso、PCR、PLS、best subset等)都显著优于OLS。其中某个方法略胜一筹,但差异很小,且测试误差的标准误显示这些差异在统计上可能并不显著。这说明只要进行了合理的变量选择或正则化,高维共线数据的泛化性能就会有大幅提升,而具体选择哪一种方法反而不是最关键的。 (7)解释性 vs 预测性: 不同方法在模型简洁度和预测准确度上有所不同,需要权衡。如果侧重预测,我们应选择测试误差最小的方法(例如某个λ下的岭回归或lasso);如果侧重解释,则更倾向于简单模型(例如只含两三个变量的最佳子集模型),即使它的预测误差稍高。前列腺癌例子中,最佳子集模型仅两个变量,极具解释性,但其测试误差略高且可能不稳定;岭回归和lasso包含更多变量但预测更准;决策者应根据需求在二者间权衡。在实际应用中,这是常见的取舍:简单可解释和复杂高精度不可兼得,需要结合具体场景决定。
这部分文字太密集,应考虑加入一些公式
介绍完方法,我们来看一个具体案例,加深对变量选择和正则化的理解。这是来自《统计学习要素》中的前列腺癌数据。该数据集包含97名前列腺癌患者的临床指标和血液中前列腺特异抗原(PSA)的测量值。研究者关注的问题是:利用患者的多项临床指标(如肿瘤体积、前列腺重量、年龄等)来解释或预测PSA值。已知某些指标与PSA相关(例如肿瘤越大PSA越高,年龄增大会增加患癌风险),但也有一些指标作用不明确。此外,这些特征之间存在不同程度的相关性(多重共线性)。这为线性模型的变量选择和正则化提供了一个现实场景。
可以给一些图?或者引用?
线性模型的稀疏建模与变量选择
直接改为变量选择?
L0 与 L1 正则化:稀疏建模
4.10和第5章似乎重复了
有监督学习框架
这一章的整体问题是小节过于碎片化,比如4.4,4.5都太短了,可以考虑合并一些小节放到一起。
我们有
这种行内公式不需要换行,下面多次出现
Y∣X:
这里是对概率建模?P(Y|X)?
最后,我们回到统计推断的基本问题:如何根据有限样本去估计未知的分布? 本章前面已经多次遇到这个问题的具体形式,如估计分布的参数(均值、方差等)或直接估计密度函数。在这里,我们对常用的方法做一个概括性的整理: 参数方法: 假定数据服从某一参数族 Pθ,然后利用样本去估计参数θ。主要的方法包括: 最大似然估计 (Maximum Likelihood Estimation, MLE):如公式(2.6)所定义,选取使样本出现概率最大的参数值。MLE 通常具有渐近有效性,在样本量较大时表现良好。 贝叶斯方法:将参数本身视为随机变量赋予先验分布,通过贝叶斯公式将先验和数据似然结合得到后验分布,从而以后验均值或后验模式作为参数估计。贝叶斯方法能够融入先验信息,当数据量不多时有助于提升估计稳定性。 矩估计:令样本矩(如样本均值、样本方差)等于理论分布的矩,从方程组解出参数。这种方法直观简单,但不一定是效率最高的估计。 极大后验估计 (Maximum A Posteriori, MAP):它是贝叶斯方法和MLE的折中,等价于在似然函数上加上参数的先验正则化,以找到最可能的参数点估计。 最小二乘估计 (Least Squares Estimation, LSE):对于回归模型,最小化残差平方和可视为正态误差模型的MLE,因此在这情况下LSE等价于MLE。更广义的广义线性模型下,最小化某种损失(如交叉熵)也往往对应于某个分布的MLE。 参数方法的显著特点是先假设、后估计:我们先做一个建模假设,然后只需根据有限数据估计几个参数。这种方法在模型假设正确或近似正确时非常有效率。但如果假设严重偏离真相,参数估计再精确也无济于事。因此,实际应用中常结合模型诊断和选择(第5章主题),以确保采用恰当的参数族。 非参数/数据驱动方法: 不强制假设分布形状,直接利用数据本身去逼近分布。 直方图法: 前面讨论过,用频率近似密度,适用于低维数据的初步探索。 核密度估计: 利用公式(2.8)进行平滑的密度估计,是一维或低维连续分布估计的常用工具。 k近邻法: 在密度估计中,kNN方法可以用来估计密度值:例如以待估点为中心,不断扩大半径直到包含k个样本点,然后利用这k个邻居点的距离来推断局部密度。kNN在分类中也可直接用于估计后验概率——给定一个新点,看它周围k个训练样本的类别比例,当k和样本量n适当增长时,该比例可以收敛到真实的分类概率。 其他方法: 还有许多高级的非参数估计方法,如基于正交函数展开(Fourier变换、Wavelet小波)的密度估计,基于局部多项式拟合的方法等。这些属于统计学中的曲线估计范畴,本书不展开细节。 非参数方法由于不限制具体形式,往往需要更多的数据克服估计的高方差倾向。一个原则是,在维度较低(如1维、2维)的情况下,非参数方法可以通过可视化等手段直观展现数据分布,非常有价值;但在维度较高时,非参数方法面临所谓“维度灾难”问题,需谨慎使用或引入合理的降维和结构化假设。 需要说明的是,现实问题中我们常结合参数和非参数方法的长处。例如在回归分析中,我们可能会假设响应的均值结构为某个参数形式,但同时用非参数方法估计误差分布,以检查误差是否符合正态假定。如果发现误差分布有偏态或厚尾,可以据此调整模型(如采用对数变换或重尾分布)。 总之,从有限样本推断总体分布是统计学的核心问题之一,也是统计学习方法论的根基。在执行任何统计学习任务时,心中都应有一个关于“数据如何生成”的概率模型(无论是显式的还是隐含的)。概率分布提供了连接现实随机现象和统计推断方法的桥梁。有了这个桥梁,我们才能在不确定性中进行有根据的推断和决策。
这些方法在后面的章节会分别提到吗?如果有提到的话可以引用一下后面对用的章节