Hypothesis

14 Matching Annotations

Jan 2026
testsites.dist.systems testsites.dist.systems

2 引言 – 统计机器学习

6
1. kozoy 15 Jan 2026
  
  in Public
  
  收入分布与不平等
  
  test
2. kozoy 08 Jan 2026
  
  in Public
  
  统计学的目标是在，从数据中提炼信息、揭示规律，并量化结论的可靠性。统计学习是统计学面向复杂数据和预测任务的延伸，既强调数学 rigor，又关注实际可用性。
  
  具体到统计机器学习？
3. kozoy 08 Jan 2026
  
  in Public
  
  从一张图片可以提取出颜色直方图、边缘特征，或者用深度学习模型得到的特征向量来表示这张图片的内容；对一段语音可以提取声音的频谱特征或者MFCC系数等；对一篇文本可以提取词频向量、话题分布，或用词嵌入（word embedding）等方法将其转换为数字向量。
  
  这里感觉可以提供一个示意图，三张图分别代表三种非结构化数据。
4. kozoy 08 Jan 2026
  
  in Public
  
  2.1 统计学与现实：从数据出发
  
  这小节是否应该改成通过实例解释统计机器学习的意义？小节前两段都在讲统计学而不是统计机器学习。
5. kozoy 08 Jan 2026
  
  in Public
  
  从下一章开始，我们将深入探讨统计学习中的各种模型和方法。首先登场的是最基础也最重要的一类模型——回归模型。它们构成了统计学习的起点，也是理解更复杂机器学习算法的基石。让我们从回归分析开始，逐步展开统计机器学习的精彩旅程。
  
  下一章节讲的是统计学习中的分布？这些连接部分可能需要提供整体大纲作为context。
6. kozoy 08 Jan 2026
  
  in Public
  
  大图景
  
  大概范围？
Visit annotations in context

Annotators

kozoy

URL

testsites.dist.systems/chapter_1.html
testsites.dist.systems testsites.dist.systems

5 线性模型的稀疏建模与变量选择 – 统计机器学习

3
1. kozoy 08 Jan 2026
  
  in Public
  
  （1）OLS全模型：先对所有8个特征做普通最小二乘回归，结果显示：某些变量（如肿瘤体积、前列腺重量）系数显著，另一些（如年龄、某指标LCP等）变得不显著，甚至出现了符号反转现象。例如年龄与PSA在单变量散点图中呈微弱正相关，但在多元回归中年龄系数却为负。这并不意味着“年龄大PSA反而低”，而是由于年龄与其他变量相关，在控制了更主要的因素后，年龄的边际效应估计变为负值，用来“补偿”共线性带来的影响。类似地，一些本来正相关的特征在多元回归中可能出现负系数。这说明在强共线、小样本情形下，OLS系数的符号和大小不可靠，不能直接逐个解释因果作用。相应地，OLS的预测性能也可能受到共线性的损害。（2）子集选择：我们可以在训练集上尝试用前向/后向逐步法或最佳子集选择来挑选变量。对于8个特征，最佳子集需要评估28=256种模型。实际上可以发现，优化某些信息准则（如AIC、BIC）或直接看测试集误差，最终往往只需要其中很少的特征就能达到接近最佳的预测效果。在该例中，最佳子集方法选出的最优模型仅包含两个变量，其他全被剔除。如此激进的简化虽提升了解释性，但也有欠拟合风险。（3）岭回归：岭回归不会删除任何变量，而是将所有系数向零收缩。选取适当的λ后，岭回归在测试集上的预测性能明显优于OLS。由于惩罚项抑制了共线性导致的系数不稳定，岭回归的预测更稳健。比如在模拟中，真实β1,β2均为正，而OLS估计出现一个为负；岭回归估计则将两个系数都缩小且为正，更接近真实值。然而岭回归保留了所有8个特征，模型解释性没有提升。而且对于高度相关的一组变量，岭回归往往会给予它们相似的中等大小系数，让它们共同发挥作用，但因为不稀疏，我们难以明确哪几个是主要驱动因素。（4）Lasso： Lasso通过调节λ可以产生从全入模到全零不同复杂度的模型。当λ=0时即为OLS全模型；随着λ增加，系数逐渐被压缩，不重要的变量系数会变为0。当λ大到某程度时，模型可能只剩下极少数非零系数甚至退化为零模型。在前列腺癌例子中，lasso在某个最佳λ下自动选出了与最佳子集法相似的一组变量。具体来说，lasso删去了大部分无关变量，仅保留了与PSA关系最强的三四个特征，且这些特征正是我们肉眼和专业知识预期的重要变量（如肿瘤体积、重量等）。在测试集上，lasso的预测误差与岭回归相当，同样远低于OLS。然而，相比岭回归保留所有变量，lasso提供了一个更简洁的模型，更便于解释——我们可以告诉医生或决策者，这几个变量对PSA有主要影响，其余变量作用很小可以忽略。（5）主成分回归和偏最小二乘：这两种方法通过提取综合变量来回归，也在该例中进行了比较。主成分回归（PCR）提取数据协方差矩阵的若干主成分，偏最小二乘（PLS）则综合考虑响应来提取分量。它们一定程度上也能缓解共线性、降低模型维度。在前列腺癌数据上，PCR和PLS的测试误差与岭回归、lasso处于同一量级。（6）模型性能对比：用独立测试集评估，各种正则化或降维方法（岭、lasso、PCR、PLS、best subset等）都显著优于OLS。其中某个方法略胜一筹，但差异很小，且测试误差的标准误显示这些差异在统计上可能并不显著。这说明只要进行了合理的变量选择或正则化，高维共线数据的泛化性能就会有大幅提升，而具体选择哪一种方法反而不是最关键的。（7）解释性 vs 预测性：不同方法在模型简洁度和预测准确度上有所不同，需要权衡。如果侧重预测，我们应选择测试误差最小的方法（例如某个λ下的岭回归或lasso）；如果侧重解释，则更倾向于简单模型（例如只含两三个变量的最佳子集模型），即使它的预测误差稍高。前列腺癌例子中，最佳子集模型仅两个变量，极具解释性，但其测试误差略高且可能不稳定；岭回归和lasso包含更多变量但预测更准；决策者应根据需求在二者间权衡。在实际应用中，这是常见的取舍：简单可解释和复杂高精度不可兼得，需要结合具体场景决定。
  
  这部分文字太密集，应考虑加入一些公式
2. kozoy 08 Jan 2026
  
  in Public
  
  介绍完方法，我们来看一个具体案例，加深对变量选择和正则化的理解。这是来自《统计学习要素》中的前列腺癌数据。该数据集包含97名前列腺癌患者的临床指标和血液中前列腺特异抗原（PSA）的测量值。研究者关注的问题是：利用患者的多项临床指标（如肿瘤体积、前列腺重量、年龄等）来解释或预测PSA值。已知某些指标与PSA相关（例如肿瘤越大PSA越高，年龄增大会增加患癌风险），但也有一些指标作用不明确。此外，这些特征之间存在不同程度的相关性（多重共线性）。这为线性模型的变量选择和正则化提供了一个现实场景。
  
  可以给一些图？或者引用？
3. kozoy 08 Jan 2026
  
  in Public
  
  线性模型的稀疏建模与变量选择
  
  直接改为变量选择？
Visit annotations in context

Annotators

kozoy

URL

testsites.dist.systems/chapter_4.html
testsites.dist.systems testsites.dist.systems

4 有监督学习框架 – 统计机器学习

4
1. kozoy 08 Jan 2026
  
  in Public
  
  L0 与 L1 正则化：稀疏建模
  
  4.10和第5章似乎重复了
2. kozoy 08 Jan 2026
  
  in Public
  
  有监督学习框架
  
  这一章的整体问题是小节过于碎片化，比如4.4，4.5都太短了，可以考虑合并一些小节放到一起。
3. kozoy 08 Jan 2026
  
  in Public
  
  我们有
  
  这种行内公式不需要换行，下面多次出现
4. kozoy 08 Jan 2026
  
  in Public
  
  Y∣X：
  
  这里是对概率建模？P(Y|X)?
Visit annotations in context

Annotators

kozoy

URL

testsites.dist.systems/chapter_3.html
testsites.dist.systems testsites.dist.systems

3 统计学习中的分布 – 统计机器学习

1
1. kozoy 08 Jan 2026
  
  in Public
  
  最后，我们回到统计推断的基本问题：如何根据有限样本去估计未知的分布？本章前面已经多次遇到这个问题的具体形式，如估计分布的参数（均值、方差等）或直接估计密度函数。在这里，我们对常用的方法做一个概括性的整理：参数方法：假定数据服从某一参数族 Pθ，然后利用样本去估计参数θ。主要的方法包括：最大似然估计 (Maximum Likelihood Estimation, MLE)：如公式(2.6)所定义，选取使样本出现概率最大的参数值。MLE 通常具有渐近有效性，在样本量较大时表现良好。贝叶斯方法：将参数本身视为随机变量赋予先验分布，通过贝叶斯公式将先验和数据似然结合得到后验分布，从而以后验均值或后验模式作为参数估计。贝叶斯方法能够融入先验信息，当数据量不多时有助于提升估计稳定性。矩估计：令样本矩（如样本均值、样本方差）等于理论分布的矩，从方程组解出参数。这种方法直观简单，但不一定是效率最高的估计。极大后验估计 (Maximum A Posteriori, MAP)：它是贝叶斯方法和MLE的折中，等价于在似然函数上加上参数的先验正则化，以找到最可能的参数点估计。最小二乘估计 (Least Squares Estimation, LSE)：对于回归模型，最小化残差平方和可视为正态误差模型的MLE，因此在这情况下LSE等价于MLE。更广义的广义线性模型下，最小化某种损失（如交叉熵）也往往对应于某个分布的MLE。参数方法的显著特点是先假设、后估计：我们先做一个建模假设，然后只需根据有限数据估计几个参数。这种方法在模型假设正确或近似正确时非常有效率。但如果假设严重偏离真相，参数估计再精确也无济于事。因此，实际应用中常结合模型诊断和选择（第5章主题），以确保采用恰当的参数族。非参数/数据驱动方法：不强制假设分布形状，直接利用数据本身去逼近分布。直方图法：前面讨论过，用频率近似密度，适用于低维数据的初步探索。核密度估计：利用公式(2.8)进行平滑的密度估计，是一维或低维连续分布估计的常用工具。 k近邻法：在密度估计中，kNN方法可以用来估计密度值：例如以待估点为中心，不断扩大半径直到包含k个样本点，然后利用这k个邻居点的距离来推断局部密度。kNN在分类中也可直接用于估计后验概率——给定一个新点，看它周围k个训练样本的类别比例，当k和样本量n适当增长时，该比例可以收敛到真实的分类概率。其他方法：还有许多高级的非参数估计方法，如基于正交函数展开（Fourier变换、Wavelet小波）的密度估计，基于局部多项式拟合的方法等。这些属于统计学中的曲线估计范畴，本书不展开细节。非参数方法由于不限制具体形式，往往需要更多的数据克服估计的高方差倾向。一个原则是，在维度较低（如1维、2维）的情况下，非参数方法可以通过可视化等手段直观展现数据分布，非常有价值；但在维度较高时，非参数方法面临所谓“维度灾难”问题，需谨慎使用或引入合理的降维和结构化假设。需要说明的是，现实问题中我们常结合参数和非参数方法的长处。例如在回归分析中，我们可能会假设响应的均值结构为某个参数形式，但同时用非参数方法估计误差分布，以检查误差是否符合正态假定。如果发现误差分布有偏态或厚尾，可以据此调整模型（如采用对数变换或重尾分布）。总之，从有限样本推断总体分布是统计学的核心问题之一，也是统计学习方法论的根基。在执行任何统计学习任务时，心中都应有一个关于“数据如何生成”的概率模型（无论是显式的还是隐含的）。概率分布提供了连接现实随机现象和统计推断方法的桥梁。有了这个桥梁，我们才能在不确定性中进行有根据的推断和决策。
  
  这些方法在后面的章节会分别提到吗？如果有提到的话可以引用一下后面对用的章节
Visit annotations in context

Annotators

kozoy

URL

testsites.dist.systems/chapter_2.html

Annotators

URL

Annotators

URL

Annotators

URL

Annotators

URL