Hypothesis

4 Matching Annotations

Dec 2025
mlsysbook.ai mlsysbook.ai

ML 시스템 교재

3
1. yangfeng9754 22 Dec 2025
  
  in Public
  
  层组织：你能描述一下三种类型的层（输入层、隐藏层、输出层）以及它们如何按顺序转换数据吗？
  
  神经网络中的数据转换遵循一个清晰、线性的路径，从接收原始数据开始，通过处理阶段，最终产生一个预测。这三个主要层协同工作： 1. 输入层 (Input Layer) 作用：这是网络的入口点。它不执行任何计算或转换，只是接收原始的外部数据。数据形式：数据以数字向量或矩阵的形式进入网络（例如，在您提供的图像中，输入是 [1.0, 5.0, 9.0] 这个向量）。数据流向：将原始输入信号直接传递到下一个隐藏层。 2. 隐藏层 (Hidden Layer) 作用：隐藏层是神经网络的“大脑”，负责执行大部分复杂的计算和模式识别。数据形式：数据在这里被转换。每个神经元接收来自上一层的加权输入，加上偏置，并通过非线性激活函数进行处理。数据流向：隐藏层提取并转换原始输入数据为更抽象、更有意义的特征表示，并将这些新表示传递给下一层（另一个隐藏层或输出层）。网络的深度（隐藏层的数量）决定了它可以学习的复杂程度。 3. 输出层 (Output Layer) 作用：这是网络的出口点，负责生成最终的预测结果或决策。数据形式：它接收来自最后一个隐藏层的信号，并将其格式化为用户需要的输出形式（例如，一个概率值、一个类别标签或一个连续的数值）。数据流向：输出层将网络的最终答案传递给外部世界。数据转换顺序总结数据从左向右（如您图像所示）按顺序转换：原始数据 \(\rightarrow \) 输入层 (接收) \(\rightarrow \) 隐藏层 (特征提取/转换) \(\rightarrow \) 输出层 (最终预测) 这三个层的结合使网络能够从简单的数据点构建复杂的决策。
2. yangfeng9754 22 Dec 2025
  
  in Public
  
  激活函数：你能解释一下为什么 ReLU 比 sigmoid 函数计算效率更高，以及为什么非线性是必不可少的吗？
  
  为什么 ReLU 比 Sigmoid 计算效率更高？计算效率的差异主要源于它们底层的数学运算： ReLU (\(\max (0,x)\)):ReLU 的计算只涉及一个简单的比较和条件判断（输入值是否大于 0），然后返回输入值或 0。这个操作在现代 CPU 和 GPU 硬件上执行速度极快。Sigmoid (\(\frac{1}{1+e^{-x}}\)):Sigmoid 的计算涉及指数运算 (\(e^{-x}\))、加法和除法。指数和除法运算在计算机硬件上比简单的条件判断昂贵得多（需要更多的时钟周期）。在大规模深度学习模型中，激活函数需要在数十亿个神经元上执行数万亿次，这种微小的计算差异累积起来，使得使用 ReLU 的模型训练和推理速度快得多。 2. 为什么非线性是必不可少的？非线性是神经网络能够学习复杂模式和表示的关键原因。线性限制：如果所有激活函数都是线性的，那么整个神经网络（无论有多少层）都可以被数学上简化为一个单一的线性变换（一个大的矩阵乘法）。线性模型只能拟合直线或平面，无法捕捉现实世界数据（例如图像中的曲线边缘、语言的复杂语义）中固有的非线性关系。捕捉复杂性：非线性激活函数引入了表达能力。它们允许网络创建弯曲的决策边界，使网络能够学习任意复杂的函数映射（根据通用逼近定理，一个具有足够神经元的单隐藏层非线性网络可以逼近任何连续函数）。总结来说，线性层负责组合信息，而非线性激活函数负责使网络能够处理现实世界数据的复杂性。
3. yangfeng9754 22 Dec 2025
  
  in Public
  
  神经元计算：你能写出神经元输出的方程吗？包括加权和、偏置项和激活函数。
  
  一个神经元的输出方程可以总结为一个简洁的数学表达式，结合了加权和、偏置项和激活函数。神经元的总输入（也称为加权和加上偏置）通常表示为 \(z\)。 \(z=\left(\sum {i=1}^{n}w{i}x_{i}\right)+b\)其中： \(x_{i}\) 代表第 \(i\) 个输入信号。\(w_{i}\) 代表与第 \(i\) 个输入信号相对应的权重。\(b\) 代表偏置项 (bias)。\(\sum \) 代表对所有输入进行求和。然后，这个总输入 \(z\) 会通过一个激活函数 \(\sigma \)（例如 Sigmoid、ReLU、GELU 等）来产生神经元的最终输出 \(a\)： \(a=\sigma (z)\)将这两个步骤结合起来，一个神经元的完整输出方程通常写作： \(a=\sigma \left(\left(\sum {i=1}^{n}w{i}x_{i}\right)+b\right)\)这个方程是所有现代深度学习模型的基本构建块。
Visit annotations in context

Annotators

yangfeng9754

URL

mlsysbook.ai/contents/core/dl_primer/dl_primer.html
mlsysbook.ai mlsysbook.ai

机器学习系统教科书 --- ML Systems Textbook

1
1. yangfeng9754 18 Dec 2025
  
  in Public
  
  机器学习系统是由三个相互依存的组件组成的集成计算系统：指导行为的数据、学习模式的算法以及支持训练和推理的计算基础设施。
  
  机器学习系统首先是一套集成计算系统，主要包括数据、模型和技术设施三方面相互依存的组件。
Visit annotations in context

Annotators

yangfeng9754

URL

mlsysbook.ai/contents/core/introduction/introduction.html

Annotators

URL

Annotators

URL