Hypothesis

8 Matching Annotations

Nov 2025
www.mlsysbook.ai www.mlsysbook.ai

ML Systems Textbook

1
1. kbsonlong 18 Nov 2025
  
  in Public
  
  Remembering: Recalling basic facts and concepts.记忆：回忆基本事实和概念。 Understanding: Explaining ideas or processes.理解：解释概念或过程。 Applying: Using knowledge in new situations.应用：将知识运用到新的情境中。 Analyzing: Breaking down information into components.分析：将信息分解成各个组成部分。 Evaluating: Making judgments based on criteria and standards.评价：根据标准和准则做出判断。 Creating: Producing original work or solutions.创造：产生原创作品或解决方案。
  
  布鲁姆分类法 1. 记忆: 回忆基本事实和概念 2. 理解: 解释概念或者过程 3. 应用: 将只是运用到新的情境中 4. 分析: 将信息分级成各个组成部分 5. 评价: 根据标准和准则做出判断 6. 创造: 制作原创作品或解决方案
  
  布鲁姆分类法
Visit annotations in context

Tags

布鲁姆分类法

Annotators

kbsonlong

URL

mlsysbook.ai/contents/frontmatter/about/about.html
Oct 2025
www.tangzhi.me www.tangzhi.me

汤质看本质文稿【27】我让AI扮演「语言之神」，它的回答让我沉默了

1
1. PerKeUPChuan 13 Oct 2025
  
  in Public
  
  质-量杂种词只能影响人，而形式语言可以操纵物，因而具有彻底改造甚至置换这个世界基质的潜力。正是凭借这些精确、无歧义的符号系统，人类得以描述世界的规律，最终用语言操纵万物。前面我们提到的量化建模，只是量化世界的表象外壳，它与古代工匠用标尺度量材料进行复杂加工没有本质区别，差别只在于我们有了更精确的卡尺和更强的计算能力。这是前现代的技术特征——背后的范式仍然是几何学和经典力学，此时，语言尚且悬浮于物的外围。
  
  在语言模块，我们真正要讨论的是与自然语言形成鲜明对照的纯量化语言——形式语言，比如数学、逻辑学以及由此衍生的编程语言。在我的任职过往的经历中，从来没有有人将语言进行这样一种维度的划分和理解，并对他们进行分类，但他的这样一种视角独特的视角确确实实又将语言的种类划分的如此的清晰，让我无法找到破绽，确实诸如数学逻辑，编程等等，这一类语言，他需要的就是一种准确的量化的东而正是一种这样准确和量化的东西，它可以将我们现实的世界进行精准的描述刻画来自于进一步的控制控制前提就是因为我们能够进行精准的量化才能够进一步的去控制他，这一点是前提，例如物理，化学电路等等
  
  语言分类认知维度划分本质
Visit annotations in context

Tags

语言

划分

认知

本质

维度

分类

Annotators

PerKeUPChuan

URL

tangzhi.me/blog/26-ai
May 2022
pan.baidu.com pan.baidu.com

ethical+issues+and+dilemmas.pdf_免费高速下载|百度网盘-分享无限制

1
1. 222019305220003 06 May 2022
  
  in Public
  
  Ethical issues for learning analytics fall into the following broad, often overlapping categories:
  
  1.The location and interpretation of data 2. Informed consent, privacy and the de-identification of data 3. The management, classification and storage of data
  
  分类
Visit annotations in context

Tags

分类

Annotators

222019305220003

URL

pan.baidu.com/s/1vM5S1D_rRn9WDYLS8kpRVg
Jan 2022
zhuanlan.zhihu.com zhuanlan.zhihu.com

高效学习法-利用Scapple打造10倍效率的笔记

1
1. tanhaiyuan 08 Jan 2022
  
  in Public
  
  思维导图都会要求比较严格的层级分类。当你将一个内容写下时，你经常会卡壳：我该将这一点放在哪个层级比较好呢？它属于谁呢？
  
  确实会存在
  
  笔记方法问题分类
Visit annotations in context

Tags

问题

笔记方法

分类

Annotators

tanhaiyuan

URL

zhuanlan.zhihu.com/p/65473026
sspai.com sspai.com

为什么你不应该照搬别人的系统？ - 少数派

1
1. tanhaiyuan 05 Jan 2022
  
  in Public
  
  我们常有的经历是：记录下一些想法，几则不知道怎么分类的笔记，积累到一定数量后某种笔记之间共通的特征概念逐渐清晰，随后特征被提炼出来作为一种分类，成为文件夹的名字。经历这种过程是因为我们对许多领域了解甚少，或者干脆是在未知的领域里从零开荒。在最初我们所以很难做适合的分类，无序的笔记堆积成为了必经之路。
  
  分类
Visit annotations in context

Tags

分类

Annotators

tanhaiyuan

URL

sspai.com/post/69574
Sep 2018
192.168.199.102:5000 192.168.199.102:5000

yybrother_NAS - Synology DiskStation

3
1. yiddishkop 25 Sep 2018
  
  in Public
  
  如何解决分类问题无法微分
  
  perceptron(introduce in future)
  
  SVM(introduce in future)
  
  generative model: probability based method(introduce here)
  
  基于概率(Bayes)的分类问题解法 --- 生成模型：
  
  蓝盒子，绿盒子，其中各置5个球，球也有蓝色和绿色。已知：
  
  蓝盒：4蓝 + 1绿
  
  绿盒：2蓝 + 3绿
  
  问：现抽出一蓝球，问他来自两个盒子概率各是多少：P(blueBox | blueBubble)=？
  
  这个问题使用 bayes 条件概率公式非常好求，只需要知道四个值：
  
  Prior of blueBox: \(P(blueBox)\)
  
  Priof of greenBox: \(P(greenBox)\)
  
  condition probability of blueBubble given blueBox: \(P(blueBubble | blueBox)\)
  
  condition probability of blueBubble given greenBox: \(P(blueBubble | greenBox)\)
  
  类比：
  
  蓝盒子 --- class 1;
  
  绿盒子 --- class 2;
  
  class 1，class 2，各有很多样本。已知：
  
  class 1：海龟，金枪鱼，
  
  class 2：老鹰，白鸽，
  
  问：现有一鸭嘴兽，问他来自两个分类的概率各是多少？
  
  我们同样需要知道 4 个值：
  
  Prior
  
  Prior
  
  condition prob
  
  condition prob
  
  counting based method for Prior
  
  从训练集中，直接“数”出标签为 C1 的样本数量，和标签为 C2 的样本数量各是多少，记做 N1 , N2.
  
  \(P(C1) = N1/(N1 + N2)\)
  
  \(P(C2) = N2/(N1 + N2)\)
  
  naive bayes method for condition probability
  
  分类问题中的条件概率不同于“盒子抽球”的最大地方在于：你要计算的 \(P(x|C1)\) 中的 x 是现有样本集中没有的。
  
  把当前 c1 样本和 c2 样本都想象成概率分布，而当前数据集仅仅是根据概率分布做的抽样（全体中的部分）
  
  如果我们能得到这个概率分布，我们就可以知道鸭嘴兽属于陆生和海生的概率各是多少。
  
  假设：c1 和 c2 的概率分布是高斯分布，且他们都是高斯分布集合（ gaussian distribution hypothesis ）中的一个 gaussian distribution, 我们该如何找到这个高斯分布呢 --- 只需确定 \(\Sigma\) 和 \(\mu \), 就可以唯一确定一个高斯分布。
  
  那如何通过样本来倒推出 \(\Sigma\) 和 \(\mu \) 呢？
  
  maximum likelihood
  
  找到一个 \(\mu, \Sigma\) ，由他确定的高斯分布在所有的高斯分布中，产生数据集的概率是最高的。
  
  \(f_{\mu,\Sigma}(x) = \frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^-1(x-\mu))\)
  
  \(L(\mu,\Sigma) =f_{\mu,\Sigma}(x^1)f_{\mu,\Sigma}(x^2)f_{\mu,\Sigma}(x^3)......f_{\mu,\Sigma}(x^N)\)
  
  \(\mu^\star, \Sigma^\star = \arg\max_{\mu,\Sigma}L(\mu,\Sigma)\)
  
  这个 \(argmax\) 有一个很直观的公式解，可以直接记住：
  
  \(\mu^\star = \frac{1}{N}\sum_{n=1}^{N}x^n\)
  
  \(\Sigma^\star = \frac{1}{N}\sum_{n=1}^{N}(x^n-\mu^\star)(x^n-\mu^\star)^T\)
  
  Naive Bayes
  
  如果不适用极大似然估计，也可以使用 Naive Bayes 方法来推算 Prior probability.
  
  \(P(y|x) = \frac{P(x|y)P(y)}{P(x)=\sum^K_{i=1}{P(x|y_i)P(y_i)}}\)
  
  通过 count-based method 和 Naive Bayes(
  
  \(P([1,3,9,0] | y_1)=P(1|y_1)P(3|y_1)P(9|y_1)P(0|y_1)\) ) 先计算出：
  
  \(P(x|y_1)P(y_1)\)
  
  \(P(x|y_2)P(y_2)\)
  
  \(P(x|y_3)P(y_3)\)
  
  ...
  
  All done
  
  一旦得到了这个 \(\mu,\Sigma\) 我们就可以得到分类1 产生 x 的概率（即便他不存在于数据集中）的概率:
  
  \( P(x | C_1) = P(x | Gaussian_1(\mu_1, \Sigma_1))\)
  
  分类2 产生 x 的概率, 也很容易得到:
  
  \( P(x | C_2) = P(x | Gaussian_2(\mu_2, \Sigma_2))\)
  
  根据 bayes 公式：
  
  \(P(C_1 | x) = \frac{P(x | C_1) * P(C_1)}{P( x | C_1) * P(C_1) + P(x | C_2) * P(C_2)}\)
  
  李宏毅 ml lec4 分类问题无法微分
2. yiddishkop 15 Sep 2018
  
  in Public
  
  直接用【线性回归】模型解【分类问题】的弊端
  
  线性回归的标签值 \(y\) 都是实数（亦即可能任意大or任意小），同时线性回归的代价函数是平方误差 \((y-\hat{y})^2\) --- square error. 而代价函数又会通过 GD 直接影响 w 和 b --- 分界线。
  
  在分类问题中，无论错误程度多高，错点的代价永远算作‘1’；而在线性回归中，做错点的代价与他的错误程度平方正比（远大于1）。两者的代价函数不一样，两者得到的函数（分界线）就肯定不一样。
  
  李宏毅 ml lec4 线性回归解分类问题弊端
3. yiddishkop 15 Sep 2018
  
  in Public
  
  多分类任务
  
  主要就是利用 softmax:
  
  第一步：计算 score
  
  z1 = w1 * x + b1
  
  z2 = w2 * x + b2
  
  z3 = w3 * x + b3
  
  第二步：对 score 做 exponential normalization
  
  \(y_{1} = \frac{e^{z_{1}}}{\sum^3_{j=1}e^{z_{j}}}\)
  
  \(y_{2} = \frac{e^{z_{2}}}{\sum^3_{j=1}e^{z_{j}}}\)
  
  \(y_{3} = \frac{e^{z_{3}}}{\sum^3_{j=1}e^{z_{j}}}\)
  
  第三步：以 yi 表示 P(Ci | x) --- x 属于第i个分类的预测概率
  
  \(y_i = P(C_i | x)\)
  
  为什么叫做 softmax 呢？ exponential 函数会让大小值之间的差距变的更大，换言之他会强化最大值。
  
  李宏毅 ml lec5 多分类
Visit annotations in context

Tags

ml

分类问题无法微分

lec4

线性回归解分类问题弊端

lec5

多分类

李宏毅

Annotators

yiddishkop

URL

192.168.199.102:5000/

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

Tags

Annotators

URL

如何解决分类问题无法微分

counting based method for Prior

naive bayes method for condition probability

maximum likelihood

Naive Bayes

All done

直接用【线性回归】模型解【分类问题】的弊端

多分类任务

Tags

Annotators

URL