关于 AI 的三大谣言/误区

作者 / AUTHOR 白墨麒麟 BaimoQilin (初稿审核); gemin-exp-1206 (文笔润色)

授权协议 / LICENSE CC-BY-NC-SA 署名-非商业性使用-相同方式共享

撰稿日期 / DATE OF WRITING 2/11/2025 18:11

Note

标题党了，本文中的的 AI 指的是 LLM (Large Language Model, 大语言模型)。GPT系列、OpenAI o系列、Google Gemini系列、DeepSeek R系列/v系列都属于LLM (其实也是大家理解下的AI)。但是 Google Veo，甚至不基于神经网络的 Siri 都属于 AI，但不在本文讨论的范畴之内。

谣言1: LLM 依赖自身数据库/网络检索提供答案

同类误区

LLM 并不真正理解自己自己所输出的内容；
LLM 不会犯错；
LLM 不会忘记事情；
LLM 只能解自己题库中出现的题；
LLM 只是一个更聪明的 “专家系统”；
LLM 在文字方面永远不可能达到人类的水平，因为其缺乏情感和“人性”。

粉碎机

LLM 回答问题并不是整合数据库内的数据或者通过搜索引擎搜索到的答案，这意味着 LLM 可以创造新的内容，而不仅仅是整合已有的内容。
LLM 会犯错，也会忘记事情。事实上，大量存在于其训练数据中的内容 LLM 都不能正确回答。
LLM 可以回答其从未见过的问题，因为它可以理解问题的语义，而不仅仅是记住问题的解法和答案。

为什么会这样

很多人对 AI 的认识还停留在 15 年前乔布斯在 iPhone 4S 发布会上发布的基于专家系统的 Siri。

flowchart TD
    A[用户提问] --> B{检测关键词?}
    B -- 是 --> C[检索规则数据库]
    C --> D{规则是否匹配?}
    D -- 是 --> E[返回预设答案]
    D -- 否 --> F[进行网络检索]
    F --> G{网络检索有结果?}
    G -- 是 --> H[返回网络检索结果]
    G -- 否 --> I[返回默认回应]
    B -- 否 --> J[无法识别，返回错误提示]

(图: Siri 原理简示)

这种基于人工编撰的规则和数据库的 AI 系统，回答问题确实依赖 LLM 自身数据库/搜索引擎、不会犯错、不会忘记数据库中的内容、只能解题库中的问题。

LLM 虽然都属于人类试图使用使用机器模拟智能的产物，看起来似乎只是比 Siri 更聪明，

但在事实上 LLM 与 Siri 存在本质不同。

LLM 是试图借助 ANNs (Artificial Neural Network, 人工神经网络) 完成文本生成任务的一类 ML (Machine Learning, 机器学习) 模型。

人工神经网络的中心思想是模仿生物神经网络（动物的中枢神经系统，特别是人类大脑）

我们知道，人类大脑由神经元和突触组成，神经元之间通过突触传递信号。神经元接收到的信号超过一定阈值，就会激活，向下一个神经元传递信号。同样，LLM 的人工神经网络也有电子神经元和电子突触，电子神经元之间也通过电子突触传递信号。不同的电子神经元带有不同的权重，这些权重决定了信号传递的强度。

(图: 人工神经元视图; 图源: 维基百科“人工神经元”条目)

人工神经网络的训练过程就是调整神经元之间的连接权重，使得网络能够完成特定的任务。

深度学习拟合抽象演示 - GIF动图8MB, 国内网络环境加载较慢

(图：深度学习拟合的抽象类比演示; 图源：BaimoQilin 自制 (ARR))

如上面的动图所示，随着训练次数的增加，通过计算最佳的连接权重，Error (误差)的值逐渐降低，且神经网络预测的结果会越来越接近真实结果。

事实上，人类大脑学习的本质也与神经元之间的连接关系的调整密切相关。大脑通过一种叫做突触可塑性（Synaptic Plasticity）的机制来学习和记忆信息。

突出可塑性

突触可塑性指的是神经元之间连接的强度可以随着时间的推移而增强或减弱，从而影响神经信号的传递效率。这种连接的调整使得大脑能够根据经验和学习逐步改变自己的功能，以适应外部环境的变化和需求。大脑的学习过程不仅仅是神经元之间的电化学信号传递，还包括这些信号在神经元网络中如何通过调整连接强度来塑造大脑的功能和记忆。

粗略总结，人类学习的核心就是通过调整神经元之间的连接强度，进而改变大脑的反应模式和行为。

LLM 的训练过程与人类学习的过程有着惊人的相似之处。好吧，其实这一点也不惊人：

因为正如前面所言 人工神经网络的中心思想是模仿生物神经网络 。

这意味着：

LLM 学习的本质与人类学习相同，其间没有不可逾越的鸿沟。

于是，这类谣言就不攻自破了。

人类在文字方面能做到的，LLM 现在就能或者将来一定能做到，甚至做得更好，包括营销号们所说的“人类独有的人性特点”；

同样，人类在心理学上的认知偏差，LLM 也会有。有一些数学题故意多给没用的条件，这种针对人类心理学认知偏差的陷阱，LLM 也会掉进去。

谣言2: 问 strawberry 有几个 r 是测试 LLM 智力的好方法

同类误区

9.11 和 9.9 哪个大答错就说明 LLM 数学很差；
LLM 无法数清字数说明 LLM 智力不行。

粉碎机

这类问题之所以 LLM 普遍会答错，其根本原因是 Tokenizer。

(图: Tokenizer 分词示例; 图源: OpenAI 官网)

如图所示，像是 “你好，欢迎阅读BaimoQilin的Cynia Blogs。” 这样的文字在 LLM 眼中是：

你好 ， 欢迎 阅读 B aim o Q ilin 的 C yn ia Blogs 。

回想人类阅读文字的过程：当我们阅读母语文字时，并不会一个一个字、或一个一个字母地读，而是将字或字母组成的词语作为一个整体来理解。

比如我们不会把 strawberry 看成

s

t

r

a

w

b

e

r

y

而是将这些字母视为一个整体。但是，当我们想要数清 strawberry 中有几个 r 时，我们会将其拆分为字母，然后数清 r 的个数。

你可以尝试一下，不看 strawberry 这个词，闭上眼睛，不要想 strawberry 的拼写，只在脑海里想 strawberry 这个词的语义———— 你还能数清 strawberry 中有几个 r 吗？

这就是 LLM 的困境所在：LLM 没有动态分词的能力，它只能将词语视作一个整体————在一般情况下，这样做就够了————但是当遇到 strawberry 有几个 r 这样的问题时，LLM 却不能像人类一样灵活的切换分词方法。

对于 9.9 和 9.11 哪个大也是一样的，LLM 会将 9 和 11 视为两个整体。

这就好像在做 16 进制计算一样：在 LLM 眼里，9.11 相当于 9.b₁₆，而 9.b₁₆ 确实比 9.9₁₆ 大。

事实上，一个聪明的 LLM 可能会因为 Tokenizer 答错这个问题，而一个更笨但使用了 Character-based Tokenizer 的 LLM 可能会答对这个问题。

<衡量一个 LLM 的智力不能通过一两个问题来判断，这样既不全面也不客观。LLM 本身具有很强的随机性，同一个模型回答同一个问题每次也可能会有不同的答案，同时不同的 LLM 擅长的领域也略有不同。想要全面客观地评价一个 LLM 的性能，需要问成百上千个问题并综合平均结果。

比如开源的 LiveBench 数据集中包含了超过 1260 个问题，涵盖了数学、编程、推理、语言、数据分析、指令遵循六个领域，时常更新最新的题目避免试题过时，通过程序自动问问题、检测答案的正确性，脱离了人的主观评价，客观真实地评价了 LLM 的性能。

LiveBench 2/11/2025 测试结果快照.

完整最新的结果见 livebench.ai

Model	Organization	Global Average	Reasoning Average	Coding Average	Mathematics Average	Data Analysis Average	Language Average	IF Average
o3-mini-2025-01-31-high	OpenAI	75.88	89.58	82.74	77.29	70.64	50.68	84.36
o1-2024-12-17-high	OpenAI	75.67	91.58	69.69	80.32	65.47	65.39	81.55
deepseek-r1	DeepSeek	71.57	83.17	66.74	80.71	69.78	48.53	80.51
o3-mini-2025-01-31-medium	OpenAI	70.01	86.33	65.38	72.37	66.56	46.26	83.16
gemini-2.0-flash-thinking-exp-01-21	Google	66.92	78.17	53.49	75.85	69.37	42.18	82.47
gemini-2.0-pro-exp-02-05	Google	65.13	60.08	63.49	70.97	68.02	44.85	83.38
gemini-exp-1206	Google	64.09	57.00	63.41	72.36	63.16	51.29	77.34
o3-mini-2025-01-31-low	OpenAI	62.45	69.83	61.46	63.06	62.04	38.25	80.06
qwen2.5-max	Alibaba	62.29	51.42	64.41	58.35	67.93	56.28	75.35
gemini-2.0-flash	Google	61.47	55.25	53.92	65.62	67.55	40.69	85.79
deepseek-v3	DeepSeek	60.45	56.75	61.77	60.54	60.94	47.48	75.25
gemini-2.0-flash-exp	Google	59.26	59.08	54.36	60.39	61.67	38.22	81.86
claude-3-5-sonnet-20241022	Anthropic	59.03	56.67	67.13	52.28	55.03	53.76	69.30
chatgpt-4o-latest-2025-01-29	OpenAI	57.79	57.92	60.56	48.02	66.00	49.14	65.07
o1-mini-2024-09-12	OpenAI	57.76	72.33	48.05	61.99	57.92	40.89	65.40
step-2-16k-202411	StepFun	56.02	52.17	47.19	48.77	63.72	44.39	79.88
gpt-4o-2024-08-06	OpenAI	55.33	53.92	51.44	49.54	60.91	47.59	68.58
gemini-1.5-pro-002	Google	54.33	49.08	48.80	59.07	54.97	43.29	70.78
grok-2-1212	xAI	54.30	54.83	46.44	54.88	54.45	45.58	69.63
gemini-2.0-flash-lite-preview-02-05	Google	53.24	50.08	43.80	55.54	57.47	34.28	78.28
dracarys2-72b-instruct	AbacusAI	52.64	47.38	58.92	54.66	55.51	34.12	65.22
meta-llama-3.1-405b-instruct-turbo	Meta	52.36	53.25	42.65	41.07	55.85	45.46	75.90
gpt-4o-2024-11-20	OpenAI	52.19	55.75	46.08	42.87	56.15	47.37	64.94
learnlm-1.5-pro-experimental	Google	52.19	43.42	46.87	57.75	54.97	41.98	68.16
chatgpt-4o-latest-0903	OpenAI	51.66	50.50	47.44	42.45	57.93	45.30	66.37
qwen2.5-72b-instruct-turbo	Alibaba	51.44	45.42	57.64	54.29	51.91	34.99	64.39
gpt-4-turbo-2024-04-09	OpenAI	50.40	50.92	49.00	43.02	54.36	44.26	60.85
llama-3.3-70b-instruct-turbo	Meta	50.16	50.75	36.59	42.24	49.49	39.20	82.67
deepseek-r1-distill-llama-70b	DeepSeek	49.66	67.58	50.97	58.11	55.93	23.81	41.55
grok-beta	xAI	49.18	37.00	45.15	45.84	54.27	43.16	69.62
claude-3-opus-20240229	Anthropic	49.16	40.58	38.59	43.62	57.89	50.39	63.89
mistral-large-2411	Mistral AI	48.43	43.50	47.08	42.55	50.15	39.39	67.93
qwen2.5-coder-32b-instruct	Alibaba	46.23	42.08	56.85	46.61	49.87	23.25	58.69
dracarys2-llama-3.1-70b-instruct	AbacusAI	46.21	44.67	36.31	40.30	53.98	38.78	63.24
meta-llama-3.1-70b-instruct-turbo	Meta	44.89	43.00	33.49	34.72	53.75	35.42	68.98
amazon.nova-pro-v1:0	Amazon	43.53	32.58	38.15	38.04	48.31	36.96	67.13
claude-3-5-haiku-20241022	Anthropic	43.45	28.08	51.36	35.54	48.45	35.37	61.88
deepseek-r1-distill-qwen-32b	DeepSeek	42.93	52.25	32.85	59.36	45.41	26.82	40.92
mistral-small-2501	Mistral AI	42.55	36.42	35.31	39.89	53.69	30.46	59.54
phi-4	Microsoft	41.61	47.83	30.67	41.98	45.17	25.61	58.38
gpt-4o-mini-2024-07-18	OpenAI	41.26	32.75	43.15	36.31	49.96	28.61	56.80
qwq-32b-preview	Alibaba	40.25	57.71	37.20	58.26	31.62	21.09	35.59
gemma-2-27b-it	Google	38.18	28.08	35.95	26.46	47.87	32.62	58.10
amazon.nova-lite-v1:0	Amazon	36.35	36.67	27.46	36.70	37.23	25.93	54.13
qwen2.5-7b-instruct-turbo	Alibaba	34.90	28.42	38.37	39.51	35.22	15.80	52.11
mistral-small-2409	Mistral AI	33.42	29.92	25.74	24.42	42.73	24.49	53.23
command-r-plus-08-2024	Cohere	31.76	24.75	19.14	21.27	38.06	29.73	57.61
amazon.nova-micro-v1:0	Amazon	29.59	25.08	20.18	34.49	33.95	15.78	48.04
gemma-2-9b-it	Google	28.66	15.17	22.46	19.80	36.39	25.53	52.62
command-r-08-2024	Cohere	27.48	21.92	17.90	19.39	33.34	16.72	55.62
command-r-plus-04-2024	Cohere	27.11	20.58	19.46	17.99	25.48	19.70	59.47
meta-llama-3.1-8b-instruct-turbo	Meta	25.97	13.33	18.74	18.31	32.82	17.71	54.90
phi-3-small-8k-instruct	Microsoft	24.03	15.92	20.26	17.58	30.29	12.94	47.20
phi-3-mini-128k-instruct	Microsoft	22.36	20.50	15.04	15.72	34.69	9.15	39.08
olmo-2-1124-13b-instruct	AllenAI	22.12	16.33	10.41	13.64	20.60	11.16	60.56
phi-3-mini-4k-instruct	Microsoft	22.08	26.83	15.54	14.96	30.21	8.56	36.36

如何解决

这不是什么不可解决的技术瓶颈。事实上，解决它的方案很多：

动态 Tokenizer

现在 LLM 所常用的 Tokenizer 大致分为 Word-based Tokenizer 和 Character-based Tokenizer 两种。

Word-based Tokenizer 会将文字拆分为单词，而 Character-based Tokenizer 会将文字拆分为字母。

Word-based Tokenizer 由于速度快，且能够更好地处理语义信息，因此在大多数情况下被广泛使用。

但是，当遇到类似 strawberry 有几个 r 这样的问题时，Character-based Tokenizer 显然更加适合。

因此，我们应该让 LLM 能像人类一样根据具体需求动态选择 Tokenizer 分词机制。

谣言3: 搜素功能内嵌于 LLM 内

同类误区

某些 LLM 可以浏览网页，某些不能；
本地 LLM 不能联网，闭源大模型才可以；
LLM 能使用哪些 functions 是训练时决定的。

粉碎机

我经常听到有人说 xxx 模型可以联网，但是 xxx 模型不行。

DeepSeek (Search) ChatGPT (Search)

事实上，能否联网与 LLM 本身无关。

“联网搜索”是 LLM 的应用层赋予其的工具，而不是模型本身的能力。

比如 ChatGPT 可以联网搜索，但是它背后的模型 chatgpt-4o-latest 本身并不具备这个能力。

ChatGPT 之所以能联网，是因为 ChatGPT 和 LLM 说了类似这样的内容：

如果你需要搜索，你可以说 “Let's search [query]!”

接着，当 ChatGPT 检测到 LLM 输出了 “Let's search [query]!” 这样的内容时，它会暂停 LLM 输出，并将搜索结果填入：

User: Apple 公司当前股价？ (这条消息用户不会看到) Assistant: Let's search [苹果公司的股价]! (这条消息用户不会看到) System: 搜索结果：[搜索结果1]: 市场概况>苹果 227.65 USD +0.27 (0.12%)今天收盘时间: 2月11日 GMT-5 上午4:30 开盘前 226.62 −1.03 (0.45%) [搜索结果2]: 苹果公司股票价格及图表 | MarketWatch [搜索结果3]: ... Assistant: 苹果公司的当前股价是 227.65 美元，涨幅 0.27 美元。

由此可见，LLM 的搜素功能其实还是纯文本生成，只要是个模型就会，只需要跟它讲清楚怎么使用即可。

同样的原理，任何 LLM 都可以在应用层调用不同的工具，不仅仅是搜索————就像人类使用工具一样，使用计算器、代码编译器、文件管理器、浏览器，甚至是使用其他的 AI。

这一能力与 LLM 本身无关（当然，LLM 需要由基本的文字处理能力，能够听懂指示调用工具；这都是最最基础的能力，对于当今的模型来说都是小菜一碟）。

gpt-4o-2024-11-20 失去了 ChatGPT 应用层的支持，也就不能联网搜索了；相反，如果你给予你本地部署的 Llama 3.1 像是 Ollama OpenWebUI 这样的应用层并安装合适的插件，它也可以联网搜索。

尾声

好叭 ╮(╯-╰)╭

这里的谣言可能写作误区更合适哈哈其实我原来也是这么写的，但是写成误区真的会有人看嘛……

~~我残存的良心让我至少不写成跟微信公众号的传奇标题党一个样，比如什么“重大！你还不知道就落伍了…”或者“AI的那些谣言，还在信的…”~~

然后写得还算通俗易懂(吧) 好多都没深入讲 ~~主要是我这水平也不允许我多讲~~