关于 AI 的三大谣言/误区
作者 / AUTHOR 白墨麒麟 BaimoQilin (初稿 审核); gemin-exp-1206 (文笔润色)
授权协议 / LICENSE CC-BY-NC-SA 署名-非商业性使用-相同方式共享
撰稿日期 / DATE OF WRITING 2/11/2025 18:11
Note
标题党了,本文中的的 AI 指的是
谣言1: LLM 依赖自身数据库/网络检索提供答案
同类误区
-
LLM 并不真正理解自己自己所输出的内容;
-
LLM 不会犯错;
-
LLM 不会忘记事情;
-
LLM 只能解自己题库中出现的题;
-
LLM 只是一个更聪明的 “专家系统”;
-
LLM 在文字方面永远不可能达到人类的水平,因为其缺乏情感和“人性”。
粉碎机
-
LLM 回答问题并不是整合数据库内的数据或者通过搜索引擎搜索到的答案,这意味着 LLM 可以创造新的内容,而不仅仅是整合已有的内容。
-
LLM 会犯错,也会忘记事情。事实上,大量存在于其训练数据中的内容 LLM 都不能正确回答。
-
LLM 可以回答其从未见过的问题,因为它可以理解问题的语义,而不仅仅是记住问题的解法和答案。
为什么会这样
很多人对 AI 的认识还停留在 15 年前乔布斯在 iPhone 4S 发布会上发布的基于专家系统的 Siri。
flowchart TD
A[用户提问] --> B{检测关键词?}
B -- 是 --> C[检索规则数据库]
C --> D{规则是否匹配?}
D -- 是 --> E[返回预设答案]
D -- 否 --> F[进行网络检索]
F --> G{网络检索有结果?}
G -- 是 --> H[返回网络检索结果]
G -- 否 --> I[返回默认回应]
B -- 否 --> J[无法识别,返回错误提示]
(图: Siri 原理简示)
这种基于人工编撰的规则和数据库的 AI 系统,回答问题确实依赖 LLM 自身数据库/搜索引擎、不会犯错、不会忘记数据库中的内容、只能解题库中的问题。
LLM 虽然都属于人类试图使用使用机器模拟智能的产物,看起来似乎只是比 Siri 更聪明,
但在事实上 LLM 与 Siri 存在本质不同。
LLM 是试图借助 ANNs (Artificial Neural Network, 人工神经网络) 完成文本生成任务的一类 ML (Machine Learning, 机器学习) 模型。
人工神经网络的中心思想是模仿生物神经网络(动物的中枢神经系统,特别是人类大脑)
我们知道,人类大脑由神经元和突触组成,神经元之间通过突触传递信号。神经元接收到的信号超过一定阈值,就会激活,向下一个神经元传递信号。 同样,LLM 的人工神经网络也有电子神经元和电子突触,电子神经元之间也通过电子突触传递信号。不同的电子神经元带有不同的权重,这些权重决定了信号传递的强度。
(图: 人工神经元视图; 图源: 维基百科“人工神经元”条目)
人工神经网络的训练过程就是调整神经元之间的连接权重,使得网络能够完成特定的任务。
(图:深度学习拟合的抽象类比演示; 图源:BaimoQilin 自制 (ARR))
如上面的动图所示,随着训练次数的增加,通过计算最佳的连接权重,Error (误差)的值逐渐降低,且神经网络预测的结果会越来越接近真实结果。
事实上,人类大脑学习的本质也与神经元之间的连接关系的调整密切相关。大脑通过一种叫做突触可塑性(Synaptic Plasticity)的机制来学习和记忆信息。
突出可塑性
突触可塑性指的是神经元之间连接的强度可以随着时间的推移而增强或减弱,从而影响神经信号的传递效率。 这种连接的调整使得大脑能够根据经验和学习逐步改变自己的功能,以适应外部环境的变化和需求。 大脑的学习过程不仅仅是神经元之间的电化学信号传递,还包括这些信号在神经元网络中如何通过调整连接强度来塑造大脑的功能和记忆。
粗略总结,人类学习的核心就是通过调整神经元之间的连接强度,进而改变大脑的反应模式和行为。
LLM 的训练过程与人类学习的过程有着惊人的相似之处。好吧,其实这一点也不惊人:
因为正如前面所言 人工神经网络的中心思想是模仿生物神经网络 。
这意味着:
LLM 学习的本质与人类学习相同,其间没有不可逾越的鸿沟。
于是,这类谣言就不攻自破了。
人类在文字方面能做到的,LLM 现在就能或者将来一定能做到,甚至做得更好,包括营销号们所说的“人类独有的人性特点”;
同样,人类在心理学上的认知偏差,LLM 也会有。有一些数学题故意多给没用的条件,这种针对人类心理学认知偏差的陷阱,LLM 也会掉进去。
谣言2: 问 strawberry 有几个 r 是测试 LLM 智力的好方法
同类误区
-
9.11 和 9.9 哪个大答错就说明 LLM 数学很差;
-
LLM 无法数清字数说明 LLM 智力不行。
粉碎机
这类问题之所以 LLM 普遍会答错,其根本原因是 Tokenizer。
(图: Tokenizer 分词示例; 图源: OpenAI 官网)
如图所示,像是 “你好,欢迎阅读BaimoQilin的Cynia Blogs。” 这样的文字在 LLM 眼中是:
你好
,
欢迎
阅读
B
aim
o
Q
ilin
的
C
yn
ia
Blogs
。
回想人类阅读文字的过程:当我们阅读母语文字时,并不会一个一个字、或一个一个字母地读,而是将字或字母组成的词语作为一个整体来理解。
比如我们不会把 strawberry 看成
s
t
r
a
w
b
e
r
r
y
而是将这些字母视为一个整体。但是,当我们想要数清 strawberry 中有几个 r 时,我们会将其拆分为字母,然后数清 r 的个数。
你可以尝试一下,不看 strawberry 这个词,闭上眼睛,不要想 strawberry 的拼写,只在脑海里想 strawberry 这个词的语义———— 你还能数清 strawberry 中有几个 r 吗?
这就是 LLM 的困境所在:LLM 没有动态分词的能力,它只能将词语视作一个整体————在一般情况下,这样做就够了————但是当遇到 strawberry 有几个 r 这样的问题时,LLM 却不能像人类一样灵活的切换分词方法。
对于 9.9 和 9.11 哪个大也是一样的,LLM 会将 9 和 11 视为两个整体。
这就好像在做 16 进制计算一样: 在 LLM 眼里,9.11 相当于 9.b16,而 9.b16 确实比 9.916 大。
事实上,一个聪明的 LLM 可能会因为 Tokenizer 答错这个问题,而一个更笨但使用了 Character-based Tokenizer 的 LLM 可能会答对这个问题。
<衡量一个 LLM 的智力不能通过一两个问题来判断,这样既不全面也不客观。LLM 本身具有很强的随机性,同一个模型回答同一个问题每次也可能会有不同的答案,同时不同的 LLM 擅长的领域也略有不同。想要全面客观地评价一个 LLM 的性能,需要问成百上千个问题并综合平均结果。
比如开源的 LiveBench 数据集中包含了超过 1260 个问题,涵盖了 数学、编程、推理、语言、数据分析、指令遵循 六个领域,时常更新最新的题目避免试题过时,通过程序自动问问题、检测答案的正确性,脱离了人的主观评价,客观真实地评价了 LLM 的性能。
LiveBench 2/11/2025 测试结果快照.
完整最新的结果见 livebench.ai
Model | Organization | Global Average | Reasoning Average | Coding Average | Mathematics Average | Data Analysis Average | Language Average | IF Average |
---|---|---|---|---|---|---|---|---|
o3-mini-2025-01-31-high | OpenAI | 75.88 | 89.58 | 82.74 | 77.29 | 70.64 | 50.68 | 84.36 |
o1-2024-12-17-high | OpenAI | 75.67 | 91.58 | 69.69 | 80.32 | 65.47 | 65.39 | 81.55 |
deepseek-r1 | DeepSeek | 71.57 | 83.17 | 66.74 | 80.71 | 69.78 | 48.53 | 80.51 |
o3-mini-2025-01-31-medium | OpenAI | 70.01 | 86.33 | 65.38 | 72.37 | 66.56 | 46.26 | 83.16 |
gemini-2.0-flash-thinking-exp-01-21 | 66.92 | 78.17 | 53.49 | 75.85 | 69.37 | 42.18 | 82.47 | |
gemini-2.0-pro-exp-02-05 | 65.13 | 60.08 | 63.49 | 70.97 | 68.02 | 44.85 | 83.38 | |
gemini-exp-1206 | 64.09 | 57.00 | 63.41 | 72.36 | 63.16 | 51.29 | 77.34 | |
o3-mini-2025-01-31-low | OpenAI | 62.45 | 69.83 | 61.46 | 63.06 | 62.04 | 38.25 | 80.06 |
qwen2.5-max | Alibaba | 62.29 | 51.42 | 64.41 | 58.35 | 67.93 | 56.28 | 75.35 |
gemini-2.0-flash | 61.47 | 55.25 | 53.92 | 65.62 | 67.55 | 40.69 | 85.79 | |
deepseek-v3 | DeepSeek | 60.45 | 56.75 | 61.77 | 60.54 | 60.94 | 47.48 | 75.25 |
gemini-2.0-flash-exp | 59.26 | 59.08 | 54.36 | 60.39 | 61.67 | 38.22 | 81.86 | |
claude-3-5-sonnet-20241022 | Anthropic | 59.03 | 56.67 | 67.13 | 52.28 | 55.03 | 53.76 | 69.30 |
chatgpt-4o-latest-2025-01-29 | OpenAI | 57.79 | 57.92 | 60.56 | 48.02 | 66.00 | 49.14 | 65.07 |
o1-mini-2024-09-12 | OpenAI | 57.76 | 72.33 | 48.05 | 61.99 | 57.92 | 40.89 | 65.40 |
step-2-16k-202411 | StepFun | 56.02 | 52.17 | 47.19 | 48.77 | 63.72 | 44.39 | 79.88 |
gpt-4o-2024-08-06 | OpenAI | 55.33 | 53.92 | 51.44 | 49.54 | 60.91 | 47.59 | 68.58 |
gemini-1.5-pro-002 | 54.33 | 49.08 | 48.80 | 59.07 | 54.97 | 43.29 | 70.78 | |
grok-2-1212 | xAI | 54.30 | 54.83 | 46.44 | 54.88 | 54.45 | 45.58 | 69.63 |
gemini-2.0-flash-lite-preview-02-05 | 53.24 | 50.08 | 43.80 | 55.54 | 57.47 | 34.28 | 78.28 | |
dracarys2-72b-instruct | AbacusAI | 52.64 | 47.38 | 58.92 | 54.66 | 55.51 | 34.12 | 65.22 |
meta-llama-3.1-405b-instruct-turbo | Meta | 52.36 | 53.25 | 42.65 | 41.07 | 55.85 | 45.46 | 75.90 |
gpt-4o-2024-11-20 | OpenAI | 52.19 | 55.75 | 46.08 | 42.87 | 56.15 | 47.37 | 64.94 |
learnlm-1.5-pro-experimental | 52.19 | 43.42 | 46.87 | 57.75 | 54.97 | 41.98 | 68.16 | |
chatgpt-4o-latest-0903 | OpenAI | 51.66 | 50.50 | 47.44 | 42.45 | 57.93 | 45.30 | 66.37 |
qwen2.5-72b-instruct-turbo | Alibaba | 51.44 | 45.42 | 57.64 | 54.29 | 51.91 | 34.99 | 64.39 |
gpt-4-turbo-2024-04-09 | OpenAI | 50.40 | 50.92 | 49.00 | 43.02 | 54.36 | 44.26 | 60.85 |
llama-3.3-70b-instruct-turbo | Meta | 50.16 | 50.75 | 36.59 | 42.24 | 49.49 | 39.20 | 82.67 |
deepseek-r1-distill-llama-70b | DeepSeek | 49.66 | 67.58 | 50.97 | 58.11 | 55.93 | 23.81 | 41.55 |
grok-beta | xAI | 49.18 | 37.00 | 45.15 | 45.84 | 54.27 | 43.16 | 69.62 |
claude-3-opus-20240229 | Anthropic | 49.16 | 40.58 | 38.59 | 43.62 | 57.89 | 50.39 | 63.89 |
mistral-large-2411 | Mistral AI | 48.43 | 43.50 | 47.08 | 42.55 | 50.15 | 39.39 | 67.93 |
qwen2.5-coder-32b-instruct | Alibaba | 46.23 | 42.08 | 56.85 | 46.61 | 49.87 | 23.25 | 58.69 |
dracarys2-llama-3.1-70b-instruct | AbacusAI | 46.21 | 44.67 | 36.31 | 40.30 | 53.98 | 38.78 | 63.24 |
meta-llama-3.1-70b-instruct-turbo | Meta | 44.89 | 43.00 | 33.49 | 34.72 | 53.75 | 35.42 | 68.98 |
amazon.nova-pro-v1:0 | Amazon | 43.53 | 32.58 | 38.15 | 38.04 | 48.31 | 36.96 | 67.13 |
claude-3-5-haiku-20241022 | Anthropic | 43.45 | 28.08 | 51.36 | 35.54 | 48.45 | 35.37 | 61.88 |
deepseek-r1-distill-qwen-32b | DeepSeek | 42.93 | 52.25 | 32.85 | 59.36 | 45.41 | 26.82 | 40.92 |
mistral-small-2501 | Mistral AI | 42.55 | 36.42 | 35.31 | 39.89 | 53.69 | 30.46 | 59.54 |
phi-4 | Microsoft | 41.61 | 47.83 | 30.67 | 41.98 | 45.17 | 25.61 | 58.38 |
gpt-4o-mini-2024-07-18 | OpenAI | 41.26 | 32.75 | 43.15 | 36.31 | 49.96 | 28.61 | 56.80 |
qwq-32b-preview | Alibaba | 40.25 | 57.71 | 37.20 | 58.26 | 31.62 | 21.09 | 35.59 |
gemma-2-27b-it | 38.18 | 28.08 | 35.95 | 26.46 | 47.87 | 32.62 | 58.10 | |
amazon.nova-lite-v1:0 | Amazon | 36.35 | 36.67 | 27.46 | 36.70 | 37.23 | 25.93 | 54.13 |
qwen2.5-7b-instruct-turbo | Alibaba | 34.90 | 28.42 | 38.37 | 39.51 | 35.22 | 15.80 | 52.11 |
mistral-small-2409 | Mistral AI | 33.42 | 29.92 | 25.74 | 24.42 | 42.73 | 24.49 | 53.23 |
command-r-plus-08-2024 | Cohere | 31.76 | 24.75 | 19.14 | 21.27 | 38.06 | 29.73 | 57.61 |
amazon.nova-micro-v1:0 | Amazon | 29.59 | 25.08 | 20.18 | 34.49 | 33.95 | 15.78 | 48.04 |
gemma-2-9b-it | 28.66 | 15.17 | 22.46 | 19.80 | 36.39 | 25.53 | 52.62 | |
command-r-08-2024 | Cohere | 27.48 | 21.92 | 17.90 | 19.39 | 33.34 | 16.72 | 55.62 |
command-r-plus-04-2024 | Cohere | 27.11 | 20.58 | 19.46 | 17.99 | 25.48 | 19.70 | 59.47 |
meta-llama-3.1-8b-instruct-turbo | Meta | 25.97 | 13.33 | 18.74 | 18.31 | 32.82 | 17.71 | 54.90 |
phi-3-small-8k-instruct | Microsoft | 24.03 | 15.92 | 20.26 | 17.58 | 30.29 | 12.94 | 47.20 |
phi-3-mini-128k-instruct | Microsoft | 22.36 | 20.50 | 15.04 | 15.72 | 34.69 | 9.15 | 39.08 |
olmo-2-1124-13b-instruct | AllenAI | 22.12 | 16.33 | 10.41 | 13.64 | 20.60 | 11.16 | 60.56 |
phi-3-mini-4k-instruct | Microsoft | 22.08 | 26.83 | 15.54 | 14.96 | 30.21 | 8.56 | 36.36 |
如何解决
这不是什么不可解决的技术瓶颈。事实上,解决它的方案很多:
动态 Tokenizer
现在 LLM 所常用的 Tokenizer 大致分为 Word-based Tokenizer 和 Character-based Tokenizer 两种。
Word-based Tokenizer 会将文字拆分为单词,而 Character-based Tokenizer 会将文字拆分为字母。
Word-based Tokenizer 由于速度快,且能够更好地处理语义信息,因此在大多数情况下被广泛使用。
但是,当遇到类似 strawberry 有几个 r 这样的问题时,Character-based Tokenizer 显然更加适合。
因此,我们应该让 LLM 能像人类一样根据具体需求动态选择 Tokenizer 分词机制。
相关的研究正在进行中。
强制数字单独分词
问 strawberry 有几个 r 这样的问题其实毫无意义,但是 9.9 和 9.11 哪个大这样的问题却对模型的数学能力确实有一定影响。 一个简便的办法就是强制数字单独分词,而单词照旧。这个方案已经被 LLama 3 等许多 LLM 采用。
谣言3: 搜素功能内嵌于 LLM 内
同类误区
-
某些 LLM 可以浏览网页,某些不能;
-
本地 LLM 不能联网,闭源大模型才可以;
-
LLM 能使用哪些 functions 是训练时决定的。
粉碎机
我经常听到有人说 xxx 模型可以联网,但是 xxx 模型不行。
事实上,能否联网与 LLM 本身无关。
“联网搜索”是 LLM 的应用层赋予其的工具,而不是模型本身的能力。
比如 ChatGPT 可以联网搜索,但是它背后的模型 chatgpt-4o-latest
本身并不具备这个能力。
ChatGPT 之所以能联网,是因为 ChatGPT 和 LLM 说了类似这样的内容:
如果你需要搜索,你可以说 “Let's search [query]!”
接着,当 ChatGPT 检测到 LLM 输出了 “Let's search [query]!” 这样的内容时,它会暂停 LLM 输出,并将搜索结果填入:
User: Apple 公司当前股价? (这条消息用户不会看到) Assistant: Let's search [苹果公司的股价]! (这条消息用户不会看到) System: 搜索结果:[搜索结果1]: 市场概况>苹果 227.65 USD +0.27 (0.12%)今天 收盘时间: 2月11日 GMT-5 上午4:30 开盘前 226.62 −1.03 (0.45%) [搜索结果2]: 苹果公司股票价格及图表 | MarketWatch [搜索结果3]: ... Assistant: 苹果公司的当前股价是 227.65 美元,涨幅 0.27 美元。
由此可见,LLM 的搜素功能其实还是纯文本生成,只要是个模型就会,只需要跟它讲清楚怎么使用即可。
同样的原理,任何 LLM 都可以在应用层调用不同的工具,不仅仅是搜索————就像人类使用工具一样,使用计算器、代码编译器、文件管理器、浏览器,甚至是使用其他的 AI。
这一能力与 LLM 本身无关(当然,LLM 需要由基本的文字处理能力,能够听懂指示调用工具;这都是最最基础的能力,对于当今的模型来说都是小菜一碟)。
gpt-4o-2024-11-20
失去了 ChatGPT 应用层的支持,也就不能联网搜索了;相反,如果你给予你本地部署的 Llama 3.1 像是 Ollama OpenWebUI 这样的应用层并安装合适的插件,它也可以联网搜索。
尾声
好叭 ╮(╯-╰)╭
这里的谣言可能写作误区更合适哈哈 其实我原来也是这么写的,但是写成误区真的会有人看嘛……
我残存的良心让我至少不写成跟微信公众号的传奇标题党一个样,比如什么“重大!你还不知道就落伍了…”或者“AI的那些谣言,还在信的…”
然后写得还算通俗易懂(吧) 好多都没深入讲 主要是我这水平也不允许我多讲