编辑
2025-10-12
大模型学习
00

大语言模型(LLM)中的 Token 详解

在大语言模型(Large Language Models, LLM)中,Token 是模型处理和理解自然语言的基本单位,也是其“思考”和“表达”的最小单元。理解 Token 对于掌握大模型的工作原理、使用限制以及成本计算至关重要。


一、什么是 Token?

Token 并不严格等同于“一个字”或“一个词”,而是由特定分词(Tokenization)算法决定的文本片段。它可以是:

  • 一个完整的单词(如英文 "cat")
  • 一个汉字(如中文 "猫")
  • 一个子词(subword),例如 "unhappiness" 可能被拆分为 ["un", "happi", "ness"]
  • 一个标点符号(如 "."、"!")
  • 一个数字或特殊符号(如 "2025"、"$")

在 LLM 中,token 代表模型可以理解和生成的最小意义单位,是模型的基础单元 。根据所使用的特定标记化方案,token 可以表示单词、单词的一部分,甚至只表示字符 。


编辑
2025-10-08
大模型学习
00

一、 初始阶段:独热编码(One-Hot Encoding)—— 身份的标识符

在自然语言处理(NLP)的初期,我们面临一个最根本的问题:如何将人类语言中的词语(一种符号表示)转化为计算机能够处理的数值形式。最直观、最简单的解决方案就是独热编码

1. 核心思想

独热编码是一种将分类变量(Categorical Data)映射为二进制向量的方法。其核心在于:为词典中的每一个唯一词分配一个唯一的整数索引,并使用一个稀疏二进制向量来表示它。这个向量的长度等于词典的大小,其中只有对应词索引的那一维度为1,其他所有维度都为0