自然语言处理的颠覆性观点： Tokens真的是胡扯吗？-易源易彩

摘要
在一篇探讨自然语言处理未来方向的文章中，Mamba模型的作者提出了一个极具争议的观点：“Tokens是胡扯”。文章指出，Transformer模型在处理自然语言时存在根本性的局限，而分词（Tokenization）实际上是为了解决这些缺陷而引入的一种妥协手段。作者认为，Tokenization并非技术优势，而是Transformer架构内在不足的表现。这一观点引发了对当前主流模型设计原则的深刻反思，并为下一代语言模型的发展提供了新的思路。
关键词
自然语言, Mamba模型, Transformer, 分词缺陷, Tokens争议

一、分词技术的起源与Transformer模型的不足

1.1 Transformer模型的内在缺陷

Transformer 模型自 2017 年提出以来，迅速成为自然语言处理领域的核心技术架构。其基于注意力机制的设计，使得模型能够并行处理信息，显著提升了计算效率和长序列建模能力。然而，随着研究的深入，Transformer 的一些根本性缺陷也逐渐显现。首先，该模型在处理连续文本时依赖于离散化的“Token”表示，这种将语言切分为固定单位的方式，本质上割裂了语言的流动性和语义的整体性。其次，Transformer 在面对复杂语境或跨语言任务时，常常表现出对上下文理解的局限性，尤其是在处理歧义、隐喻和文化背景相关表达时显得力不从心。

更深层次的问题在于，Transformer 的结构本身缺乏对语言动态演化过程的有效建模。它无法真正理解词语之间的语义关系，而是通过大规模数据训练出一种统计意义上的关联。这种“机械式”的学习方式虽然在某些任务上取得了惊人的效果，但其泛化能力和推理深度仍存在明显短板。Mamba 模型的作者正是基于这些观察，提出了“Tokens 是胡扯”的观点，认为当前以 Tokenization 为核心的 NLP 范式，实际上是对 Transformer 内在缺陷的一种妥协。

1.2 分词技术的历史背景与必要性

分词（Tokenization）作为自然语言处理的基础环节，早在深度学习兴起之前就已广泛应用于传统语言模型中。它的核心目标是将连续的语言流转化为计算机可处理的离散单元，从而便于后续的建模与分析。早期的 N-gram 模型依赖于简单的空格或标点进行分词，而随着神经网络的发展，BPE（Byte Pair Encoding）和 WordPiece 等算法被引入，以应对词汇爆炸和未登录词问题。

在 Transformer 架构中，Tokenization 成为了不可或缺的一环。由于 Transformer 无法直接处理原始文本，必须通过分词器将字符序列转换为向量输入。这一过程不仅决定了模型对语言的基本感知方式，也在很大程度上影响了其性能表现。然而，这种看似必要的技术手段，实则是模型自身能力不足的体现。正如 Mamba 的作者所指出的那样，如果模型具备更强的上下文理解和连续建模能力，是否还需要人为地将语言切割成一个个孤立的 Token？

1.3 分词过程如何掩盖模型的不足

尽管 Tokenization 在工程实现上带来了便利，但它也掩盖了 Transformer 模型在语言理解上的诸多缺陷。首先，分词过程导致了语义信息的丢失。例如，一个复杂的句子可能因分词不当而被错误地拆解，进而影响模型对整体语义的理解。此外，不同语言的分词策略差异巨大，这使得多语言模型难以实现真正的统一建模。

更重要的是，Tokenization 强化了模型对局部上下文的依赖，削弱了其对全局语义结构的把握。Transformer 通过位置编码来弥补序列顺序信息的缺失，但这并不能从根本上解决语言的连贯性问题。Mamba 模型的提出者正是看到了这一点，试图通过摒弃 Tokenization 的限制，探索一种更为自然、流畅的语言建模方式。他们认为，只有摆脱对 Token 的依赖，才能真正迈向更具人类语言理解能力的下一代模型。

二、Mamba模型与分词技术的争议

2.1 Mamba模型对分词的新见解

Mamba模型的提出，标志着自然语言处理领域的一次重大转向。与传统Transformer模型依赖于Tokenization不同，Mamba的作者大胆质疑这一技术手段的必要性，并指出其本质是Transformer架构缺陷的“遮羞布”。在他们看来，将语言切分为离散的Token，不仅破坏了语言的连续性和语义的整体性，也限制了模型对语言深层结构的理解能力。

Mamba模型尝试绕过分词这一环节，直接处理原始文本中的字符序列，从而实现更自然的语言建模方式。这种设计背后的理念是：语言本质上是一种流动的、连续的表达系统，而非由一个个孤立单元拼接而成的机械组合。通过摒弃Tokenization，Mamba试图还原语言的真实面貌，使模型能够更贴近人类语言理解的本质过程。这一理念挑战了当前NLP领域的主流范式，也为未来模型设计提供了全新的视角。

2.2 分词争议在学术界的影响

“Tokens是胡扯”这一观点一经提出，便在学术界引发了广泛讨论。支持者认为，这是对现有模型局限性的深刻反思，有助于推动研究者重新思考语言建模的基本假设；而反对者则强调，Tokenization作为工程实践中的有效工具，不应因其带来的问题而被全盘否定。这场争论不仅揭示了Transformer模型在语言理解上的根本性难题，也促使更多研究者关注如何构建更具语义感知能力的模型。

值得注意的是，Mamba模型的出现并非意味着Tokenization时代的终结，而是为学界提供了一个重要的反思契机。越来越多的研究开始探索不依赖于传统分词机制的语言处理方法，例如基于字符的建模、连续空间表示等。这些尝试表明，学术界正在从“以模型适配语言”向“以语言驱动模型”转变，这或许将成为下一代语言模型发展的关键方向。

2.3 未来自然语言处理的可能趋势

展望未来，自然语言处理的发展或将进入一个去Token化、重语义理解的新阶段。随着Mamba等新型模型的出现，研究者开始尝试突破传统框架，探索更加灵活、动态的语言建模方式。这一趋势不仅体现在模型结构的创新上，也反映在数据处理和训练策略的变革中。

未来的语言模型可能会更加注重对语言整体结构的把握，减少对人工预处理步骤的依赖，从而实现端到端的自然语言理解。此外，跨语言、跨模态的统一建模也将成为重要发展方向，推动AI在多语言交流、人机对话等场景中的深度应用。正如Mamba所启示的那样，只有跳出Tokenization的思维定式，才能真正迈向更具人类语言智能水平的下一代模型。

三、深入探讨分词在自然语言处理中的作用

3.1 分词对语言理解的贡献

尽管Mamba模型的作者对Tokenization提出了尖锐批评，但不可否认的是，分词技术在自然语言处理的发展历程中发挥了关键作用。作为连接人类语言与计算机理解之间的桥梁，分词将连续的语言流转化为离散的、可计算的单元，使得机器能够初步“读懂”文本。这一过程不仅为后续的语言建模、句法分析和语义理解奠定了基础，也在很大程度上推动了深度学习在NLP领域的广泛应用。

以BPE（Byte Pair Encoding）和WordPiece为代表的现代分词算法，有效缓解了词汇爆炸问题，并提升了模型对未登录词的处理能力。例如，在2018年BERT模型推出时，其采用的WordPiece技术显著提高了模型在多项NLP任务中的表现，成为当时的一大技术亮点。此外，分词还帮助模型更好地捕捉语言的结构特征，如词性、句法角色等，从而提升整体的语言理解能力。可以说，在Transformer时代，分词是实现高效语言建模不可或缺的一环，它虽非完美，却在特定历史阶段为技术进步提供了重要支撑。

3.2 分词技术的局限性

然而，随着模型规模的扩大和应用场景的复杂化，分词技术的局限性也日益显现。首先，分词过程本质上是一种人为的语言抽象行为，它将原本流动的语言切分为固定单位，不可避免地造成语义信息的割裂。例如，一个复合词可能被错误拆解为多个无意义片段，导致模型无法准确理解其真实含义。这种现象在多语言或低资源语言中尤为突出，严重影响了模型的泛化能力。

其次，分词器的设计往往依赖于特定语言的语法规则和统计特性，这使得跨语言建模变得复杂且不统一。不同语言的分词策略差异巨大，增加了模型训练和部署的成本。更重要的是，分词强化了模型对局部上下文的依赖，削弱了其对全局语义结构的把握。正如Mamba模型的作者所指出的那样，如果模型具备更强的上下文理解和连续建模能力，是否还需要人为地将语言切割成一个个孤立的Token？这一质疑直指当前NLP范式的深层矛盾，也为未来语言建模方式的革新提供了思考方向。

3.3 分词对写作风格的潜在影响

除了在技术层面引发争议，分词机制还可能对写作风格产生潜移默化的影响。由于模型训练依赖于特定的分词策略，其生成的文本往往会呈现出与训练数据中分词模式高度一致的语言风格。例如，某些模型倾向于使用短句、重复结构或常见搭配，以适应分词后的语言表示方式。这种“分词驱动”的写作倾向，虽然在一定程度上提升了生成文本的流畅性和可读性，但也可能导致语言表达的趋同化和创造力的下降。

此外，分词还可能影响写作者的语言选择习惯。为了迎合模型的输入格式，一些创作者可能会有意无意地调整自己的用词方式，避免使用复杂结构或罕见词汇，从而限制了语言表达的多样性。这种现象在AI辅助写作工具日益普及的今天尤为值得关注。Mamba模型提出的去Token化理念，正是对这一趋势的反思——只有摆脱对分词的依赖，才能真正释放语言的丰富性和创造性，让AI写作更贴近人类思维的本质。

四、总结

Mamba模型对Tokenization的质疑，揭示了当前自然语言处理领域一个长期被忽视的核心问题：分词究竟是语言建模的必要手段，还是Transformer架构局限性的妥协产物？从2017年Transformer提出至今，其基于注意力机制的设计虽极大推动了NLP的发展，但也暴露出对离散Token表示的高度依赖。BPE、WordPiece等分词技术虽在工程实践中有效缓解了词汇爆炸和未登录词问题，却也带来了语义割裂、跨语言建模困难等新挑战。Mamba模型尝试绕过这一传统路径，直接处理连续文本，为下一代语言模型提供了新的设计思路。这一转向不仅关乎技术架构的革新，更意味着我们对语言本质理解的深化。未来NLP的发展或将逐步摆脱对Tokenization的依赖，迈向更贴近人类语言感知的建模方式，实现真正意义上的自然语言理解。