尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。那这个 llms.txt 到底是什么?有什么用?我们来简单看看。

llms.txt 是什么?

llms.txt 是一个还在提议阶段的网站标准。简单说,就是建议网站在根目录下放一个叫 llms.txt 的 Markdown 文件。

这个文件的主要想法,是给 LLM 提供一个“浓缩版”的网站内容介绍,帮助 AI 更快、更准地理解网站信息。跟普通 HTML 页面不一样的是, llms.txt 会去掉导航菜单、广告、复杂的脚本这些干扰项,只留下最核心、简洁的内容给 AI 看。

标准提案链接 :https://llmstxt.org/

按照官方的说法, llms.txt 主要想解决 LLM 看网站时的两个麻烦:

  1. 上下文窗口不够大 :很多 LLM 一次能处理的信息量有限,塞不下一个完整的复杂网站。

  2. HTML 太难解析 :把花里胡哨的 HTML 网页转成 AI 能懂的纯文本,不仅麻烦还容易出错。

llms.txt 就好比给了 LLM 一张内容“地图”,让它知道去哪里找需要的信息。具体来说,它的好处有:

  1. 让 LLM 看得更明白 :结构化的概要能帮 AI 快速抓住网站重点,不容易被页面样式带偏。

  2. 找信息更高效 :文件里直接给了关键内容的 Markdown 链接,AI 可以直达,不用自己吭哧吭哧爬整个站。 突

  3. 破上下文限制 :对大网站来说,这个精简的入口对 LLM 有限的“内存”更友好。 用在哪里?

  4. 开发文档 :特别适合给编程文档、API 参考用,AI 能更快地回答开发者的问题。

  5. 其他地方 :像电商网站的产品介绍、在线课程的资料、个人博客等等,内容更清晰总归是好事。

robots.txt sitemap.xml 有啥不同?
  • robots.txt :管爬虫能不能进来,但不管内容是什么。

  • sitemap.xml :告诉搜索引擎有哪些页面可以收录,但也不提供内容概要。

  • llms.txt :专门为 AI 设计的,提供优化过的内容结构,方便 AI 理解和处理

llms.txt 长什么样?(规范)

这个规范定义了两种文件:

  • /llms.txt :核心文件,是个简化的导航,告诉 AI 网站大概有什么内容,重点在哪里。

  • /llms-full.txt (可选):如果llms.txt 里放不下,可以把完整的网页内容(比如整个文档页、代码例子)放这里,供 AI 需要深入了解时查阅。

文件的格式有讲究,得按规矩来,方便程序解析:

  1. # 项目名称 :只能有一个 H1 标题,写网站或项目的名字。

  2. > 项目简介 :用 Markdown 的引用格式,简单介绍下这个网站是干嘛的。

  3. ## 核心文档 , ## API 参考 等:用 H2 标题分类,下面用列表 - [链接文字](URL "链接文字"):简单说明 的形式放重要资源的链接和简介。

  4. ## 其他资源(可选):放些次要信息,比如社交账号、联系方式等。

# 示例项目 

 > 一个用来演示 llms.txt 功能的简单项目。 
 
 ## 核心文档 

 - [ 快速入门 ]( https://example.com/quickstart "快速入门" ):教你怎么快速用起来。 

 - [ API 文档 ]( https://example.com/api "API 文档" ):所有 API 的详细说明。 

 ## 示例代码 

 - [ GitHub 仓库 ]( https://github.com/example/repo "GitHub 仓库" ):完整的代码都在这儿。 

 ## 联系方式 

 - https://example.com/contact 

比如 Vite 的 llms.txt 就是这样的:

怎么生成 llms.txt?

现在已经有一些工具能帮你生成 llms.txt 。大致流程都差不多:

爬你的网站(特别是文档站)的核心页面 -> 抓关键信息(标题、简介、链接) -> 按格式生成 llms.txt (和可选的 llms-full.txt ) -> 让你下载或者直接放网站根目录。

可以用下面这些工具试试:

哪里能看到哪些网站用了 llms.txt?

想看看哪些网站用了 llms.txt ?下面这些地方可以找到一些例子:

  • LLMs TXT Hub : https://llmstxthub.com/

  • LLMs TXT Cloud Directory : http://directory.llmstxt.cloud/

  • LLMs TXT Site : https://llmstxt.site/

llms.txt 现在怎么样了?未来呢?

llms.txt 是 Jeremy Howard 在 2024 年 9 月 3 号提出来的。虽然这个标准在 AI 和开发者圈子里有不少讨论,但像 OpenAI、Google 这些大厂还没正式说支持它。

不过,已经有不少平台和工具开始用起来了:

  • 官方和社区工具 :有官方的 Python/CLI 库 ( llms_txt2ctx )、JS 示例代码,可以直接读取网站的 llms.txt 给 LLM 用 。

  • IDE 和 AI 编程助手 :通过 MCPDoc 协议,一些编辑器和 AI 工具(比如 Cursor , Windsurf , Claude Desktop/Code )能读到 llms.txt 里的文档信息  。

  • API 文档平台 :像 Apidog APIfox 这些平台,生成的文档网站会自动带上 llms.txt ,方便它们内置的 AI 助手理解 API。

  • 基于 MCP 协议的工具 :MCP 是个开放协议,一些服务和 SDK (Java, TypeScript, Python 等) 用它来读 llms.txtReplit , Codeium , Sourcegraph 这些平台都在用,方便 AI 应用接入外部文档。

小结

总的来说,llms.txt 还很新,但它提供了一个标准化的方法,让 AI 能更好地和网站内容互动,潜力不小。随着 AI 在搜索、写代码这些场景用得越来越多,这种专门为 AI 优化内容呈现方式,可能会成为一个趋势。

当然,它能不能流行起来,还得看大模型厂商会不会跟进,以及开发者们用不用。现在主要用在技术文档和 API 上,以后可能会用到更多地方。