尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt
文件。这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。那这个 llms.txt
到底是什么?有什么用?我们来简单看看。
llms.txt 是什么?
llms.txt
是一个还在提议阶段的网站标准。简单说,就是建议网站在根目录下放一个叫 llms.txt 的 Markdown 文件。
这个文件的主要想法,是给 LLM 提供一个“浓缩版”的网站内容介绍,帮助 AI 更快、更准地理解网站信息。跟普通 HTML 页面不一样的是, llms.txt
会去掉导航菜单、广告、复杂的脚本这些干扰项,只留下最核心、简洁的内容给 AI 看。
标准提案链接 :https://llmstxt.org/
按照官方的说法, llms.txt 主要想解决 LLM 看网站时的两个麻烦:
上下文窗口不够大 :很多 LLM 一次能处理的信息量有限,塞不下一个完整的复杂网站。
HTML 太难解析 :把花里胡哨的 HTML 网页转成 AI 能懂的纯文本,不仅麻烦还容易出错。
llms.txt
就好比给了 LLM 一张内容“地图”,让它知道去哪里找需要的信息。具体来说,它的好处有:
让 LLM 看得更明白 :结构化的概要能帮 AI 快速抓住网站重点,不容易被页面样式带偏。
找信息更高效 :文件里直接给了关键内容的 Markdown 链接,AI 可以直达,不用自己吭哧吭哧爬整个站。 突
破上下文限制 :对大网站来说,这个精简的入口对 LLM 有限的“内存”更友好。 用在哪里?
开发文档 :特别适合给编程文档、API 参考用,AI 能更快地回答开发者的问题。
其他地方 :像电商网站的产品介绍、在线课程的资料、个人博客等等,内容更清晰总归是好事。
跟 robots.txt 和 sitemap.xml 有啥不同?
robots.txt :管爬虫能不能进来,但不管内容是什么。
sitemap.xml :告诉搜索引擎有哪些页面可以收录,但也不提供内容概要。
llms.txt :专门为 AI 设计的,提供优化过的内容结构,方便 AI 理解和处理
llms.txt 长什么样?(规范)
这个规范定义了两种文件:
/llms.txt
:核心文件,是个简化的导航,告诉 AI 网站大概有什么内容,重点在哪里。/llms-full.txt
(可选):如果llms.txt
里放不下,可以把完整的网页内容(比如整个文档页、代码例子)放这里,供 AI 需要深入了解时查阅。
文件的格式有讲究,得按规矩来,方便程序解析:
# 项目名称
:只能有一个 H1 标题,写网站或项目的名字。> 项目简介
:用 Markdown 的引用格式,简单介绍下这个网站是干嘛的。## 核心文档
,## API 参考
等:用 H2 标题分类,下面用列表 - [链接文字](URL "链接文字"):简单说明 的形式放重要资源的链接和简介。## 其他资源
(可选):放些次要信息,比如社交账号、联系方式等。
# 示例项目
> 一个用来演示 llms.txt 功能的简单项目。
## 核心文档
- [ 快速入门 ]( https://example.com/quickstart "快速入门" ):教你怎么快速用起来。
- [ API 文档 ]( https://example.com/api "API 文档" ):所有 API 的详细说明。
## 示例代码
- [ GitHub 仓库 ]( https://github.com/example/repo "GitHub 仓库" ):完整的代码都在这儿。
## 联系方式
- https://example.com/contact
比如 Vite 的 llms.txt 就是这样的:
怎么生成 llms.txt?
现在已经有一些工具能帮你生成 llms.txt
。大致流程都差不多:
爬你的网站(特别是文档站)的核心页面 -> 抓关键信息(标题、简介、链接) -> 按格式生成 llms.txt (和可选的 llms-full.txt ) -> 让你下载或者直接放网站根目录。
可以用下面这些工具试试:
Firecrawl LLMs.txt Generator :还在测试中,提供 API,给个网址就能拿到 llms.txt 和 llms-full.txt 。
SiteSpeakAI LLMs.txt Generator :免费在线工具,输入域名,它帮你爬内容、生成文件。
apify/actor-llmstxt-generator :一个开源爬虫工具 (Apify Actor),能深度爬取网站生成 llms.txt 。
WordLift AI-Powered SEO Generator :这个工具更偏 SEO,企业版功能更强,生成的 llms.txt 对搜索引擎和 AI 都友好。
Mintlify :如果你用 Mintlify 托管文档,它会自动帮你生成并部署好 /llms.txt 。
哪里能看到哪些网站用了 llms.txt?
想看看哪些网站用了 llms.txt ?下面这些地方可以找到一些例子:
LLMs TXT Hub : https://llmstxthub.com/
LLMs TXT Cloud Directory : http://directory.llmstxt.cloud/
LLMs TXT Site : https://llmstxt.site/
llms.txt 现在怎么样了?未来呢?
llms.txt
是 Jeremy Howard 在 2024 年 9 月 3 号提出来的。虽然这个标准在 AI 和开发者圈子里有不少讨论,但像 OpenAI、Google 这些大厂还没正式说支持它。
不过,已经有不少平台和工具开始用起来了:
官方和社区工具 :有官方的 Python/CLI 库 (
llms_txt2ctx
)、JS 示例代码,可以直接读取网站的llms.txt
给 LLM 用 。IDE 和 AI 编程助手 :通过 MCPDoc 协议,一些编辑器和 AI 工具(比如 Cursor , Windsurf , Claude Desktop/Code )能读到
llms.txt
里的文档信息 。API 文档平台 :像 Apidog 、 APIfox 这些平台,生成的文档网站会自动带上
llms.txt
,方便它们内置的 AI 助手理解 API。基于 MCP 协议的工具 :MCP 是个开放协议,一些服务和 SDK (Java, TypeScript, Python 等) 用它来读
llms.txt
。 Replit , Codeium , Sourcegraph 这些平台都在用,方便 AI 应用接入外部文档。
小结
总的来说,llms.txt
还很新,但它提供了一个标准化的方法,让 AI 能更好地和网站内容互动,潜力不小。随着 AI 在搜索、写代码这些场景用得越来越多,这种专门为 AI 优化内容呈现方式,可能会成为一个趋势。
当然,它能不能流行起来,还得看大模型厂商会不会跟进,以及开发者们用不用。现在主要用在技术文档和 API 上,以后可能会用到更多地方。