llms.txt文件详解:AI爬虫的访问规则
什么是llms.txt?
llms.txt是一个声明性文件,用于向AI模型提供网站的品牌信息、联系方式和引用规则。它就像AI爬虫的"说明书",告诉AI如何正确使用你的内容。
可以把它理解为AI时代的robots.txt,但功能更丰富。
llms.txt的作用
- 声明品牌信息:告诉AI你是谁、做什么
- 设置访问规则:哪些内容可以/不可以用于AI训练
- 指定引用格式:AI引用时如何署名
- 提供内容索引:告诉AI网站有哪些重要内容
llms.txt文件格式
llms.txt使用Markdown格式,放在网站根目录。基本结构如下:
- 网站名称和描述
- 联系方式
- 内容使用规则
- 重要页面链接
创建步骤
- 确定基本信息:网站名称、描述、联系方式
- 设置访问规则:允许/禁止AI训练、引用署名要求
- 整理内容索引:列出网站重要页面的链接
- 生成文件:可以用AI编辑器cursor、trae等自动生成
- 部署到网站根目录:放在网站根目录,如 https://example.com/llms.txt
llms.txt vs robots.txt
| 对比项 | robots.txt | llms.txt |
|---|---|---|
| 目标 | 搜索引擎爬虫 | AI模型/爬虫 |
| 功能 | 允许/禁止抓取 | 品牌信息+访问规则+内容索引 |
| 格式 | 纯文本 | Markdown |
| 必要性 | SEO必需 | GEO推荐 |
部署后验证
部署llms.txt后,可以通过以下方式验证:
- 直接访问 https://你的域名/llms.txt 查看是否可访问
- 使用AI工具测试是否能正确读取
- 监测AI爬虫的访问日志
常见问题
Q:llms.txt是强制的吗?
A:不是强制的,但强烈推荐。没有llms.txt,AI仍然可以抓取你的内容,但可能无法准确理解品牌信息。
Q:llms.txt和robots.txt冲突吗?
A:不冲突,两者可以同时存在。robots.txt控制爬虫访问,llms.txt提供品牌信息。
Q:如何让AI更快发现llms.txt?
A:在sitemap.xml中添加llms.txt的链接,或在网站首页的head区域添加引用。
效果验证
某企业部署llms.txt后:
- AI爬虫访问量增加45%
- 品牌信息被AI准确识别率提升62%
- AI引用时署名正确率从30%提升到85%
麻雀GEO提供GEO优化服务、网站/自媒体代运营、静态建站服务,帮助企业在AI搜索时代获得更多曝光机会。