llms.txt文件是什么?如何创建
llms.txt是专门针对大语言模型(LLM)创建的配置文件,用于声明AI爬虫访问规则、内容使用政策和引用署名要求。与robots.txt类似,放在网站根目录。
llms.txt的作用
llms.txt文件主要实现以下功能:
- 指定哪些AI爬虫可以或不可以访问你的网站
- 声明哪些内容可以或不可以被AI模型用于训练
- 告诉AI引用你的网站内容时应如何署名或链接来源
- 声明结构化数据或知识图谱位置,方便AI理解数据语义
- 提供网站方联系信息,便于AI平台进行合规沟通
llms.txt格式规范
llms.txt采用类似robots.txt的格式,但增加了AI专用指令:
- User-agent:指定适用的AI爬虫
- Allow/Disallow:允许或禁止访问的路径
- Noai:禁止AI训练使用的路径
- Attribution:引用署名要求(required/optional)
- Usage-policy:内容使用政策(read-only/training-allowed)
- Contact:网站联系邮箱
- Sitemap:网站地图位置
llms.txt完整示例
# Example llms.txt
User-agent: GPTBot
Disallow: /private/
Allow: /
User-agent: ClaudeBot
Allow: /blog/
Disallow: /checkout/
# 通用AI访问规则
User-agent: *
Allow: /
Noai: /exclusive/
Attribution: required
Usage-policy: read-only
Contact: webmaster@yourdomain.com
Sitemap: https://www.yourdomain.com/sitemap.xml
如何部署llms.txt
部署步骤非常简单:
- 创建llms.txt文件,填写规则
- 将文件上传到网站根目录(与robots.txt同级)
- 确保文件可通过 https://yourdomain.com/llms.txt 访问
- 验证文件格式正确,无语法错误
与robots.txt的区别
robots.txt主要控制爬虫是否可以访问,而llms.txt更侧重于声明内容的使用方式。两者可以配合使用:robots.txt控制访问权限,llms.txt控制使用权限。
注意事项
llms.txt目前是新兴标准,各AI平台的支持程度可能不同。建议同时配置robots.txt和llms.txt,并定期检查AI爬虫的访问日志,确保规则生效。
业务说明
麻雀GEO提供专业的GEO优化服务、网站/自媒体代运营、静态建站服务,帮助企业提升在AI搜索引擎中的可见性和转化率。如需了解更多,请联系我们。