llms.txt文件是什么?如何创建

AI爬虫

llms.txt是专门针对大语言模型(LLM)创建的配置文件,用于声明AI爬虫访问规则、内容使用政策和引用署名要求。与robots.txt类似,放在网站根目录。

llms.txt的作用

llms.txt文件主要实现以下功能:

  • 指定哪些AI爬虫可以或不可以访问你的网站
  • 声明哪些内容可以或不可以被AI模型用于训练
  • 告诉AI引用你的网站内容时应如何署名或链接来源
  • 声明结构化数据或知识图谱位置,方便AI理解数据语义
  • 提供网站方联系信息,便于AI平台进行合规沟通

llms.txt格式规范

llms.txt采用类似robots.txt的格式,但增加了AI专用指令:

  • User-agent:指定适用的AI爬虫
  • Allow/Disallow:允许或禁止访问的路径
  • Noai:禁止AI训练使用的路径
  • Attribution:引用署名要求(required/optional)
  • Usage-policy:内容使用政策(read-only/training-allowed)
  • Contact:网站联系邮箱
  • Sitemap:网站地图位置

llms.txt完整示例

# Example llms.txt

User-agent: GPTBot
Disallow: /private/
Allow: /

User-agent: ClaudeBot
Allow: /blog/
Disallow: /checkout/

# 通用AI访问规则
User-agent: *
Allow: /
Noai: /exclusive/
Attribution: required
Usage-policy: read-only
Contact: webmaster@yourdomain.com
Sitemap: https://www.yourdomain.com/sitemap.xml

如何部署llms.txt

部署步骤非常简单:

  • 创建llms.txt文件,填写规则
  • 将文件上传到网站根目录(与robots.txt同级)
  • 确保文件可通过 https://yourdomain.com/llms.txt 访问
  • 验证文件格式正确,无语法错误

与robots.txt的区别

robots.txt主要控制爬虫是否可以访问,而llms.txt更侧重于声明内容的使用方式。两者可以配合使用:robots.txt控制访问权限,llms.txt控制使用权限。

注意事项

llms.txt目前是新兴标准,各AI平台的支持程度可能不同。建议同时配置robots.txt和llms.txt,并定期检查AI爬虫的访问日志,确保规则生效。

业务说明

麻雀GEO提供专业的GEO优化服务、网站/自媒体代运营、静态建站服务,帮助企业提升在AI搜索引擎中的可见性和转化率。如需了解更多,请联系我们。

返回首页