如何正确拆分多份 Sitemap(谷歌规范与示例全解)

2026/02/20

大型或多语言、多板块站点很快会撞上单个 XML Sitemap 的上限:50,000 个 URL 或 50 MB(未压缩)。谷歌希望你提前拆分,再用 sitemap index 统筹。这里给出“何时拆”“怎么拆”和“别踩坑”的清单,附可直接拷贝的 XML 代码。

何时采用多份 sitemap

  • 规模压力:接近 50k URL 或文件过大;不少团队在 1–2 万时就拆分以便维护。
  • 新鲜内容 vs. 存量:新闻/日更内容放“最新” sitemap,归档放慢频率文件。
  • 内容类型多样:产品、博客、视频/图片/新闻分开,保证元数据正确。
  • 多语言/多区域:按语言/国家单独 sitemap;如需在条目内加 hreflang 也可。
  • 结构复杂:按目录/子域镜像信息架构(如 /products/、/blog/、/forums/)。
  • 按时间分档:滚动“最近内容” + 月度/年度归档,防止文件膨胀。

Sitemap 格式(可直接粘贴)

规则:UTF-8 XML;每份 ≤50,000 URL 或 50 MB(未压缩,可 gzip);使用绝对 URL;索引不可嵌套。

标准 sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/</loc>
    <lastmod>2025-02-20</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/blog/how-to-use-sitemaps</loc>
    <lastmod>2025-02-18</lastmod>
  </url>
</urlset>

Sitemap index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.example.com/sitemap-products.xml</loc>
    <lastmod>2025-02-20</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://www.example.com/sitemap-blog.xml</loc>
    <lastmod>2025-02-19</lastmod>
  </sitemap>
</sitemapindex>

可选命名空间(放在 <urlset> 上示例):

<urlset
  xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
  xmlns:image="http://www.google.com/schemas/sitemap-image/1.1"
  xmlns:video="http://www.google.com/schemas/sitemap-video/1.1"
  xmlns:news="http://www.google.com/schemas/sitemap-news/0.9"
  xmlns:xhtml="http://www.w3.org/1999/xhtml">
  <url>
    <loc>https://www.example.com/page</loc>
    <image:image><image:loc>https://www.example.com/image.jpg</image:loc></image:image>
    <video:video>...</video:video>
    <news:news>...</news:news>
    <xhtml:link rel="alternate" hreflang="fr" href="https://www.example.com/fr/page" />
  </url>
</urlset>

robots.txt 发现(可选):

Sitemap: https://www.example.com/sitemap_index.xml

如何组织多份 sitemap

  • 按类型/板块:产品、分类、博客、UGC 各一份,团队也好分工。
  • 按更新频率:高频与低频分开,高频文件更常刷新。
  • 按目录/子域:各分区自洽,出了问题易定位。
  • 按语言/地区:大站可为每个语言建索引,再细分类型;在对应 GSC 属性提交。
  • 按时间:滚动“最新” + 归档,文件不会无限变大。

落地步骤

  1. 选好拆分方式:类型/语言/频率/日期,避免过度碎片化。
  2. 保证 URL 干净:只收录 canonical、可索引的 200 页;排除参数页、4xx/5xx、noindex、robots 阻拦。
  3. 如实维护 <lastmod>:有实质内容更新再改时间。
  4. 发布与 gzip:尽量放站点根目录,使用绝对 URL。
  5. 在 GSC 提交:优先提交 sitemap index;关键子文件可单独提交便于筛选。
  6. 监控与修正:在覆盖率/表现报告按 sitemap 过滤,修复“无法抓取”、XML/命名空间错误、被阻拦或收录率低的板块。

常见踩坑

  • 同一 URL 出现在多份文件里,浪费配额也扰乱报表。
  • 空文件、过期文件或虚假的 <lastmod> 抖动。
  • XML/命名空间错误(图片/视频/新闻标签易出错)。
  • 将不可索引页面写入(robots 阻拦、noindex、非 canonical、4xx/5xx、薄内容/软 404)。
  • 拆得过细,维护成本过高。

快速检查清单

  • 每份 <50k URL/<50MB,支持 gzip。
  • 使用绝对 URL;索引不嵌套。
  • 只收录 canonical 且可索引的高质量页面。
  • 拆分逻辑清晰(类型/语言/频率/日期)且命名一致。
  • 维护 sitemap_index.xml,在 robots.txt 声明,并在 GSC 按 sitemap 监控覆盖率与流量。

想让谷歌聚焦你最新、最重要的内容?试试我们的可视化网站地图生成器,快速分区、导出 XML,并保持在谷歌限制内持续更新。

Sitemapwatch 团队

Sitemapwatch 团队

如何正确拆分多份 Sitemap(谷歌规范与示例全解) | 博客