这节课解决什么问题

前一课讲的是内容值不值得做，这一课解决的是：当页面和内容本身没问题时，还有哪些底层设置会让 SEO 效果打折，甚至让前面的努力直接失效。

这节课的核心结论

基础技术 SEO 的重点不是“做高难动作”，而是先确保搜索引擎能找到页面、理解哪个版本是主版本，并且没有被错误阻止抓取或收录。

概念加深：技术 SEO 先分清“阻塞、提示、偏好”三类信号

新手做技术 SEO 时，最容易把所有标签都当成同等强度的命令。实际上，robots.txt、noindex、canonical、sitemap、redirect 的作用完全不同。社区里很多事故来自误用：用 robots.txt 想解决重复内容、用 noindex 处理 canonical、迁移后忘记去掉 noindex、把重要页面藏成孤岛。

机制	更像什么	新手要记住
robots.txt	抓取请求控制	不等于“保证不收录”，也不适合做 canonical。
noindex	收录退出指令	会让页面退出搜索结果，不能随便加在重要页面。
canonical	主版本偏好信号	用于相似/重复页面，不是删除页面的工具。
sitemap	发现和重要性提示	只放你希望被抓取和理解的规范 URL。

本课术语卡

术语	一句话解释	新手判断
Sitemap	给搜索引擎的 URL 清单。	它帮助发现 URL，但不保证收录。
robots.txt	告诉爬虫哪些路径不应被请求的文件。	它不是删除索引的工具。
canonical	告诉搜索引擎相似页面中你偏好的主版本。	canonical 是信号，不是强制命令。
noindex	要求搜索引擎不要把页面放进索引。	重要页面误加 noindex 会直接失去展示资格。

错误示例 vs 优化后示例：技术设置要先判断页面职责

错误示例	为什么弱	优化后示例
看到参数 URL 很多，就全部 robots.txt 禁止抓取。	可能挡住 canonical 信号，也可能让搜索引擎看不到真实关系。	先盘点参数是否产生独立需求；无价值排序参数 canonical 到主栏目，高价值筛选页保留并优化，噪音页面再 noindex 或阻断。

先建立一个正确认知：技术 SEO 不是加分项，它经常是门槛项

很多团队会把 SEO 问题理解成“内容不够多”或者“关键词不够准”，但现实里经常是更基础的问题：页面打不开、站点结构混乱、搜索引擎被错误拦住、同一内容出现多个 URL 却没有规范化。这些问题不是让你少拿一点分，而是让你连正常参与排序都变得困难。

很常见的误区

以为技术 SEO 只和开发团队有关，内容团队不用懂。
以为页面能打开就代表技术上没问题。
以为先疯狂发内容，技术问题以后再说。

sitemap 是什么，它为什么重要

sitemap 可以理解为给搜索引擎的一份页面清单。它不是排名技巧，但它会帮助搜索引擎更快发现你希望被关注的重要页面，尤其是新页面、层级较深的页面，或者内链还不够成熟的网站。

对新手来说，先理解 sitemap 的 3 个作用

1

帮助发现页面：告诉搜索引擎站上有哪些页面值得看。

2

帮助发现新内容：新页面上线后，更容易被及时注意到。

3

帮助管理优先级：至少不要把明显不该被关注的页面和核心页面混在一起。

要注意的现实边界

sitemap 不是提交了就一定收录，也不是替代内链结构。它只是帮助发现，不负责保证排名。

robots.txt 是什么，它在控制什么

robots.txt 是放在站点根目录的一份规则文件，用来告诉抓取程序哪些路径可以抓、哪些路径不建议抓。它本质上管理的是“抓取入口”，不是“排名开关”。

这里最容易混淆的一点是：robots.txt 管的是“能不能来读这个页面”，而像 noindex 这样的规则管的是“读完之后要不要把它留在索引里”。这两个层不是一回事。

设置项	主要影响	新手常见误解
Allow / Disallow	控制抓取范围	误以为它直接控制页面能不能被排名
Sitemap	告诉搜索引擎 sitemap 地址	误以为 sitemap 只能在后台工具里提交
根目录可访问	让搜索引擎能读到规则	误以为文件存在本地就算配置完成

非常高频的基础错误

把整个站点或关键目录误设成 Disallow。
把产品页、文章页、分类页这些本该被抓取的页面挡掉。
只顾着拦爬虫，却没意识到自己把搜索引擎也一起拦住了。

canonical 是什么，它在解决“哪个版本才是主版本”

同一份内容在技术上常常会出现多个 URL，比如带参数、不带参数、分页、筛选、大小写差异、末尾斜杠差异等。canonical 的作用，就是告诉搜索引擎：这些相似版本里，哪一个才是你希望被当作主版本的页面。

而且 canonical 不是一个孤立标签。更稳妥的做法通常是：主版本 URL 在内链里一致、在 sitemap 里一致、在 canonical 里一致；如果旧 URL 本来就应该退出，配合 redirect 一起使用会更强。换句话说，规范化更像一组信号的一致性，而不是只塞一个标签就结束。

有 canonical

帮助搜索引擎理解主页面是谁。
减少信号被分散的概率。

没有 canonical

搜索引擎要自己猜哪个版本更重要。
结果可能不是你想要的那个 URL。

错误 canonical

会把本来该保留的页面信号指向错误页面。
甚至让页面自己“否定自己”。

正确心态

canonical 是规范化信号，不是随便指一下。
先确保它真的指向最该保留的版本。

一个很常见的场景

如果同一篇文章能通过多个 URL 打开，而这些 URL 都在被抓取和分享，搜索引擎就可能把原本集中在一页上的信号拆散。canonical 的存在，就是为了减少这种分裂。

noindex 是什么，什么时候该用，什么时候别乱用

noindex 的意思很直接：告诉搜索引擎不要把这个页面作为索引页保留。它很有用，但也很危险。因为一旦你把本该参与搜索的页面标成 noindex，那这个页面就可能根本不出现在搜索结果里。

还有一个很关键的边界：像 noindex、nosnippet 这样的页面级指令，前提通常是搜索引擎能先访问到页面并读取到这些规则。所以如果你把页面直接挡在抓取层，很多页面级控制就可能根本没机会被正常读取。另外，官方也建议尽量不要依赖 JavaScript 去动态注入或移除这类 meta 规则，风险更高。

更常见的合理使用场景

重复价值很低的内部搜索结果页。
测试页、临时页、无独立搜索价值的工具状态页。
明确不想让搜索结果承接的薄页面。

新手最该避免的误用

把核心文章页、产品页、分类页意外设成 noindex。
上线后忘了移除测试环境留下的 noindex。
自己以为页面内容不够好，先全站保守 noindex，结果把 SEO 入口直接关掉。

页面速度和移动端体验，为什么也属于基础技术 SEO

SEO 不是只看你写了什么，也看用户能不能顺畅访问。页面速度太慢、移动端排版错位、按钮难点、图片太重、核心内容加载太晚，这些问题会同时影响抓取效率、用户停留和页面整体质量判断。

这里也要避免一个误解：页面体验不是靠某一个分数决定成败。更实用的理解是，速度、移动端可用性、HTTPS、主内容可访问性和整体浏览感受共同组成“页面体验”。基础阶段先抓最明显的坏体验，比追单一跑分更重要。

新手先盯住这 4 类体验问题

1

打开太慢：页面很久才出现主要内容。

2

移动端难用：字太小、布局挤、按钮点不到。

3

资源过重：图片、脚本、第三方组件让页面变得迟钝。

4

核心内容不稳定：首屏抖动、加载后才跳来跳去，影响阅读与操作。

新手最常见的 4 类基础技术错误

基础阶段不需要追求复杂的技术审计，但至少要对几类最容易白做内容的问题有感觉。

错误类型	会发生什么	典型表现
重复页面	信号被分散，主版本不清楚	同内容多个 URL、参数页乱收录
无法访问	抓取失败，用户也进不去	404、500、权限拦截、资源加载失败
跳转混乱	抓取路径变长，用户体验变差	多次跳转、错误跳转、循环跳转
错误阻止抓取或收录	核心页面根本不进搜索系统	robots 配错、误加 noindex

更现实的理解

技术 SEO 的入门排查，不是为了做一份漂亮的报告，而是先确认“内容有没有机会被正常发现、正常理解、正常保留”。

一个很典型的例子：页面明明存在，为什么 SEO 还是起不来

假设你有一篇写得不错的文章，但它既能通过主 URL 打开，也能通过带参数 URL、旧路径 URL、预览路径 URL 打开；同时主页面还被错误加上了 noindex，或者被 canonical 到别的地址。表面上看，内容是上线了，但搜索引擎收到的是一组混乱信号。这时候问题就不是“文章写得够不够好”，而是“系统有没有告诉搜索引擎哪个版本该被留下来”。

基础排查顺序

先看页面能不能访问，再看有没有被 robots 拦住，再看是否被错误 noindex，最后看 canonical 和 URL 版本是否一致。这个顺序比一上来研究高级技巧更重要。

技术 SEO 的正确心态：先修阻塞，再谈高级优化

新手最容易被各种技术 SEO 术语吓住，或者反过来迷上“高级玩法”。更实用的心态是：先把阻塞项排清楚，再谈更深层的技术优化。因为如果基础层已经出错，后面很多优化都只是叠在错误地基上。

技术 SEO 的入门优先级

先确认核心页面可访问。
先确认没有被 robots 或 noindex 错误挡住。
先确认重复 URL 是否有主版本规则。
再看速度、移动端和更细节的体验问题。
最后才考虑更深的技术扩展项。

执行清单

学完这一课，先确认这些点

你知道 sitemap 是帮助发现页面，不是排名魔法。
你知道 robots.txt 控制的是抓取范围，配错会直接挡掉页面。
你知道 canonical 的作用是明确主版本。
你知道 noindex 一旦误用，会直接影响收录。
你开始建立速度、移动端和基础技术错误的排查意识。

课后作业

今天就能做的 4 个动作

1

打开你的网站，确认是否存在 sitemap，以及里面是不是主要公开页面。

2

查看 robots.txt，确认没有误挡住文章页、产品页或分类页。

3

随机检查几个核心页面，确认没有错误的 canonical 或 noindex。

4

用手机打开 2-3 个重点页面，记录最明显的速度或可用性问题。

下一步读哪篇

继续往下学

现在你已经知道内容之外还有哪些技术底层会影响 SEO，下一节建议继续读 SEO 数据入门：如何判断你的优化有没有效果。因为做完基础优化之后，下一步不是凭感觉判断，而是学会看展现、点击、排名和收录这些过程数据。

技术 SEO 入门：新手必须知道的底层设置