Shopify $1三个月试用+送$20额度点击邀请
基础教程系列/SEO基础
入门27分钟第 6 课

技术 SEO 入门:新手必须知道的底层设置

建立技术 SEO 的基础判断,理解 sitemap、robots.txt、canonical、noindex、页面速度、移动端体验与基础技术错误如何影响抓取、收录和排名。

6
当前进度
6/8 课时
快速解读

TL;DR: 这节课解决什么问题

Q: 这一节最关键的执行点是什么?A: 这节课的核心结论

课程进度
学习进度
6/8 课时
当前章节已解锁继续按顺序推进

技术 SEO 入门:新手必须知道的底层设置

这篇是 seo-basics 系列的第 6 课。很多人一提技术 SEO 就觉得那是开发者才需要懂的东西,其实新手最先要掌握的,不是复杂渲染、日志分析或大规模抓取策略,而是那些会直接把搜索流量挡在门外的基础设置。内容写得再认真,如果抓不到、收不进、信号被拆散,SEO 还是会卡住。

这节课解决什么问题

前一课讲的是内容值不值得做,这一课解决的是:当页面和内容本身没问题时,还有哪些底层设置会让 SEO 效果打折,甚至让前面的努力直接失效。

这节课的核心结论

基础技术 SEO 的重点不是“做高难动作”,而是先确保搜索引擎能找到页面、理解哪个版本是主版本,并且没有被错误阻止抓取或收录。

概念加深:技术 SEO 先分清“阻塞、提示、偏好”三类信号

新手做技术 SEO 时,最容易把所有标签都当成同等强度的命令。实际上,robots.txt、noindex、canonical、sitemap、redirect 的作用完全不同。社区里很多事故来自误用:用 robots.txt 想解决重复内容、用 noindex 处理 canonical、迁移后忘记去掉 noindex、把重要页面藏成孤岛。

机制 更像什么 新手要记住
robots.txt 抓取请求控制 不等于“保证不收录”,也不适合做 canonical。
noindex 收录退出指令 会让页面退出搜索结果,不能随便加在重要页面。
canonical 主版本偏好信号 用于相似/重复页面,不是删除页面的工具。
sitemap 发现和重要性提示 只放你希望被抓取和理解的规范 URL。

本课术语卡

术语一句话解释新手判断
Sitemap给搜索引擎的 URL 清单。它帮助发现 URL,但不保证收录。
robots.txt告诉爬虫哪些路径不应被请求的文件。它不是删除索引的工具。
canonical告诉搜索引擎相似页面中你偏好的主版本。canonical 是信号,不是强制命令。
noindex要求搜索引擎不要把页面放进索引。重要页面误加 noindex 会直接失去展示资格。

错误示例 vs 优化后示例:技术设置要先判断页面职责

错误示例为什么弱优化后示例
看到参数 URL 很多,就全部 robots.txt 禁止抓取。可能挡住 canonical 信号,也可能让搜索引擎看不到真实关系。先盘点参数是否产生独立需求;无价值排序参数 canonical 到主栏目,高价值筛选页保留并优化,噪音页面再 noindex 或阻断。

先建立一个正确认知:技术 SEO 不是加分项,它经常是门槛项

很多团队会把 SEO 问题理解成“内容不够多”或者“关键词不够准”,但现实里经常是更基础的问题:页面打不开、站点结构混乱、搜索引擎被错误拦住、同一内容出现多个 URL 却没有规范化。这些问题不是让你少拿一点分,而是让你连正常参与排序都变得困难。

很常见的误区

  • 以为技术 SEO 只和开发团队有关,内容团队不用懂。
  • 以为页面能打开就代表技术上没问题。
  • 以为先疯狂发内容,技术问题以后再说。

sitemap 是什么,它为什么重要

sitemap 可以理解为给搜索引擎的一份页面清单。它不是排名技巧,但它会帮助搜索引擎更快发现你希望被关注的重要页面,尤其是新页面、层级较深的页面,或者内链还不够成熟的网站。

对新手来说,先理解 sitemap 的 3 个作用

1
帮助发现页面:告诉搜索引擎站上有哪些页面值得看。
2
帮助发现新内容:新页面上线后,更容易被及时注意到。
3
帮助管理优先级:至少不要把明显不该被关注的页面和核心页面混在一起。

要注意的现实边界

sitemap 不是提交了就一定收录,也不是替代内链结构。它只是帮助发现,不负责保证排名。

robots.txt 是什么,它在控制什么

robots.txt 是放在站点根目录的一份规则文件,用来告诉抓取程序哪些路径可以抓、哪些路径不建议抓。它本质上管理的是“抓取入口”,不是“排名开关”。

这里最容易混淆的一点是:robots.txt 管的是“能不能来读这个页面”,而像 noindex 这样的规则管的是“读完之后要不要把它留在索引里”。这两个层不是一回事。

设置项 主要影响 新手常见误解
Allow / Disallow 控制抓取范围 误以为它直接控制页面能不能被排名
Sitemap 告诉搜索引擎 sitemap 地址 误以为 sitemap 只能在后台工具里提交
根目录可访问 让搜索引擎能读到规则 误以为文件存在本地就算配置完成

非常高频的基础错误

  • 把整个站点或关键目录误设成 Disallow
  • 把产品页、文章页、分类页这些本该被抓取的页面挡掉。
  • 只顾着拦爬虫,却没意识到自己把搜索引擎也一起拦住了。

canonical 是什么,它在解决“哪个版本才是主版本”

同一份内容在技术上常常会出现多个 URL,比如带参数、不带参数、分页、筛选、大小写差异、末尾斜杠差异等。canonical 的作用,就是告诉搜索引擎:这些相似版本里,哪一个才是你希望被当作主版本的页面。

而且 canonical 不是一个孤立标签。更稳妥的做法通常是:主版本 URL 在内链里一致、在 sitemap 里一致、在 canonical 里一致;如果旧 URL 本来就应该退出,配合 redirect 一起使用会更强。换句话说,规范化更像一组信号的一致性,而不是只塞一个标签就结束。

有 canonical
帮助搜索引擎理解主页面是谁。
减少信号被分散的概率。
没有 canonical
搜索引擎要自己猜哪个版本更重要。
结果可能不是你想要的那个 URL。
错误 canonical
会把本来该保留的页面信号指向错误页面。
甚至让页面自己“否定自己”。
正确心态
canonical 是规范化信号,不是随便指一下。
先确保它真的指向最该保留的版本。

一个很常见的场景

如果同一篇文章能通过多个 URL 打开,而这些 URL 都在被抓取和分享,搜索引擎就可能把原本集中在一页上的信号拆散。canonical 的存在,就是为了减少这种分裂。

noindex 是什么,什么时候该用,什么时候别乱用

noindex 的意思很直接:告诉搜索引擎不要把这个页面作为索引页保留。它很有用,但也很危险。因为一旦你把本该参与搜索的页面标成 noindex,那这个页面就可能根本不出现在搜索结果里。

还有一个很关键的边界:像 noindexnosnippet 这样的页面级指令,前提通常是搜索引擎能先访问到页面并读取到这些规则。所以如果你把页面直接挡在抓取层,很多页面级控制就可能根本没机会被正常读取。另外,官方也建议尽量不要依赖 JavaScript 去动态注入或移除这类 meta 规则,风险更高。

更常见的合理使用场景

  • 重复价值很低的内部搜索结果页。
  • 测试页、临时页、无独立搜索价值的工具状态页。
  • 明确不想让搜索结果承接的薄页面。

新手最该避免的误用

  • 把核心文章页、产品页、分类页意外设成 noindex
  • 上线后忘了移除测试环境留下的 noindex
  • 自己以为页面内容不够好,先全站保守 noindex,结果把 SEO 入口直接关掉。

页面速度和移动端体验,为什么也属于基础技术 SEO

SEO 不是只看你写了什么,也看用户能不能顺畅访问。页面速度太慢、移动端排版错位、按钮难点、图片太重、核心内容加载太晚,这些问题会同时影响抓取效率、用户停留和页面整体质量判断。

这里也要避免一个误解:页面体验不是靠某一个分数决定成败。更实用的理解是,速度、移动端可用性、HTTPS、主内容可访问性和整体浏览感受共同组成“页面体验”。基础阶段先抓最明显的坏体验,比追单一跑分更重要。

新手先盯住这 4 类体验问题

1
打开太慢:页面很久才出现主要内容。
2
移动端难用:字太小、布局挤、按钮点不到。
3
资源过重:图片、脚本、第三方组件让页面变得迟钝。
4
核心内容不稳定:首屏抖动、加载后才跳来跳去,影响阅读与操作。

新手最常见的 4 类基础技术错误

基础阶段不需要追求复杂的技术审计,但至少要对几类最容易白做内容的问题有感觉。

错误类型 会发生什么 典型表现
重复页面 信号被分散,主版本不清楚 同内容多个 URL、参数页乱收录
无法访问 抓取失败,用户也进不去 404、500、权限拦截、资源加载失败
跳转混乱 抓取路径变长,用户体验变差 多次跳转、错误跳转、循环跳转
错误阻止抓取或收录 核心页面根本不进搜索系统 robots 配错、误加 noindex

更现实的理解

技术 SEO 的入门排查,不是为了做一份漂亮的报告,而是先确认“内容有没有机会被正常发现、正常理解、正常保留”。

一个很典型的例子:页面明明存在,为什么 SEO 还是起不来

假设你有一篇写得不错的文章,但它既能通过主 URL 打开,也能通过带参数 URL、旧路径 URL、预览路径 URL 打开;同时主页面还被错误加上了 noindex,或者被 canonical 到别的地址。表面上看,内容是上线了,但搜索引擎收到的是一组混乱信号。这时候问题就不是“文章写得够不够好”,而是“系统有没有告诉搜索引擎哪个版本该被留下来”。

基础排查顺序

先看页面能不能访问,再看有没有被 robots 拦住,再看是否被错误 noindex,最后看 canonical 和 URL 版本是否一致。这个顺序比一上来研究高级技巧更重要。

技术 SEO 的正确心态:先修阻塞,再谈高级优化

新手最容易被各种技术 SEO 术语吓住,或者反过来迷上“高级玩法”。更实用的心态是:先把阻塞项排清楚,再谈更深层的技术优化。因为如果基础层已经出错,后面很多优化都只是叠在错误地基上。

技术 SEO 的入门优先级

  • 先确认核心页面可访问。
  • 先确认没有被 robots 或 noindex 错误挡住。
  • 先确认重复 URL 是否有主版本规则。
  • 再看速度、移动端和更细节的体验问题。
  • 最后才考虑更深的技术扩展项。

执行清单

学完这一课,先确认这些点

  • 你知道 sitemap 是帮助发现页面,不是排名魔法。
  • 你知道 robots.txt 控制的是抓取范围,配错会直接挡掉页面。
  • 你知道 canonical 的作用是明确主版本。
  • 你知道 noindex 一旦误用,会直接影响收录。
  • 你开始建立速度、移动端和基础技术错误的排查意识。

课后作业

今天就能做的 4 个动作

1
打开你的网站,确认是否存在 sitemap,以及里面是不是主要公开页面。
2
查看 robots.txt,确认没有误挡住文章页、产品页或分类页。
3
随机检查几个核心页面,确认没有错误的 canonicalnoindex
4
用手机打开 2-3 个重点页面,记录最明显的速度或可用性问题。

下一步读哪篇

继续往下学

现在你已经知道内容之外还有哪些技术底层会影响 SEO,下一节建议继续读 SEO 数据入门:如何判断你的优化有没有效果。因为做完基础优化之后,下一步不是凭感觉判断,而是学会看展现、点击、排名和收录这些过程数据。

这篇教程值得转发给团队

看完这篇后,可以先转给同事或朋友,再决定是否继续进入下一篇。

返回课程目录
8
查看所有教程