SEO優化必知搜索引擎運作原理:檢索、索引、排名

想操作SEO先從了解搜尋引擎的運作原理開始,本篇告訴你搜尋引擎的三大運作過程「檢索」、「索引」、「排名」,若你想要讓網站排名快速提升,那在了解SEO其他技巧前,了解運作原理是非常重要的。

內容目錄

搜索引擎三個運作過程

  1. 檢索(Crawl):透過連結做為路徑,透過爬蟲機器人,抓取各式網站頁面的內容資料。
  2. 索引(Index):儲存收錄先前抓取(Crawl)到的網站資料,且只有經過索引後的頁面,才會顯示在搜尋引擎的搜尋結果上。
  3. 排名(Rank):為了提供搜尋者的最佳答案,搜尋引擎藉由演算法呈現它認為最能解決搜尋者問題的搜尋結果,這些搜尋結果都是經過排名(Rank)後所呈現。

Google、Yahoo、Bing…等每個搜尋引擎運作原理相同?

每個搜尋引擎基本上都是經過上面這三個步驟,但細項操作有所不同,如每個搜尋引勤的排名(Rank)演算法都不一樣、使用的工具、語法、設定也都有差異,但也不用擔心,不用為了迎合每個搜尋引擎而花費過多的時間在這上面,因為Google在搜尋引擎的市場上佔據超過90%,因此基本都是以Google為主來操作。

搜尋引擎優化

圖片來源: https://moz.com/blog/state-of-searcher-behavior-revealed

搜索引擎 – 檢索(Crawl):

檢索就是Google定期派出網路爬蟲蜘蛛(Google Spider)透過連結作為路徑,不斷抓取新頁面內容的過程,內容包含網頁、影片、圖片、PDF…等各種型式。

你的頁面有被檢索嗎?

世界上有高達上億個網站,而且多數網站也都會定期更新貨產出新的內容,蜘蛛要在短時間全部爬完不是一時半刻就能完成的,因此為了讓蜘蛛可以有效率的爬取,Google針對不同大小的網站、更新的時間、品牌權重…等來調整蜘蛛爬取的頻率,每個網站每天被蜘蛛抓取的URL 數量,就是所謂的Crawl Budget,Crawl Budget決定了你的網站內容是不是能完整被Google收錄的關鍵之一。

如何知道自己的網站有多少的Crawl Budget ?

前往Google Search Console,選擇你要查詢的網站後,點擊「檢索」—>「檢索統計資料」,以我的網站來看每日平均是「78」的數目,而我的網站目前頁面數目也在100以下,換句話說,我的網站的所有內容基本上每天都會蜘蛛檢索到。

google search console檢索

*通常來說,只有大型網站要比較擔心Crawl Budget的問題(頁面大於1,000以上,也有人說要10,000以上,實際看Search Console最準)

搜索引擎 – 索引(Index):

Google存儲它在先前檢索到的網站資料,如此才能在後續提供給搜尋者。確保網站內容被索引極度重要,這是搜尋者是否找得到你的內容的關鍵,要注意的是即便網站有被GoogleBot檢索,仍然不代表有被索引,透過兩種方法知道多少頁面成功被索引:

1.只要在Google搜尋欄打上”site:yourdomain.com”,就可以知道有多少頁面是真正會顯示在Google搜尋結果了,像我的網站目前就有64個頁面已經完成索引。

網站索引檢查

2.使用Google Search Console監控,點擊「索引」—>「涵蓋範圍」,就可以看到頁面被索引的狀態。

google search工具

常見頁面沒有被索引的原因:

  • 網站是全新的。
  • 網站未被任何其他網站連結進來。
  • 網站架構複雜、層級過多且許多獨立頁面,使機器人很難有效的抓取。
  • 網站包含搜尋器指令的基本代碼,如Noindex、Robot.txt阻止搜索引擎索引。
  • 網站違反Google條款,而受到懲罰。(通常是被判定垃圾內容)

*如果還沒有Search Console,建議直接去申請一個,這是在SEO操作一定會使用的工具

搜索引擎 – 排名(Rank):

每次的搜尋,搜尋引擎都會在搜尋結果中呈現高度相關的內容,這些內容都是經過演算法而被排序的。通常網站的排名越高,表示搜索引擎認為該網站與關鍵字詞的相關性就越高,市面的SEO服務,主要就是專注在這塊的優化。

除了注意網站頁面是否有被檢索並索引外,也必須讓無用、測試、重複頁面…等對SEO有負面影響的頁面,確保不會被GoogleBot所找到的,這時你可使用robots.txt。

Robot.txt

Robots.txt主要功能在搜尋引擎檢索網站時,告訴它網站哪些內容可以被檢索,哪些內容可以不用被檢索,輸入“yourdomain.com/robots.txt”來查看,網站目前所設定的Robot.txt,例如 https://www.zeczec.com/robots.txt,就可以看到該網站目前有哪些頁面不希望被檢索。

Robot.txt設定教學

設定Robot.txt後,頁面仍有可能被檢索?

Google 不會對 Robots.txt 所封鎖的內容進行檢索或建立索引,但若是透過網路上其他網頁的連結發現該被設定Robot.txt的頁面,仍然會建立這些網址的索引仍然會出現在 Google 搜尋結果中。如要完全避免這種情形,建議使用密碼保護伺服器上的檔案,或是搭配使用Noindex、移除網頁。另外,以下是常見不希望被收錄的三種頁面:

  1. 測試頁面:有些網站上線是為了協作測試,並不想被搜尋引擎檢索內容,這時就可以用到Robots.txt做排除了(可搭配Noindex使用)
  2. 網站後台:Wordpress、Wix…等架站平台,都會提供管理者後台登入的頁面,就沒有被檢索的必要。
  3. 會員的個人頁面:會員的個人頁面,無被檢索的必要。

除了Robot.txt外,還有什麼原因可能會讓Google無法檢索你的內容呢?

1.需登入才能進入的頁面:有些網站會提供一些會員專屬的內容或付費內容,任何隱藏在「登入」後才能看到的頁面內容,Google都不會進行檢索。

2.內容隱藏在圖片、影片內:從SEO排名的角度來看,不該把所有的內容都用圖片、影片…等非文字形式去呈現,因Google無法完全判讀該內容型式所要傳遞的資訊,仍須以Html文字型式呈現。

3.頁面被孤立:Googlebot 需要透過連結為路徑去爬其他頁面,若是特定網頁是被孤立的,並無任何連結到達,Google也會很難爬到該頁面的資料。

SEO網站架構

圖片來源: https://backlinko.com/hub/seo/architecture

4.過多的使用JavaScript:

因JavaScript的語言特性不易讓爬蟲程式檢索,若是Loading過久會讓Google不易爬取。

延伸閱讀: SEO趨勢 : Javascript 會影響搜尋引擎抓取?

設定Sitemap網站地圖,確保被完整收錄

Sitemap網站地圖,就像是網站的目錄,將不同頁面依分類呈現,並告訴Google說網站涵蓋哪些頁面,透過提交 Sitemap可以增加網站被完整收錄的可能(提交 Sitemap 和提升 SEO 排名沒有直接關聯),若網站大改版,各別手動在Search Console 提交,建立索引過於費時,這時可更新 Sitemap 並重新提交,方便 Google 爬蟲檢索網頁。提交Sitemap非常簡單,只需要以下兩個步驟:

1.建立網站的Sitemap檔案:

利用線上的免費資源快速生成 Sitemap.xml 檔案,常見的使用工具有 XML sitemap Generator 或是 Yoast SEO

sitemap製作教學

2.到Search Console 提交Sitemap檔案:

進入Search Console —> Sitemap —>輸入Sitemap網址 ,以上就完成Sitemap的提交。

Google檢索到你的頁面時,頁面是否有出現出錯誤?

瀏覽網站點擊特定連結常有無法觀看、找不到頁面、404錯誤、…等其他錯誤狀態出現,相對的,表示Google在檢索該網頁時也會出現問題,因此你需要找出問題點並修正,有時候是伺服器端、有時是客戶端所導致。

延伸閱讀: Http狀態碼完整介紹

補充一點,很多時候我們會進行網址的調整,會導致若是先前訪客儲存的網址是舊的,這時可設定301轉址,就是當訪客連結舊網址時,頁面會自動轉址到新網址上,但要注意的是,轉址中間經過的網址盡量不超過1個,換句話說就是不要A—>B—>C(可以設定成A—>C, B—>C),因為多次的轉址會讓Googlebot難以到達你的頁面。

告訴搜索引擎如何索引你的網站

透過設定搜尋引擎提供的語法,幫助Google知道你希望它如何索引你的網站,例如“不要在搜尋結果中顯示該頁面”或“不要將任何連結權重傳遞給該頁面上的其他連結“。這些指令通過頁面<head>中的Robots Meta標籤,以下是最常見的兩種指令:

1.index/no index 告訴Google是否應該對頁面進行索引,在網頁HTML語法的<Head>底下加入: <meta name=”robots” content=”noindex”>就完成了,該語法用於個別頁面,因此,當你的網站中有3個網頁不想被Google索引時,便需在這3個網頁上各別手動輸入該指令。

  • 使用時機:該頁面沒有出現在搜尋結果的必要,甚至出現是對SEO有負面影響的頁面(如測試頁面、會員頁面、隱私權頁面等)。

2.follow / nofollow告訴搜索引擎是否要透過該頁面的連結前往其他頁面以及權重分數是否要傳遞給這些連結呢。預設下,所有頁面都是follow。

  • 使用時機:留言只為了「外部連結」來增加權重的狀況、網站內容提到一些負面網站,如內容農場,你也不會希望把網站權重分給對方。

延伸閱讀: Google索引語法使用官方文件

搜索引擎如何對URL進行排名?

Google為了確保搜尋結果的呈現能完整解答搜尋者的困惑,搜索引擎使用複雜的演算法,演算法涵蓋了超過200種排名因素,且每個因素具備不同的權重,根據操作經驗來看,推測每個產業對應到不同的關鍵字,而每個關鍵字的SEO權重也不相同,例如有些關鍵字做外部連結很容易排名往上衝、但有些關鍵字可能只要網站權重高就容易前幾名。

*演算法時常改變,因應惡意操作SEO的人,以提高搜索結果的質量。

seo排名

 

資料來源: 2020 SEO10大排名因素解析

天下网标王三亚SEO按天收费哪家好忻州网站优化按天收费洛阳网站搜索优化公司庆阳SEO按天计费价格江门百度标王价格梧州百度爱采购报价海西百度网站优化排名报价中卫外贸网站建设价格哈尔滨网站优化按天计费哪家好泸州网站关键词优化临沂网站改版报价济宁设计网站聊城网站搜索优化价格邵阳百度网站优化排名多少钱德州百姓网标王孝感网站开发公司阳泉外贸网站建设多少钱网站关键词优化推荐永州网络广告推广公司扬州设计公司网站公司益阳网站设计模板多少钱山南网站搭建多少钱毕节百度竞价西乡网站推广工具报价陇南百度网站优化哪家好运城营销型网站建设湛江百度竞价推荐南澳网站优化按天收费定西推广网站价格兰州网页制作香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化