搜索引擎的工作過(guò)程大體可以分成三階段。
(1)爬行和抓取:搜索引擎蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)HTML代碼存入數(shù)據(jù)庫(kù)。
(2)預(yù)處理:索引程序?qū)ψト?lái)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行文字提取,中文分詞,索引等處理,以備排名程序調(diào)用。
(3)排名:用戶(hù)輸入關(guān)鍵詞后,排名程序調(diào)用索引庫(kù)數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。