走出京東標題優(yōu)化誤區(qū) 并非為了提升排名
從2014年下半年開始我就關注所有關于京東的搜索培訓,發(fā)現(xiàn)了直到今日還是有大量的人在做搜索培訓的時候,花大量的篇幅在講關于搜索標題怎么去優(yōu)化。并且給出了很多標題命名的黃金法則,應該按照什么樣的格式命名標題會使得搜索排名上去。對此我想糾正下這個觀點,幫助大家走出這個京東標題優(yōu)化誤區(qū)。
官方不可能把重要的排序權重因子放在像標題這種商家可以隨意自行修改的特征上來。原理我先不闡述,我先貼出一個官方的京東搜索引擎對于某一個關鍵詞下各個商品標題的打分數(shù)據(jù):
大家可以看到其實標題其實本來占總得分的比例就比較低,而且所有的商品相差都不是很大,那么做標題優(yōu)化有意義嗎?我認為是有意義的,但是他的意義不是在于提升你的搜索排名,而是通過標題去刺激用戶的購買欲望,提升轉換率。因為標題,主圖,價格,評論數(shù),品牌 展示在搜索結果頁的五個商品特征,他和其他特征共同決定了用戶是否會點進你的商品詳情頁。
那么有很多人會說,雖然相差不大,但是我也想拿這點分數(shù),怎么能讓我的商品的文本權重提高了,首先我解釋一下什么是文本權重:文本權重主要是比較用戶搜索詞和您的商品相關文本信息(商品標題,商品分類,商品擴展屬性...)的相關程度。
絕對相關程度主要由以下三個因素絕對: 1: 詞頻 2:詞的唯一性 3:文本長度 那么何為相關程度呢?為什么由這幾項因素組成呢?我先介紹以下各個因素的含義,然后再對一些喜歡深究原理的朋友我會貼出擴展閱讀的算法帖子來解釋目前用的比較多的兩個文本相關度算法(bm25算法,和余弦夾角算法)的公式和具體解釋。詞頻:用戶查詢詞在商品出現(xiàn)的頻率 詞的唯一性:詞在商品相關文本出現(xiàn)的次數(shù) / 商品數(shù) 文本長度:就是商品文本信息包含的字數(shù) 下面我來解釋為什么這樣
通俗的講文本相關度就是指兩段文本的意思是否相近。文本的含義是由基本的語義單元也就是詞語順序組合而成,舉個例子,比如說這一段文本:長江市長江大橋,如果組成的基本詞語不同,意思也就不同,他可以有兩種解釋:1. 長江市 長江大橋 (表示的一座橋) 2. 長江 市長 江大橋 (表示一個人)。所以比較兩段文本的相關度可以轉換成比較兩段文本所構成的詞的組合的相關度。
那么如果兩段文章的中心詞們大多都相同,且同一個中心詞在兩短文章的中心程度都差不多的話,可以判定兩段文章的意思差不多一樣。那么如何絕對中心程度呢?如果一個詞在這篇文章中出現(xiàn)多次,且只在這篇文章中出現(xiàn),而且這篇文章還不是特別長,那么這個詞其實就可以認為他是這篇文中的中心詞。他的中心程度可以用一個術語來表示叫做:term weight(詞相對文章權重值),那么term weight的計算公式一般都是這樣: tf(詞出現(xiàn)的頻率)/idf(詞的唯一性)/dl(文章的文本長度) 當然這都是簡寫。
搜索引擎把用戶的查詢詞也當做一段文本,商品的文本信息也當做一段文本,那么文本相關度就成了用戶查詢詞相對于商品文本信息中的相關度。對于計算機來說,必須把它轉換成數(shù)學模型才能得以計算,目前有兩種比較流行的算法,我在這不細闡述,京東采用的是bm25算法,詞頻部分做了修改,因為不是**手改的所以細節(jié)并不清楚。我估計就是設了個最大詞頻,避免疊詞對文本產(chǎn)生過大影響。
但是我這篇文章的意義就是希望大家走出京東標題優(yōu)化誤區(qū),大家不要把優(yōu)化標題的精力放在提升排名上,也別相信什么固定標記格式可以提升排名,而是要大膽創(chuàng)新,用標題去吸引用戶。