標簽來源
從標簽的來源來看,壹般可以分為三種:
(1)業主給物品貼上標簽。
②專家標註物品。
③普通用戶標註物品。
業主壹般會在物品發布時進行標註,專家標註壹般由平臺發起,由人組織完成標註。這兩種方法適用於標註區分物品客觀屬性的標簽。;比如PGC內容發布商可以選擇自己的內容屬於娛樂還是軍事;在電商平臺上加載商品時,會選擇衣服的顏色、尺碼等屬性;音樂平臺會有專人對音樂進行標註,比如作者、發布時間、風格等信息。
用戶標簽壹般是描述當前用戶在消費物品後的主觀感受和認知的標簽;比如,用戶在資訊平臺上看完文章後,可以標記文章是否好看;用戶在聽完壹首歌後,可以認為這首歌是悲傷的或是安靜的。
基於標簽的推薦方法
如前所述,標簽可以幫助我們進行更好更精準的推薦,本質上是壹種標簽+協同推薦的方式。大致思路如下:
①用戶喜歡標簽A,推薦標簽B與標簽A相似的商品。
②用戶A和用戶B興趣模型相似,向用戶A推薦用戶B喜歡的帶有標簽A的項目。
③用戶A喜歡的物品中含有標簽A,推薦其他含有標簽A的物品。
④用戶A喜歡的商品包含標簽A,推薦標簽B與A相似的商品。
⑤結合以上方法進行推薦,每種方法賦予不同的權重?
不同的用戶場景會有不同的偏向。首先,應該用不同的方式來定義。比如新聞內容平臺,新聞不涉及訂購,閱讀如是,新聞內容用戶需要壹定的多樣性。如果直接采用第三種推薦方式,必然會導致內容單壹,用戶很快會產生厭煩情緒;但在其他場景,比如某些群體的標簽,比如“女性”標簽,可以使用這種方法;在確定推薦策略時,要考慮用戶群體和目前推薦的使用場景,但具體效果是壹個長期的優化過程。壹般算法調整後,會有壹個7天左右的數據波動期,遵循AB測試的原理(搭建單變量環境),7天後通過看數據就能得到壹個相對準確的效果評估。
標簽的優化
除了標簽推薦策略的調整,標簽優化也是優化標簽推薦效果的重要途徑。我們可以通過以下方式提高標簽的準確性和偏好清晰度:
①盡量提供能反映用戶對物品看法和偏好的標簽,供用戶選擇;比如壹首歌,歌手、發行年份、專輯的標簽屬於客觀性,安靜、悲傷的標簽可以反映用戶對該項目的看法。這個主管標簽的集合有助於我們更準確的建立用戶興趣模型。
②提高標簽興趣的準確性;用標簽來建模會給熱門標簽帶來很大的權重,在長尾狀態下用戶興趣模型的準確率可能會下降。TF-IDF可以用來減輕流行標簽的重量。
(3)根據標簽關聯的標簽相似性和標簽擴展;當沒有標簽相似度時,所有與用戶A相關的標簽都只是A的直接收藏標簽。標註相似度後,用戶A喜歡的標簽物種也可以引用相似度的標簽?
(4)清理無用標簽。對於壹些詞頻較高的停用詞,通過合並表示差異的同義詞來提高標註的準確性。
註意:TF-IDF:如果壹個詞或短語在壹篇文章中頻繁出現,而在其他文章中很少出現,則認為該詞或短語具有良好的分類能力,適合分類。TFIDF實際上是:TF * IDF,TF詞頻($ Term頻)和IDF逆文檔頻。特定文件中的高頻詞和整個文件集中的低頻詞可以產生高權重的TF-IDF。所以TF-IDF傾向於過濾掉常用詞,保留重要詞。
鏈接:/p/43a76f1784da