最初选择<em>Word</em>2vec相似度作为第二级分类算法,以例句库为比较对象,当反馈文本与例句相似度超过阈值,则认为分类成功,但在效果评估时发现,部分反馈文本中心词少、内容长,导致整体准确率和召回率不太理想;经调研和试验
2021-05-22 01:30:03
01前言
隨著網際網路使用者增長拐點的到來,競爭態勢更多轉變為博弈存量使用者,做到極致的使用者體驗就成為其中關鍵。使用者反饋作為使用者對產品體驗最直接的表達,是改善及衡量使用者體驗的重要輸入,它具備海量、多樣化的特徵,業務團隊可從中挖掘到不同維度的有效資訊,進行體驗的優化迭代:
1) 產品運營可從中提取使用者典型需求、快速感知使用者對新功能/內容的反饋,輔助調整決策;
2) 研發測試可通過反饋快速召回並修復線上質量問題,及時止損,同時反哺線下測試方案。
初期業務線內在處理使用者反饋時,面臨以下問題:
1)渠道多資料量大,提取問題成本高。
——反饋渠道包括電話投訴、線上客服、輿情、站內反饋、內部反饋等,對於MAU億級的產品,每天從各渠道流入的反饋總量在萬級以上,人工投入有限,問題暴露量有限,僅能召回頭部問題;
——各渠道處理流程相互獨立,相同問題各渠道同時跟進造成人力重複投入。
2) 反饋質量參差不齊,增加分析成本。
——各渠道資訊採集方式不同,資料的豐富程度不一;
——使用者選擇的問題分類不準確,表達習慣各異,描述有缺失。
3) 反饋分析鏈路長,閉環率和時效性不夠理想。
——在問題分析、解決過程中,存在不同程度的多角色、業務線間流轉與協同,從而導致處理時間長或沒有結論;
——反饋攜帶日誌資訊量有限,無法進行問題定位,回訪接通率低。
4) 缺乏有效的效果評估手段,存在特定問題召回不及時的情況。
業內有兩種使用者反饋分析的實施思路:
(1)藉助外部專業使用者反饋服務團隊提供的通用能力,旨在掌握反饋量趨勢、熱點、輿情等大盤資訊,在業務層面的分析挖掘較薄弱;
(2)自建使用者反饋分析系統,建立一條反饋分析閉環鏈路,側重問題的挖掘,以提高使用者滿意度為目標,主要以自動分類、聚類為基礎,通過報警挖掘頭部問題,同時根據業務特點挖掘腰部、尾部問題。
鑑於公司的業務特色,愛奇藝測試團隊採用第二種實施思路,建立了一套反饋挖掘、分析定位、修復閉環、問題跟蹤的全流程標準化處理機制,並提供對應平臺能力支撐,通過反饋挖掘演算法輔助人工快速獲取有效資訊,利用自動分析能力快速定位問題,進而提升問題處理閉環率,縮短處理週期,本文將從使用者反饋全鏈路處理的整體框架和各環節關鍵能力來展開介紹。
02方案設計
愛奇藝測試團隊提出的使用者反饋分析方案期望基於公司業務特色建立通用服務能力,提高頭部問題的召回效率,聚焦於高效識別問題,並輔助業務解決問題提升體驗:
(1)通過反饋分類分級監控報警保證對頭部問題的準確召回,依賴反饋聚類提取報警熱點反饋,聚焦到具體的問題現象,降低反饋分析成本;
(2)建立高質反饋挖掘能力,快速識別腰部、尾部問題,尤其強化對單點問題的召回;
(3)具備問題自動分析定位、自動流轉的能力,能對處理的閉環率、時效性做有效衡量;
(4)具備平臺化能力,人工進行的資料統計及分析可由平臺自動化計算得出,處理流程及標準統一。
以下為整體架構,反饋挖掘為基礎演算法能力,通過平臺建設將問題識別、分析定位、修復閉環、效果追蹤串聯起來,制定過程、結果指標衡量各個階段的效果。
03反饋接入
該環節是整個反饋分析連結的初始環節,主要完成資料預處理,過濾多渠道接入的資料,降低待處理資料量;對齊多渠道反饋的資料資訊,將多入口、多版本的資料統一成固定格式的欄位資訊,並對分類資訊進行標準對映,輸出標準化資料,為反饋挖掘和分析定位環節提供相對高質量的資料。
04反饋挖掘
反饋挖掘作為全流程處理的關鍵環節,核心任務是建立高效的反饋分類、聚類關聯、高質量資料識別等基礎能力,降低從海量資料中提取問題的成本,實現對頭部、腰部、尾部問題的全面召回,為後續環節的開展奠定重要基礎,下面重點介紹這三種通用能力。
1、多級組合自動分類
基於規則的分類作為第一級,以高準確率為目標,採用分級規則設定,實現對強關鍵詞特徵反饋的快速分類。
最初選擇Word2vec相似度作為第二級分類演算法,以例句庫為比較物件,當反饋文字與例句相似度超過閾值,則認為分類成功,但在效果評估時發現,部分反饋文字中心詞少、內容長,導致整體準確率和召回率不太理想;經調研和試驗發現,fastText的n-gram特性可降低Word2vec丟失詞序對分類效果的影響,通過樣本訓練生成分類模型後,呼叫預測方法即可獲得匹配最大概率的分類及其概率值,因此將fastText分類前置為第二級分類;由於fastText分類過程不透明,無法評估樣本質量,所以此環節設定閾值較高,保留Word2vec相似度分類為第三級補充召回。
反饋分類演算法應用於業務線監控報警,覆蓋小時級、天級、周級等監控時間範圍,根據近N個監控週期反饋量/反饋量變化率的平均值和標準差,動態設定業務線分類反饋量報警閾值,避免因業務正常變更引發反饋量變化導致的誤報警。多級監控報警在保證頭部問題召回的同時,可召回部分腰部問題。演算法多次迭代完成後,較原先分類準確率提升40%,報警準確率提升30%。
有了準確的報警後,團隊期望能快速識別到報警反饋中的熱點問題,將分析範圍縮小,通過聚類演算法來達成效果,下面將對聚類演算法展開介紹。
2、基於時間視窗的增量式聚類
使用者反饋是一種資料流,對資料流的聚類有三個要點:單遍掃描、增量式處理、時間局部性。Single-pass clustering是一種增量聚類演算法,每個文件只需經過演算法一次,特別適合處理流式資料,能滿足對實時性要求較高的文字聚類場景,可以很好地應用於話題監測和追蹤、線上事件監測等社交媒體大資料領域。
TF-IDF是Single-pass的經典相似度計算方法,將每條反饋當作一個短文字,得到局部時間內所有反饋的空間向量表示,再使用餘弦相似度計算向量距離,超過閾值判定為同一類簇。這種計算方式存在一個較大缺陷:空間向量是由每個詞的特徵權重組成,未考慮詞語的相似度,聚類的準確率召回率不太理想。以TF-IDF餘弦距離為門檻,計算反饋與已知聚類簇的Word2vec詞向量的相似度,超過閾值則判定為屬於同一類簇,可以彌補經典TF-IDF計算的不足。結合Word2vec和TF-IDF完成向量化,給詞向量增加權重,補充召回中心詞相同、功能詞有差異的聚類場景。
聚類演算法落地在三個方向:
1)監控報警業務分類內部提取熱點反饋,確定問題現象;
2)自動識別增量反饋與已知問題是否存在關聯關係,相同問題不再重複跟進;
3)反饋實時關聯,挖掘小批量問題。
這三類場景因資料集合的特徵聚集程度不同,在相似度閾值的設定上有所差別,以滿足各準召率需求。如下圖所示,為呼叫反饋聚類關聯的系統監控報警,通過監控分類反饋量變化率,發現異常業務分類,聚合熱點反饋輔助問題場景復現,並關聯已知線上問題降低重複跟進。
反饋聚類落地至監控報警熱點反饋,報警關聯線上已知問題的佔比可達15%,降低人力重複投入效果初顯。
反饋聚類為我們提供了一種批量問題挖掘的思路,對於提取監控報警。
對應的問題現象非常有效,但是它對少量或單點問題的召回效果一般。反饋聚類是以內容特徵進行資料探勘,類似地,以其他特徵為依據判定單條反饋的質量,理論上可挖掘單點問題。
3、高質量反饋識別
反饋質量是評價物件,通過建立多維度高質資料評估模型,逐層拆分影響反饋質量的因素,可將反饋質量的定性評估轉化成定量計算。
使用者登入狀態不同,可劃分的特徵有一定的差異,實際應用中使用兩套評估方案:
(1) 未登入使用者
——場景合理性:對於特定分類的反饋,抽象通用定位分析流程,通過自動定位得出是否異常的結論;定位結果異常,則認為反饋質量高;不依賴使用者ID的業務定位無限制,依賴使用者ID的可應用於登入使用者。
——內容一致性:不同渠道的內容包括圖片、反饋描述、系統日誌等特徵,不同特徵之間一致性越高,反饋質量也越高。圖片與內容一致性是通過提取圖片文字,將圖片文字和反饋描述進行相關性判斷;日誌與內容/圖片一致性是提取日誌中的專輯或劇集這類關鍵資訊,反饋描述/圖片文字中包含日誌中的關鍵資訊,則認為內容一致。
(2) 登入使用者
除上述方案外,登入使用者還可進行歷史反饋分析,評估維度包括:內容質量、歷史採納率、反饋頻度;其中內容質量從文字質量、圖片佔比兩個方面評估,反饋頻度從反饋頻率、問題分類的集中程度、反饋的時間三個方面度量,運用層次分析法完成各層的定量計算與結果合併,可挖掘出單點高質量資料。
目前高質反饋挖掘選擇的特徵有:歷史反饋分析、圖文一致性、日誌一致性、自動定位是否異常、是否形成一定規模的聚類簇等,可根據平臺能力靈活擴展,旨在提高尾部或單點問題的召回效率。通過高質量反饋識別標記重點反饋,降低了80%的反饋跟進量。
05分析定位
分析定位環節以反饋分類為基礎,聚焦多渠道相同業務分類的通用問題定位,通過對基礎資訊、服務端資訊的分析弱化反饋質量不高對問題分析的負面影響,同時解決部分因反饋日誌不全導致的閉環率低的問題。對於反饋挖掘環節發現的問題,根據發現方式的不同,採取不同的分析定位方式:
1) 對於監控報警召回的中、腰部問題
監控報警的異常分析以下圖6個維度展開,時間分析定位故障時間段,平臺、版本判定客戶端影響範圍,地區&運營商識別區域網路故障,這5個維度可基本完成範圍定位;片源聚類從日誌中提取反饋時間段內的片源資訊,片源聚集量達到閾值則認為指定片源存在故障。
(2) 對於高質量挖掘召回的尾部問題
服務端由業務方提供定位介面和關鍵分析路徑,前端可從日誌中提取資料特徵或業務流程,平臺抽象為通用定位流程框架,特定業務問題通過配置快速實現定位邏輯,結果以視覺化流程圖呈現。
06修復閉環
通過多角色流轉規範、閉環監控、常見問題前置等流程的建立,解決因反饋分析鏈路長、鏈路中斷導致的閉環率和閉環週期不理想的問題。
1)提供一鍵上報功能,根據問題類型、平臺自動分發經辦人,並建立bug閉環週期監控,推動bugfix或需求轉化;
2)部分具備自動定位能力的問題或常見問題解決方法轉化為智慧客服服務內容,輔助使用者自行解決問題,降低諮詢類反饋;
3)問題閉環後通過站內渠道觸達使用者,實現整體閉環。
07自定義問題跟蹤
對於已知問題或新上線的功能、活動,提供多維度特徵組合(如:分類、內容關鍵詞、平臺、版本、裝置、區域、運營商等)創建跟蹤任務,方便追蹤及對比資料變化趨勢,觀察問題解決效果,評估新功能或活動效果,同時支援自定義監控報警,如下圖所示,通過自定義跟蹤任務,在首次故障出現解決後,反饋量趨於零,長期監控捕捉到小範圍的問題回漲並予以快速處理。
08過程/結果度量
建立反饋分析效果度量指標(如:閉環率、閉環週期)輔助過程分析,評估各環節的處理能力,輔助業務線做針對性改善。
09整體框架
基於上述關鍵能力建設,完成了使用者反饋分析過程的平臺化:互動層提供視覺化操作頁面,通過互動引導建立多頁面之間的聯絡,形成處理鏈路;服務層面向互動層提供通用服務能力,基於通用配置抽象支撐模組功能在業務層面的快速擴展;資料層決定服務層的排程和互動層的展示,通過管理排程資料的增刪改操作,實現任務排程和前端展示的實時更新。
目前已有多個業務線接入平臺,集成了多種通用業務問題自動定位方案,0成本複用於多類業務場景,整體閉環率有較大提升,同時大幅縮短了閉環週期。
10結語
使用者反饋作為一種資料情報,其豐富的潛在資訊有待進一步挖掘,使用者反饋的情緒、頻次、類型都與使用者留存存在一定關聯,值得繼續深耕。通過建立快速高效的使用者反饋分析系統,提供了一種從問題發現到修復閉環的通用解決方案,輔助業務團隊持續改善體驗,快速回應使用者的聲音,對於維繫愛奇藝忠實使用者的粘性具有非常大的價值,未來將在反饋渠道拓展、重複問題自動關聯、使用者觸達落地實施等方面做進一步的效果優化。
相關文章
最初选择<em>Word</em>2vec相似度作为第二级分类算法,以例句库为比较对象,当反馈文本与例句相似度超过阈值,则认为分类成功,但在效果评估时发现,部分反馈文本中心词少、内容长,导致整体准确率和召回率不太理想;经调研和试验
2021-05-22 01:30:03
IPS面板有着最好的色彩和色准,液晶的排布平行于画面,所以任何角度观看都不会变色。一些专业级的显示器都是采用的 IPS面板,比如 <em>Mac</em> 系列,虽然面板本身并不代表高端,但对我们普通用户而言,IPS的综合素质确实更高一
2021-05-22 01:01:28
在下面一众网友不断展开的评论中,我们看到了有HomePod,14/16寸<em>Mac</em>Book Pro,新iPhone SE,Apple Watch S7,AirPods 3,AirPods Max运动版,甚至还看到了M1 <em>Mac</em> Pro…其中属14/16寸 <em>Mac</em>Book Pro和AirP
2021-05-22 01:01:24
笔点酷玩每日答疑,为什么对于苹果电脑,更多人愿意买<em>Mac</em>Book,而不买iMac?今天遇到知乎网友提问,他发现了一个选购苹果电脑产品的奇怪现象,虽然iMac的配置比<em>Mac</em>Book更强悍,而二者价格差异并不大,大部分消费者
2021-05-22 01:01:18
而刚好,灵耀14s这款机型的实力本身也是华硕收获轻薄本行业好口碑的体现,灵耀14s搭载的是第 11英特尔酷睿 i7-1165G7处理器,集成英特尔锐炬 Xe 显卡,4266MHz 16GB LPDDR4X双通道内存和512GB PCIe <em>SSD</em>;酷睿i7-
2021-05-22 01:01:09
说到<em>固态硬盘</em>(<em>SSD</em>)相信大家第一时间都会想到西数、希捷、东芝这些一线品牌,可是近日看到网上的一则消息称,一名资深美国参议员准备向这三家全球最大的硬盘制造商提交了一份正式调查,询问他们是否遵
2021-05-22 01:01:01