行銷不唬爛! 因為懂數據分析

Bank Marketing – bank client data (銀行內部客戶基本資料)

接續之前銀行行銷專案的分析

UCI dataset案例解析教您行銷成本如何管控 | 再行銷的黃金時間與目標客戶 (jhdigitech.com)

MarTech在行銷案例上對外部社會經濟狀況的分析 | 2022年數位行銷趨勢 (jhdigitech.com)

1 age (numeric)
2 job : type of job (categorical: ‘admin.’,’blue-collar’,’entrepreneur’,’housemaid’,’management’,’retired’,’self-employed’,’services’,’student’,’technician’,’unemployed’,’unknown’)
3 marital : marital status (categorical: ‘divorced’,’married’,’single’,’unknown’; note: ‘divorced’ means divorced or widowed)
4 education (categorical: basic.4y’,’basic.6y’,’basic.9y’,’high.school’,’illiterate’,’professional.course’,’university.degree’,’unknown’)
5 default: has credit in default? (categorical: ‘no’,’yes’,’unknown’)
6 housing: has housing loan? (categorical: ‘no’,’yes’,’unknown’)
7 loan: has personal loan? (categorical: ‘no’,’yes’,’unknown’)

這一次我們來分析銀行那客戶的基本資料,從以下這張表格可以看得出來有一些欄位並不是數字的方式來呈現,所以這部分要做演算,就必須要轉換成整數的資料型態(有關資料型態的介紹請參考https://jhdigitech.com/marketing_data_analysis/ ),程式才有辦法去做演算,另外;『default』這欄位表示是信用狀況或無信用卡,但是在『default』欄位裡”yes”的部分只有三筆資料(其他欄位沒有這個問題,所以我特別挑出來說明),然後再去查這三筆的資料,發現其實這三個客戶也都沒有去成交這個銀行的行銷活動,所以我就把這三筆刪除掉(因為需要將資料轉為int的資料結構才能做進一步的程式演算),對後續的演算會比較方便而且只有三筆對整個的41188筆資料並不會有影響;所以找出index直接刪除。

導入pandas數據分析

導入pandas數據分析

我先分析職業和成交率,因為一般在最初設定這個行銷活動時會設定目標客戶的職業(跟收入有關),從以下這張圖是以總資料數來分類,分別是未成交和成交兩個柱狀圖,成交以『0』來表示未成交以『1』來表示,從這張圖我們可以很清楚的看出來各種不同的職業成交的人數和未成交的人數高低的比例,還有成交百分比的數字,第一張圖我們可以看得很清楚是銀行的客戶資料結構,主要是以管理者『admin.』和藍領『blue-collar』還有工程技術人員『technician』為主(這可能是本次銀行行銷的目標客戶),他們的資料筆數(人數)是最多但他們的成交率卻不是最好,以行銷的角度來看如果是要拉業績的話,這三種人是最有效率的但必須了解未成交的原因,未成交的原因在資料裡面可能可以找到相關的數據資料也考可能找不到,因為未下單的原因很多有可能當時客戶有下單另一個行銷活動、這個行銷活動並不是他知道、利率太低不吸引客戶下單或者是他原本這筆錢原本就有另外的使用,所以他沒有去做下單的動作,但是成交的原因比較容易在資料裡找到,所以如果要分析要進一步分析未成交和成交的因素,就需要用到機器學習的分類族群和預測分析的方式,比較能調整行銷的參數(方式)。

各職業成交比例

所以我在資料中找成交的原因,找到容易成交的因素可以複製這因素去做再行銷,因此我就從成交的角度來去分析行銷應該從哪方面去著手才能提高成交率;我把各職業與年齡的成交的關係圖找出來(如下這張圖);另外再做年齡的區間,圖形在閱讀時會比較容易了解;以上一張圖來看目標客戶(『admin.』、『blue-collar』、『technician』)的年齡可能是在30~40歲之間,以行銷的觀點來看當初在設立這個行銷專案的時候,專案的主要的目標客戶是否與行銷後成交的數據一致用以下這張圖來檢討,有個意外的收穫就是中高齡對於定存的行銷活動成交率高,所以可以另外再進行一個專案針對中高齡的行銷專案,也是運用這資料,所以資料的建立和分析真的很重要! 說白一點只是聽業務人員用簡報來分析結果,真的看不出來,我自己也做過業務很多年,說實在有時候真的是在唬爛!有時候真的是業務的直覺,但沒有辦法提供數據說服老闆,也是錯過的商機,有些業務會用EXCEL來分析但是幾萬筆資料電腦跑不動你怎麼分析…。目標客戶成交率的檢討

目標客戶成交率的檢討
目標客戶成交率的檢討
目標客戶成交率的檢討

以下這張圖是說明教育程度跟成交率的關係,比例最高是22.22%的文盲,但是這個是總數不到20筆,因為總數太小即使是比例高也不具影響力,以這張圖來看行銷的目標主要是以高中畢業或大學畢業為主,因為這邊的人數是最多達成率大概是10.84%和13.72%左右,我找出目標客戶的職業和教育程度關係,我們之前所提出的目標客戶『admin.』、『blue-collar』、『technician』,來比對我所認知的目標客戶有無失真。

target audiences education
target audiences education

機器學習Kmeans可以分類、R語言也可以分類

但懂知識領域(domain knowledge)分類會更精準


客戶屬性分類
不具影響的欄位

小結論 :

我把年齡、教育、職業與婚姻狀態分類為個人的屬性,再把信用調查、有沒有房貸和個人借貸,列為個人的借貸與信用狀況來做分析,其實用Kmeans的clustering分類可以來做分析,但是有行銷的domain knowledge來做分析會更準確,由上面這三張圖看不太出來婚姻的關係在與『job』、『age』、『education』有明顯的趨勢,如果有小孩或小孩的年齡、個人保險的資料更可以建立客戶的屬性,資料是長期建立和累積的資產,也是我一直提醒企業管理層要建立數位資產就是這道理,有了個人屬性就可以建立群組分類。

房貸『housing』在之前有提過的目標客戶職業『admin.』、『blue-collar』、『technician』,教育程度高中畢業或大學畢業為主,婚姻『marital』看不出與房貸有關係,年齡也是在30~40歲。

數據

借貸『loan』與『housing』幾乎一樣的資料,所以在後續座機器學習的分析預測上的特徵工程(feature engineering) 用其中一個來代表即可。

數據

信用狀況『default』與『loan』、『housing』也幾乎一樣的資料,唯獨不一樣的是有限用狀況的只有三筆資料,所以在後續座機器學習的分析預測上的特徵工程(feature engineering) 用其中一個來代表即可,當然以現在個人資料可以從聯徵中心取得很多信用資料包括個人和企業。

數據

結論:

綜合以上分析,個人的屬性包括年齡、教育、職業、婚姻狀態和個人信用狀況包括信用調查、房貸和個人借貸,個人的屬性的婚姻狀況改為家庭狀況可能比較可以表達出個人的屬性包的指標,目標客戶是『admin.』和藍領『blue-collar』、專業技術人員『technician』其年齡30~40歲、教育程度專業訓練、高中與大學,意外的彩蛋有兩個一個是60歲中高年齡銀行客戶的成交率也不差,或許是外部經濟狀況不好中高齡退休想要安全地多存點錢,所以可以特別為這些人設立行銷專案;另一個是學生成交比例有31.43%,年齡在18~24 & 25~30歲,應該是在讀大學university或先修短期學院college,可以再另外成立一個學生專案,為不知道這個銀行活動定存專案的細節(時間、利率),可能不是一個一年以上的長期定存比較可能像是短期3~6個月專案。

Digitech Marketing

Bank Marketing – related with the last contact of the current campaign(這次行銷之前的聯絡資料):

8 – contact: contact communication type (categorical: ‘cellular’,’telephone’)
9 – month: last contact month of year (categorical: ‘jan’, ‘feb’, ‘mar’, …, ‘nov’, ‘dec’)
10 – day_of_week: last contact day of the week (categorical: ‘mon’,’tue’,’wed’,’thu’,’fri’)
11 – duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y=’no’). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known. Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.

用手機連絡有26144次桌機有15044次,手機成交3853次桌機成交787次,手機和桌機的聯絡比率不到兩倍,但手機是桌機的接近五倍成交率,可能是因為現在人手機比較很普遍也很方便找到人,桌機在五月和六月聯絡為最多,但手機就沒有明顯,可能是剛到了七月以後發現手機的成交率高就以手機為主。

pandas crosstab 應用

以下這兩張圖可以看得出來,銀行的電話行銷人員用手機在三到五分鐘的電話行銷其成交率是最高,其次是五到十分鐘,但超過15分鐘的行銷成本就會變得高,所以應該要求電話行銷人員講要控制在十分鐘之內,把要傳達的行銷內容要講清楚,並記錄下來讓後續的再行銷可以更精準地進行!!!

pandas crosstab 應用

我用crosstab的函式來分析Month、day of wee、duration和 contact的關係,這三個參數的趨勢一致,其中有小處理duration(我把duration encode成區間不然數字太多),可以看的出來電話型行銷就是以目標客戶為主,我就不多放圖面。

pandas crosstab 應用