1.點(diǎn)擊下面按鈕復(fù)制微信號(hào)
點(diǎn)擊復(fù)制微信號(hào)
上海威才企業(yè)管理咨詢有限公司
本課程為建模課程,面向數(shù)據(jù)分析部等專門負(fù)責(zé)數(shù)據(jù)分析與建模的人員。
本課程具體內(nèi)容包括:
1、 數(shù)據(jù)建模流程,特征工程處理
2、 回歸預(yù)測(cè)模型,時(shí)序預(yù)測(cè)模型
3、 分類預(yù)測(cè)模型,模型含義解讀
4、 模型基本原理,模型算法實(shí)現(xiàn)
5、 模型質(zhì)量評(píng)估,模型優(yōu)化措施
本系列課程從實(shí)際的業(yè)務(wù)需求出發(fā),結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),圍繞實(shí)際的商業(yè)問題,對(duì)數(shù)據(jù)預(yù)測(cè)建模的過程進(jìn)行了全面的介紹(從模型選擇,到特征選擇,再到訓(xùn)練模型,評(píng)估模型,以及優(yōu)化模型和模型解讀),通過大量的操作演練,幫助學(xué)員掌握數(shù)據(jù)建模的思路、方法、技巧,以提升學(xué)員的數(shù)據(jù)建模的能力,支撐運(yùn)營決策的目的。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
1、 掌握數(shù)據(jù)建模的基本過程和步驟
2、 掌握數(shù)據(jù)建模前的特征選擇的系統(tǒng)方法,學(xué)會(huì)尋找影響業(yè)務(wù)的關(guān)鍵要素
3、 掌握回歸預(yù)測(cè)模型基本原理,學(xué)會(huì)解讀回歸方程的含義
4、 掌握常用的時(shí)序預(yù)測(cè)模型,以及各模型的適用場(chǎng)景
5、 掌握常用的分類預(yù)測(cè)模型,以及分類模型的優(yōu)化
【學(xué)員要求】
1、 每個(gè)學(xué)員自備一臺(tái)便攜機(jī)(必須)。
2、 便攜機(jī)中事先安裝好Office Excel 2013版本及以上。
3、 便攜機(jī)中事先安裝好IBM SPSS Statistics v24版本以上軟件。
注:講師可以提供試用版本軟件及分析數(shù)據(jù)源。
【授課方式】
理論精講 + 案例演練 + 實(shí)際業(yè)務(wù)問題分析 + SPSS實(shí)際操作
本課程突出數(shù)據(jù)挖掘的實(shí)際應(yīng)用,結(jié)合行業(yè)的典型應(yīng)用特點(diǎn),從實(shí)際問題入手,引出相關(guān)知識(shí),進(jìn)行大數(shù)據(jù)的收集與處理;探索數(shù)據(jù)之間的規(guī)律及關(guān)聯(lián)性,幫助學(xué)員掌握系統(tǒng)的數(shù)據(jù)預(yù)處理方法;介紹常用的模型,訓(xùn)練模型,并優(yōu)化模型,以達(dá)到最優(yōu)分析結(jié)果。
1、 預(yù)測(cè)建模六步法
‐ 選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
‐ 特征工程:選擇對(duì)目標(biāo)變量有顯著影響的屬性來建模
‐ 訓(xùn)練模型:采用合適的算法對(duì)模型進(jìn)行訓(xùn)練,尋找到最優(yōu)參數(shù)
‐ 評(píng)估模型:進(jìn)行評(píng)估模型的質(zhì)量,判斷模型是否可用
‐ 優(yōu)化模型:如果評(píng)估結(jié)果不理想,則需要對(duì)模型進(jìn)行優(yōu)化
‐ 應(yīng)用模型:如果評(píng)估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場(chǎng)景
2、 數(shù)據(jù)挖掘常用的模型
‐ 定量預(yù)測(cè)模型:回歸預(yù)測(cè)、時(shí)序預(yù)測(cè)等
‐ 定性預(yù)測(cè)模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
‐ 市場(chǎng)細(xì)分:聚類、RFM、PCA等
‐ 產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
‐ 產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
‐ 產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、 特征工程/特征選擇/變量降維
‐ 基于變量本身特征
‐ 基于相關(guān)性判斷
‐ 因子合并(PCA等)
‐ IV值篩選(評(píng)分卡使用)
‐ 基于信息增益判斷(決策樹使用)
4、 模型評(píng)估
‐ 模型質(zhì)量評(píng)估指標(biāo):R^2、正確率/查全率/查準(zhǔn)率/特異性等
‐ 預(yù)測(cè)值評(píng)估指標(biāo):MAD、MSE/RMSE、MAPE、概率等
‐ 模型評(píng)估方法:留出法、K拆交叉驗(yàn)證、自助法等
‐ 其它評(píng)估:過擬合評(píng)估、殘差檢驗(yàn)
5、 模型優(yōu)化
‐ 優(yōu)化模型:選擇新模型/修改模型
‐ 優(yōu)化數(shù)據(jù):新增顯著自變量
‐ 優(yōu)化公式:采用新的計(jì)算公式
‐ 集成思想:Bagging/Boosting/Stacking
6、 常用預(yù)測(cè)模型介紹
‐ 時(shí)序預(yù)測(cè)模型
‐ 回歸預(yù)測(cè)模型
‐ 分類預(yù)測(cè)模型
問題:如何選擇合適的屬性/特征來建模呢?選擇的依據(jù)是什么?比如價(jià)格是否可用于產(chǎn)品銷量預(yù)測(cè)?
1、 數(shù)據(jù)預(yù)處理vs特征工程
2、 特征工程處理內(nèi)容
‐ 變量變換
‐ 變量派生
‐ 變量精簡(特征選擇、因子合并)
‐ 類型轉(zhuǎn)換
3、 特征選擇常用方法
‐ 相關(guān)分析、方差分析、卡方檢驗(yàn)
4、 相關(guān)分析(衡量兩數(shù)據(jù)型變量的線性相關(guān)性)
‐ 相關(guān)分析簡介
‐ 相關(guān)分析的應(yīng)用場(chǎng)景
‐ 相關(guān)分析的種類
◢ 簡單相關(guān)分析
◢ 偏相關(guān)分析
◢ 距離相關(guān)分析
‐ 相關(guān)系數(shù)的三種計(jì)算公式
◢ Pearson相關(guān)系數(shù)
◢ Spearman相關(guān)系數(shù)
◢ Kendall相關(guān)系數(shù)
‐ 相關(guān)分析的假設(shè)檢驗(yàn)
‐ 相關(guān)分析的四個(gè)基本步驟
演練:營銷費(fèi)用會(huì)影響銷售額嗎?影響程度如何量化?
演練:哪些因素與汽車銷量有相關(guān)性
演練:影響用戶消費(fèi)水平的因素會(huì)有哪些
‐ 偏相關(guān)分析
◢ 偏相關(guān)原理:排除不可控因素后的兩變量的相關(guān)性
◢ 偏相關(guān)系數(shù)的計(jì)算公式
◢ 偏相關(guān)分析的適用場(chǎng)景
‐ 距離相關(guān)分析
5、 方差分析(衡量類別變量與數(shù)值變量間的相關(guān)性)
‐ 方差分析的應(yīng)用場(chǎng)景
‐ 方差分析的三個(gè)種類
◢ 單因素方差分析
◢ 多因素方差分析
◢ 協(xié)方差分析
‐ 單因素方差分析的原理
‐ 方差分析的四個(gè)步驟
‐ 解讀方差分析結(jié)果的兩個(gè)要點(diǎn)
演練:擺放位置與銷量有關(guān)嗎
演練:客戶學(xué)歷對(duì)消費(fèi)水平的影響分析
演練:廣告和價(jià)格是影響終端銷量的關(guān)鍵因素嗎
演練:營業(yè)員的性別、技能級(jí)別對(duì)產(chǎn)品銷量有影響嗎
演練:尋找影響產(chǎn)品銷量的關(guān)鍵因素
‐ 多因素方差分析原理
‐ 多因素方差分析的作用
‐ 多因素方差結(jié)果的解讀
演練:廣告形式、地區(qū)對(duì)銷量的影響因素分析
‐ 協(xié)方差分析原理
‐ 協(xié)方差分析的適用場(chǎng)景
演練:排除產(chǎn)品價(jià)格,收入對(duì)銷量有影響嗎?
6、 列聯(lián)分析/卡方檢驗(yàn)(兩類別變量的相關(guān)性分析)
‐ 交叉表與列聯(lián)表:計(jì)數(shù)值與期望值
‐ 卡方檢驗(yàn)的原理
‐ 卡方檢驗(yàn)的幾個(gè)計(jì)算公式
‐ 列聯(lián)表分析的適用場(chǎng)景
案例:套餐類型對(duì)客戶流失的影響分析
案例:學(xué)歷對(duì)業(yè)務(wù)套餐偏好的影響分析
案例:行業(yè)/規(guī)模對(duì)風(fēng)控的影響分析
營銷問題:如何預(yù)測(cè)未來的產(chǎn)品銷量/銷售額?如果產(chǎn)品跟隨季節(jié)性變動(dòng),該如何預(yù)測(cè)?
1、 回歸分析簡介和原理
2、 回歸分析的種類
‐ 一元回歸/多元回歸
‐ 線性回歸/非線性回歸
3、 常用回歸分析方法
‐ 散點(diǎn)圖+趨勢(shì)線(一元)
‐ 線性回歸工具(多元線性)
‐ 規(guī)劃求解工具(非線性回歸)
演練:散點(diǎn)圖找營銷費(fèi)用與銷售額的關(guān)系
4、 線性回歸分析的五個(gè)步驟
演練:營銷費(fèi)用、辦公費(fèi)用與銷售額的關(guān)系(線性回歸)
5、 線性回歸方程的解讀技巧
‐ 定性描述:正相關(guān)/負(fù)相關(guān)
‐ 定量描述:自變量變化導(dǎo)致因變量的變化程度
6、 回歸預(yù)測(cè)模型評(píng)估
‐ 質(zhì)量評(píng)估指標(biāo):判定系數(shù)R^2
‐ 如何選擇最佳回歸模型
演練:如何選擇最佳的回歸預(yù)測(cè)模型(一元曲線回歸)
7、 帶分類自變量的回歸預(yù)測(cè)
演練:汽車季度銷量預(yù)測(cè)
演練:工齡、性別與終端銷量的關(guān)系
演練:如何評(píng)估銷售目標(biāo)與資源最佳配置
8、 自動(dòng)篩選不顯著因素(自變量)
1、 回歸分析的基本原理
‐ 三個(gè)基本概念:總變差、回歸變差、剩余變差
‐ 方程的顯著性檢驗(yàn):方程可用性
‐ 因素的顯著性檢驗(yàn):因素可用性
‐ 方程擬合優(yōu)度檢驗(yàn):質(zhì)量好壞程度
‐ 理解標(biāo)準(zhǔn)誤差含義:預(yù)測(cè)準(zhǔn)確性?
2、 回歸模型優(yōu)化措施:尋找最佳回歸擬合線
‐ 如何處理預(yù)測(cè)離群值(剔除離群值)
‐ 如何剔除不顯著因素(剔除不顯著因素)
‐ 如何進(jìn)行非線性關(guān)系檢驗(yàn)(增加非線性自變量)
‐ 如何進(jìn)行相互作用檢驗(yàn)(增加相互作用自變量)
‐ 如何進(jìn)行多重共線性檢驗(yàn)(剔除共線性自變量)
演練:模型優(yōu)化演示
3、 好模型都是優(yōu)化出來的
1、 回歸建模的本質(zhì)
2、 規(guī)劃求解工具簡介
3、 自定義回歸模型
案例:如何對(duì)客流量進(jìn)行建模預(yù)測(cè)及模型優(yōu)化
4、 回歸季節(jié)預(yù)測(cè)模型模型
‐ 回歸季節(jié)模型的原理及應(yīng)用場(chǎng)景
‐ 加法季節(jié)模型
‐ 乘法季節(jié)模型
‐ 模型解讀
案例:美國航空旅客里程的季節(jié)性趨勢(shì)分析
5、 新產(chǎn)品累計(jì)銷量的S曲線
‐ S曲線模型的應(yīng)用場(chǎng)景(最大累計(jì)銷量及銷量增長的拐點(diǎn))
‐ 珀?duì)柷€
‐ 龔鉑茲曲線
案例:如何預(yù)測(cè)產(chǎn)品的銷售增長拐點(diǎn),以及銷量上限
演練:預(yù)測(cè)IPad產(chǎn)品的銷量
1、定量預(yù)測(cè)模型的評(píng)估
‐ 方程顯著性評(píng)估
‐ 因素顯著性評(píng)估
‐ 擬合優(yōu)度的評(píng)估
‐ 估計(jì)標(biāo)準(zhǔn)誤差評(píng)估
‐ 預(yù)測(cè)值準(zhǔn)確度評(píng)估
2、模型擬合度評(píng)估
‐ 判定系數(shù):
‐ 調(diào)整判定系數(shù):
3、預(yù)測(cè)值準(zhǔn)確度評(píng)估
‐ 平均絕對(duì)誤差:MAE
‐ 根均方差:RMSE
‐ 平均誤差率:MAPE
4、其它評(píng)估:殘差檢驗(yàn)、過擬合檢驗(yàn)
營銷問題:像利率/CPI/GDP等按時(shí)序變化的指標(biāo)如何預(yù)測(cè)?當(dāng)銷量隨季節(jié)周期變動(dòng)時(shí)該如何預(yù)測(cè)?
1、 回歸預(yù)測(cè)vs時(shí)序預(yù)測(cè)
2、 因素分解思想
3、 時(shí)序預(yù)測(cè)常用模型
‐ 趨勢(shì)擬合
‐ 季節(jié)擬合
‐ 平均序列擬合
4、 評(píng)估預(yù)測(cè)值的準(zhǔn)確度指標(biāo):MAD、RMSE、MAPE
5、 移動(dòng)平均(MA)
‐ 應(yīng)用場(chǎng)景及原理
‐ 移動(dòng)平均種類
◢ 一次移動(dòng)平均
◢ 二次移動(dòng)平均
◢ 加權(quán)移動(dòng)平均
◢ 移動(dòng)平均比率法
‐ 移動(dòng)平均關(guān)鍵問題
◢ 如何選取最優(yōu)參數(shù)N
◢ 如何確定最優(yōu)權(quán)重系數(shù)
演練:平板電腦銷量預(yù)測(cè)及評(píng)估
演練:快銷產(chǎn)品季節(jié)銷量預(yù)測(cè)及評(píng)估
6、 指數(shù)平滑(ES)
‐ 應(yīng)用場(chǎng)景及原理
‐ 最優(yōu)平滑系數(shù)的選取原則
‐ 指數(shù)平滑種類
◢ 一次指數(shù)平滑
◢ 二次指數(shù)平滑(Brown線性、Holt線性、Holt指數(shù)、阻尼線性、阻尼指數(shù))
◢ 三次指數(shù)平滑
演練:煤炭產(chǎn)量預(yù)測(cè)
演練:航空旅客量預(yù)測(cè)及評(píng)估
7、 溫特斯季節(jié)預(yù)測(cè)模型
‐ 適用場(chǎng)景及原理
‐ Holt-Winters加法模型
‐ Holt-Winters乘法模型
演練:汽車銷量預(yù)測(cè)及評(píng)估
‐ 序列的平穩(wěn)性檢驗(yàn)
‐ 平穩(wěn)序列的擬合模型
◢ AR(p)自回歸模型
◢ MA(q)移動(dòng)模型
◢ ARMA(p,q)自回歸移動(dòng)模型
‐ 模型的識(shí)別與定階
◢ ACF圖/PACF圖
◢ 最小信息準(zhǔn)則
‐ 序列平穩(wěn)化處理
◢ 變量變換
◢ k次差分
◢ d階差分
‐ ARIMA(p,d,q)模型
演練:上海證券交易所綜合指數(shù)收益率序列分析
演練:服裝銷售數(shù)據(jù)季節(jié)性趨勢(shì)預(yù)測(cè)分析
‐ 平穩(wěn)序列的建模流程
問題:如何評(píng)估客戶購買產(chǎn)品的可能性?如何預(yù)測(cè)客戶的購買行為?如何提取某類客戶的典型特征?如何向客戶精準(zhǔn)推薦產(chǎn)品或業(yè)務(wù)?
1、 分類模型概述及其應(yīng)用場(chǎng)景
2、 常見分類預(yù)測(cè)模型
3、 邏輯回歸(LR)
‐ 邏輯回歸的適用場(chǎng)景
‐ 邏輯回歸的模型原理
‐ 邏輯回歸分類的幾何意義
‐ 邏輯回歸的種類
2 二項(xiàng)邏輯回歸
2 多項(xiàng)邏輯回歸
‐ 如何解讀邏輯回歸方程
‐ 多項(xiàng)邏輯回歸/多分類邏輯回歸
案例:如何評(píng)估用戶是否會(huì)購買某產(chǎn)品(二項(xiàng)邏輯回歸)
案例:多品牌選擇模型分析(多項(xiàng)邏輯回歸)
4、 分類決策樹(DT)
問題:如何預(yù)測(cè)客戶行為?如何識(shí)別潛在客戶?
風(fēng)控:如何識(shí)別欠貸者的特征,以及預(yù)測(cè)欠貸概率?
客戶保有:如何識(shí)別流失客戶特征,以及預(yù)測(cè)客戶流失概率?
‐ 決策樹分類簡介
案例:美國零售商(Target)如何預(yù)測(cè)少女懷孕
演練:識(shí)別銀行欠貨風(fēng)險(xiǎn),提取欠貸者的特征
‐ 決策樹分類的幾何意義
‐ 構(gòu)建決策樹的三個(gè)關(guān)鍵問題
◢ 如何選擇最佳屬性來構(gòu)建節(jié)點(diǎn)
◢ 如何分裂變量
◢ 修剪決策樹
‐ 選擇最優(yōu)屬性生長
◢ 熵、基尼索引、分類錯(cuò)誤
◢ 屬性劃分增益
‐ 如何分裂變量
◢ 多元?jiǎng)澐峙c二元?jiǎng)澐?/span>
◢ 連續(xù)變量離散化(最優(yōu)分割點(diǎn))
‐ 修剪決策樹
◢ 剪枝原則
◢ 預(yù)剪枝與后剪枝
‐ 構(gòu)建決策樹的四個(gè)算法
◢ C5.0、CHAID、CART、QUEST
◢ 各種算法的比較
‐ 如何選擇最優(yōu)分類模型?
案例:商場(chǎng)用戶的典型特征提取
案例:客戶流失預(yù)警與客戶挽留
案例:識(shí)別拖欠銀行貨款者的特征,避免不良貨款
案例:識(shí)別電信詐騙者嘴臉,讓通信更安全
‐ 多分類決策樹
案例:不同套餐用戶的典型特征
‐ 決策樹模型的保存與應(yīng)用
5、 人工神經(jīng)網(wǎng)絡(luò)(ANN)
‐ 神經(jīng)網(wǎng)絡(luò)概述
‐ 神經(jīng)網(wǎng)絡(luò)基本原理
‐ 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
‐ 神經(jīng)網(wǎng)絡(luò)分類的幾何意義
‐ 神經(jīng)網(wǎng)絡(luò)的建立步驟
‐ 神經(jīng)網(wǎng)絡(luò)的關(guān)鍵問題
‐ BP反向傳播網(wǎng)絡(luò)(MLP)
‐ 徑向基網(wǎng)絡(luò)(RBF)
案例:評(píng)估銀行用戶拖欠貨款的概率
6、 判別分析(DA)
‐ 判別分析原理
‐ 判別分析種類
‐ Fisher線性判別分析
案例:MBA學(xué)生錄取判別分析
案例:上市公司類別評(píng)估
7、 最近鄰分類(KNN)
‐ KNN模型的基本原理
‐ KNN分類的幾何意義
‐ K近鄰的關(guān)鍵問題
8、 支持向量機(jī)(SVM)
‐ SVM基本原理
‐ 線性可分問題:最大邊界超平面
‐ 線性不可分問題:特征空間的轉(zhuǎn)換
‐ 維災(zāi)難與核函數(shù)
9、 貝葉斯分類(NBN)
‐ 貝葉斯分類原理
‐ 計(jì)算類別屬性的條件概率
‐ 估計(jì)連續(xù)屬性的條件概率
‐ 預(yù)測(cè)分類概率(計(jì)算概率)
‐ 拉普拉斯修正
案例:評(píng)估銀行用戶拖欠貨款的概率
1、模型的評(píng)估指標(biāo)
‐ 兩大矩陣:混淆矩陣,代價(jià)矩陣
‐ 六大指標(biāo):Acc,P,R,Spec,F1,lift
‐ 三條曲線:
◢ ROC曲線和AUC
◢ PR曲線和BEP
◢ KS曲線和KS值
2、模型的評(píng)估方法
‐ 原始評(píng)估法
‐ 留出法(Hold-Out)
‐ 交叉驗(yàn)證法(k-fold cross validation)
‐ 自助采樣法(Bootstrapping)
1、模型的優(yōu)化思路
2、集成算法基本原理
‐ 單獨(dú)構(gòu)建多個(gè)弱分類器
‐ 多個(gè)弱分類器組合投票,決定預(yù)測(cè)結(jié)果
3、集成方法的種類
‐ Bagging
‐ Boosting
‐ Stacking
4、Bagging集成
‐ 數(shù)據(jù)/屬性重抽樣
‐ 決策依據(jù):少數(shù)服從多數(shù)
‐ 典型模型:隨機(jī)森林RF
5、Boosting集成
‐ 基于誤分?jǐn)?shù)據(jù)建模
‐ 樣本選擇權(quán)重更新公式
‐ 決策依據(jù):加權(quán)投票
‐ 典型模型:AdaBoost模型
6、其它高級(jí)集成算法:GBDT,XGBoost等
結(jié)束:課程總結(jié)與問題答疑。
聯(lián)系電話:4006-900-901
微信咨詢:威才客服
企業(yè)郵箱:shwczx@shwczx.com
深耕中國制造業(yè)
助力企業(yè)轉(zhuǎn)型
2021年度咨詢客戶數(shù)
資深實(shí)戰(zhàn)導(dǎo)師
客戶滿意度
續(xù)單和轉(zhuǎn)介紹