数据分析
1.数据分析的概念[1]
数据分析是指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作,将被审计单位数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。
2.数据分析的目的与意义
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。
3.数据分析的功能
数据分析主要包含下面几个功能:
1. 简单数学运算(Simple Math)
2. 统计(Statistics)
3. 快速傅里叶变换(FFT)
4. 平滑和滤波(Smoothing and Filtering)
5. 基线和峰值分析(Baseline and Peak Analysis)
4.数据分析的类型
在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
- 探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(John Tukey)命名。
- 定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。
5.数据分析步骤
数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:
- 1、探索性数据分析,当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。
- 2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
- 3、推断分析,通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。
数据分析过程实施
数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。
一、识别信息需求
识别信息需求是确保数据分析过程有效性的首要条件,可以为收集数据、分析数据提供清晰的目标。识别信息需求是管理者的职责管理者应根据决策和过程控制的需求,提出对信息的需求。就过程控制而言,管理者应识别需求要利用那些信息支持评审过程输入、过程输出、资源配置的合理性、过程活动的优化方案和过程异常变异的发现。
二、收集数据
有目的的收集数据,是确保数据分析过程有效的基础。组织需要对收集数据的内容、渠道、方法进行策划。策划时应考虑:
- ①将识别的需求转化为具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定度等相关数据;
- ②明确由谁在何时何处,通过何种渠道和方法收集数据;
- ③记录表应便于使用;
- ④采取有效措施,防止数据丢失和虚假数据对系统的干扰。
三、分析数据
分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,通常用方法有:
四、数据分析过程的改进
数据分析是质量管理体系的基础。组织的管理者应在适当时,通过对以下问题的分析,评估其有效性:
- ①提供决策的信息是否充分、可信,是否存在因信息不足、失准、滞后而导致决策失误的问题;
- ②信息对持续改进质量管理体系、过程、产品所发挥的作用是否与期望值一致,是否在产品实现过程中有效运用数据分析;
- ③收集数据的目的是否明确,收集的数据是否真实和充分,信息渠道是否畅通;
- ④数据分析方法是否合理,是否将风险控制在可接受的范围;
- ⑤数据分析所需资源是否得到保障。
6.问卷数据分析方法[2]
采用的分析方法如下:
1.描述性统计分析
包括样本基本资料的描述,作各变量的次数分配及百分比分析,以了解样本的分布情况。此外,以平均数和标准差来描述市场导向、竞争优势、组织绩效等各个构面,以了解样本企业的管理人员对这些相关变量的感知,并利用t检验及相关分析对背景变量所造成的影响做检验。
2.Cronbach’a信度系数分析
信度是指测验结果的一致性、稳定性及可靠性,一般多以内部一致性(consistency)来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。针对各研究变量的衡量题项进行Cronbach’a信度分析,以了解衡量构面的内部一致性。一般来说,Cronbach’a仅大于0.7为高信度,低于0.35为低信度(Cuieford,1965),0.5为最低可以接受的信度水准(Nunnally,1978)。
3.探索性因素分析(exploratory factor analysis)和验讧性因素分析(confirmatory factor analysis)
用以测试各构面衡量题项的聚合效度(convergent validity)与区别效度(discriminant validity)。因为仅有信度是不够的,可信度高的测量,可能是完全无效或是某些程度上无效。所以我们必须对效度进行检验。效度是指工具是否能测出在设计时想测出的结果。收敛效度的检验根据各个项目和所衡量的概念的因素的负荷量来决定;而区别效度的检验是根据检验性因素分析计算理论上相关概念的相关系数,检定相关系数的95%信赖区间是否包含1.0,若不包含1.0,则可确认为具有区别效度(Anderson,1987)。
4.结构方程模型分析(structural equations modeling)
由于结构方程模型结合了因素分析(factor analysis)和路径分析(path analysis),并纳入计量经济学的联立方程式,可同时处理多个因变量,容许自变量和因变量含测量误差,可同时估计因子结构和因子关系。容许更大弹性的测量模型,可估计整个模型的拟合程度(Bollen和Long,1993),因而适用于整体模型的因果关系。在模型参数的估计上,采用最大似然估计法(Maximum Likelihood,ML);在模型的适合度检验上,以基本的拟合标准(preliminary fit criteria)、整体模型拟合优度(overall model fit)以及模型内在结构拟合优度(fit of internal structure of model)(Bagozzi和Yi,1988)三个方面的各项指标作为判定的标准。在评价整体模式适配标准方面,本研究采用x2(卡方)/df(自由度)值、拟合优度指数(goodness.of.f:iJt.in.dex,GFI)、平均残差平方根(root—mean.square:residual,RMSR)、近似误差均方根(root-mean—square-error-of-approximation,RMSEA)等指标;模型内在结构拟合优度则参考Bagozzi和Yi(1988)的标准,考察所估计的参数是否都到达显著水平。
7.数据分析案例分析
案例一:数据分析在邮政报刊中的应用模式研究[3]
邮政报刊生产作业系统投入使用后,至今已经积累了丰富的数据。这些数据全面而真实地描述了邮政报刊发行的业务全流程,同时也沉淀了丰富的报刊客户及订阅信息,这些信息集中存储在数据库中,以报表为主进行展示。随着数据分析方法的不断进步,数据分析的应用模式已经不再局限于单纯的报表方式,新的应用模式不断涌现,先进的数据分析手段将使邮政报刊数据发挥出更大价值。
一、数据分析方法及邮政应用现状
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析方法大致可以分为三张统计分析,以基础的统计分析为主高级分析,以计量经济建模理论为主;数据挖掘,以机器学习、数据仓库等复合技术为主。对于邮政报刊全国集中的大数据量来说,数据挖掘方法更能够发挥作用。有关数据挖掘方法及典型应用见表所示。
表数据挖掘方法及应用
种类 | 功能 | 算法 | 典型应用 |
分类预测 | 分类 | 决策树、神经网络分类、区别分析、逻辑回归、概率回归 | 风险分析、客户挽留分析、欺诈探测 |
预测 | 线性回归、非线性回归 | 收益率分析,收入预测,信用价值预测,客户潜在价值预测 | |
聚类 | 集群分析 | K-平均值,神经网络聚类 | 客户分割 |
关联规则 | 关联分析 | 统计学,集合理论 | 交叉销售。捆绑销售 |
序列关联分析 | 统计学,集合理论 | 交叉销售 | |
相似时间序列分析 | 统计学,集合理论 | 产品生命周期 | |
预测 | 时间序列预测 | 统计时间序列模型、神经网络 | 销售预测、利率预测、损失预测 |
统计分析方法在邮政行业已有广泛应用,在邮政业务系统中均有报表统计功能,如统计报刊业务量的同比、环比分析等。高级分析方法常常出现在向上级汇报的分析报告中,如时间序列分析中报刊业务量及收入随着月份呈现季节性波动的曲线图,相关分析中对于影响收入的重要指标的相关性分析等。数据挖掘方法目前在邮政的应用还处于起步阶段。在邮政储蓄行业数据挖掘方法正在以主题分析的形势开展,如邮政储蓄的VIP客户分析、客户进行流失分析等。在邮政报刊行业,数据挖掘方法的应用还处于探索阶段。
二、数据分析在邮政报刊中的应用模式
以《中国邮政邮务类信息化规划》中报刊业务需求作为研究的着手点,分营销、经营、产品、渠道四个方面来进行数据分析应用模式的探索。
1、营销类
营销类数据分析主要围绕市场营销和客户营销两方面来开展。一是报刊客户细分。报刊客户细分是以报刊订阅客户为对象,使用数据挖掘方法,根据客户基本信息、兴趣爱好、订阅行为、客户忠诚度等多个维度进行聚类分析,得出差异显著的分群。以分群结果为基础,总结归纳各个细分群的特征,发掘潜在的细分客户的消费行为习惯,有针对性地对各个分群客户开展营销活动。二是“高码洋”专题分析。“高洋码”专题分析主要为满足邮政报刊发行局发展高端客户的需求而进行的多系统关联分析。参照业务部门提供的“高码洋”刊物进行重点研究,交叉关联现有的邮政系统如短信系统、邮储系统、“自由一族”、航空客票、中邮快购网站等系统的客户数据,得出在这些系统中潜在的报刊客户群。
2、经营类
经营类数据分析主要包括对邮政报刊业务涉及全流程以及经营模式等方面的分析,以及满意度、投诉分析。一是报刊发行商业运营模式研究。报刊发行商业运营模式研究是根据规划中“由传统发行向数字化发行领域进军”提出的,研究将引入市场调查手段,通过对报刊发行商业运营情况进行分析,发现邮政报刊发行的优势与不足,为应对出版产业数字化的迅猛发展形势,提出数字发行策略模式。二是报刊发行流程优化。在报刊现有的经营管理模式下对统一接办、统一结算、统一运营和报刊社维护、集团大客户开发、报刊订阅网站运营、数字发行等各个业务模式进行梳理,综合运用统计分析和数据挖掘方法,对相关环节中的数据进行分析,发现业务流程中存在的问题,提出相应的改善建议。
3、产品类
产品类数据分析主要指提供分析报告或数据服务,如报刊广告价值报告、报刊要数服务等。一是报刊要数历史数据分析。报刊要数历史数据分析是对不j报刊历年要数数据进行的监测分析处理。该分析能E刊社及时掌握发行终端的详实信息,寻找提高报刊有效发行量的途径同时也为广告商和广告主提供同报刊发行情况的横向对比分析。二是报刊广告价分析。报刊广告价值分析来源于邮政报刊订阅及零;数据和邮政报刊客户群体数据,从报刊发行和读者读两方面的各项指标对比评价各地公开发行的主要曼刊的广告价值,分析各报刊的竞争优势,将分析结以报告的形式呈现给广告发行商。
4、渠道类
渠道类数据分析指对报刊的渠道运作状况进行分千,为邮政报刊合理安排资源、增加渠道效能提供参, 为探索发现新渠道提供帮助。一是报刊订阅方式析。报刊订阅方式分析是对读者订阅报刊的多种方如支局订阅、网上订阅、电话订阅等进行分析,一亨面,比较各种订阅方式优劣势;另一方面,随着读订阅习惯的变化,探索新的订阅方式,吸引更多的户订阅报刊。二是邮政报刊发行渠道分析。随着新出版业自办发行的出现,及地铁、机场、超市等新强势终端对邮政零售业的冲击,邮政报刊发行的主暮道地位受到了冲击。通过对现有渠道的发行量、发亍特征进行归纳总结,一方面可以改善渠道建设中不符合实际情况的问题,另一方面也能从中探索出报刊发行新途径。
综上。邮政报刊顺应市场导向,由计划经营向市场化经营转变所提出的变革需求还有很多,在上述四个方面的应用模式之外,还有很多数据分析的应用模式有待挖掘整理和探讨。
三、应用案例——报刊产品与潜在客户挖掘
1、背景及内容
该案例属于营销类应用模式,案例以报刊业务从传统经验型营销向现代数据库营销转变的需要作为切入点,基于短信系统和量收系统的数据,通过手机号码将短信系统和量收系统中的报刊数据进行匹配整合,关联报刊与短信的交叉用户,采用聚类分析、相关性分析的数据分析方法,对客户数据做多维度的分群,进行报刊产品与潜在客户分析,实现宏观市场细分和微观层面的产品营销两个基本内容。
2、分析过程
该分析选择了具有地域代表性的某省报刊订阅客户数据。整个分析过程包括数据准备、模型构建及模型业务解读三个阶段。数据准备阶段将量收报刊营销系统与短信系统关联取数,形成中间层数据5大类数据,最后加载形成宽表。模型构建阶段应用聚类算法将客户数据按照偏好和订阅习惯两大类进行细分,最后将细分结果进行整合,得出最终的细分结果。模型业务解读阶段从业务角度对模型进行解读,包括应用落地建议。
3、分析成果
在宏观市场层面,通过判断客户的订阅年限、订阅份数、订阅种类、退订份数、退订种类将报刊现有客户划分为频繁退订人群、高价值人群、大众订阅人群和中端消费人群。以某省邮政报刊业务为例,确定了四类人群。
通过将报刊用户进行群体划分,确定了不同类别人群的订阅偏好。以上述该省报刊为例,高价值客户偏好的前10名报刊品种有:扬子晚报、现代快报、参考消息、读者、环球时报、新华日报、:N.-T~J文摘、中国剪报、新民晚报、特别文摘(形象期刊)。其中,参考消息、读者和环球时报是重点:N~IJ o此分析对于形成有针对性的订阅目录提供了依据。
在微观产品营销层面,确定如何向不同类型客户,有针对性的推荐报刊产品的基本算法。首先提取了短信用户,然后通过手机号码实现用户关联其次,总结出既是短信用户又是报刊用户的人群在订阅报刊产品方面的显著特点(与整体报刊用户比较),分析交叉关联客户在报刊订阅偏好方面与总体报刊客户的差异,得出短信客户对报刊的偏好;最后,根据“显著性”和“客户规模”等指标进行筛选,确定适合向各类客户推荐的报刊种类,支撑精准营销。整个分析过程实现了有针对性地向不同类别潜在客户推荐报刊产品。例如,通过分析得到向该省短信客户推荐的报刊品种有:北方新报.新周末、兴安广播电视报、37°女人。该分析实现了“应该向什么样的客户推荐哪些产品”的基本功能。
4、实际应用
以某省为例,针对《看天下》的客户进行分析,为该刊物挖掘出订阅其他刊物的客户人群。以一年的订阅《看天下》客户为分析数据,通过对兴趣偏好的分析,得出同时订阅其他杂志的情况。
在此基础上对订阅这几种报刊的客户进一步分析兴趣偏好,得出订阅《三联生活周刊》《中国国家地理》《世界博览》《特别关注》《青年文摘》《南方周末》的客户对《看天下》的兴趣更高,并向市场营销部门建议对订阅这几种报刊的客户推荐《看天下)。另外,对《看天下》的客户前22大分类报刊的偏好进行分析,通过聚类与相关性分析《看天下》的客户同时订阅其他种类的报刊客户的占比情况,发现排在前列的有养生保健、文学、电影电视、科普、投资理财五类兴趣偏好,由此向市场营销部门建议对偏好这些兴趣的人群推荐《看天下》,并开展相关的营销活动。
5、应用效果及意义
该案例通过对报刊数据的深层分析,为邮政报刊的高端客户提供了良好的报刊推荐服务。另外,对报刊和短信数据的关联分析,挖掘出潜在的报刊客户群体,并有针对性的推荐相关产品。这些分析所产生的报刊产品将直接服务于报刊社和报刊市场,为邮政报刊产生良好的社会和经济效益。
案例二:数据分析在企业运营管理中的应用[4]
(一)数据改变企业的运营管理决策方式
运营管理分为四种:移动化、云计算、大数据和全球化,作为4大力量中坚力量之一的大数据,正改变着企业的运营管理决策方式。由于数据处理分析和管理等相关技术的不断成熟,企业内部的管理运作数据、业务运作数据,企业与客户的关系及互动数据,客户或潜在客户在企业经营业务之外的生活方式、活动、情感、社交等大数据,正为企业所采集和分析,企业洞察客户需求更深入、更全面,对业务运营管控更及时有力,因此大数据将完全改变企业管理者以往“拍脑袋”的决策方式,管理决策更依赖“用数据说话”,决策更趋科学性、理性,更具定量化和可评估性以及准确性和延续性。数据促进企业管理决策的能量不在于数据之大,也不在于数据本身,而在于企业根据大数据做出的更深入、更全面的客户需求洞察,并以此支撑企业针对性运营管理决策的及时、科学、有效形成,促进企业运营管理的高效准确运行以及企业生产力发展。
(二)目前企业数据分析的可拓展方向
(1)社交网络分析模型。数据伴随社交网络的风行而发展。社交网络发展促进了人们的数字化生存,让人们生活和工作的有关信息数字化,而这些数字化信息一方面成为以单个个体为对象的形形色色、包罗万象、细致入微、支撑洞察个体兴趣需求和喜好的数据:另一方面也将原来现实生活中不可获得的人与人之间的关系信息搬上了网络。对于移动通信企业来说,客户的社交网络分析即一个重要的数据分析方向。社交网络分析的内容为:通过测算识别客户与客户之间关系所形成的圈子以及圈子中各客户角色的判定,形成企业对各个客户影响力和价值的判断,在此基础上,利用对这些圈子、角色和影响力的认识,帮助企业实现相关营销活动或产品套餐的推广,提高企业营销和运营管理的效率。
(2)客户价值分析模型。随着社交网络的发展,不仅使得客户行为需求喜好信息更丰富,而且可获得客户之间关系的数据信息。如在捆绑套餐营销活动中,活动在用户群中的扩散呈链状发展,发展过程中,客户的圈子构成以及客户对圈中其他用户的影响力对活动推广扩散有重要影响。如果能够识别并借助有足够影响力的客户帮助推广活动,活动的营销效率必然有很大程度的提高。可见,数据时代,当企业的客户分析在原有以客户为对象进行分析的基础上,增加以客户与客户之间关系为对象的分析时,客户的价值测算和分析也将随之发生变化,客户的价值不再仅是个体客户消费体现的价值,还应增加个体客户对所在群体内其他客户的影响力指标。
(三)企业应用数据分析的必要性
(1)实时数据分析支撑的营销运营管理应用。由于数据分析、数据挖掘手段的支撑,传统数据时代,一些先进的企业已经基本实现洞察力驱动的精确营销运营管理。数据时代,客户数据更为丰富和细致,企业对客户需求洞察更为全面而准确,更重要的是,由于数据处理分析技术的成熟,企业实现客户洞察的能力在数据存储与数据处理和分析方面将更高效,甚至达到实时,所以支撑营销运营管理全流程各环节决策的数据流可以与营销运营管理的工作流达到同步,企业可以综合客户的历史消费行为信息和客户当前行为,实时做出针对个体客户的个性化营销策略,从而在提高营销命中率的同时及时有效地识别并抓住稍瞬即逝的营销机会,极大地提高营销运营管理效率。
(2)数据分析促进智能管道运营应用的落实。对于企业来说,智能管道的核心能力在于,根据客户行为,实时为客户推荐并调配网络设备资源。传统数据时代,很难满足智能管道运营的要求,因为涉及的问题与前述客户体验的实时测算一样,由于技术条件限制不可能达到:数据时代,对半结构化机器数据实时采集、处理和分析的技术逐渐成熟,将大大促进智能管道运营管理落实的进程。
其实现原理基本类似于客户体验管理,最大的差别仅在于,智能管道以对客户产品使用行为测算的数据与提供产品的网络设备资源做对应,从而在保证客户体验达标的条件下,充分调配、切割、整合企业的设备网络资源,通过实现资源利用的最高效而达到资源配置的最优化。
(四)IT系统对数据支撑的体系规划和趋势
(1)梳理并整合业务部门对数据的需求,立足分析需求,做好数据IT体系架构的3步规划。数据相关技术条件的成熟、数据分析能力以及分析应用经验的积累等多方面因素,都是制约企业建设数据IT系统的条件,要充分抓住数据带来的机会并避免“心急吃不得热豆腐,反被热豆腐伤害”的问题,建议企业建设数据IT系统分阶段实现:第l阶段,将原来支撑报表分析的EDW优化升级到支撑高级分析的BI系统;第2阶段,逐步采集数据,将BI系统升级到支撑数据分析的IT系统:第3阶段,打通数据分析的IT系统与企业运营管理系统,将数据分析功能嵌入业务流程。
(2)以职能部门提供整体IT支撑方式向嵌入业务流程实时数据的分散能力支撑方式转变。这种转变趋势又称IT支撑“消费化”趋势。传统数据时代,企业建立数据中心,集中企业层面所有数据,为企业运营管理决策集中提供数据报表、分析甚至挖掘支撑,是公认的高效IT支撑方式;数据时代,数据从支撑企业中高层运营管理决策普及到支撑企业的产品运营、市场运营、客户服务,甚至在智能管道运营全流程中涉及从企业中高层运营管理人员到基层生产执行人员,很明显,这种数据获取和分析能力如果仅集中在IT职能部门,而不是全体人员均结合自身业务需求而具备的话,数据分析驱动的各项运营管理应用即成为不可能的任务。
所以,数据时代,数据要真正改变企业运营管理决策方式,使企业上下形成以数据驱动的企业文化为标志性特征,每个人都要做好与数据打交道的能力和心理准备,而IT系统运营管理部门也将不得不面临数据从数据采集、清洗、存储、处理到分析、提供和管理的过程,在各业务运营管理流程、各部门、各类用户间如何高效运行、高效交互、高效支撑的更复杂的IT系统支撑问题。