当前位置: 灰狼 >> 灰狼的形状 >> AI产品经理,如何面对数据挖掘
全文共字2图,阅读需要16分钟
————/BEGIN/————
经过多年互联网和移动互联网的飞猛发展,科技网络产品发展到焦虑的时间节点。一方面流量成本高到几乎没有投入产出比可言,另外一方面产品和企业同质化竞争激烈。
接下来的趋势有两股同方向的产品力量,将是产品经理和企业产品创新的机会点:
第一是:利用PC和移动互联网积累的大数据做打破数据孤岛类的产品和数据挖掘,数据分析类的产品。
第二是:在大数据的肩旁上,深度结合业务供应链场景设计10倍于以往产品体验的AI算法产品、AI赋能的智能软硬件产品。
本文分别先从AI产品需求发现阶段、再从AI产品需求设计制造阶段对数据挖掘的利用,然后落地到数据挖掘具体的案例解析,最后得出AI产品大数据观点。
一、数据挖掘用于AI产品需求发现
需求的发现是产品经理和企业产品创新取得成功的关键。
数据信息在产品的创新设计与制造中发挥越来越重要的作用,充分利用数据挖掘技术从产品市场需求发现、需求设计中提取相应的需求,从而控制和改善下一代产品的设计与制造。
目前,AI赋能的智能软硬件整体产品的研制周期长,市场反应能力弱,创新度不够等一系列因素控制了产品制造企业的生存和发展——不论是万亿市值的苹果还是国内的华为小米一年旗舰智能手机只有一款。
这个现象背后,正是因为AI赋能的软硬一体产品,在需求发现到产品设计上有其特殊性。
因此,如何在最短的时间内开发出质量高、价格能被用户接受的AI产品,已成为产品经理市场竞争的焦点。
数据挖掘技术已经成为分析和发现需求,提供决策十分有效的工具,而需求发现速度快起来后可以给需求设计制造更多时间,所以必将有力地支持AI产品的创新设计和制造过程。
数据挖掘(DataMining,简称DM)就是从大量的、不完全的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和需求的过程。
根据产品发现需求的不同,数据挖掘的任务主要分为以下6类:
1.关联分析需求
揭示隐藏在数据之间相互关系的一项挖掘潜在需求的数据挖掘任务。
例子:“尿布与啤酒”的故事。
在一家超市里,有一个有趣的现象:尿布和啤酒竟然摆在一起出售;但是,这种奇怪的举措却使尿布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛超市的真实案例,并一直为商家所津津乐道。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物需求进行了深层分析,想了解顾客经常一起购买的商品都有哪些。
沃尔玛数据仓库里集中了其各门店的详细的原始交易数据,在这些原始交易数据的基础上,沃尔玛利用关联规则对这些数据进行分析和挖掘,得出了一个令人意外的发现:
跟尿布一起被购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种需求模式:
在美国,一些年轻的父亲下班以后要经常到超市去买婴儿尿布,而他们中有30%~40%的人同时也会为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按照常规思维模式,尿布与啤酒风马牛不相及,若不是借助关联规则进行挖掘和分析,沃尔玛是不可能发现数据之间存在的这一有价值的需求。
以前企业的信息管理系统由于缺乏数据挖掘功能,最多只能统计一些数据,从表面上似乎合理,但实际上根本不能反映出本质的情况。
例如:通过传统的信息管理系统,我们得出某一种红酒在超市的销售额排名倒数第一位。
按照以往的做法,该红酒肯定会停止销售;但是通过对所有销售数据进行关联分析,我们会发现消费额最高的客户中有25%常常买这种红酒——如果停止出售这种红酒,必然会引起这些高端客户的不满。
关联分析就是发现交易数据库中不同商品之间的内在的联系,利用关联规则找出顾客购买行为模式,如购买了某一商品对其它商品的影响。
例如:它能发现数据库中如“90%的顾客在一次购买活动中购买商品X的同时购买商品Y”之类的问题,发现这样的规则可以应用于商品货架设计、库存安排以及根据购买模式对用户进行需求分析等。
用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是商品销售数据。如果对这些历史数据进行分析,则可以对顾客的购买行为提供极有价值的信息。
例如:可以帮助商家如何摆放货架上的商品,如何帮助商家规划市场等。
总之,从事务数据中发现关联规则,对于改进商业活动的决策非常重要。
2.序列发现需求
是指确定数据之间与时间相关的序列模式,利用该模式可对未来的相关行为进行预测。
例子:数据挖掘中序列发现的需求分析应用比如顾客购买行为分析、网络访问模式的分析。
对一家完善的大型零售企业来说,往往拥有固定会员;会员可以购买较低价格商品,享受更加优惠的售后服务等等。
会员应是经常在某一家店铺购物的消费者,因此经历较长时间的会员其购物成为按时间的购物序列,而不同会员就可能存在相同的购物序列。
比如:两个都喜欢购买新科技产品的会员,销售记录中就会记录他们每次购买的科技产品,从而可以将个人的喜好推荐给另一个人,这也形成交叉销售。
3.聚类分析需求
是指依赖样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相似,而属于不同群组的样本相异的一组方法。
例子:基于数据挖掘的聚类分析,可以借助大数据的优势,发现数据背后的需求。
利用起点学院“成为AI产品经理”在线开放课程学习者的网络学习过程记录,采用数据挖掘工具对网络学习者行为进行聚类分析。
研究发现:根据学习特征,网络学习者可以分为高沉浸性型、较高沉浸性型、中沉浸性型、低沉浸性型四种群体。
学习行为与学习效果密切相关,沉浸性高的学习者学习效果往往较好。
笔者作为《成为AI产品经理》课程老师借助技术工具,对学习者进行不断更新、实时、循环的聚类分析,及时发现学习者的个体及群体学习特征,因材施教,推送适应性的个性化服务,并给予及时的学习预警与恰当的教学干预。
4.分类
是指找出一个类别的概念描述,它代表了这个类别数据的整体信息,一般用规则或决策树模式表示。
例子:分类发现需求,首先应该将分类与聚类分开。很多数据产品经理在学习数据方法之初,容易将聚类和分类搞混淆。
其实聚类属于无监督学习范畴(unsupervisedlearning),也可称作观察式学习过程,与分类不同,分类依赖已有既定的先验知识。
例如:我们成年后,很清楚世界是由男人和女人组成的,所以我们在建厕所的时候,会把厕所分为男厕所和女厕所,这就是“分类”。
而当我们刚生下来,我们并不知道什么是男人,什么是女人,通过后天对生活的观察,我们发现有一类人他们有胡子,而有一类人她们头发比较长(当然,我的这个举例已经显然不符合当今世界的发展了,你们明白就行)。于是我们就把有胡子的人分为一类人,把长头发的分为另一类人。
然后“研究”发现:原来有胡子的叫男人,有长头发的叫女人,这个过程就是“聚类”。
5.偏差检测
就是从数据分析中发现某些异常情况是否重要,从而获得有用的需求。
例子:一批数据中的异常值值得
转载请注明:http://www.aideyishus.com/lkzp/145.html