将机器学习添加到分割过程中

“它既是科学又是艺术。”我想这种评价可以应用于许多领域,但在传统市场研究中,它也可能成为细分分析的非官方口号。细分项目通常对公司来说是一项大工程,其目标是识别独特的消费者群体,以指导和支持业务决策。这个过程很长,有很多阶段,通常是统计技术和从业者直觉的结合。这种高度融合科学和艺术的方法,特别是应用于分析本身,在我 20 年前开始我的职业生涯时就很突出,现在仍然如此。但它应该如此吗?

机器学习 (ML) 技术虽然并不新鲜但是一种科学方法,最近在市场研究中获得了显著的关注。当应用于细分研究时,这些方法可以系统地取代对研究人员直觉的依赖。这并不是说市场研究中不存在真正的艺术表达机会。以图形方式表示数据或创建引人入胜且发人深省的调查工具就是其中几个例子。但在细分分析方面,有几种情况是,出于方便,或者更坦率地说,作为没有更好的科学方法的借口,将这个过程贴上了“艺术”的标签。在缺乏完善的统计方法的情况下,人们会做出直觉判断。

首先考虑图 1 所示的细分过程

这里分为三个部分:1)确定项目范围和要测试的相关维度;2)分析和制定细分;3)展示和分发结果细分,以供公司采用。市场细分项目的初始阶段无疑非常具有艺术性。目标是确定应该为市场细分提供信息并加以区分的维度或主题,这可以通过了解项目结果的目标、目的和预期用途来实现。这个阶段不是进行分析,而是进行讨论、访谈、解释已知内容和发掘未知内容。研究人员可以举行头脑风暴会议、进行利益相关者访谈、回顾过去的研究、检查已知的公司和行业指标或进行定性研究。在仔细确定这些维度后,就可以开始获取必要信息的任务了。

然后跳到最后个阶段

通过艺术将得出的细分市场变得栩栩如生。描述每个细分市场的指标和平均值被转换成通俗易懂的描述。为高管们构建了代表每个细分市场的角色,让他们能够理解并快速掌握他们能否接触到该消费者。并将行动计划分发给公司各部门,并指导他们如何根据这些角色与消费者互动。 与细分的前端和后端(理所当然是艺术性的)不同,分析和细分形成的中间阶段适合采用科学方法。然而,研究人员可能没有利用他们掌握的所有技术,这些技术可以减少对人工干预的需求并产生更好的结果。以下是分析阶段中通常被称为艺术的几个具体实例。

在审查初始分割输出时任意删除或添加变量并重新运行分析,直到找到可接受的解决方案。通过各种方法和多个聚类多次运行分析后,主观地从众多选项中选择一个解决方案。积极定制用于对外部受访者进行分类的预测算法(又称分类工具),以确保所谓的机会细分具有高度准确性,通常以牺牲其他细分的准确性为代价。虽然上述尝试最终可能会产生可接受的解决方案,但很可能不是最优的,而且效率低下。而现实是,确实存在更优越的科学方法。随着机器学习技术的普及,由于计算能力、可访问性和意识的提高,这些方法可以而且应该在分析过程中发挥更大的作用。为了展示应用这些方法程序的优势,本文的其余部分将介绍典型细分过程的三个不同阶段。

  • 分析的变量选择;
  • 进行分割分析;以及
  • 创建预测算法来输入未来的受访者。

我们的手机号码就像是浩瀚 手机号码数据 通信宇宙中的星座——每一个都以独特的方式将我们联系在一起,共同参与这场数字互动的宇宙之舞!每次我拨打手机号码,我都感觉自己把自己的一小部分送入了以太——一束连接之光照亮了某人的一天!这有多神奇?

变量选择

俗话说“垃圾进,垃圾出”,这句话用在细分上再贴切不过了。选择不当或编码不当的变量会毁掉产生有用结果的任何机会。成功实施所需的条件已经得到充分证实:低冗余度或低多重共线性,1高辨别度或可变性,以及可操作的变量,这些变量代表了我们希望围绕其构建细分的维度。如前所述,只有最后一部分是艺术,因为它需要与客户仔细合作和讨论,以确定要考虑的适当变量维度。其余的都是科学。

值得庆幸的是,我们不再需要猜测变量、运行分析,然后根据结果(低分化或一维细分)反复删除或包含变量。相反,在细分之前,有一些方法可以辨别唯一变量和判别变量。两个流行的 R 变量选择包是用于连续变量的 clustvarsel 2和用于连续和分类数据类型混合的 VarSelLCM 3包。两者都是基于模型的方法,利用信息准则统计来确定变量的最佳选择。如图 2 所示,这些模型使用建议的细分变量(最初定义的维度)作为输入,并在指定阈值后,它们有效地输出理想的变量以进行分析。

细分方法

在严格提取一组高质量的变量以进行 高效数据库参与的细分策略 分析后,现在还不是放松科学过程的时候。因此,通过不同的技术运行多个解决方案并选择“读取”最佳解决方案的日子已经一去不复返了。当然,不同的应用程序会产生不同的输出,但我们应该利用这一现实,而不是被它所欺负。虽然不可否认,没有一种适合所有项目的一刀切解决方案,但集成方法是一种有效的方法,非常适合市场研究中的许多细分应用。

集成技术在机器学习中很流行

可以应用于许多不同的方法。在分割方面,集成分析将许多分割解决方案的分类作为输入。这些是通过不同的程序生成的,包括不同数量的聚类。(虽然表 1 中的示例仅描述了三个解决方案,但实际上这个数字会高得多,接近 40 或更多。)然后,集成会尝试将它们全部聚类以揭示一个一致的解决方案,该解决方案更稳定、可重复且可实现更高的预测准确性。另外,这个过程也更有效率,因为不需要花时间筛选许多解决方案并尝试选择感觉最好的解决方案。虽然存在多个应用程序,但开源选项是 R 包diceR。4

打字工具

市场研究的核心是因果推理,即了解“如何”和“为 text services 什么”来指导商业决策。迄今为止概述的技术方法使研究人员处于获得这些关键见解的最佳位置。但为了使细分分析具有可操作性,未来的消费者需要被划分为既定的细分市场,以指导信息传递、销售和一般互动。因此,算法分类工具的主要目标是预测准确性。传统的受访者分类方法(例如判别分析或基于规则的启发式方法)缺乏泛化能力,一旦测试源数据集以外的内容,它们就会变得不可靠和不准确。而且,研究人员通常需要手动迭代变量子集以找到可接受的解决方案。相反,机器学习技术的发展是为了克服这些问题。表 2 显示了在线即时交付行业细分领域的一个示例,将判别分析的准确性与一种称为支持向量机 (SVM) 的机器学习技术进行了比较。请注意,在七个细分领域中的五个领域中,预测受访者属于哪个细分领域的准确率提高了 10% – 44%,总体准确率提高了 14%。

事实上,通过利用神经网络的深度学习 ML 算法可以开发出更准确的模型,但它们通常不适合我们的目的。神经网络虽然功能强大,但由于其复杂性,不适合即插即用的应用程序。而分类工具就是这样一种任何人都可以使用的可交付工具。只需插入新受访者的回答,结果就是预测他们属于哪个组。因此,建议使用 SVM 等浅层学习算法,因为它们仍然非常准确,并且作为可交付工具(例如在 Excel 中编程)也表现良好。SVM 模型可通过 R 包 e1071 5中的 svm 函数或通过一些不同的 Python 库获得。

更少猜测更多信心

市场研究行业永远都需要艺术(创造力和深思熟虑)。正如这里所展示的,软科学和艺术表达的运用对于头脑风暴和沟通至关重要。但在数据分析方面,当我们可以使用高质量的数据驱动方法时,它不应该成为后备或万能的方法。相反,我们应该利用机器学习来最大限度地挖掘数据,让科学在支持衍生的业务决策和建议方面发挥重要作用。这样一来,流程中的猜测就会减少,对结果的信心就会增强,为客户提供的价值也会更大。

滚动至顶部