机器学习竞赛实际上是一场数据竞赛

导读:人工智能(AI)技术可以作为一种有效的差异化工具可以为企业赋能,但这种赋能动力很可能来自于企业的数据资产—很多情况下是企业必须自己打造的数据集。

如果您愿意,机器学习以及人工智能技术已经成为一种大宗商品。很多企业在同步地对机器学习进行定义工作和实现工作,他们会惊讶地发现,对于一套数据集或目标问题的机器学习智能算法,其工程实现其实是比较容易的一环。从TensorFlow的开源机器学习框架,到的Azure机器学习以及的SageMaker,这些解决方案都提供了一系列强大的即插即用实现方式,可以轻松地解决繁重的编程工作负担。

然而,没有变得商品化的是数据。相反,数据正在成为机器学习竞赛中的关键区分因素。这是因为良好的数据并不常见。

null

▌“实用数据”的特点:有价值并且稀缺

数据正在成为企业进行差异化竞争的重要工具,因为许多企业没有他们需要的数据。虽然企业已经使用普遍接受的会计原则以系统的方式衡量了自己数十年,但这种衡量方法长期以来一直专注于物理资产和金融资产,即所谓俗称的“物品”和“资金”。2013年诺贝尔奖甚至被授予资本资产定价,反而强化了这种被广泛采用的规范的认可程度。

但当前世界上最有价值的企业主要是在通过软件和网络进行交易,而不仅仅是交易实物资产或金融资产。在过去40年中,资产重点已完全翻转,从1975年有形资产占83%的市场份额发展为到2015年84%市场资产为无形资产。今天的企业巨头不再制造咖啡壶或者销售洗衣机,而是提供应用程序将人们联系在一起。这种市场变化产生了巨大失衡力量:即资产价值的衡量标准和它的实际推动力之间的巨大不匹配。

这种市场变化所带来的后果是“有用的数据”难以获得。市场和账面价值之间的差距越来越大。由于这种差距,企业正在竞相将机器学习应用于重要的业务决策,甚至取代他们的一些昂贵的顾问,但这些企业最后才意识到他们所需的数据甚至还不存在。实质上,正在要求花哨的新AI系统将新技术应用于相同的旧材料。

就像人一样,在被有针对性地训练之前,机器学习系统也不会对有关的问题具备足够的智能处理能力。为了获得智能,机器需要比人类更多的数据(尽管我们可以认为机器的数据读取速度确实可以非常快)。因此,虽然随着企业引进机器学习编程人员并启动人工智能计划,表面上是AI领域的的军备竞赛,但更令人恐慌的是幕后的竞赛,这个竞赛的对象是针对新数据以及如何获取差异化的数据能力的竞赛。

例如,在金融领域,差异化的数据已经远远超出了传统的证券交易委员会报告和影响投资决策的投资者报告。差异化数据,例如社交媒体情绪或授予的专利数量,因为两个原因显得至关重要。首先,传统数据侧重于传统资产,而在无形资产时代则显得可扩展能力不足。其次,没有理由使用机器学习来研究市场上其他人正在分析的相同数据集。每个感兴趣的人都已经尝试将行业趋势,利润率,增长率,利息和税前收益,资产周转率和资产回报率联系起来-以及1000多个其他常见的有关股东收益的财务变量。

如果在每个人都能找到的相同数据集合中寻找关联信息,这种方法并不能帮助企业获得成功。相反,想要使用人工智能作为差异化因素的组织必须找到新数据集之间的关系-他们可能必须创建自己的数据集来衡量无形资产。

▌审慎考虑:想获得的数据是什么?

创造数据比简单地聚合销售点或客户信息并将其转储到数据库中更复杂:大多数组织错误地认为,权宜之计应该是收集每一块可能的数据,并精心梳理所有数据,希望从中找到有洞察力的思路,即对所关心目标所包含的一些特殊特征可以有一定的预测或分类能力。

虽然机器学习偶尔会让我们惊讶,但AI技术目前并不能保证其算法分析能力具备稳定的一致性。这并不意味着AI工具不可靠,只是意味着我们必须明智地应用它。这说起来容易做起来难:例如,在我们对差异化数据市场的研究中,我们发现超过一半的新数据提供商仍然专注于衡量实物和金融资产。

许多组织忽视的工作是建立关于重要事项的假设。机器学习真正擅长的地方在于具备人类所拥有的洞察力,这是一种基于经验法则,广泛认知、目前人类还没能充分理解的分析能力。机器学习算法可以开发出一种更快,更好理解,更具可扩展性(且不易出错)的方法来应用这种类似人类的洞察力。

为了以这种方式使用机器学习,不需要将有关领域的所有已知数据点信息输入到系统里,而只需要提供了一套精心策划的知识体系,希望它可以自己学习,也许可以扩展人类已有的知识的边界。

▌富有洞察力的机器学习需要一种独特的数据

所有这些对于希望创建有影响力和有价值的机器学习应用程序的企业有三个具体含义:

·        差异化数据是AI系统成功的关键。如果使用竞争对手所拥有的相同数据集合,很可能是发现不了什么新成果的。对企业内部进行审核并识别出企业独有的内容信息反而更重要,企业对这些信息具有独特的认知和理解能力,并且可以使用独到的见解创建独特的数据集。机器学习应用程序确实需要大量数据点,但这并不意味着模型必须具备广泛的功能。应该将数据工作集中那些使企业在市场上与众不同的地方。

·        有意义的数据优于综合数据。您可能拥有关于某个主题的丰富详细数据,但这些数据并一定就是“有用的数据”。如果您的企业不会使用该信息用于决策支撑,那么从机器学习的角度来看,这些数据可能就不是有价值的数据。专业的机器学习架构师会提出一些棘手的问题,比如哪些业务领域是真正的核心业务,以及这些业务领域如何影响相关的应用,这些应用往往需要通过机器学习系统获得某种关键洞察力。如果这些问题很难回答,那么说明还没有全面地考虑清楚如何创造有实际效果的价值。

·        已知的信息应该只是起点。从对企业决策系统影响最大的环节着手开始进行战略分析,这样开始部署机器学习系统往往是一些最善于利用机器学习技术的企业所采取的行动策略。这将指导他们了解要收集哪些数据,以及应该采用哪些技术。针对团队已经掌握的知识,通过拓展和深挖的方法,往往是一种难度较小的起步方式;而且,总体而言,对整个组织而言,这种方式也可以创造出更多的价值。

很明显,软件已经吞噬了世界(软件企业家Marc Andreessen创造的一句话)。但它仍然很饿!软件需要稳定的新数据和新技术相结合,以继续增加价值。

没有人希望在目前包括洞察能力、机器学习以及差异化数据的技术大变迁时代掉队下来。从内部视角开始审查,首先明确每个企业应该具备的独特业务视角,进而找到作为企业有能力创造的有价值的差异化数据。通过这些步骤,企业应该能找到保持企业竞争力的独特视角和思考方式。

请勿转载,侵权必究

打开APP阅读更多精彩内容