突破与重构：大数据时代的计算广告学研究

　　摘要：计算广告学是大数据与大数据技术在广告学研究领域的运用。在计算社会科学视域下，检视计算广告学提出的背景及传统广告学研究存在的局限，探寻计算广告与计算广告学研究之间存在的差异，并在此基础上重点分析计算广告学作为一种新的广告学研究范式将在市场与消费者洞察、复杂变量的综合考量、宏观发现等方面实现对传统广告学研究的突破，以及对广告学研究新质的形构。计算广告学在发展过程中，遭遇到了技术门槛、数据垄断、数据黑箱与数据隐私等多重障碍，但其发展具有不可逆转性。

　　关键词：大数据；计算技术；计算社会科学；计算广告学；研究范式

　　计算广告学是大数据时代广告学研究的前沿性话题。自2008年“计算广告”的概念提出以来，计算广告学的相关研究一直围绕广告的计算运用而展开，并未获得其他突破性进展，甚至连许多基础性建构都尚付阙如。本文力图回答以下几个主要问题：计算广告学提出的重大背景是什么？计算广告与计算广告学差异何在？计算广告学研究包含哪些重要内容？计算广告学将对广告学研究产生怎样的影响？其发展又面临哪些重大障碍？

　　一、大数据时代的计算社会科学

　　大数据与大数据技术已深深嵌入社会生活的各个领域，不仅“成为重要的生产要素”[1]，“变革我们的生活、工作和思维”[2]，同时也对人类的科学研究与科学发现产生重大影响。

　　2006年，著名的计算机科学家吉姆·格雷(JimGray)在总结大数据促进人类科学研究发展时，提出“数据密集型科学发现”(Data-intensiveScientificDiscovery)的概念，并认为这是人类科学研究继实验、理论与计算机仿真三种研究范式之后，所产生的第四种研究范式。所谓“数据密集型科学发现”，即利用大数据与大数据技术，通过对海量数据的计算与分析，来挖掘数据所潜藏的科学价值。“数据密集”以及“数据计算与挖掘”是这一范式的典型特征。格雷的总结是针对自然科学而言的。在进入大数据时代之后，自然科学的诸多领域，皆尝试运用已积累下的巨大规模的科学研究数据，并在深入的数据挖掘中，获得诸多有价值的科学发现。近十年来，自然科学研究已进入“数据密集型科学发现”的研究新阶段。

　　自近代以来，追步自然科学的研究方法与研究范式以探寻复杂社会发展现象与规律，一直是社会科学从未止息的学术努力。就在格雷提出“数据密集型科学发现”研究范式后三年的2009年，以拉泽尔(Lazer)为代表的来自哈佛大学、麻省理工学院的15位美国学者，在学术期刊《科学》杂志上发表联合署名文章，正式提出“计算社会科学”(computationalsocialscience)的概念。2012年，由意大利学者R.Conte领衔，来自欧美国家的14位学者，又在《欧洲物理学刊》上联名发表《计算社会科学宣言》，全面阐释大数据计算方法对社会科学的影响及其发展前景，并宣告“计算社会科学”的正式确立。

　　计算社会科学的相关研究自此展开。2014年，《计算经济学手册》第三卷出版，将经济学研究从“计量”“计算机计算”推进到大数据计算与大数据发现。也是在2014年，来自哈佛大学等美国名校的近百名学者集聚斯坦福大学，举行名为“新计算社会学”的学术研讨，并有17名学者在会上报告了他们在计算社会学领域的最新研究成果。从而将社会学正式纳入大数据计算与大数据发现的研究框架之中[3]。2016年，R.MichaelAlvarez编纂出版的《计算社会科学：发现与预测》则对2009年以来计算社会科学研究状况进行了全面总结与回顾，并对计算社会科学的发展前景进行了科学预测[4]。此外，计算政治学、计算法学、计算新闻学、计算传播学，甚至还有计算犯罪学等概念都相继被提出，并在计算社会科学概念框架下先后开启相关研究。

　　计算社会科学的相关研究，实际上是大数据与大数据技术在社会科学领域的研究运用。它基于社会科学研究对新的研究方法不断探索与追求的强大内在驱动，得益于自然科学“数据密集型科学发现”范式的影响与启迪，体现出大数据时代社会科学研究的总体发展趋向。

　　二、计算广告与广告的计算运用

　　2008年，“计算广告”的概念在美国被提出。时任雅虎研究院资深研究员的AndreiZBroder及其研究团队，率先开展有关计算广告的研究。其研究迅速影响到全美，并很快波及欧洲乃至亚洲。所谓“计算广告”，其最初的定义，就是运用大数据计算技术，为特定场景下的特定用户寻找到一个合格的广告，以实现语境、广告和用户三者的最优匹配[5]。

　　从“计算社会科学”概念的问世到“计算广告”概念的提出，其间仅相隔两年(2006—2008)的时间。“计算广告”的提出是否直接受到“计算社会科学”的启发和影响尚不得而知，但二者的思维取向却是一致的，都是科学家们追寻大数据及其计算技术在各自相关研究领域有效运用的结果。大数据计算技术已经成为我们这个时代通用技术体系的核心技术，“社会计算化”与“计算社会化”逐渐成为一种普遍的社会现象[6]。社会可以被计算，“计算社会科学”因而得以发生。广告也可以被计算，因而催生出“计算广告”。“计算社会科学”与“计算广告”，其核心内容都在于“计算”，都在于大数据计算技术的有效运用，只是二者在面对不同研究对象和研究问题时，“计算”的理路、方法，包括所使用的工具有所差别。

　　计算广告的概念提出后，其研究大体沿着两个方向向前发展：一是围绕计算广告所展开的科学研究，一是计算广告的技术开发与实践应用。

　　美国计算广告的相关研究，从现在能检索到的相关研究文献来看，大多采取技术性研究取向，并集中在计算机科学、信息科学与数据科学等自然科学领域里展开，其核心内容就是为实现语境、广告、用户三者之间的最优匹配，寻找技术路线，提供技术解决方案。主要涉及计算广告的信息检索技术、定向技术、文本分类与挖掘技术，尤其是基于大数据计算的各种算法，甚至包括情感计算与语言计算，以及这些技术和算法在广告搜索排名与实时竞价、广告目标人群定向、广告个性化推送，以及广告的程序化交易等方面的运用。欧洲学者也大体沿袭了这一研究思路与取向。以“计算广告”为关键词，在CNKI中搜索，共获得2011年至2019年这9年间相关研究文献47篇，其中有36篇是计算广告的技术性研究论文。也就是说，国内外计算广告的相关研究，至今大体上仍在自然科学研究框架中展开，其并未被真正纳入计算社会科学的研究范畴。中国有少量社会科学视域下的计算广告研究，所采取的也只是传统意义上的社会科学研究思路与方法，所以，这些研究不能算真正意义上的计算社会科学研究范式下的计算广告学研究。

　　计算广告的技术开发与实践应用，其整体水平要远远超出上述有关计算广告的科学研究。计算广告的技术开发与实践应用，集中在互联网领域，最初的发展，主要围绕实现语境、广告、用户三者的最佳匹配，也就是广告人一直苦苦追寻而又一直未能寻找到合理解决方案的广告精准投放问题而展开。基于信息检索技术的搜索引擎广告，基于用户数据分析与挖掘的定向广告和个性化推荐广告，就是最早出现的计算广告的几种主要类型。

　　计算广告其后的发展，无论是国外还是国内，都已大大超出早期计算广告的概念框架与范畴。大数据与大数据计算技术，不仅被用来解决广告的精准投放问题，也被用来解决基于即时数据分析与处理的广告效果的跟踪监测与广告投放策略的动态调整问题，还被用来解决包括精准投放在内的广告程序化交易问题，甚至还被尝试用来解决基于各类复杂算法的策划创意等智能化内容生产的问题①。基于大数据计算技术的机器智能，正逐渐替代人工去处理广告业务中几乎全部复杂运算和自动化程序[7]。

　　计算广告的技术开发与实践运用，带来广告运作形态与运作方式的颠覆性改变，更造成广告产业发展的革命性变迁[8]。但从知识生产的角度来考察，其技术开发成果，只是以一种实际应用的方式呈现，其计算的思路与过程，一般都被尘封在“技术黑箱”之中[9][10]。由于其商业属性，其成果更是不可能被分享。

　　在社会科学各学科领域，广告对大数据计算技术的反应，是敏感而迅速的，大数据技术对广告的嵌入，也是颇为深入的。但是这种反应与嵌入，至今仍仅限于广告的实际业务运作的应用，还远未上升到学理建构的层面。从科学知识生产与学科建构的维度来加以审视，计算广告学的研究内涵，似乎比现有的计算广告的相关研究更为丰富。大数据时代的广告学研究，急切呼唤从计算广告研究进一步走向计算社会科学视域下的计算广告学研究。

　　三、计算广告学与广告学研究新质的形构

　　所谓计算广告学，是以大数据时代的计算广告为研究对象的。有关计算广告的相关研究，都属于计算广告学的研究范畴，都是计算广告学研究不可或缺的重要组成部分。

　　在计算社会科学视域下，对计算广告学进行理论与实践的双重审视，其丰富内涵的确远非现有的计算广告研究所能涵盖。计算广告学研究并不动摇传统广告学的基本研究框架，只是借助与广告学研究相关的新的计算技术、新的计算工具、新的计算手段，以克服传统广告学研究存在的各种缺陷与障碍，提升广告学研究的科学性与有效性。从这个意义上看，所谓计算广告学，并不是新的广告理论主张，不是新的广告理论流派，更不是新的广告理论体系，而是一种新的广告学研究范式，一种新的广告学研究的方法论体系。作为一种新的广告学研究范式，它将对传统广告学研究产生重大影响，至少在三个重要方面引发广告学研究的重大改变，这就是基于大数据与大数据技术的市场与消费者洞察，影响广告效果复杂变量的综合考量，以及广告发展演进规律的宏观发现，从而带来广告学研究从应用层面到基础理论层面的全面创新。

　　(一)市场与消费者洞察

　　市场与消费者洞察，是广告学研究的基础，也是广告实务运作的前提。传统广告学研究中的市场与消费者洞察，都是以抽样调查的方式进行的。受数据采集技术与成本的多重限制，其数据采集通常是以特定时空范围的小数据、小样本为特征的。这就不仅存在数据量的限制，也存在数据空间范围与时间范围的限制。其数据采集，免不了调查者的“观察渗透”，免不了调查者对被调查者的外在干扰[11]，甚至免不了被调查对象因个人偏好、记忆误差或者语言使用习惯等因素所导致的自我报告的偏差[12][13]，从而严重影响到其数据的客观真实性。并且，市场与消费永远处于动态的变化之中，而传统广告学对市场与消费的分析却往往限于静态的考量，或者只是已经发生之事的事后检验，实时数据的收集与实时问题的研究，动态数据采集与动态跟踪研究，一直是传统广告学研究的长久之困。在传统的广告学研究中，市场与消费者的真正洞察，也许只是广告人与广告研究者一种持续追寻却又一直未能真正实现的美好愿景。

　　大数据发现的研究范式，使广告学研究中真正意义上的市场与消费者洞察成为可能。首先，大数据为广告学研究中的市场与消费者洞察提供了海量数据基础。不管我们如何解读大数据，体量之巨大无疑是其最典型的特征。互联网与物联网上的各种平台，以及各类传感器与移动终端，已经留下并正在持续记录数以十亿计的消费者的消费“足迹”，成为我们洞察市场与消费者的数据基础。尽管在市场与消费者洞察中所使用的数据，很难称为“全样本”与“总体数据”，也同样或多或少存在某种数据的“缺失”和“代表性误差”[14]，但其在数据的充分性、整体性和系统性上，却是传统广告学研究所使用的有限数据不可比拟的。这就为克服传统广告学研究因数据匮乏与数据局限所造成的孤立化、碎片化与片面化的认知局限，为形构系统化、整体化的研究新质，提供了必要的数据基础与前提。其次，大数据为广告学研究中的市场与消费者洞察提供了客观性的数据基础。互联网上留下的各种消费“足迹”，被记录下的各类消费“数据”，反映的是消费者的自在行为，往往被视为一种“自提供”和“自然数据”[15]，其数据采集的自动化程序，又避免了诸多外在的人为干扰。诚然，大数据的数据生成与采集，也很难保证做到绝对的“价值中立”[16]，其间也同样存在数据的“形塑”问题[17]，但其自然性却使得广告学研究中数据采集的主观性介入问题得以缓解，从而大大提高了数据的客观性质量与效度，使得过度的偏态性研究得以有效规避。再次，基于大数据电子踪迹技术的实时数据采集，以及这些数据沿时间线不断积累所形成的长时间序列，为广告学研究的市场与消费者洞察，提供了即时与动态的数据基础，使传统研究中的时效性问题、静态性问题得以有效解决，从而极大提升广告学研究的预测性与动态性分析能力。

　　(二)影响广告效果各种复杂变量的综合考察

　　广告效果以及影响广告效果的各种变量因素的研究与考量，一直是广告学研究的核心问题。以美国为代表的定量与实证的广告学研究的主流范式，一直以来都是集中围绕此问题展开。然而，这一传统的广告学研究范式，同样未能摆脱方法论的困境。严格地讲，在这一主导范式下所建立的各种测量模型，所设计的各种变量，均不足以反映复杂的市场现象和复杂的消费现象，不足以用来外推广告传播的复杂因果关系。因为它突出强调的往往只是单一自变量对因变量的主要作用，重点着力的往往只是影响广告效果的主效应分析，其所测量的因果关系，条件往往只是必需的却是非充分的，其结果往往只是可能的而非绝对的。基于复杂变量共同作用的社会事实，研究需要测量的应当是复杂多变量以及复杂多变量间的复杂关系，而这却大大超出传统定量研究方法测量与分析的能力范围[10]。

　　而大数据的数据挖掘技术，则可以系统综合分析作用于因变量的复杂自变量，以及这些复杂变量之间的交互关系。在对变量之间关系进行检测时，数据挖掘技术还可以对所有变量间的交互关系进行自动测量，然后报告其中需要特别注意的交互关系。传统统计模型，更多关注的是变量之间的线性关系，数据挖掘则能更多解读自变量与因变量之间的非线性关系，并通过可视化工具，来描述和呈现变量之间的这种复杂的非线性关系[10]。这在社会学与经济学的相关研究中已经得到越来越多的使用。尽管在广告学的科学研究中，至今尚未见相应的尝试，但在广告实际运作中所谋求实现的情境、用户与广告三者的最优匹配，就是基于这种数据挖掘技术对各种复杂变量及其相互间复杂关系综合分析考量的结果。应该说，大数据发现的研究范式，使得广告学研究中综合性整体性考察复杂变量以及复杂变量间的复杂关系，不仅成为一种可能，并且正逐步成为一种现实。

　　(三)广告发展演进规律等基础理论的宏观发现

　　广告学量化与实证研究范式的另一重大缺陷，就是用“小数据”来证明“逻辑”，用“小样本”来演绎“大定律”，在传统研究中，研究者总是力图用“小数据”“小样本”来外推复杂的市场因果关系，用有限数据来阐释复杂市场与消费环境下的宏观涌现问题。用力甚勤，发现却甚微。究其竟，是因为有限数据及有限经验材料与宏大理论论证间，存在严重冲突，存在难以逾越的巨大鸿沟[18][19]，在量化与实证研究范式主导下，广告学研究的各种发现，可以是特定状况下的特定考量，却很难用来论证普遍显示规律；可以是微观层面的精细测量，却难以用来通达宏观；可以是已知与经验的检验，却不用来发现未知与预测未来。广告学是一门偏重应用的学科，重大的理论发现一直相对匮乏。上世纪70年代之前，尚有奥格威的品牌形象理论，以及莱斯和屈特的定位理论可引以为傲，但在量化与实证研究成为主导范式的70年代之后[20]，除整合营销传播之外②，似乎再也没有什么可以被提及的重大理论发现。

　　大数据发现的研究范式，以其超大规模和超时空跨度的数据，极大扩展了人类的经验范畴，填平着宏大理论与实证经验之间的鸿沟，同时以其数据挖掘中全景式的相关性扫描和全新的相关性涌现的优势，为广告学研究的宏观洞察和重大理论的提炼与发展提供了可能[12][19]。自然科学领域的相关研究，以及计算社会科学领域的社会学与经济学研究，已经提供诸多有价值可参照的研究范例。

　　总的来看，大数据发现的研究范式，既可用来解决广告应用层面的一应问题，又可用来展开广告基础理论层面的重大问题的研究。在研究思路与研究方法上，既可对传统研究方法中用于定量研究的“数值型数据”展开定性研究，又可对传统研究方法中只能用于定性分析的字符、图形、音频、视频等“非数值型数据”进行定量分析[10]；既可用新的数据与材料来验证已有的理论，也可从新的经验事实中总结归纳出新的定律[19]。基于大数据与大数据技术的计算广告学研究，对于广告学研究来说，具有着突破传统研究局限、形构研究新质的范式革命的重大意义。

　　四、计算广告学发展面临的主要问题与障碍

　　大数据时代，人与社会系统所需要的生存与发展技能，凸显为人的信息处理能力[21]。有学者将大数据时代的信息处理，概括为“社会的信息处理计算范式”(Informationprocessingcomputationalparadigmofsociety)[22]。所谓“社会的信息处理计算范式”，意指大数据时代运用计算技术来收集与分析数据信息，已经被人们公认为社会中最为重要的事项或行为方式[3]。而“社会科学计算范式”(computationalparadigmofsocialscience)，正是“社会的信息处理范式”带来的必然结果[23]，已成为我们这个时代社会科学研究的一种主导范式。

　　计算广告学带来广告学研究范式从传统计量走向大数据计算，其整体趋势已不可逆转。但是，科学研究中的范式转换与范式革命却充满艰难。计算广告学研究的发展，同样面临许多重大现实问题与障碍。

　　(一)技术面向与技术门槛

　　计算广告学是大数据与大数据技术在广告学研究领域的应用，其显著的技术性面向，造成其有较高的技术门槛，以及对跨学科研究人才与跨学科合作研究的强烈需求。从某种意义上讲，计算广告学的研究，必须以学科交叉与融合的方式才能真正得以实现。然而，传统的文理分隔与专业分化的教育制度与研究机制，既不能满足计算广告学对学科交融综合性研究人才培养的需求，又不能支持计算广告学学科交叉的研究合作。正因为如此，计算广告学研究至今仍呈学科分离的状态。在计算机科学、数据科学与信息科学领域的计算广告学研究，重点采取的是技术性的研究面向。而广告学领域的计算广告学研究，因为过高技术门槛的限制，绝大多数研究者仍徘徊在传统广告学研究与计算广告学研究的边缘地带。可以说，世界范围内，完整意义上的社会科学研究与计算技术研究双重交叉面向的跨学科的计算广告学研究，至今并未真正充分展开。

　　(二)数据垄断与数据孤岛

　　基于大数据发现研究范式的计算广告学研究，其基础与前提便是数据。若无真正意义上的大数据，也就不会有真正意义上的大数据发现。通观迄今为止的计算广告学研究，无论是西方还是我国，虽号称大数据计算，实则仍是一种以“小数据”和零散数据为基础的研究。这种研究，仍有可能导致“片面经验图景”，以及“孤立化”“碎片化”的认知局限。造成这种状况的一个重要原因，就在于数据的垄断等因素所导致的数据可及性限制。

　　在互联网各类数据平台上留存的以及持续不断生成的海量数据，基本上都掌握和控制在大型互联网企业这些平台拥有者手中。如果说平台上流动的即时数据应用者与研究者尚可触及的话，留存的既往数据往往会被平台拥有者进行处理存储起来，应用者与研究者根本不可能触碰到。并且，在这些数据源中，可供规范分析与研究的结构化数据还是极少数，绝大部分都处于一种非结构化的离散型状态。而采集、传输、存储和处理这些体量巨大的离散型数据的技术，目前也只有少数的大型互联网企业以及大型的通信公司和数据公司才掌握和拥有。即使那些数据源对应用者与研究者开放，由于技术的限制，依然存在一个数据可及性问题。

　　数据平台的拥有，以及数据采集、传输、存储与处理的技术强权，直接导致数据拥有的霸权与垄断，并在此基础上形成一个个彼此独立、相互隔绝的“数据孤岛”。“数据孤岛”的形成，不仅极大减弱数据未能相互联通的数据价值，也更加强化了使用者的数据不可及性。数据垄断与数据孤岛所带来的数据可及性问题，是各领域大数据运用面临的普遍问题，也是计算广告学研究面临的又一重大障碍。

　　(三)数据计算与数据黑箱

　　人工智能的发展，促使人类的知识生产不断走向智能化与自动化[18]。很多事情我们都交由机器去处理，这给人类的知识生产提供了极大便利。但是，机器的各种计算都是一个高度封闭的过程[6]，其数据处理方法“被封装成函数、程序包、软件等”[9]，我们仅仅知道数据处理之后的结果，却不清楚其过程。甚至连研究者也“不清楚计算机算法具体是如何生成数据信息以及如何对数据进行处理的”[24]。他们无从对其数据处理的方法进行全面的评估，也无从通过经验证据和理论框架对其中一些复杂的相互关系进行解释[10]。数据与结论之间的数据处理与分析的过程与方法，便成了一个“数据黑箱”[9]。人工智能越发展，数据处理的“黑箱化”就越发加剧。这种状况在计算广告研究中体现得尤其显著。

　　然而，科学研究却不仅要“知其然”，更要“知其所以然”。既要检验大数据分析所得结论的可靠性，又要为大数据分析的过程与结果提供合理的解释，研究者需要打开数据处理方法与过程的“黑箱”，寻找到数据、方法与结论之间的耦合点，是包括计算广告学研究在内所有计算社会科学研究极为艰难而又繁重的任务。不如此，大数据发现的研究价值将遭到极大的削减。

　　打开大数据发现的“数据黑箱”，同样需要跨学科研究的合作。如果说跨学科人才培养机制的建立尚有待时日，跨学科合作研究机制的建立，则是不得不从速解决的当务之急。

　　(四)数据隐私与数据伦理

　　在大数据与计算广告提出之初，数据隐私的问题就被提出。所谓隐私，是个体不受打扰的权利，是个体不愿他人干涉与侵犯的私人领域[25]。在互联网平台上，无论是电子踪迹数据还是物联网数据，还有以定位信息和通话记录为核心内容的移动通信数据，都留下大量个体消费者的消费信息。这些消费信息，实际上已经在商业领域以不同的方式被交易，以不同的价格被消费。因此，消费者对商业领域个体数据被利用的隐私忧患也最为深刻。

　　即便是社会治理与公共领域的个体数据利用，抑或是科学研究领域的个体数据利用，尽管在动机与目标上显示出与商业领域个体数据利用的重大差异，但是，只要是个体数据是在个体不知情或不情愿的情况下被利用，都存在个体权利与私人领域被侵犯的问题，因为无论出于什么目的，数据采集与获取行为本身即可能构成对公民隐私权的侵犯[13]。也就是说，任何领域的个体数据利用，都存在严重的隐私忧患。

　　隐私侵犯是大数据时代大数据利用必须解决的又一重大问题，否则我们将深陷数据利用的二难选择之中。隐私侵犯，既有法律层面的问题，也有伦理层面的问题。大凡只要数据利用中存在隐私侵权的法律责任，一般也含有隐私侵犯的道义责任与伦理责任。数据利用中，可以规避隐私侵犯的法律责任，却不一定能够规避得了隐私侵犯的伦理责任。甚至可以说，伦理危机是数据隐私侵犯各种危机中最为严重的一种危机。

　　大数据时代的计算广告学研究，在其发展过程中已经遭遇和正在遭遇种种现实障碍。有些问题已经被提出，相关的讨论与实践探索正在进行，但问题的解决，还有待我们继续努力。尽管充满艰难，我们不必因困难而低估它的发展前景，随着时代的进步，数据条件和技术条件会越来越好，计算社会科学的各种制约、边界会不断被突破，社会科学研究的突破性进展终将到来[26]，所以，计算广告学研究持续而深入的发展也是不可逆转的，计算广告学研究范式下广告学研究的全新图景，正在向我们展开。

　　作者简介：曾琼，湖南师范大学新闻与传播学院副教授，硕士生导师(湖南长沙410081)