由于学术研究需要,笔者在最近半个月泛读了十几篇关于群智感知的论文,因此想对群智感知这个概念作个整体的框架分析,给大家普及理论知识的同时也希望和大家一同学习进步。 移动群智感知 最早是由Raghu K. Ganti在2011年发表于IEEE的文章《Mobile crowdsensing: current state and future challenges》中提出,后于2012年清华大学刘云浩教授发表文章《群智感知计算》并在国内首次阐述 群智感知 (Crowd Sensing),而这个概念所依托的思想却源自于美国杂志《Wired》于2006年发明的一个专业术语——众包(Crowd Sourcing)。众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的大众志愿者的做法,通俗来讲,众包就是指在互联网上把工作分配给社会大众共同参与完成的一种社会生产模式。在这种分布式协作的模式下,解决问题的人数从一人增长至多人,这种集大家之所长的形式更能发挥问题本身的价值,所谓“众人拾柴火焰高”嘛。而刘云浩教授则将众包与感知两个概念进行融合,提出了立足于物联网的新概念—— 群智感知 。 群智感知 指的是结合众包思想和移动设备感知能力的一种数据获取新型模式,详细点讲,就是指大规模的普通用户通过其自身携带的智能移动设备来采集感知数据并上传到服务器,服务提供商对感知数据进行记录处理,最终完成感知任务并利用收集的数据给用户提供日常所需服务的过程。近些年随着各种移动设备和可穿戴设备(如智能手机、手表手环、平板电脑、联网汽车等)的普及,其内置传感器(如加速计、陀螺仪、摄像头、指南针、GPS、麦克风、车载电话等)的存在逐渐被企业重视,利用这些传感设备收集的数据可以分析提取许多有用信息。传统的传感器感知网络在面对大范围大规模的感知任务时需要安装大量专业传感设备,导致维护成本高且覆盖范围受限,使得感知任务的完成效果和效率都大打折扣。与传统感知网络不同, 群智感知 网络利用大量普通用户手中设备的单一感知单元收集数据,这种方式因为移动设备的普遍性和用户位置移动的灵活性,完美解决了前者的问题,同时互联网+的发展更是加快了群智感知的研究与应用。如今 群智感知 在环境污染监测、环境噪声地图、城市交通路况、社交网络与医疗保健等方面都已经得到了应用,在可预见的未来它将会应用到更多的业务场景中。 上图是笔者对 群智感知 系统作的结构划分图。根据关注因素的不同,刘文彬博士将其划分为移动群智感知(Mobile Crowd Sensing)和稀疏群智感知(Sparse Crowd Sensing)。其中,移动群智感知主要关注用户,强调利用移动用户的广泛存在性、灵活移动性和机会连接性来执行感知任务,属于上文Raghu K. Ganti提到概念的广义化,即特指普通用户利用随身携带的智能设备上传感知数据;而稀疏群智感知则更加关注数据,通过挖掘和利用已感知数据的时空关联来推断未感知区域的数据。 典型的 移动群智感知 系统通常会由多个任务发起者、大量的移动用户和云端感知平台组成,最近的学术研究中有学者开始结合区块链实现最大化的隐私保护。任务发起者根据自身需求,向感知平台提交任务;感知平台向所有用户发布任务;移动用户携带智能设备执行任务并上传数据获得报酬;感知平台为任务发起者提供数据处理与计算服务。在整个过程中,数据、任务与用户是三个值得关注的关键点,因此笔者借此归纳出以下六个具体研究方向:数据收集、用户招募、任务分配、隐私保护、数据质量和激励机制。 稀疏群智感知 即招募用户感知部分区域的数据,然后利用其时空关联推断其他未感知区域的数据,以显著减少感知消耗并保证数据准确度。在物理世界中,绝大多数收集到的感知信息或数据都是连续的,比如气温、湿度、交通情况等,拿气温举个例子帮助大家理解:在同一地点,连续两分钟的温度度数极为接近,或者在同一时刻,相距五米的两个温度度数基本一致,这就是时空关联性。所以我们可以通过此时此地的气温推断出方圆五米内及两三分钟内的气温,即利用已知数据推断未知数据。但这样推断出的数据存在准确性的问题,因此笔者同样归纳出以下四个具体研究方向:数据推断、感知区域选择、数据质量和激励机制。 下面简单讲讲各个方向的研究策略。 1. 数据收集 方式分为机会式群智感知和参与式群智感知。机会式群智感知是指感知平台通过直接或间接方式感知用户的行为,对用户干扰较小,但数据精度依赖于感知算法和应用环境,且需较高的隐私保护机制激励用户的参与;参与式群智感知是指由用户主动参与感知任务,数据精度高但容易受用户主观意识干扰,且易发生恶意用户上传虚假数据的情况,因此需强的数据质量评估机制。数据收集时一般使用马尔科夫随机场来建模数据关联结构,并通过互信息理论来量化用户的隐私损失。 2. 用户招募 一般根据不同场景的划分分别进行讨论,包括离线场景和在线场景,或者完全信息场景、部分信息场景和动态社交影响场景等,可将其转化为图的加权最大割问题进行解决。 3. 任务分配 一般将其转化为二部图最大加权匹配问题进行解决,也可利用机器学习对用户类型进行预测,进而给合适用户分配合适任务。 4. 隐私保护 解决方案可分为匿名化、数据扰动和数据加密三种。匿名化一般使用k-匿名算法,简单理解就是在一个数据集中至少无法从k-1个数据中识别出某用户的隐私信息,即将一条数据隐藏于k-1条数据中进而无法区分;数据扰动即给数据添加噪声,一般使用差分隐私,即对查询的结果加入噪声变量,使得攻击者无法辨别某一样本是否在数据集中,一个形象的说法就是,双兔傍地走安能辨我是雄雌;数据加密一般使用AES、RSA等常用加密算法,或者使用签名+加密的签密算法。 5. 数据质量 解决方案可分为真值发现、可信度和真值引出三种。真值发现是指通过对用户的感知数据进行估计,来挖掘真实可信的数据;可信度是指通过分析用户的历史数据,得出用户的可信程度,或通过感知数据中的异常点检测手段,剔除异常的感知数据,从而选取可信度较高的数据;真值引出是指通过机制设计的手段,将用户的数据质量作为影响用户激励的因素,结合对等预测等方式使得用户主动真实地上报其感知质量。 6. 激励机制 可划分为基于娱乐游戏的激励机制、基于信誉值的激励机制和基于报酬支付的激励机制,而基于报酬支付的激励机制又可划分为以平台为中心的模式和以用户为中心的模式。以平台为中心的模式是指平台给出报价,用户自行决定是否参与感知任务,分为基于时间的报酬支付、基于贡献值的报酬支付和基于数据质量的报酬支付,一般采用斯塔克伯格博弈(Stackelberg game)建模;以用户为中心的模式是指用户决定报价,由平台决定是否接受该价格,并挑选合适价格用户完成感知任务,分为离线和在线两种场景下的激励机制,一般采用反向拍卖(Reverse auction)建模,需要保证诚实性、个体理性和计算有效性。 7. 数据推断 和 感知区域选择 两个方向的研究比较欠缺,笔者只看到了一两篇关于此方面研究的文章,论文作者采用压缩感知来设计数据推断算法,而对于感知区域选择则使用机器学习理论中的强化学习算法。 群智感知理论仅用上文这小小的篇幅无疑是讲不完的,这终归只是冰山一角,因此之后笔者会慢慢地将这个理论进行完善,感谢支持! 参考文献: [1]王凯. 基于差分隐私的群智感知数据保护方法研究[D].南京邮电大学,2020. [2]刘媛妮,李垚焬,李慧聪,李万林,张建辉,赵国锋.基于拍卖模型的移动群智感知网络激励机制[J].通信学报,2019,40(07):208-222. [3]王静. 基于强化学习的群智感知激励机制研究[D].中国科学技术大学,2021. [4]杜扬. 面向群智感知的数据收集与数据筛选技术研究[D].中国科学技术大学,2020. [5]胡佳慧. 面向群智感知系统的个性化隐私保护研究[D].武汉大学,2019. [6]倪凯敏. 面向群智感知系统的隐私保护增量真值发现算法研究[D].安徽大学,2020. [7]王鑫. 面向任务需求的群智感知任务分配模型[D].哈尔滨师范大学,2021. [8]刘文彬. 面向移动用户和时空数据的群智感知方法研究[D].吉林大学,2020. [9]杨光. 群智感知中的激励机制设计[D].浙江大学,2020. [10]李梦茹. 群智感知中基于区块链的安全激励机制研究[D].北方工业大学,2019.