陈纯院士:时序动态图实时计算及智能决策——数智时代核心技术

2022-07-05 来源:互联网 网络编辑:编辑 阅读

数字时代,数据已成为一种基础性资源、战略性资源和重要生产力,数字经济正成为继农业经济、工业经济之后的新型经济形态。“数据资源如同工业社会的石油资源,蕴含着巨大的生产力和商机。”中央网信办网络数据管理局副局长、一级巡视员李爱东表示,谁掌握了大数据技术,就掌握了发展的资源和主动权。

关于应对数据安全带来的新问题与新挑战,在2022数据安全发展大会上,中国工程院院士、浙江大学信息学部主任陈纯做了“时序动态图实时计算及智能决策——数智时代核心技术”的主题报告,深刻分析了时序大数据的处理及智能计算模型,并结合具体案例对应用前景进行了展望。

当前全球经济越来越呈现数字化特征,数字经济已成为世界的主要经济形态之一。党的十八大以来,党中央高度重视发展数字经济,将其上升为国家战略。身处数据驱动的数字经济时代,如何变成一个大数据的强国,技术在其中是非常重要的。

何为时序大数据?

首先,为什么有那么多数据?其实,在互联网以前,我们只有人类社会和物理世界,然后才有的数据产品及信息空间,我们称之为CPH。在信息空间,包括人工智能、AR、VR都非常重要,产生了很多数据,但并不仅仅是取量变多才是大,更重要的是把历史的数据都留下来了。

每一个数据都是带有时间的,以前的特征向量、特征空间把时间去掉了,只能挤在一起成为扁平的数据。移动互联网和物联网使每一个数据都有时间戳,带有时间的数据可以做很多处理,尤其是5G的到来,对热数据的处理非常重要。

另外一个就是数据形成关系图谱、关联图谱,就像社交,以前的关联图谱不带有时间,而基于时序大数据,以前的数据得以留存,现在的数据也时刻流进来。时序大数据是以前的历史数据,加上实时的数据,这好像水库的水,正在流向水库里的水是流数据,留在水库里的水都带有时间。实时的数据可以称之为热数据,慢慢的变成温数据,然后冷数据。数据随着时间的推移会越来越不值钱,所以要把它处理起来。时序动态图非常重要,是最近几年研究的重点。

关键技术在哪里,为什么这么难?

关键技术一:面向复杂统计指标的增量计算

大数据的分析,一些统计指标特征计算是非常重要的,均值、方差等。简单算法、静态取数、容器类算法、复杂算法、CEP等分别如何实现?增量计算中如何进行退单等常见场景的逆向计算?事件乱序抵达如何确保增量计算的结果一致?这些数理统计算法中的增量计算、可逆计算、乱序计算等问题需要考虑。

关键技术二:面向时序数据处理的动态时间窗口

时间窗口需提供滚动、滑动的漂移能力,支持长周期时间窗口的动态精度控制,支持基于弹性时间窗口的实时ADHoc查询。

关键技术三:基于流的事件序列识别复杂事件处理 CEP

事件模式的增量匹配、叠加通用算法的增量统计等支持CEP的增量匹配及数理统计问题。

关键技术四:动态时序图谱的实时分析计算

时序图谱的极速增量建图,大规模时序图谱如何提供百万tps的建图能力?时序图谱的分布式处理,10亿顶点,100亿边10亿时序复杂边的前提下,3层以上查询如何控制在秒级?大规模时序图谱如何秒级的图搜索最短路径、Page Rank、Louvain、LPA等能力?面向时序图谱的查询语言,支持动态时序图谱的时间维度Ad Hoc查询分析能力?

实时数据如何形成智能决策平台?

只要是智能的平台,一定会有智能模型。智能模型不仅指深度学习,深度学习最大的贡献之一是它能利用大数据批式、标记进行训练,从而获得多层次的数据特征,利用这些特征能大大提升模型对数据的分类精度。分析计算+智能模型,便构成了时序大数据实时智能技术架构,可以进行实时采集、实时加工、实时分析、实时决策。

实时分析对很多行业都是重要的,陈纯院士表示,目前邦盛科技公司的“流立方”、“图立方”时序大数据实时智能技术平台已在近400家单位得到成功应用,行业涵盖金融风控、智慧交通、政务安全、信息通讯等领域。

以金融风控反欺诈场景为例,转账、借款、支付等人类活动会源源不断地引发商户、银行、设备等实体间的关联关系,形成动态时序图。对金融活动进行数据采集后,实时将业务信息输送到各类大数据中间件中,或经过企业服务总线,支持各类业务间的相互通信。来自不同业务场景中的数据最终被输送进清洗转换组件,进行过滤、映射、多流合并等处理,形成格式统一的消息,经由时序图数据消息队列被“流图立方”平台实时拉取,提取其中的主键、时间戳等关键信息,在“流图立方”平台内部将各条孤立的消息转换为具有图语义的时序聚合边等图结构抽象表示,在分布式环境下进行计算和存储。

另一方面,由业务专家制定的各类风险规则可通过规则管理平台导入风控引擎,通过风控引擎发起图查询,使用“流图立方”返回的指标计算结果及关联查询结果进行规则判定,并将判定情况报送给告警系统,对于进行中的高风险活动,通过告警系统定位到相关实体,及时对后续资金流动进行阻断,从而破坏欺诈行为的活动链路,达到风控效果。

在网络自动化攻击防御场景中,基于“流立方”的实时机器防御系统通过多服务器访问流水关联决策、长周期数据决策、复杂规则爬虫识别、设备维度爬虫识别等技术,实现了微秒级400~800amp;mu;s的识别延时,能够拦截业务系统中占原有访问总流量80~90的来自网络机器人的访问流量,使其业务系统服务器的压力降为原来的10。

陈纯院士表示,实时计算非常重要,数据驱动一定是随着时间来驱动的,需要把历史数据和实时数据综合考虑进来。同时,实时的智能系统可以帮助专家或从业人员基于应用场景把模型做的更好。

目前陈纯院士牵头创立的邦盛科技团队都在致力于实时智能技术的研究,数字经济建设中,采用“事中”甚至“事前”模式实现感知、分析、判断、决策等功能的智能系统都需要大数据实时智能技术平台的支撑,从而为行业高质量发展提质增效。

分享到:
至顶 反馈 至底