kok最新版app
您的当前位置:首页 > kok电竞网站下载

2022爱分析·数据智能应用实践报告

发布时间:2022-09-28 03:00:55作 者:kok最新版app来源: kok电竞网站下载

  为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。

  湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。

  当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可信、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。

  DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。

  物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。

  实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。

  以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人信息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。

  隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可信执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。

  随着数据应用的深化,企业数据分析场景正在发生三个“转变”:1、平民化:数据分析平台的服务对象从传统财务人员及管理人员向一线、场景化:数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化:企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。

  数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。

  传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。

  智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。

  数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。

  当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。

  本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴信息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。

  随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。

  与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。

  随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。

  数据架构复杂:企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。

  数据仓库、数据湖两种数据架构在集群层面割裂导致数据不能自由流通。如机器学习中数据来源于数据仓库或数据湖,难以跨架构进行数据融合分析,增加了数据流通和计算开发成本。

  数据仓库、数据湖的同时存在也会造成数据冗余,且随着数据量增长,存储成本将持续攀升,超大规模体量数据的计算性能也将持续下降。

  企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。

  通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。

  流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。

  云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。

  某海外跨国综合零售及服务集团为世界500强企业,主营商业零售、地产、金融、健康、游戏娱乐5大主要业态,旗下包含数百家成员公司,在日本、中国、东南亚等地区具有广泛影响力。

  近年来,“新零售”的崛起为零售行业持续带来巨大变革,该零售集团也希望借助其商超和供应链优势开辟线上——线下到家业务,并通过逐步构建完善的线上零售体系,实现传统零售业务的全面转型。

  经过多年数字化建设,该集团陆续在本地和云上建成多个数据仓库,并面向整个集团建立了统一的CDP平台,沉淀了丰富的数据资源。然而线上业务的开展引发了数据量激增,底层数据架构混乱、端到端数据运营分析能力落后的问题暴露无疑。具体而言:

  1. 烟囱式建设,数据资产不统一。该集团数据存、算基础设施均是以需求为导向进行阶段性单点建设而成,建立在离线、微软云、亚马逊云之上的结构化、非结构化数据存储及数据调度、实时计算工具等纵横交织,底层技术栈混乱,这直接导致了集团数据标准、数据口径不统一,数据开发格式和数据开发工具相互独立,难以形成统一数据资产。

  2. 业务稳定性、即时性不达标。该集团数据仓库层次结构不清晰,数据域、主题设计不合理,导致数据重复开发和计算问题严重,数据分析低效且耗费大量资源。在数据分析需求激增的情况下,原有云资源算力和存储都达到瓶颈,一项数据分析需求的响应往往需要2-3天,大大影响了任务稳定性和即时性,无法满足业务需求。

  3. 数据全流程运营管理方法不健全,服务能力差。该集团分别采购海外供应商抽取、集成、调度、监控、服务等数据开发管理工具,但这些工具之间彼此割裂,不仅导致数据全流程运营效率低,通过代码开发出的数据能力无法复用,影响对外开放赋能,同时导致数据分析师、数据科学家、业务人员、管理人员等不同角色之间无法有效协作。

  该集团经内部评估规划,决定面向整个集团当下及未来5-10年数字化转型需要,统一数据存、算基础设施,并通过全方位数据治理统一全域数据资产,健全数据开发、管理、运营全流程体系,从而支持智能化应用,统一开放赋能,并最终将整套成功经验推广复制到该集团的全球市场。

  通过长时间细致地对众多国内外优秀厂商及其客户进行实地调研和技术验证,以及对各厂商产品的开放式体验,该集团发现,国外厂商工具能力较强,但不同数据开发管理工具彼此独立,无法形成有机串联,导致数据工具和数据治理体系“两张皮”,无法实现该集团构建统一数据资产管理运营体系的需求。而科杰科技在工具能力与国外厂商旗鼓相当的基础上,将数据资产管理运营全流程的方法论和最佳实践融入数据工具设计中,使客户能够使用科杰科技全套产品构建统一、可持续的企业级数据资产运营管理体系。因此该集团最终选择科杰科技作为合作伙伴。

  北京科杰科技有限公司(简称“科杰科技”)是领先的数据能力构建商,核心技术团队拥有丰富的头部互联网企业大数据平台建设和运营经验,针对多业态、多场景的大型复杂组织的数据底座建设运营,沉淀出了一套成熟的实施方法论。现已服务能源、汽车、零售、制造等多个行业头部企业。

  该集团在科杰科技的帮助下,梳理现有数据能力,规划设计了满足未来5-10年的数据能力建设蓝图,以科杰云原生数据底座,统一纳管底层数据基础设施,建立数据标准规范和管理体系统一全域数据资产,并最终实现对组织统一开放赋能。

  该集团利用云原生湖仓一体数据底座良好的兼容适配性,实现跨云数据集成,统一集团主数据、元数据,同时支持多租户。云原生架构带来的资源弹性扩缩容能力使该集团能够便捷、灵活为二级单位进行资源调配,满足其个性化的资源使用需求,同时其良好的扩展性也能够支持集团未来数年的数字化发展。

  首先,该集团在科杰科技帮助下进行了数据治理工作,完整重构数据仓库体系,设计核心数据指标模型,制定数据标准,规范数据质量,构建起全域统一的数据资产。

  其次,通过一系列工具平台落实数据资产管理框架、标准、制度和流程,形成数据资产管理体系。建立统一的数据开发管理平台,与统一系统认证系统集成,集离线、实时开发能力于一体,实现全域数据的接入、加工及任务维护和管理;创建数据资产目录,对数据指标、标签进行分类管理,形成数据地图和血缘关系图谱,面向业务构建商品、店铺、交易、利润、会员、营销等主题,方便数据查询调用。

  搭建数据服务平台,提供数据API、标签服务、实时服务、报表服务和大屏服务。如对于面向用户画像、个性化推荐等智能应用的特征指标,能够通过指标平台,以及API发布数据服务方式,直接提供给业务人员使用。同时,平台将数据管理体系进一步贯穿组织架构和业务主题,面向不同角色和不同业务场景,进行数据能力的整合,支撑团队协同开发,实现数据资产的共享交换。

  融入DataOps理念,通过平台多个数据开发管理工具的有机串联,实现数据开发运维一体化。数据科学平台支持托拉拽的方式编排算法组件,辅以对数据应用模型算法构建方式和流程的指导,大大缩短数据分析模型开发上线的速度,同时支持复用,算法和业务过程快速交互形成闭环,优化结果能快速传递到业务端,实现数据反哺业务。

  通过集团统一大数据底座建设,该零售集团全方位完善了从底层基础设施到上层数据应用能力,具体而言:

  1. 资源统一纳管,高效稳定支撑上层业务开展。通过基础设施统一纳管和灵活的资源调度,减少系统风险,提升上层业务稳定性,同时降低了总体拥有成本。

  2. 统一数据资产体系,为企业数据资产持续开放共享打好基础:打通消费者在WEB、APP、小程序、门店系统的数据,以及各业务系统会员、门店、电商、供应链、财务等全域数据,进行全链路数据血缘关系数据资产沉淀,并形成公司内统一的数据门户,提升企业数据资产的使用效率。

  3. 数据资产服务化运营,实现组织规模化数据协作。数据研发人员通过数据中台实现大规模项目跨团队协同开发的能力,极大地提高了研发人员工作效率;业务和运营人员在平台内实现数据需求在线提报并自动流转,并通过高度可视化的功能实现业务数据自助分析和分发,极大地提升了数据在企业内流转和使用的效率,完成由传统的被动数据研发模式到基于统一数据资产之上进行高度复用的开发模式升级转变。

  数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。

  随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。

  业务影响:数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等

  技术影响:ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;

  企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。

  数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。

  DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可信性、自动性等五个特征。

  目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。

  九州通医药集团股份有限公司(以下简称“九州通”)为科技驱动型的全链医药产业综合服务商,立足于医药流通、物流服务及医疗健康等大健康行业,主营业务包括数字化医药分销与供应链服务、总代品牌推广服务、医药工业及贴牌业务、数字零售、智慧物流与供应链解决方案、医疗健康与技术增值服务六大方面。九州通连续多年位列中国医药商业企业第四位,领跑中国民营医药商业企业。

  早在2015年,九州通集团就开启了数字化转型之路。随着集团规模持续扩大,市场竞争愈加激烈,九州通迫切需要发挥数据价值支持经营分析、经营决策以及服务上下游客户。但在数据应用过程中,九州面临IT架构和数据层面的痛点。

  数据孤岛严重。一方面,九州通集团业务线复杂,包含中西成药、中药、医疗器械、零售等多业态,各业态又分为集团、地市、区域三级结构。九州通以业务为主导,各业态、各层级分别依据各自需求建设数据平台,造成数据平台架构各异,数据共享协作效率慢。另一方面,同一公司内不同业务单元也会引入不同业务系统,系统之间难打通,造成数据分散。因此,九州通虽储存有海量数据,但数据难流动难使用,数据价值难实现。

  数据标准体系不完善,数据质量差。目前九州通未对数据进行分层管理、未建立完善的指标体系且缺乏药品标签;同时数据存在不及时、不准确、不完整、关联性差等质量问题,造成数据难使用,不能有效支持经营分析应用。

  数据模型复用度低,不足以支持业务应用需求。目前九州通单个数据平台内的数据模型仅支持对应系统应用,复用度低,导致应用重复开发,浪费资源。同时数据应用在下钻深度、关联广度、数据呈现丰富度等方面都不足以支持经营分析需要,数据模型有待完善。

  数字化转型大背景下,九州通迫切需要盘活数据资产、发掘数据价值,推动降本增效、营销创新。九州通曾先后尝试自建Oracle数仓以及Hadoop数仓来统一储存集团数据,虽然投入大量资源,但效果有限。为打通集团各业态各层级数据平台,为业务赋能,九州通决定通过招标建设集团数据中台。通过综合考虑技术集成能力、数据开发工具便捷性以及厂商最佳实践经验等因素,最终九州通决定与网易数帆合作。

  网易数帆是网易集团旗下To B数字化转型技术与服务提供商,为客户提供国产软件基础平台产品及相应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用、低代码应用开发平台四大领域,致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一代信息技术下实现数字化转型的需求。目前已服务金融、零售、制造、能源、通信等各领域头部客户三百余家。

  在网易数帆协助下,九州通历时8个月完成了数据中台规划以及数据中台初始化部署,包含建设数据仓库、实现数据开发及运维以及数据治理。

  建立数据仓库及分层模型:数据仓库分为数据运营层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、应用层(ADS)共四层。将不同类型数据根据数据模型需要进行分层存放,避免不同业务部门因对数据利用方式不同,而需要对模型进行重复开发,提升数据利用率。

  数据汇集:借助网易数帆丰富的Hadoop大数据平台组件,九州通将多种架构数据平台的数据集成到数仓平台的数据运营层(ODS),并对数据进行清洗、汇聚、加工和计算。

  数据建模:在网易数帆的咨询规划协助下,九州通在不同数仓层建模,其中在明细数据层(DWD)拉通商品、客户、人员、供应商、岗位及组织架构维度数据,搭建主数据公共域模型;在汇总数据层(DWS)建立采购、销售、供应链、营销、财务等主题模型;在应用层(ADS)建立各业务报表需要的业务数据模型。

  利用网易数帆提供的一套便捷可视化数据开发工具,九州通数据研发团队可快速实现离线开发、实时开发、权限管理、资源管理等功能。通过数据运维平台实现任务的监控和报警推送,预估任务实例的产出时间、展示实例对下游报表影响范围,实现任务高效运维。

  九州通建设数仓平台汇聚各业态各层级的多源数据,包括不限于各中西成药、中药、医疗器械、零售等业态版块中,集团、区域以及子公司各级的采购、库存、人力、营销等系统数据。之后通过数据治理平台对多源数据进行统一治理,包括建设数据地图使业务人员能在海量数据中快速找到所需数据,通过数据血缘关系展示表的上下游表动态追溯、表的下游任务等;搭建数据指标体系实现跨部门指标定义统一和指标定义管理;建立数据质量管理体系,业务人员可预设多场景下的质量监控规则,并设置邮箱、电话等多种告知形式;建立数据资产管理体系,评估数据资产的成本、价值、质量,优化存储成本,节约计算资源,实现精细化的数据生命周期管理等。

  通过数据中台,九州通实现集团复杂组织架构下跨业态、跨层级、跨系统的数据打通,成功消除数据孤岛;并通过统一的数据架构、模型开发、数据治理等功能盘活数据资产,建立通畅、标准化的数据链路,持续为前台业务应用和分析提供数据服务,推动营销创新、提升经营效率。

  消除数据孤岛,实现数据共享共通。九州通通过数据中台对旗下各业态各层级数据进行汇聚,由数据中台提供统一数据出口,实现全集团跨平台数据分享调用。

  搭建统一的数据指标体系,实现数据科学管理和快速响应。本次项目共建设8个主题域,落地213个业务指标,全部指标统一口径、统一管理,能有效避免因指标定义模糊和逻辑混乱而导致的数据质量问题,大大减少无效、重复工作,同时能快速提高数据响应速度,如采购分析体系中,所有采购分析数据需求,均实现秒级响应,平均5秒出结果。

  健全客户标签体系,支撑精准客户洞察。本次项目开发客户标签共计6大分类,共100+个标签,覆盖基本信息、行为属性、交易属性、企业信用及风险信息等,组成标签工厂,对数据进行更精细的分类管理,支撑精准营销决策和风险控制。

  利用数据中台灵活快速开发业务应用,实现降本增效。如通过数据中台开发供应商画像,综合、供货预期、付款周期、销售情况等信息,为供应商付款审批提供数据支撑;针对业务员开发业务员画像,跟进业务员成单率、拜访计划、拜访效果等实现精准考核等;针对药店拜访开发药店画像,提高业务员拜访成功率等。

  深挖数据价值,从数据支撑到数据赋能。相较于传统数仓,大数据平台提供了更强的算力支撑,在通过中台整合了各系统数据资源,利用项目完成数据的集中化标准治理的基础上,九州通深挖数据价值,尝试通过AI算法模型在业务前侧,包括采购体系、销售体系、获客体系等方面实现数智化。例如:零售门店的销售预测、活动商品的精准营销、采购智能AI补货、中药生产供应链优化等。

  回顾本项目实施全过程,厂商的选型对九州通数据中台建设以及成功应用具有关键影响。对于有同类数据中台建设的企业,在选择数据中台厂商时可借鉴以下两点经验。

  针对具有复杂组织架构的传统企业,应选择具有深厚底层数仓开发以及数据集成能力的厂商。对于复杂架构的集团型企业,在数字化进程中,各子公司及各业务常根据业务需要分别建设数仓,造成数仓架构不统一。因此厂商需要具备扎实的组件开发以及数据集成能力,以灵活适配多种数据库环境,实现多源数据高效、稳定集成。

  针对技术团队开发能力较弱的传统企业,应选择具有咨询能力的厂商。尤其对于虽有技术团队,但尚未成功建立数仓平台,且数据应用意识较弱的企业,应选择具有咨询能力的厂商,在厂商协助下开展梳理业务、制定指标体系、搭建数据模型、管理数据权限、开发数据应用等活动,快速建立起数据中台,并最终通过厂商知识转移,快速提升企业数据中台使用能力和数据建模能力,挖潜数据价值。

  十四五以来,随着我国开启全面建设社会主义现代化新征程、转向高质量发展阶段,公路交通也进入高质量发展新阶段,发展重心由原来的交通运输网络建设转向交通运输供给有效性和适配性、以及出行服务品质等。发展数字交通,尤其以5G、物联网、大数据、云计算、人工智能技术为代表的新基建与交通运输深度融合,成为深化交通供给侧改革、提升运输服务效能、促进综合交通高质量发展的重要推动力。

  近年来,随着信息化的发展,高速领域的相关单位已具备多个信息化系统,如视频监控系统、交通流管控系统、收费站管控系统、应急指挥系统等,但由于信息系统相互独立,在高速运营中仍会面临以下数据问题:

  数据孤岛:高速数据来源于导航系统、ETC、龙门架、路网卡口、摄像头、毫米波雷达、车载终端等形色各样的系统和终端设备,数据类型复杂,且分属于高速公路建设、管理、养护以及运营等四个阶段,导致不同系统的数据无法互通互联形成数据孤岛。

  数据质量不稳定:由于高速数据的采集来源于不同的感知设备,存在数据不稳定、数据空包、丢漏数据的现状。原有系统缺乏数据质量管理体系,导致采集的数据中存在大量缺失信息或无效数据。

  缺乏数据标准:当前高速公路业务数据尚未形成国家或是行业标准规范,尤其不同地域、不同供应商产品的数据格式、模型、表结构千差万别,导致上级单位在进行数据收集汇总时需花费大量人力物力。

  难以有效支持多元应用:高速领域包含多元的服务应用及对象,诸如视频监控、交通流管控、收费站管控、应急指挥、绿通查验等服务,现有数据系统存在数据难调用、难使用的问题,不能支持业务应用体验升级需求。

  为了更好地赋能各地域的高速公司,提升各地高速交通的运营效率,某高速行业信息化公司基于高速行业的发展现状和系统基础,提出建设数据中台解决上述问题。通过多方考察,该公司综合考虑行业经验、产品功能、产品体验以及公司规模等因素,最终决定与国内专业的数据智能服务商每日互动股份有限公司(以下简称“每日互动”)合作建设数据中台。

  每日互动成立于2010年,是专业的数据智能服务商,为企业客户及政府单位提供丰富的数据智能产品,便捷、稳定的技术服务与智能运营解决方案,服务行业涉及互联网运营、用户增长、品牌营销、金融风控等领域客户以及政府部门。同时,基于强大的数据积累能力和丰富的数据治理经验,每日互动构建了数据中台——“每日治数平台”,将数据挖掘、萃取和治理能力向各行各业输出,用数据智能帮助客户解决其实际业务中所遇到的痛点难题。

  每日互动在城市大脑、智慧交通、应急管理等公共服务领域具有丰富实践,积累了对人、车、道路、时间、空间等多要素数据进行关联计算和分析洞察的能力。依托于“每日治数平台”一站式数仓搭建、可视化数据资产管理、零代码模型构建、低代码机器学习等特色功能,每日互动和该高速行业信息化公司共同建设数据中台,包括构建数据标准、管理数据资产以及制定数据质量管理体系等,实现了数据资源的统一整合和数据治理,主要运用于支持高速公路的高效运营和高质服务。

  数据接入和集成:依托于每日互动的技术支持,某高速行业信息化公司可将相关高速单位的多个自有信息平台如高速管控平台、设备维修管理平台、隧道管控平台的异构数据,以及可靠第三方数据统一接入数据中台。

  构建数据标准,建立统一的数据仓库模型:每日互动与该公司组织的多个业务专家一起深入高速业务一线,理清当前数据现状以及数据使用过程中的痛点,根据数据源不同,建立相应的业务主题库,构建起一套完整的数据标准体系,形成统一、整合的数据仓库模型。

  数据资产管理和可视化:基于每日互动提供的数据勘探、数据血缘、元数据采集、建表/分区管理等工具,该公司可进一步帮助相关高速单位完善数据资产;并且对数据资产进行可视化呈现,如数据资产目录层级结构展示,相关单位可便捷地从不同视角检索和管理数据资产。

  制定数据质量管理体系:基于数据标准,制定数据质量校验规则,实时对数据质量进行智能监测和预警;结合AI算法,定期对数据质量进行稽核,如系统根据数据缺失情形,参考历史数据进行补充或是对严重缺损数据进行剔除,保证高速数据可用、可信。此外,通过数据血缘功能可定期对数据流转过程进行追溯和梳理,实现数据全生命周期的智能管理。

  数据应用:多源异构数据经数据中台清洗、融合治理后形成共享数据,通过API以服务目录的形式供各部门调用,消除应用部门对数据质量、数据来源的担忧,专注提升应用体验。

  在本项目数据中台建设过程中,每日互动梳理建立起一套完善的高速数据标准体系,运用于高速行业多个场景的效率提升,相关单位的高速交通应急处置效率、运行效率和服务品质等多个方面均有显著提升,具体表现如下。

  打通数据孤岛,实现数据高效高质共享:通过数据中台,某高速行业信息化公司将相关高速单位系统内多个渠道数据进行集成、清洗、融合治理,形成高质量数据,赋能各业务部门。

  实时可视化,提升应急处置效率:依据每日互动数据中台的图像智能和可视化等功能,该公司实现了对高速交通全局态势的实时感知以及对局部路段路况的实时查询、分析,并通过大屏监控车祸、拥堵、抛锚等突发状况,能对突发状况实现快速定位和救援。该公司将此可视化功能应用到道路救援时,救援时间缩短了60%至80%,救援效率得到大幅提升。

  数据融合,促进路网通畅:通过对ETC、服务区卡口、高速路网等数据融合,业务人员对停靠超时的车辆进行精准引导,缓解夜间服务区的大流量痛点,提高服务区的服务质量。

  AI算法预判,提升通行效率:针对高速匝道等事故多发以及易拥堵路段,业务人员可基于每日互动数据中台AI算法进行提前预判和事前预警,为相关高速单位进行道路拥堵疏导提供科学依据和有效支撑,也为民众合理规划错峰出行路径提供引导,促进路网流量合理分布,提升高速通行效率。

  数据中台厂商综合数据能力为数据中台建设、数据中台应用良好体验提供坚实保障

  回顾数据中台建设前期、建设中期以及建设后期应用的全过程,数据中台能成功发挥效用、提升高速交通运营能力有两点关键因素。

  1)选择优质厂商事半功倍:某高速行业信息化公司在进行数据中台厂商选型时,应考虑厂商在特定行业已积累丰富案例,形成完善数据治理方法论,其中行业不限于高速行业。该厂商应具备数据资产管理、数据分析、数据可视化、数据标签等数据治理专业能力以及丰富的数据治理输出经验,具备成熟的久经市场验证的数据产品引擎与提效工具,能将以往行业经验迁移到高速行业中,服务高速行业。在本项目中基于“每日治数平台”丰富的行业客户和相关政府单位解决数字化转型难题经验,每日互动已经沉淀出可复用的数据能力、业务能力、效率工具等,因此能快速为该公司建设数据中台,服务于高速公路建设、管理、养护、运营四个阶段。此外,厂商还应具有算法建模、机器学习、图像智能等综合数据能力,在实现数据整合、数据治理等基本功能基础上,能为数据在多元场景应用提供支持。在本项目中,每日互动的数据中台产品“每日治数平台”具备多元完善的AI算法、图像智能等技术,操作便捷、轻量、易上手,可实现路况实时查询分析并可视化呈现、对路况预判提升通行效率等功能,为客户的数智化创新赋能提效。

  2)建设执行团队落地生花:除厂商选型外,为使数据中台真正落地、发挥最大效用,某高速行业信息化公司在明确数据中台规划、践行数据中台建设的过程中,还需搭建岗位配置齐全的团队,包括但不限于中台建设、中台运维、数据产品经理、数据资产管理、数据运营等岗位来支持中台建设及运维,实现跨组织协同,实现数据驱动。

  随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。

  但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。

  要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。

  可以采集多种类型数据:实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通信协议接口。

  高可用、低成本的数据同步方案:实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。

  统一的数据存储和查询:由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。

  金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。

  案例4: 某股份制银行搭建实时应用支撑平台,通过实时数据赋能业务价值提升

  随着金融数字化时代的来临,金融业务正在发生深刻的变化。国内某股份制银行结合市场趋势变化和自身情况,将大数据技术作为企业数字化战略目标的基础。该银行目前处于业务发展的新阶段,资产规模持续扩大,经营实力不断增强,同时积极推进金融创新,而新业务模式的创新离不开数据的支持,也对核心数据能力提出了新要求。

  在传统的批处理方式下,通过T+1的全量或增量数据更新和处理可以满足银行内各部门对于经营情况和内部管理等数据分析的需求,但是随着精准营销、风险监控和内控管理等场景对于数据时效性的要求越来越高,银行内现有的批量式、准实时式数据处理效率无法满足所有的业务场景,未来需要实现对交易、日志等流式数据的毫秒级实时采集、处理和计算能力。

  数字经济时代下,银行需要收集和管理的数据量也将持续高速增长,现有的数据基础设施从性能和处理方式层面都难以满足PB级海量、混合数据的存储、整合、加工以及完成实时流式新增场景接入的要求,需针对现有的数据基础设施进行维护和升级。

  在业务支撑方面,当前的数据交付方式复杂且低效,无法满足快速变化的业务需求,需要提升快速、自主、迭代式平台的交付能力。

  该股份制银行综合考虑自身业务情况和当前技术能力,提出了搭建实时应用支撑平台来满足海量数据的实时处理和分析,对于实时应用支撑平台具体的需求如下:

  完成传统大数据服务平台应用支撑集群流式平台的系统升级和版本升级。应用支撑集群很多是自研和开源组件,新的实时应用支撑平台需要在现有基础上进行资源整合和优化升级,包括集成自动化测试功能、集成门户查询功能、优化ES存储索引等。

  监控方案制定和实施。统筹建立实时应用支撑平台整体监控方案,并完成相关指标的制定以及开发优化,在现有的监控指标基础上完成系统、组件、应用、批、流全方位的监控系统升级,保障系统稳定运行和对外提供服务。

  为保障数据完整性,配合实时应用支撑平台扩容计划,在承接更多实时场景的情况下,继续保障集群可以在实时数据消费的同时进行数据备份,并且在集群出现重大问题或流消费有问题时,可以保障数据不丢失。

  为配合平台中实时数仓的建立,丰富目前的实时、准实时数据接出模式,需要建立配套的安全权限管理模式,进行数据安全管控。

  为满足上述需求,该股份制银行在实时应用支撑平台搭建中,综合技术能力、产品成熟度和过往经验等多种考虑因素,最终选择与九章云极DataCanvas展开合作。

  九章云极DataCanvas成立于2013年,是一家数据智能基础软件供应商,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。

  在项目中,该银行的IT团队与九章云极DataCanvas共同合作,对全行的实时业务场景做了全面梳理,作为构建实时应用支撑平台的基础。在落地层面,借助九章云极DataCanvas成熟的企业分布式流数据实时处理,分析和决策产品(以下简称“DataCanvas RT实时决策中心“),依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成某银行实时应用支撑平台的搭建和基础数据的准备,以此开展各业务应用工作。

  实时应用支撑平台通过对批量数据和实时数据的处理、计算、分析,尤其是通过机器学习模型对实时数据进行分析获取业务洞察,进而为下游的业务系统提供多样化的数据服务。在实时数据应用支撑集群中,九章云极运用DataCanvas RT实时决策中心为该银行提供实时指标引擎、模型引擎、数据资产管理、数据作业管理(算子作业、SQL作业、JAR作业)、数据服务、日志管理、多租户及租户资源、UDF管理功能等众多模块和功能。

  其中UDF的全称为User Definition Function,是DataCanvas RT实时决策中心作为一个平台级的产品基于Flink的框架下开发的低代码数据开发功能,结合预置的算子,让用户可以用可视化拖拽的方式把算子在画布中连接,组成数据开发任务。在实时应用支撑平台项目中,该银行IT人员利用UDF可以极大减少流式数据开发任务的难度,提升开发任务效率,使得实时场景的数据开发上线周期大大缩短。

  初建阶段主要是在该银行原有的批处理架构基础上,搭建以Hadoop为基础的系统架构,结合多种开源大数据组件搭建具备实时数据处理和实时交易感知的系统,并在部分试点场景中上线运行。

  扩容阶段在初建阶段的系统基础上融入DataCanvas RT实时决策中心,并扩容集群规模,在上线台节点的系统集群,线多类业务场景,并在后续逐步扩容至100台节点的系统集群和80多个实时业务场景。

  推广阶段基于前期的系统建设基础,遵照规范管理流程,接入更多业务场景,提供及时的数据服务,提升业务洞察能力。

  实时应用支撑平台除了一般的技术和功能需求外,九章云极DataCanvas还针对该银行的特殊需求对于DataCanvas RT实时决策中心进行定制化开发,包括:

  在DataCanvas RT实时决策中心中添加高可用流作业功能,有效解决流作业重启情况下导致的数据延迟问题,以及双作业流场景中的基于第三方缓存Redis做的状态一致性保障UDF,本次项目中研发的高可用流作业功能也已经和九章云极一起申请专利。

  通过逻辑隔离和在预置算子外开发UDF算子如Redis状态计算、去重算子、Hbase维表关联等算子的方式满足该银行实时风险管理系统租户、报表与信息服务平台系统租户、营销管理系统租户和标签管理系统租户的多租户需求。

  该股份制银行通过九章云极DataCanvasRT实时决策中心搭建的实时应用支撑平台,在投产后已实现无间断运行近四年,并且可以有效应对海量数据处理和实时业务场景应用需求:

  1.实现了海量实时数据的处理和分发。该银行在上线实时应用支撑平台后,每日实时报文采集量和准实时数据日采集量有了显著提升。类似于大额资金变动预警的实时场景中,实时数据经平台规则处理后可以在0.2秒内输出预警,目前日预警量达到千万条,实时动帐交易日预警量约百万条。

  2.极大提高了实时场景开发和上线的效率。随着实时应用支撑平台项目的实施,平台上支撑的总体业务场景不断增加,平均每2周就能上线一个实时业务场景,截止2022年3月已经上线多个实时业务场景,总体的需求提出部门达到了15个,包括运营管理部、信用卡中心、信息科技部、网络金融部等,共涉及3种业务类型,包括营销类、监控类、监管类,平台在对用户需求的支持上得到了显著提升。

  3.适用业务发展需要的流数据计算架构。实时应用支撑平台上线后,实现了十万级以上的TPS峰值报文配对处理量,每日全行总线报文采集量加足迹数据采集量达到20亿以上。并且随着业务不断发展,九章云极DataCanvas RT实时决策中心也对平台架构进行持续优化,例如最新版本的RT产品支持Flink SQL,可以有效提升实时数据的开发效率。

  实时数据平台的数据处理能力和开发效率是决定其是否能够满足企业需求的核心要素,总结该股份制银行的实时应用支撑平台建设经验,其他银行在选择实时数据平台产品时应注意关注以下两点:

  流批一体的数据处理能力。在选择实时数据平台产品时,能够承载企业的流批一体数据处理工作,具备方便的横向扩展能力,并且可以对产品架构持续优化改进,不断引入新的技术和功能,才可以保证该产品可以长期稳定的满足业务发展需求。

  低代码开发环境提升开发效率。基于DataCanvas RT实时决策中心的低代码开发环境,由成熟的测试团队完成工作流的配置和测试。对于复杂业务场景则通过大数据开发工程师通过UDF算子开发的形式,完成部分数据处理难点的实现,后续将UDF算子交由测试团队,通过可拖拽的方式构建数据开发工作流。

  随着数字化进程的深化、数据应用场景的拓展,越来越多的企业及机构发现仅挖掘内部数据价值不足以应对快速变化的市场环境及用户需求,如金融机构需要借助其他机构数据完善风控模型、实现精准营销;政府单位需要打通多部门数据提高政府治理水平、提升公共服务效能;医院需联合多家医疗机构共同完成罕见病全基因组关联分析等。企业或机构需要通过数据共享协作提升运营效率、提升服务价值。

  与此同时,对数据流通安全的担忧成为数据共享协作的阻碍。一方面,国家加强对数据分享及利用的监管,相继颁布《数据安全法》及《个人信息保护法》,严格限制数据的不安全流通;另一方面,数据已经成为企业立身之本,企业需要保护自身数据资产,保护数据隐私。

  隐私计算能实现数据共享协作过程中的“可用不可见”,保护数据隐私安全、满足合规要求,被企业广泛采用。企业对隐私计算技术的需求主要体现在以下几方面。

  不同业务场景下企业能接受的安全假设前提不同,如风控、营销场景下,企业能接受可信第三方,采用联邦学习实现隐私计算;而在医疗多中心合作模式下,医院会面临串谋攻击、环境攻击、模型攻击等内部攻击,需要融合多方安全计算、同态加密以及可信执行环境共同满足数据安全要求。厂商应具备完善的隐私计算保护功能,不限于联邦学习、多方安全计算、可信执行环境以及同态加密,满足不同场景下的安全要求。

  特殊场景如工业决策、人脸识别以及多中心全基因组分析等,对精度、性能的要求极高。企业应具有底层隐私计算底座开发优化能力,通过提高模型计算效率优化、通信效率优化、网络带宽优化等多种方式满足业务场景高精度、高性能要求。

  数据质量将影响数据协作共享的价值产出,因此企业需要筛选、链接合适的数据源。企业希望厂商具有丰富的 数据源网络,了解各行业数据特点,能为企业提供数据链接建议并推动实现合作。

  金融、医疗等理论门槛较高,企业需要隐私计算厂商具备专业业务知识,能提供恰当的数据分析算法和模型,帮助企业实现产出。

  不同场景对隐私计算技术能力要求不同。如政务联合计算场景下,同态加密即可满足需求;金融风控场景下,需要具备联邦学习、同态加密以及多方安全计算;而特殊医疗场景如全基因组分析场景下,要求更严格,解决方案需同时具备联邦学习、多方安全计算、同态加密甚至可信执行环境等多种隐私计算技术。一个普适的隐私计算平台解决方案如下图所示。

  某三甲医院是一所集医疗、教学、科研为一体的综合性三级甲等医院,脊柱脊髓伤病诊治、关节外伤修复重建、颅脑创伤救治、颅内肿瘤诊疗、、多发伤、多脏器功能衰竭救治等处于国内领先水平。其中脊柱外科是上海市医学领先专业重点学科,该三甲医院持续推进并引领脊髓型颈椎病研究。

  全基因组关联分析(Genome-Wide Association Study, GWAS)指在全基因组水平上,以单核甘酸多态性(Single Nucleotide Polytide, SNP)作为分子遗传标记,进行对照或关联性分析,可筛选出与复杂性状相关的突变基因位点,对于疾病预防、诊疗和新药研发意义重大。该三甲医院持续关注强直性脊柱炎(简称“AS”)疾病的预防及治疗研究。由于该三甲医院的样本量不足以支撑一项全基因组关联分析研究,因此需要联合多家医院及院校共享AS患者基因信息进行研究,以开展更好的疾病防治工作。但在跨机构AS基因数据协作和共享过程中存在数据隐私安全隐患、数据合规以及计算难度大等问题:

  随着我国《数据安全法》及《个人信息保护法》的颁布,对数据安全监管进一步加强,医疗健康信息被列为敏感个人信息,医疗数据的不安全流动被严格限制,只有在采取严格保护措施下方可处理敏感个人信息。目前医院普遍通过数据脱敏隐去患者隐私,但在实际应用中,数据脱敏无明确规定,主观性高,且已被证明存在保护漏洞,被隐去的信息可能被重新推断出来导致患者身份或隐私泄露,无法达成现行法律所要求的“数据匿名化”。对医疗数据隐私泄露的担忧及数据共享合规性上的不足成为生物医疗数据跨机构分享的阻碍。

  传统的多中心合作通常将多家机构数据汇集到第三方平台,由第三方平台集中进行数据处理或计算以实现跨中心协作。但随着参与方增多,数据泄露和被篡改的风险也随之升高,如医疗数据安全保护的责任归属难界定、各个参与方的医疗权限划分不明确,都有可能造成医疗数据共享过程中的泄露、侵犯患者个人隐私或是导致重大医疗事故。

  基因数据具有高通量、高敏感度的特点,例如本案例中,单个个体的全基因组测序数据量接近300G,而全基因组分析需要几百甚至几千个样本量,庞大的数据体量为数据存储、传输、计算及分析带来挑战。

  为规避隐私泄露风险,实现基因数据分享和联合分析,推动本次AS全基因组关联分析项目顺利开展,该三甲医院决定采购隐私计算解决方案。经过综合考虑产品功能、性能、安全以及团队医疗专业素质等因素,最终选择与锘崴科技进行合作。

  锘崴科技成立于2019年, 是一家专业的隐私保护计算技术服务提供商,由“海外高层次青年人才”、隐私计算专家王爽教授,前硅谷知名科学家郑灏博士共同创立,具备深厚的隐私计算、生物医疗信息等领域的学术和实践经验,团队成员多来自IBM、Google、Thermo Fisher等世界五百强企业,业务场景覆盖医疗、金融、保险、政务、安防等。

  该三甲医院隐私计算方案从确定需求、实现跨医院平台部署到完成全基因组关联分析获取研究成果,历时近3个月。

  为实现AS全基因组关联分析,该三甲医院及合作机构对锘崴科技主要提出三点需求:1)隐私计算解决方案能提供AS疾病全基因组关联分析管道所需的模型和工具,并支持灵活组合;2)针对跨机构提供的3000个样本、单个样本300G的数据体量,解决方案应实现计算性能等价于明文计算性能;3)该方案保证数据安全合规。

  锘崴科技的锘崴信®隐私保护计算一体机(以下简称:锘崴信®一体机)包含接口层、计算节点、加密层、协同层等,可实现接入医院数据、完成本地计算、对计算结果加密、将加密后的信息通信至全局模型进行迭代,重复计算流程使模型反复迭代至收敛。基于锘崴信®一体机,该三甲医院及合作机构只需完成安装、接通网络、接通数据、配置规则等步骤即可“开箱即用”,简化搭建应用隐私计算平台的难度。

  其中针对数据接通环境,锘崴科技锘崴信®一体机提供丰富的数据接口,该三甲医院及合作机构可以以文件、数据库或者数据接口等形式将数据接入一体机,即可实现在安全可控的前提下与外部合作方进行数据价值交互。

  为满足AS全基因组关联分析研究需求,锘崴科技开发出GWAS分布式计算技术框架iPRIVATES。该框架融合多种算法,包含可定制的基因组数据预处理模块,基于主成分分析的联邦人口分层模型、基于逻辑回归和对数似然比检验的关联分析模型等。该三甲医院及合作方可灵活地集成和配置不同的全基因组关联分析管道,方便识别SNPs与AS疾病特征之间的关联,获得统计学意义上显著相关的基因位点信息,为后期的实验室验证、确定AS早筛生物标志物提供支持。

  依托iPRIVATES框架,该三甲医院实现与多个跨省合作机构的AS基因组数据链接和共享协作,并在多中心协作过程中,保障基因数据共享全链路隐私安全。一方面基于iPRIVATES框架中的安全联邦学习技术,该三甲医院和合作机构在本地终端节点对基因数据进行计算,仅共享交换经过加密后的中间统计值,不分享明文个体数据,保护数据隐私;另一方面,依托于iPRIVATES框架中可信执行环境技术,该三甲医院和合作机构能防御内部攻击、避免因计算过程被篡改,实现对模型本身的保护。

  依托锘崴科技隐私保护计算技术,该三甲医院及合作机构在满足数据安全合规要求的前提下完成多中心AS疾病全基因组关联分析,取得重大研究成果,获得业内高度认可;并在缩短评审周期、提高统计意义、降低资源消耗等方面有良好表现。

  研究成果获广泛认可:基于锘崴科技提供的iPRIVATES隐私计算框架,该三甲医院关于强直性脊柱炎的研究成果发表在生物信息学顶级期刊Briefing in Bioinformatics上,同时获得2019年度上海市科技进步奖一等奖,收到广泛赞誉。

  计算结果的可靠性、准确度大幅提升:基于隐私计算解决方案,该三甲医院最终与多家机构达成多中心合作,样本量相较单中心模式提高3-5倍,统计意义也提高1个数量级,研究结果的准确性、普适性大幅提升,有利于AS疾病的预防和诊治工作。

  计算效率显著提升,计算结果等价:iPRIVATES框架在算法时间上等价于数据物理集中的方式,且研究成果的特征靶点也与集中式计算结果一致,验证了隐私计算方法在解决生物医疗多中心数据协作方面的可行性和巨大潜力。

  大幅缩短数据风险评审周期,降低多中心合作时间成本:传统模式下开展多中心研究前,需要各医院机构评审数据共享风险,评审周期可能长达一至两个季度。而隐私计算方案能实现在数据不出域的情况下完成多中心的合作,规避数据泄露风险,因此能大幅缩短医院多中心合作的评审周期,减少管理流程成本,加速联合研究。

  降低资源消耗:传统多中心模式下,所有样本数据需汇总到该三甲医院再进行计算,对存储、算力条件要求极高,而基于联邦学习的多中心模式应用分布式计算框架,物理分散,逻辑集中,对参与方的计算资源损耗和计算条件要求下降。

  隐私计算方案在该三甲医院AS疾病研究中起到重要作用。回顾该三甲医院实施隐私计算解决方案全流程,隐私计算厂商选型对隐私计算解决方案的成功具有决定性作用,因此对于同样有多中心医疗研究需求的医院,在选择隐私计算厂商时,应注意以下三点厂商能力。

  选择有完全自主知识产权,能兼顾性能、精度、安全等多方面实力的隐私计算厂商。由于医疗行业数据体量庞大、精度要求苛刻、数据安全风险高,要求隐私计算厂商除建模能力外,更要具备优化调整隐私计算底座并发性、准确性、算法复杂性等方面的自主开发能力。

  选择有丰富医疗经验、具备专业医疗知识的厂商。医疗研究理论门槛高,因此要求隐私计算厂商具有医疗从业经验或是具备专业医疗知识,准确理解不同医疗业务中的数据分析理论,进而提供对应的医疗算法和模型,如在全基因组关联分析中能提供人口分层模型、关联分析模型。甚至更进一步,允许不同医疗机构根据业务能、精度和安全等多方面平衡的解决方案。

  选择具有丰富医疗数据源的厂商。生物医疗数据的各项科学研究通常都需要大量样本,单一数据源的数据量很难满足一项研究所需的样本量,因此,能链接多方数据源,诸如医院、第三方检测公司、影像中心等,打通各医院、药企上下游数据网络,为医院聚合大量样本,将能为医院节省大量的资源和时间。

  数据分析平台作为企业数据价值提炼和挖掘的最后一站,长期以来都是企业数字化建设的重中之重。然而,由于数据分析工作的专业性和复杂性,以及数据逻辑与业务逻辑之间的高度差异性,导致数据分析和业务之间存在较高的壁垒,这对企业的数据运营体系和数据文化提出了很高的要求。近年来,随着外部市场环境不确定性的增强,以及企业数据应用的不断深化,数据和业务之间的壁垒在很大程度上影响了企业数据价值的传递,具体而言:

  外部环境不确定性增加,市场需求瞬息万变,业务侧对数据分析的需求也随之调整,逐渐脱离固定的分析逻辑和报表,向个性化、多样化转变,而传统数据分析产品在搭建之初就已形成固定的数据分析模型,数据人员需要通过复杂的定制化工作才能解决这些个性化分析需求,导致沟通成本高,等待周期长,数据分析结果滞后于业务动向,业务人员直接参与数据分析的需求不能及时满足。

  数据分析平台往往是企业从全局出发进行建设,由企业数据中心满足所有部门的数据分析需要。随着企业数字化水平提高,各部门逐渐无法满足于来自集团数据中心的固定报表式数据应用,而是希望能够将其特有的业务逻辑与数据分析能力深度结合,形成丰富细致的数据分析场景,满足业务精细化运营的需要。

  面对个性化、场景化的分析需求,企业需要通过更加智能化、敏捷化的数据分析解决方案,提升分析的灵活性,填补业务和数据间的壁垒,真正让数据分析能力下沉到一线业务人员和具体业务场景。

  1)为业务人员和管理人员搭建新型智能化、自助化分析平台。以智能化、自助化为特点,面向业务人员的新型分析引擎搭载NLP to SQL、机器学习、低代码等技术,提供自然语言等新型交互方式,便捷地低代码、零代码数据分析模板搭建方式,从而简化数据准备、数据挖掘和建模以及数据结果分发全流程操作,为业务人员提供强大的数据分析能力。具体而言,系统能帮助用户轻松访问数据,并实现实时分析,满足业务实时分析需求;系统能帮助用户通过托拉拽操作,生成丰富的可视化图形,并支持指标

产品中心
滚筒筛设备
滚筒筛
按型号分类
按应用物料分类
联系我们

kok电竞app官网

电 话:0373-268 2333

手 机:15836198876(微信同号)

kok电竞网站下载

厂 址:河南省新乡市延津县森林公园大门西1000米路北