Flink 系列第10篇：Flink 分布式缓存详解

张开发

• 2026/6/3 6:47:12 • 15 分钟阅读

分享文章

一、分布式缓存概述Flink 提供的分布式缓存核心作用是让用户在并行函数中便捷读取本地或远程文件并将文件同步至所有 TaskManager 节点的本地文件系统避免 Task 重复拉取文件提升作业执行效率降低网络开销。二、分布式缓存工作机制Flink 分布式缓存的工作流程可分为以下4个步骤确保文件高效同步且仅执行一次用户注册文件/目录可注册本地文件或远程文件系统如 HDFS、S3中的文件/目录通过执行环境注册借助 ExecutionEnvironment 注册缓存文件并为其指定一个唯一名称后续用于查找文件自动同步至 TaskManager程序执行时Flink 会自动将注册的文件/目录复制到所有 TaskManager 节点的本地文件系统该同步操作仅执行一次本地访问文件用户在并行函数中通过注册时指定的名称查找文件/目录从 TaskManager 本地文件系统直接访问无需重复拉取。三、代码示例3.1 注册缓存文件通过 ExecutionEnvironment 注册缓存文件支持本地文件或远程文件如 HDFS示例如下// 1. 获取Flink批处理运行环境分布式缓存主要用于批处理流处理需结合特定场景ExecutionEnvironmentenvExecutionEnvironment.getExecutionEnvironment();// 2. 注册缓存文件第一个参数为文件路径本地路径/远程路径第二个参数为缓存名称唯一标识// 示例注册本地文件缓存名称为a.txtenv.registerCachedFile(/Users/wangzhiwu/WorkSpace/quickstart/text,a.txt);3.2 在并行函数中访问缓存文件需通过继承 RichFunction如 RichMapFunction借助 RuntimeContext 读取缓存文件。原因是 RichFunction 提供了 RuntimeContext 实例可用于获取分布式缓存资源。// 3. 在RichMapFunction中访问缓存文件DataSetStringresultdata.map(newRichMapFunctionString,String(){// 用于存储缓存文件中的数据供后续业务逻辑使用privateArrayListStringdataListnewArrayListString();// open方法在Task启动时执行一次适合初始化操作如读取缓存Overridepublicvoidopen(Configurationparameters)throwsException{super.open(parameters);// 4. 通过缓存名称a.txt获取本地文件FilemyFilegetRuntimeContext().getDistributedCache().getFile(a.txt);// 5. 读取文件内容需导入org.apache.commons.io.FileUtilsListStringlinesFileUtils.readLines(myFile);// 6. 将文件内容存入dataList供map方法使用for(Stringline:lines){this.dataList.add(line);System.err.println(分布式缓存内容line);}}// map方法并行处理每条数据可直接使用缓存中的dataListOverridepublicStringmap(Stringvalue)throwsException{// 打印缓存数据和当前处理的value便于调试System.err.println(使用缓存数据dataList------------value);// 业务逻辑将缓存数据与当前value拼接返回returndataListvalue;}});// 打印结果printToErr()用于区分标准输出和错误输出便于查看缓存相关日志result.printToErr();3.3 完整代码含注释以下为完整可运行代码包含环境初始化、缓存注册、缓存访问及结果输出注释详细可直接复用importorg.apache.flink.api.common.functions.RichMapFunction;importorg.apache.flink.api.java.ExecutionEnvironment;importorg.apache.flink.api.java.DataSet;importorg.apache.flink.api.java.DataSource;importorg.apache.flink.configuration.Configuration;importorg.apache.commons.io.FileUtils;importjava.io.File;importjava.util.ArrayList;importjava.util.List;publicclassDisCacheTest{publicstaticvoidmain(String[]args)throwsException{// 1. 获取Flink批处理运行环境ExecutionEnvironmentenvExecutionEnvironment.getExecutionEnvironment();// 2. 注册缓存文件本地文件路径可替换为HDFS路径如hdfs://xxx/text// 备注缓存文件text中包含4个单词hello flink hello FLINKenv.registerCachedFile(/Users/wangzhiwu/WorkSpace/quickstart/text,a.txt);// 3. 构造测试数据源4条数据a、b、c、dDataSourceStringdataenv.fromElements(a,b,c,d);// 4. 利用RichMapFunction访问缓存并处理数据DataSetStringresultdata.map(newRichMapFunctionString,String(){// 存储缓存文件内容的集合privateArrayListStringdataListnewArrayListString();// Task启动时执行仅执行一次用于读取缓存文件Overridepublicvoidopen(Configurationparameters)throwsException{super.open(parameters);// 通过缓存名称a.txt获取TaskManager本地的缓存文件FilemyFilegetRuntimeContext().getDistributedCache().getFile(a.txt);// 读取文件所有行依赖commons-io包需引入相关依赖ListStringlinesFileUtils.readLines(myFile);// 将文件内容存入dataListfor(Stringline:lines){this.dataList.add(line);System.err.println(分布式缓存内容line);}}// 并行处理每条输入数据可直接使用缓存中的dataListOverridepublicStringmap(Stringvalue)throwsException{// 打印缓存数据和当前处理的value用于调试System.err.println(使用缓存数据dataList------------value);// 业务逻辑将缓存数据与当前value拼接作为结果返回returndataListvalue;}});// 5. 输出结果使用printToErr()避免与缓存日志混淆result.printToErr();}}四、输出结果运行上述代码后输出结果如下包含缓存读取日志和最终处理结果分布式缓存内容hello 分布式缓存内容flink 分布式缓存内容hello 分布式缓存内容FLINK 使用缓存数据[hello, flink, hello, FLINK]------------a [hello, flink, hello, FLINK]a 使用缓存数据[hello, flink, hello, FLINK]------------b [hello, flink, hello, FLINK]b 使用缓存数据[hello, flink, hello, FLINK]------------c [hello, flink, hello, FLINK]c 使用缓存数据[hello, flink, hello, FLINK]------------d [hello, flink, hello, FLINK]d

更多文章

前端开发 2026/5/27 15:43:12

深度解析LeagueAkari：构建英雄联盟客户端工具集的技术架构与实践

深度解析LeagueAkari：构建英雄联盟客户端工具集的技术架构与实践【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit LeagueAkari作为基…

别再手动改代码了！用Postman的Pre-request Scripts实现自动化请求头签名对接需要复杂签名的API时，每次调试都手动生成Authorization头简直是开发者的噩梦。上周我为了调通一个物流跟踪API，重复了37次签名生成操作——直到发现Postman的Pre-r…

张开发

前端开发 2026/5/29 2:29:55

【Materials Studio】Linux集群环境下MS并行计算脚本的实战配置与调优

1. Linux集群环境下MS并行计算的核心挑战第一次在Linux集群上配置Materials Studio并行计算脚本时，我盯着报错信息整整两天没合眼。作为计算化学领域的标配工具，MS在Windows下点几下鼠标就能完成的并行设置，到了Linux环境却要面对各种"…

张开发

Flink 系列第10篇：Flink 分布式缓存详解

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

深度解析LeagueAkari：构建英雄联盟客户端工具集的技术架构与实践

别再只盯着1.2V了！手把手教你用Banba结构设计可调输出的带隙基准电路

VMware vSphere Replication 9.0部署避坑指南：从OVF导入到配置完成的每一步详解

技术大咖来支招：西门子1200PLC与施耐德变频器Modbus通讯控制变频启停、设定频率、读取...

快速掌握Blender化学品插件的7个核心技巧

体育成绩打分排名工具使用说明：场景实践指南

从传统ETL到指标中台：用dcluster+DolphinScheduler重构数据流水线

CSRNet密集人群检测从零部署与调优指南

设计师：核心能力构建与系统化工作实践

梁高降25cm省60万，HPH构造凭什么这么牛？

别再手动改代码了！用Postman的Pre-request Scripts实现自动化请求头签名（附完整Node.js示例）

【Materials Studio】Linux集群环境下MS并行计算脚本的实战配置与调优