OpenClaw+Phi-3-vision-128k-instruct:智能菜谱生成与购物清单

张开发
2026/5/23 3:18:01 15 分钟阅读
OpenClaw+Phi-3-vision-128k-instruct:智能菜谱生成与购物清单
OpenClawPhi-3-vision-128k-instruct智能菜谱生成与购物清单1. 从冰箱照片到购物清单的智能厨房助手上周六早上我站在打开的冰箱前盯着里面零零散散的食材发愁——鸡蛋、半颗西兰花、几根蔫了的胡萝卜、一块快过期的鸡胸肉。正当我纠结这些东西能做出什么菜时突然想到刚部署的Phi-3-vision多模态模型和OpenClaw自动化框架。两小时后我的厨房管理方式彻底改变了拍张冰箱照片AI不仅推荐了三道可行菜谱还自动生成了缺失食材的购物清单甚至能在指定时间提醒我下单。这个看似简单的场景背后是OpenClaw与多模态模型的完美配合。Phi-3-vision负责看懂冰箱内容并给出专业建议OpenClaw则将这些建议转化为可执行的自动化流程。整个过程完全在本地运行既保护了家庭隐私又实现了真正的个性化服务。2. 技术栈搭建当多模态遇见自动化2.1 为什么选择Phi-3-vision作为厨房大脑在测试了多个开源多模态模型后Phi-3-vision-128k-instruct最终胜出有三个关键原因首先食材识别准确率令人惊喜。即使拍摄角度不佳如冰箱顶部俯拍、光线不均匀冷藏室LED灯造成的反光模型仍能准确识别出半颗西兰花和临近保质期的鸡胸肉这类细节。相比之下其他模型要么将西兰花误认为花椰菜要么直接忽略部分被遮挡的食材。其次上下文理解能力超出预期。当我上传照片并询问用这些能做两人份晚餐吗模型不仅列出菜谱还会标注鸡胸肉建议优先使用的提醒。这种结合视觉识别与逻辑推理的能力正是厨房场景需要的。最后本地部署成本相对可控。在RTX 3090上运行128k上下文版本的推理处理一张冰箱照片平均只需3-5秒显存占用约18GB。对于个人使用场景完全可接受。2.2 OpenClaw的自动化魔法Phi-3-vision给出了专业建议但如何让它真正融入日常生活这就是OpenClaw的舞台。我的自动化链路设计如下照片采集通过OpenClaw的desktop-capture技能定时扫描指定文件夹我将手机拍摄的冰箱照片自动同步到该目录模型调用OpenClaw将新照片通过API发送给本地部署的Phi-3-vision模型结果解析提取模型返回的JSON数据中的菜谱和缺失食材清单文档生成自动创建Markdown格式的菜谱文档保存到~/Kitchen/Recipes目录清单管理将缺失食材追加到购物清单文件并通过飞书机器人发送提醒整个流程中最精妙的部分在于异常处理。例如当模型返回照片中无可用食材时OpenClaw会自动发送请重新拍摄冰箱照片的提醒到我的飞书当识别到临近过期的食材则会优先推荐使用该食材的菜谱。3. 从零搭建你的智能厨房系统3.1 环境准备与模型部署首先确保已安装OpenClaw核心框架以macOS为例curl -fsSL https://openclaw.ai/install.sh | bash openclaw onboard --install-daemonPhi-3-vision的部署需要额外注意两点显存要求至少20GB显存实测RTX 3090/4090或A10G表现良好依赖安装pip install chainlit1.0.0 vllm0.3.3启动模型服务chainlit run app.py -w --port 80003.2 OpenClaw与Phi-3-vision的对接配置在~/.openclaw/openclaw.json中添加自定义模型配置{ models: { providers: { phi3-vision: { baseUrl: http://localhost:8000, api: custom, models: [ { id: phi3-vision-128k, name: Phi-3 Vision Kitchen Assistant, capabilities: [vision] } ] } } } }关键点在于capabilities: [vision]的声明这告诉OpenClaw该模型支持图像输入。3.3 核心技能开发菜谱生成器创建一个名为kitchen-assistant的自定义技能// ~/.openclaw/skills/kitchen-assistant/index.js module.exports { name: Kitchen Assistant, description: Generate recipes from fridge photos, triggers: [fridge.jpg], async execute(context) { const photoPath context.triggerFile; const visionResponse await context.models.phi3-vision.generate({ prompt: 列出冰箱中的所有可用食材给出3道适合的菜谱并列出需要购买的食材, image: photoPath }); const { recipes, shoppingList } parseResponse(visionResponse); await generateMarkdown(recipes); await updateShoppingList(shoppingList); await notifyUser(); } }这个技能会在检测到新照片时自动触发完成从图像识别到菜谱生成的全流程。4. 实际使用中的优化与调整第一版系统上线后遇到了几个意料之外的问题问题1食材重量估算不准模型常给出适量盐这类模糊表述但购物清单需要具体克数。解决方案是在prompt中明确要求所有食材用量必须精确到克调味料精确到毫升。问题2中西餐偏好混乱作为中国胃却被推荐了大量沙拉菜谱。通过在模型调用时添加系统提示解决你是一个精通中国家常菜的厨师优先考虑炒、炖、蒸等中式烹饪方式。问题3购物清单重复累积简单的追加写入导致清单越来越长。最终改用YAML格式存储清单并添加去重逻辑# shopping-list.yaml items: - name: 胡萝卜 quantity: 200g neededBy: 2024-06-15 - name: 鸡蛋 quantity: 6个 neededBy: 2024-06-12经过这些调整后系统的实用性大幅提升。现在每周日晚我都会拍下空冰箱的照片系统不仅规划好下周的菜谱还会在食材将用完时通过计算使用频率预测提前提醒补货。5. 隐私与安全考量将厨房管理交给AI时最需要警惕的是数据泄露风险。这套方案的三大安全设计值得分享全链路本地化从图像识别到购物清单生成所有数据处理都在本机完成照片不会上传至任何云端服务最小权限原则OpenClaw仅被授权访问特定的照片目录和文档文件夹无法读取其他个人文件敏感信息过滤在生成购物清单时系统会自动剔除生抽老抽等可能暴露饮食习惯的调味品名称改用酱油品类的通用表述这种设计使得系统既智能又安全连我家人都放心使用——毕竟谁都不希望自己的饮食记录成为大数据的一部分。6. 超越厨房的想象空间虽然本文聚焦厨房场景但多模态识别自动化执行的组合拳潜力远不止于此。经过这段实践我发现至少还有三个方向值得探索家庭药箱管理拍摄药盒识别药品名称和有效期自动提醒补充常用药或处理临期药品。这需要模型具备药品说明书理解能力。个人衣橱搭配通过服装照片分析颜色和款式结合天气预报推荐每日穿搭。挑战在于对主观审美偏好的把握。植物养护助手定时拍摄家中绿植识别叶片状态判断是否需要浇水施肥。需要专业园艺知识库支持。每个方向都遵循相似的技术架构只需调整模型的专业领域知识和OpenClaw的自动化流程。这也正是此类方案最迷人的地方——用标准化技术解决个性化需求。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章