Skip to content

App11 - AI视觉资产助手

核心价值

解决素材库"死数据"问题。大量采购的素材、项目主视觉、摄影作品因文件名不规范变成难以检索的沉没资产。

痛点场景:

  • 设计师找不到之前买过的某张图
  • Midjourney/SD生图时"冷启动"——不知道参考什么
  • 手动给图片打标签效率低下

核心架构:Agentic RAG

传统RAG和本系统的区别:

传统RAGAgentic RAG(本系统)
流程用户 → 检索 → 回答用户 → Agent推理 → 工具选择 → 执行 → 总结
逻辑固定单步动态多步规划
决策硬编码管道自主工具选择(ReAct)

7个核心能力(Agent工具)

工具功能使用示例
search_images语义搜索"找一些电影感的暗调照片"
get_image_info元数据查询"4号图的标签是什么?"
analyze_image_vlm视觉推理"这张图适合奢侈品牌吗?"
generate_prompt提示词生成"给这张图生成Midjourney提示词"
search_similar以图搜图"找类似这张的图片"
filter_by_category分类筛选"只看3D渲染类的"
get_library_stats资产统计"各类型素材有多少?"

技术栈

  • 视觉编码:CLIP(相似度)+ Florence-2(标注)
  • 语言模型:Qwen2-VL(视觉问答)
  • 索引框架:LlamaIndex(统一语义索引)
  • 向量库:ChromaDB
  • 后端:FastAPI + SQLite

自动化入库流程

图片上传 → Florence-2标注 → CLIP特征提取 → 向量入库
              ↓                    ↓
        类型/风格/内容标签     相似度指纹

支持自动去重(基于CLIP相似度)。

用户价值

  1. 零手动标注 - 机器自动打标签
  2. 自然语言搜索 - "有度假感的海边人像"
  3. 一键生成提示词 - 参考图 → SD/MJ咒语
  4. 资产盘活 - 把"死数据"变成可用资源

部署

  • 容器化Docker部署
  • SQLite + ChromaDB持久化
  • 本地GPU推理(4090推荐)