Appearance
App11 - AI视觉资产助手
核心价值
解决素材库"死数据"问题。大量采购的素材、项目主视觉、摄影作品因文件名不规范变成难以检索的沉没资产。
痛点场景:
- 设计师找不到之前买过的某张图
- Midjourney/SD生图时"冷启动"——不知道参考什么
- 手动给图片打标签效率低下
核心架构:Agentic RAG
传统RAG和本系统的区别:
| 传统RAG | Agentic RAG(本系统) | |
|---|---|---|
| 流程 | 用户 → 检索 → 回答 | 用户 → Agent推理 → 工具选择 → 执行 → 总结 |
| 逻辑 | 固定单步 | 动态多步规划 |
| 决策 | 硬编码管道 | 自主工具选择(ReAct) |
7个核心能力(Agent工具)
| 工具 | 功能 | 使用示例 |
|---|---|---|
search_images | 语义搜索 | "找一些电影感的暗调照片" |
get_image_info | 元数据查询 | "4号图的标签是什么?" |
analyze_image_vlm | 视觉推理 | "这张图适合奢侈品牌吗?" |
generate_prompt | 提示词生成 | "给这张图生成Midjourney提示词" |
search_similar | 以图搜图 | "找类似这张的图片" |
filter_by_category | 分类筛选 | "只看3D渲染类的" |
get_library_stats | 资产统计 | "各类型素材有多少?" |
技术栈
- 视觉编码:CLIP(相似度)+ Florence-2(标注)
- 语言模型:Qwen2-VL(视觉问答)
- 索引框架:LlamaIndex(统一语义索引)
- 向量库:ChromaDB
- 后端:FastAPI + SQLite
自动化入库流程
图片上传 → Florence-2标注 → CLIP特征提取 → 向量入库
↓ ↓
类型/风格/内容标签 相似度指纹支持自动去重(基于CLIP相似度)。
用户价值
- 零手动标注 - 机器自动打标签
- 自然语言搜索 - "有度假感的海边人像"
- 一键生成提示词 - 参考图 → SD/MJ咒语
- 资产盘活 - 把"死数据"变成可用资源
部署
- 容器化Docker部署
- SQLite + ChromaDB持久化
- 本地GPU推理(4090推荐)