App11 - AI视觉资产助手

核心价值

解决素材库"死数据"问题。大量采购的素材、项目主视觉、摄影作品因文件名不规范变成难以检索的沉没资产。

痛点场景：

设计师找不到之前买过的某张图
Midjourney/SD生图时"冷启动"——不知道参考什么
手动给图片打标签效率低下

核心架构：Agentic RAG

传统RAG和本系统的区别：

	传统RAG	Agentic RAG（本系统）
流程	用户 → 检索 → 回答	用户 → Agent推理 → 工具选择 → 执行 → 总结
逻辑	固定单步	动态多步规划
决策	硬编码管道	自主工具选择（ReAct）

7个核心能力（Agent工具）

工具	功能	使用示例
`search_images`	语义搜索	"找一些电影感的暗调照片"
`get_image_info`	元数据查询	"4号图的标签是什么？"
`analyze_image_vlm`	视觉推理	"这张图适合奢侈品牌吗？"
`generate_prompt`	提示词生成	"给这张图生成Midjourney提示词"
`search_similar`	以图搜图	"找类似这张的图片"
`filter_by_category`	分类筛选	"只看3D渲染类的"
`get_library_stats`	资产统计	"各类型素材有多少？"

技术栈

视觉编码：CLIP（相似度）+ Florence-2（标注）
语言模型：Qwen2-VL（视觉问答）
索引框架：LlamaIndex（统一语义索引）
向量库：ChromaDB
后端：FastAPI + SQLite

自动化入库流程

图片上传 → Florence-2标注 → CLIP特征提取 → 向量入库
              ↓                    ↓
        类型/风格/内容标签     相似度指纹

支持自动去重（基于CLIP相似度）。

用户价值

零手动标注 - 机器自动打标签
自然语言搜索 - "有度假感的海边人像"
一键生成提示词 - 参考图 → SD/MJ咒语
资产盘活 - 把"死数据"变成可用资源

部署

容器化Docker部署
SQLite + ChromaDB持久化
本地GPU推理（4090推荐）