其他配置
模型其他配置用于设置绘画相关功能、图片处理、语音合成等高级选项。通过合理配置这些选项,可以优化图片生成和识别的体验。
配置概览
其他配置包含以下功能模块:
- 绘画配置: 图片生成和存储相关设置
- 识图配置: Base64格式图片识别
- 语音配置: TTS语音合成音色
- 风格配置: 绘画风格快捷标签
- 编辑预览: 侧边栏绘画编辑模型配置
配置项说明
绘画配置
不存储图片
- 功能说明: 控制是否保存生成的图片到配置的存储服务
- 可选值:
- 开启: 不保存原图,直接使用中转链接访问
- 关闭: 保存图片到配置的存储(阿里云OSS、腾讯云COS等)
- 开启优点:
- 节省存储空间
- 减少存储费用
- 避免大量图片累积
- 开启缺点:
- 访问速度可能降低
- 稳定性依赖中转服务
- 原链接可能失效
- 建议:
- 存储空间充足时建议关闭(即保存图片)
- 存储空间紧张时可以开启
- 注意: Midjourney等服务的图片链接有时效性
不使用代理
- 功能说明: 控制是否使用反代地址访问图片
- 可选值:
- 开启: 直接使用原始图片链接(国内可能无法访问)
- 关闭: 使用反代地址访问图片
- 注意: Midjourney、Stable Diffusion等服务的原始地址在国内无法直接访问
- 建议: 国内用户建议关闭(使用代理)
反代地址
- 功能说明: Midjourney等服务的图片反代服务器地址
- 使用场景: 当"不使用代理"关闭时生效
- 格式要求:
- 完整的URL地址
- 示例:
https://your-proxy.com/mj
- 作用: 将无法访问的原始图片链接转换为可访问的链接
- 注意: 为空时将直接使用原链接,可能导致图片无法显示
提示词优化
- 功能说明: 是否对AI绘画提示词进行翻译和联想优化
- 可选值:
- 开启: 使用全局模型对提示词进行翻译/联想
- 关闭: 直接使用原始提示词,不额外处理
- 优化效果:
- 中文提示词自动翻译成英文
- 自动补充相关的艺术风格关键词
- 提升生成效果
- 成本说明:
- 开启后会调用全局模型,但通常不额外扣费
- 大部分API中转服务已包含翻译功能
- 建议:
- 使用国内中转服务时,通常已包含翻译,可关闭
- 使用OpenAI官方时,建议开启
编辑预览模型
编辑预览模型
- 功能说明: 配置侧边栏的绘画编辑和预览功能
- 用途:
- 在对话侧边栏提供绘画编辑入口
- 快速预览和编辑生成的图片
- 支持多个模型供用户选择
- 配置方式:
- 每个模型包含:显示名称、模型值、绘画类型
- 可添加多个模型
- 支持拖拽排序
- 为空则关闭侧边栏编辑功能
- 模型格式:
名称:模型值:drawingType 例如: MJ V6:midjourney:v6:0 D3: DALL-E 3:1 - drawingType说明:
- 0: 默认类型
- 1: DALL-E类型
- 2: Stable Diffusion类型
- 3: Midjourney类型
- 注意:
- 需要先在"模型设置"中配置对应的绘画模型
- 模型值必须与数据库中配置的模型一致
- 选择数据库模型会自动填充drawingType
绘图风格显示
绘图风格显示
- 功能说明: 用户绘画时可选择的快捷风格标签
- 用途:
- 提供常用绘画风格的快捷选择
- 帮助用户快速添加风格关键词
- 提升绘画体验
- 配置方式:
- 多个标签用逗号分隔
- 可动态添加和删除
- 显示在绘画输入框附近
- 推荐风格:
- 艺术风格:
赛博朋克、水墨画、油画、素描 - 渲染风格:
3D渲染、写实风格、卡通风格 - 光影效果:
电影光效、柔光、霓虹 - 知名画家:
梵高风格、毕加索风格
- 艺术风格:
- 建议:
- 选择用户常用的风格
- 不宜过多,5-15个为佳
- 定期根据用户反馈调整
识图配置
Base64 识图
- 功能说明: 控制图片识别时是否使用Base64格式
- 可选值:
- 开启: 将图片转换为Base64格式发送给模型
- 关闭: 直接发送图片URL
- 适用场景:
- 开启: 图片存储在本地或私有存储,API端无法直接访问
- 关闭: 图片存储在公网可访问的地址(如OSS、COS)
- 优点:
- 解决私有存储图片无法识别的问题
- 不依赖图片公网访问
- 缺点:
- Base64编码会增加请求大小
- 可能影响识别速度
- 建议:
- 使用本地存储或私有云存储时,开启此选项
- 使用阿里云OSS、腾讯云COS等公网存储时,关闭此选项
语音配置
TTS 音色
- 功能说明: 语音合成(Text-to-Speech)的默认发音人
- 用途:
- AI回复时的语音播报
- 语音消息生成
- 有声阅读等功能
- 预设选项:
- Alloy: 中性音色
- Echo: 清澈响亮
- Fable: 表现力丰富
- Onyx: 深沉低沉
- Nova: 明亮活泼
- Shimmer: 轻柔优美
- 自定义: 支持手动输入其他音色名称
- 注意: 需要API服务商支持TTS功能
- 建议:
- 中文场景: 可能需要使用其他服务商的中文音色
- 英文场景: OpenAI的音色效果较好
- 可以提供多个选项供用户选择
配置建议
绘画存储策略
方案一:保存到存储服务(推荐)
- 关闭"不存储图片"
- 使用阿里云OSS、腾讯云COS等
- 优点: 访问稳定、速度快、长期保存
- 缺点: 需要支付存储费用
方案二:使用原始链接
- 开启"不存储图片"
- 关闭"不使用代理"(使用反代)
- 优点: 节省存储空间和费用
- 缺点: 链接可能失效、访问不稳定
图片访问优化
国内用户
- 关闭"不使用代理"
- 配置稳定的反代地址
- 建议使用国内中转服务
国外用户
- 可以开启"不使用代理"
- 直接访问原始链接
- 速度和稳定性较好
提示词处理
使用国内中转服务
- 关闭"提示词优化"
- 中转服务已包含翻译功能
- 避免重复处理
使用OpenAI官方
- 开启"提示词优化"
- 需要将中文翻译成英文
- 提升生成效果
风格标签选择
通用风格(适合所有用户)
写实风格、卡通风格、油画、素描
艺术风格(适合艺术创作)
赛博朋克、蒸汽朋克、水墨画、水彩
商业风格(适合设计需求)
3D渲染、扁平化设计、极简风格
光影效果(提升画面质量)
电影光效、柔光、逆光、霓虹
语音音色选择
语音助手场景
- 推荐: Alloy、Nova
- 特点: 友好、清晰、适合长时间聆听
有声阅读场景
- 推荐: Fable、Shimmer
- 特点: 表现力丰富、有情感
新闻播报场景
- 推荐: Onyx、Echo
- 特点: 专业、沉稳、有权威感
常见问题
Q: 不存储图片后,图片会丢失吗? A: 不会立即丢失,但:
- 原始链接有时效性(如Midjourney)
- 链接可能在一段时间后失效
- 建议重要图片手动保存
Q: 反代地址如何配置? A: 配置方式:
- 需要搭建图片反代服务器
- 使用Nginx等反向代理
- 将Discord/Midjourney的CDN地址代理到可访问地址
- 填写反代服务器的域名即可
Q: 提示词优化会额外收费吗? A: 通常不会:
- 大部分中转服务已包含翻译
- 使用全局模型优化,一般不单独计费
- 具体取决于API服务商
Q: Base64识图会影响性能吗? A: 会有一定影响:
- Base64编码会增加请求大小
- 编码和解码需要时间
- 但对于私有存储图片是必需的
- 建议按需开启
Q: 编辑预览模型为空会怎样? A:
- 侧边栏不会显示绘画编辑入口
- 用户无法快速编辑和预览图片
- 不影响基本的绘画功能
- 建议至少配置一个常用模型
Q: 绘图风格标签有限制吗? A:
- 技术上无数量限制
- 建议控制在5-15个
- 过多会影响用户体验
- 选择最常用的风格即可
Q: TTS音色支持中文吗? A: OpenAI的音色:
- 主要支持英文
- 中文效果一般
- 建议使用国内服务商的中文TTS
- 可以手动输入其他音色名称
Q: 如何选择合适的反代服务? A: 选择建议:
- 优先使用API中转服务提供的反代
- 或自建Nginx反代服务器
- 确保反代服务稳定可用
- 注意反代服务的流量费用
Q: 绘画配置错误会导致什么问题? A: 可能的问题:
- 图片无法显示
- 访问速度慢
- 链接失效
- 建议配置后测试绘画功能
Q: drawingType有什么作用? A: 类型说明:
- 区分不同绘画服务类型
- 系统根据类型调用不同的API
- 0:通用/其他
- 1: DALL-E
- 2: Stable Diffusion
- 3: Midjourney
- 选择数据库模型会自动填充
配置示例
示例1: 使用国内中转服务
yaml
绘画配置:
不存储图片: 开启
不使用代理: 关闭
反代地址: (中转服务自动处理,留空)
提示词优化: 关闭(中转已包含翻译)
识图配置:
Base64识图: 关闭(使用公网OSS)
编辑预览模型:
- MJ V6:midjourney:v6:3
- DALL-E 3:dall-e-3:1
- SD XL:stable-diffusion-xl:2
绘图风格显示: oil painting, cartoon, cyberpunk, 3D render, sketch, watercolor
语音配置:
TTS音色: alloy示例2: 使用自建存储
yaml
绘画配置:
不存储图片: 关闭(保存到OSS)
不使用代理: 关闭
反代地址: https://img-proxy.example.com
提示词优化: 开启(使用全局模型翻译)
识图配置:
Base64识图: 开启(私有存储)
编辑预览模型: (留空,不使用侧边栏编辑)
绘图风格显示: 写实风格,油画,水墨画,赛博朋克,蒸汽朋克,3D渲染
语音配置:
TTS音色: nova