UX Design · 个人项目

Subflow

面向视频创作者的 AI 字幕生成与编辑平台

角色独立设计师
阶段MVP
工具Figma · Claude Code
年份2026

项目概述

Subflow 是一款面向视频创作者的 AI 字幕生成与编辑平台。通过"转录前上下文介入"与"转录后置信度可视化"设计,协助创作者完成音视频转录、字幕校对编辑,将 AI 转录结果高效转化为符合发布标准的专业视频字幕。

问题背景

在短视频与流媒体内容高频更迭的背景下,视频制作效率已成为创作者的核心竞争力。目前的音视频处理工具普遍集成了 AI 自动转录和基础字幕包装功能,但在实际生产环境中,字幕不仅是语音的文字映射,还承载着信息传达、视觉呈现与节奏控制的多重职能。

合格的视频字幕需同时满足文本准确性时间轴对齐视觉样式表达以及跨平台发布适配等多维度标准。因此,现有的 AI 自动转录能力并不能完全覆盖创作者的完整工作流。如何在自动转录的基础上,优化生成后的文本处理与视觉调整流程,是当前字幕编辑体验中的关键课题。

研究与发现

竞品分析

当前市场的相关工具大致可分为两类:转录与文稿导向(如 Descript、Otter)与创作与发布导向(如 VEED、Submagic、Captions)。前者侧重高准确率的文本转写与文稿级编辑,视觉样式定制能力有限;后者侧重动态字幕与视觉包装,对转录初稿的细致校对支持不足。

由此可见,当自动转录逐渐成为行业基础能力,产品的核心差异点已由"自动生成速度"转向"生成结果的后续处理体验"。这为兼顾文本校对与视频呈现的综合性字幕编辑平台提供了设计机会。

文本编辑能力视觉包装能力DescriptOtterVEEDSubmagicCaptions

用户研究

对 9 位视频创作者进行开放式访谈,并要求受访者还原最近一次的字幕制作流程。

结果显示,主要耗时集中在文本校对时间码调整。其中文本校对约占总制作时间的 30% 至 50%,主要错误源于系统对网络热词、文化背景词、专有名词及品牌名称的误识别。时间码调整则需要创作者在预览与微调之间反复切换,以确认字幕节奏是否与音频和画面匹配,交互成本极高。

工作流阶段分析

工作流阶段核心问题设计机会

导入媒体文件
文件格式与来源多样,容易出现导入障碍。明确支持的格式范围,提供清晰的错误提示。

生成转录文稿
特定领域词汇与文化背景词识别失败率高。转录前提供上下文输入。
最耗时
校对与样式精修
需要逐句核对,无法快速定位高误差区域;时间码细调耗时最长。将模型置信度呈现给用户,实现时间轴与文稿联动编辑。

多语字幕
译文需要二次修订;网络词汇与文化背景词难以处理。界定为 MVP 范围外,作为后续演进方向。

预览与导出
平台界面遮挡区域在编辑阶段不可见,发布后才暴露问题。在导出前将平台安全区可视化。

核心洞察

将竞品分析与用户研究进一步归纳后,可以看到字幕编辑的体验问题并不只发生在自动转录本身,而是贯穿于生成前输入、生成后校验,以及从文本到视频成品的编辑承接三个层面。

上游输入层:AI 缺乏任务上下文。模型在处理视频时,对主题、讲者、专业词汇和文化语境缺乏背景认知,导致部分可预防错误在转录生成阶段产生。

结果校验层:AI 输出的不确定性没有转化为用户可用的反馈信号。字幕生成后,创作者难以识别校对优先级,只能对整段字幕投入均等注意力,导致文本校对仍然占用大量制作时间。

编辑整合层:转录结果与最终视频成品之间缺少连续的编辑支持。自动转录生成的是文本初稿,但创作者真正需要的是能够进入视频成片流程的字幕资产。

因此,Subflow 的设计重点不是继续强化自动生成,而是在 AI 字幕流程中建立清晰的输出验证机制与一体化编辑体验:生成前让任务上下文参与转录判断,生成后将模型置信度转化为可感知的视觉反馈,并通过连续的编辑流程帮助创作者将转录初稿处理为可发布的视频字幕。

上传转录校对导出上游输入层AI 缺乏任务上下文设计方向 01事前干预结果校验层缺少反馈信号设计方向 02暴露不确定性编辑整合层缺少编辑承接设计方向 03一体化编辑

核心设计

转录提示词

AI 转录在处理品牌名、嘉宾姓名、垂直领域术语和网络词汇时,往往依赖音频本身进行判断。实际上,许多语音识别模型已支持在 API 层接收提示词或词汇上下文,但目前大多数工具仍未将这一功能产品化。

Subflow 将这一底层技术能力转化为直观的配置控件,并将其部署于视频上传后、转录启动前的关键任务节点,让用户能在生成前控制 AI 输出方向。为了降低认知门槛,界面以自然语言为主入口,并辅以结构化的参数设置:

自然语言输入,降低表达成本支持用户以自然语言直接描述视频主题及核心术语,为初稿设定更明确的识别范围与语义边界。

占位示例,降低空白输入压力输入区域内置场景化的占位文本(例如:“两位主持人评测摄影机,讨论动态范围、色彩科学与传感器尺寸”),直观地引导用户理解输入规范,以及输入内容与转录结果之间的逻辑关联。

结构化快捷菜单,补充关键约束在主输入框周边提供 Language(语种)、Speaker(讲者标识)、Glossary(词汇表)等快捷配置项。作为自然语言描述的有效补充,避免长文本输入的冗余,提升整体配置效率。

AI 置信度可视化

即便具备上游上下文,AI 转录仍无法完全避免误差。研究表明,用户耗时的核心不在于修改动作本身,而在于无法预判错误位置,进而导致注意力被平均分配至所有输出结果。

设计重点因此转化为:如何协助用户更高效地验证 AI 输出,而非一味追求绝对准确。语音转录模型会为生成的每个词汇计算置信度分数,本设计将这一通常被隐藏的不确定性转化为导航信息,从而在模型不完美的前提下提升工作效率。

在交互方式上,早期曾测试弹窗方案(点击标记词弹出建议),但这会增加操作步骤并打断校对节奏。进一步分析表明,字幕编辑属于高频微调任务,用户的核心操作为重听、判断和修改。最终方案采用内联编辑:低置信度词汇在正文中予以高亮提示,点击目标词语显示内联建议,用户可通过 Tab 键快捷确认或直接输入覆盖。

时间码与讲者编辑

用户调研指出,时间码调整耗时最长。传统时间轴拖拽高度依赖视觉估算,用户需经历拖拽、试听、微调、再次预览的循环,时间成本较高。

当前 MVP 版本将时间调整拆解为两个明确步骤:利用双柄滑块快速锁定范围,并通过微调按钮以 1 帧为单位进行精准控制。这种分步操作将模糊估算转化为具备高控制感的过程,有效减少了反复预览的次数。

安全区预览

主流短视频平台常在特定区域叠加界面元素,如互动按钮与平台自带字幕。若生成字幕落入这些区域,发布后将被遮挡,而此问题在编辑阶段往往不可见。

为此,视频预览区内置了安全区叠加层。开启后,系统以遮罩形式呈现各平台的界面覆盖范围。创作者可依据目标发布平台切换对应的安全区,直接在预览中排查字幕位置冲突,不增加额外的操作负担。

回顾与反思

在 AI 产品设计领域,行业常优先关注生成速度、模型准确率与自动化程度。本项目实践表明,在 AI 输出不可避免存在误差的前提下,协助用户对输出结果建立信任与掌控感同样关键。转录提示词与置信度可视化的核心目的并非替代用户决策,而是赋能用户更高效地理解、验证与修正 AI 的输出内容。

目前项目仍存在一处设计缺口:提示词输入缺乏明确的反馈回路。用户提供上下文后,系统未能直观展示哪些转录结果因此得到了优化。这种干预效果的不可见性,增加了用户建立系统信任的难度。

后续方向

多语言支持当前流程将不同语言视为独立项目处理。支持双语轨道与原始字幕并行编辑,是产品下一阶段的核心演进方向。
多人同时发言场景现有数据模型基于字幕块的线性排列假设,无法有效处理时间码重叠。解决该问题需重构基础架构,以支持双轨时间结构、字幕位置独立分区及多讲者的差异化样式设置。
← Back to Work© 2026 蔡言