一、项目介绍

1.1 研究背景及意义

我们正处在一个AI技术大爆发时代，尤其是大语言模型（LLMs）的飞速发展，极大地推动了人工智能技术从感知理解向决策行动迈进。智能体已不再是简单的信息检索或问答工具，业界和学界开始探索如何构建自主性、目标设定和规划能力的智能体（Agent）。智能体作为能够感知环境、进行决策和执行动作的AI实体，正在从单一功能向多维集成、从通用对话向垂直领域深度赋能演进。被认为是实现人工智能最终应用落地的关键形态。早期的智能体大多为单一功能的聊天机器人或任务执行器，其能力有限，难以应对复杂的现实世界问题。

在这一演进过程中，智能体技术的发展主要呈现出两个显著趋势：一是功能的集成化，即单一智能体平台需要具备多种的能力，如自然语言理解与生成、调用各种工具、状态持久化记忆与流程自动化等多维能力；二是场景的垂直化，也就是智能体需要深度融入特定的业务场景中，提供端到端的解决方案，能够解决真实世界中的复杂问题。然而，对于许多中小企业和开发者而言，从零开始构建一个功能完善、稳定可靠的智能体平台，仍然面临着技术门槛高、研发的周期长、资源投入大的严峻挑战等问题。

在此背景下，企业级开源项目如（科大讯飞的Astron-Agent）的出现具有重要意义。提供了智能体开发的基础框架和核心组件，有效的降低了技术入门门槛。但更为关键的问题是：如何在这些成熟优秀的智能体平台上进行有针对性的二次开发，整合前沿的AI技术，构建出既满足特定的需求又具备良好用户体验的多维智能体平台？这在目前已经成为一个具有重要实践价值的研究方向。

“Omni-Agent Workshop”项目正是基于科大讯飞开源的Astron-Agent智能体开发平台进行的一次深入实践，该项目的核心目标是构建一个集指令型智能体、工作流智能体和实时交互数字人智能体等多维智能体于一体的本地化智能体部署平台。该项目不仅探索了大语言模型、工作流引擎、超拟人语音合成、OCR等多项技术的有效集成路径，还通过容器化技术实现了一键部署，显著的降低了使用门槛。

通过搭建“Omni-Agent Workshop”项目验证了将多种AI技术如（LLM、TTS、OCR等）与工作流深入融合的技术可行性，实现了协同效应。为个人开发者以及中小团队提供了一套基于成熟开源平台（Astron-Agent）快速构建专属智能体平台、可复制的实践路径与方法论，完整涵盖了从环境部署、功能开发到应用测试的全流程；另外通过搭建不同的智能体实例的设计与实现，生动展示了智能体在垂直领域的创新应用潜力。

1.2 核心目标

本项目的核心目标分为以下三个层面：

在平台层方面：构建集成化、可扩展的智能体工坊

多维智能体支持：在同一平台内无缝集成三种类型的智能体，满足用户不同复杂度的任务需求。
微服务架构保障：采用基于AstronAgent的微服务架构，确保系统的高可用性、可维护性和可扩展性。
开箱即用体验：通过Docker Compose实现一键部署，最大限度简化安装配置流程，让用户专注于智能体功能本身。

在技术层方面：实现关键AI技术的无缝对接与自动化

工作流自动化：利用AstronAgent强大的工作流引擎，将AI任务分解为可视化节点，实现复杂业务流程的自动编排与执行。
高质量音频内容生成：集成优质大模型进行内容创作与改写，并结合讯飞超拟人语音合成技术，生成自然、富有表现力的音频内容。
多模态交互：实现从文本输入到虚拟人音视频播报的端到端管道，探索自然、生动的多模态人机交互体验。

在应用层方面：验证智能体在典型场景下的实用价值

提升效率：通过指令型智能体辅助编程开发，提升代码编写效率与质量。
优化流程：通过工作流智能体自动化简历筛选与评估流程，为HR部门提供智能化工具。
创新体验：通过实时交互数字人智能体，打造新颖的互动内容播报形式，探索AI在媒体、娱乐、客服等领域的应用。

1.3 所用到的AI与技术栈

1.3.1 核心AI技术

大语言模型：

科大讯飞星火大模型：作为AstronAgent的原生支持模型，用于提供基础的对话和推理能力。
DeepSeek等第三方大模型：通过平台的模型管理功能接入，利用其高性能和低成本优势，特别是在代码生成和长文本理解方面的特长，为指令型和工作流智能体提供强大支持。
应用方式：通过API调用，并结合提示词工程，精细地控制模型的输出，使其扮演特定角色（如程序员、简历评估专家、解忧大师）。

语音合成技术：

讯飞超拟人合成：本项目的关键技术之一。该技术能够将文本转换为音色、语调、节奏都极度接近真人的语音。相较于普通TTS，超拟人合成在情感表达和自然度上优势明显，是提升数字人播报体验的核心。
应用方式：通过core-aitools服务中的专用工具节点调用，接收大模型改写后的口播稿，生成高质量音频文件或实时音频流。

光学字符识别技术：

OCR：在工作流智能体中，用于处理用户上传的简历图片或PDF文件，将其中的文字信息提取出来，转化为可供大模型分析的纯文本。
应用方式：作为工作流中的一个自动化节点，实现了非结构化数据（文档）到结构化数据（文本）的转换，扩展了智能体的感知能力。

1.3.2 平台与框架技术

AstronAgent智能体平台：

工作流引擎：可视化拖拽式流程编排，支持条件分支、循环、节点调试等高级功能。
工具调用框架：标准化了AI工具（如TTS、OCR）的注册、发现和调用机制。
智能体管理：支持指令型智能体、基于工作流的智能体以及实时交互数字人智能体的创建、管理和部署。
微服务架构：系统由多个独立的服务构成，如console-hub（控制台后端）、core-workflow（工作流引擎）、core-aitools（AI工具服务）等。这种架构解耦了系统功能，便于独立开发、部署和扩展。

容器化技术：

Docker：将每个服务及其依赖打包成独立的容器镜像，保证了环境的一致性。
Docker Compose：通过一个配置文件定义和运行多容器应用，实现了一键启动所有所需服务，极大简化了部署复杂度。

1.3.3 数据与支撑技术

数据库：

PostgreSQL：作为主数据库，用于存储工作流定义、执行实例、用户配置等核心数据。
MySQL：用于存储工具元数据、智能体配置等信息。

缓存与存储：

Redis：作为缓存数据库，提升系统响应速度，用于存储会话信息、临时状态等。
Minio：作为对象存储服务，用于存储用户上传的文件（如简历）、生成的音频、日志等。

Github仓库地址:https://github.com/lwh-Labs/Omni-Agent-Workshop

二、实践过程

本项目的实验过程是对科大讯飞智能体开发平台Astron-Agent开源项目的复现并在此基础上进行二次开发的过程，是一个系统性的工程，涵盖了环境准备、服务部署、功能开发、集成测试和问题排查等多个阶段。

2.1 环境准备与一键部署

基础环境校验：

首先需要确保宿主机满足最低要求（Docker 20.10+， Docker Compose 2.0+， 8GB内存， 20GB磁盘空间）。这是保证所有服务能够稳定运行的基础。若用户本地电脑使用的是Windows系统，首先需要安装wsl并在此基础上安装Ubuntu才能使用Docker容器。

代码获取与配置：

通过“git clone https://github.com/lwh-Labs/Omni-Agent-Workshop.git”命令从代码仓库中拉取项目源码。复制环境变量文件（.env.example）为.env。该文件包含了平台所有服务的配置参数。

关键配置项修改：

使用“vim .env”命令来编辑.env文件，填入从各大模型平台或者是讯飞开放平台申请得到的PLATFORM_APP_ID、PLATFORM_APP_KEY、SPARK_RTASR_API_KEY、SPARK_API_PASSWORD等密钥信息。其他的内容保持不变。

服务启动与验证：

执行“docker compose -f docker-compose-with-auth.yaml up -d”命令，Docker Compose会根据配置自动拉取镜像、创建网络、启动容器。

平台访问与初始化：

在浏览器中访问http://localhost://8000，成功进入应用后端登录界面。如下图2.6所示：

图2.6 应用后端登录界面

使用默认的账户（admin123/admin123）登录后端系统，初步验证平台基础功能是否正常。成功登录则会跳转到应用后端界面，如下图2.7所示：

图2.7 应用后端界面

在浏览器中访问http://localhost，成功进入应用前端登录界面。如下图2.8所示：

图2.8 应用前端登录界面

使用默认的账户和密码（admin123/admin123）登录系统，初步验证平台基础功能是否正常。成功登录则会跳转到应用前端界面，如下图2.9所示：

图2.9 应用前端界面

2.2 模型集成与管理

模型的搭建

本地平台部署成功后，首要任务是为智能体注入“智力”。进入模型管理界面：在系统平台找到“模型管理”功能模块，添加第三方大模型。以集成DeepSeek模型为例：填写的内容主要包括模型名称、使用的模型、模型描述、模型的接口地址以及模型的API密钥等模型信息。如下图2.10所示：

图2.10 模型搭建

成功部署之后会在 “模型管理”功能模块显示出刚刚部署的模型。如下图2.11所示：

图2.11 模型成功添加界面

智能体模型平台目前支持三种智能体的搭建和部署（提示词创建、工作流创建、语音/虚拟人创建）。涵盖了从轻量化工具到复杂系统、从文字交互到多模态交互的全场景需求，具体如下图2.12所示：

图2.12 智能体搭建类型

2.3 指令型智能体的构建与测试

智能体的构建

创建提示词：进入“提示词”页面，创建一个新的提示词。
通用配置：编写系统性的角色提示词，明确智能体作为“精通多种语言的程序员”的身份，规定其职责范围（代码生成、调试、解释等）和输出规范。
高级配置：关联上一步集成好的大模型（如DeepSeek），并设置合适的模型参数（如温度值）。

具体操作内容如下图2.13所示：

图2.13 指令型智能体的搭建

功能测试：

基础代码生成：例如输入“用Python实现一个快速排序算法”，检验代码的正确性和规范性。
代码解释与调试：用户提供一段有错误的代码，要求搭建的智能体能够找出错误并进行修复，测试智能体的逻辑推理和问题解决能力。
多语言支持：尝试使用不同编程语言（如Java， JavaScript， SQL，C++，C，C#，Python，Matlab）等提问，验证其多语言的编程能力。

功能测试结果如下图2.14所示：

图2.14 指令型智能体的功能测试

2.4 工作流智能体的构建与测试

智能体的构建

工作流设计与编排：在“工作流”页面，通过拖拽方式或导入方式来构建流程。
开始节点：定义用户的输入接口，分别为“允许文本输入”和“文件上传”。
分支器节点：实现逻辑判断。条件为“是否有文件上传”。当用户上传了文件，工作流就会流向OCR节点。否则就会流向一个文本处理节点，提示用户上传文件。
OCR节点：配置好OCR工具，用于解析上传的简历文件（PDF/Image），输出纯文本。
大模型节点：这是核心处理单元。
模型选择：选择一个擅长理解和分析文本的模型，如deepseek、chatgpt等。
提示词配置：输入精心设计的简历评估专家提示词（见github中readme文档），要求模型需要从打分、优势、不足、优化建议四个方面进行结构化输出。
结束节点：接收并展示大模型的最终分析结果。
工作流保存与发布：将设计好的工作流保存并发布为一个可用的智能体。

具体操作内容如下图2.15所示：

图2.15 工作流智能体的搭建

功能测试：

场景一：不上传文件，仅输入文本，观察工作流是否能正确分支到提示上传文件的路径。
场景二：上传一份真实的简历文件（如个人PDF简历），观察工作流是否能自动完成OCR识别、文本分析，并最终给出详尽、专业的评估报告。
调试：利用工作流引擎提供的可视化调试功能，逐步执行每个节点，检查中间结果，确保数据处理在每一步都符合预期。

场景一的测试结果如下图2.16所示：

图2.16 场景一的测试结果

场景二的测试结果如下图2.17所示：

图2.17 场景二的测试结果

工作流智能体的演示视频：

2.5 实时交互数字人智能体的构建与测试

智能体构建

工作流设计与编排：在“语音/虚拟人创建”页面，通过拖拽方式构建流程。
开始节点：接收用户输入的文字烦恼或话题。
大模型节点：配置“解忧大师”角色提示词（见文档），其任务是将用户输入的专业或平淡文本，改写成幽默、口语化、适合播客播放的逐字稿。
语音合成节点：这是一个关键工具节点。接收大模型生成的口播稿，调用讯飞超拟人TTS服务，生成对应的音频文件。在此节点需配置发音人、语速、音量等参数。
虚拟人播报节点：将生成的音频与平台提供的虚拟人形象结合，在前端界面上进行音视频同步播报。

具体操作内容如下图2.18所示：

图2.18 实时交互数字人智能体的搭建

功能测试：

内容改写质量：输入一段技术概念说明，检查输出是否变成了轻松有趣、易于理解的电台节目稿。
语音合成效果：评估生成语音的自然度、情感表现力和与内容的匹配度。
整体体验：测试完整的“输入文本-生成播报-虚拟人播报”流程，观察界面交互是否流畅，虚拟人播报是否生动。

功能测试结果如下图2.19所示：

图2.19 实时交互数字人智能体演示示例

数字人智能体演示视频：

平台搭建如图2.20所示：

图2.20 平台搭建的界面

三、心得体会

3.1 难点与解决思路

问题一：检测到localhost代理配置，但是未镜像到wsl，NAT模式下的wsl不支持localhost代理。

解决方案：打开wsl settings系统，将网络模式从“NAT”修改为“Mirrored”。之后再次重启wsl即可发现不再显示该问题了。

问题二：工作流执行失败，提示工具版本或服务地址错误。

现象：在运行简历优化工作流时，OCR或TTS节点报错。

根因分析：通过查看core-workflow服务日志，发现是工作流中引用的工具版本与数据库tools_schema表中记录的版本不一致，或者工具配置的服务地址（如TTS服务地址）不正确。

解决方案：通过docker compose exec命令进入MySQL容器。执行SQL更新语句，将相关工具的版本统一为V1.0，并将服务地址修正为正确的容器内网络地址。重启core-link和core-workflow服务使配置生效。

问题三：Docker容器重启后，前端访问出现了502 Bad Gateway错误。

现象：重启服务器或Docker服务后，访问前端页面报错。

根因分析：Docker容器重启后，其内部IP地址可能发生变化。Nginx作为反向代理，其配置中缓存的console-hub后端服务地址失效，导致无法将请求正确路由。

解决方案：执行docker compose restart nginx命令，强制Nginx重新解析后端服务地址。

问题四：部分不再使用的Docker镜像仍占用空间，尝试删除时报错显示镜像正在使用。

解决方案：先通过docker stop $(docker ps -q)强行停止所有运行的容器，再使用docker system prune -a –volumes -f一键删除所有停止的容器、未被使用的网络以及所有悬空和未被使用的镜像。

3.2 知识技能收获

掌握了基于AstronAgent的企业级智能体开发并在此基础上进行二次开发的能力。

理解并实践了微服务架构下多组件的协同工作（如console-hub、core-workflow、core-aitools）。

熟悉了Docker Compose的一键部署流程以及常见的Docker容器维护与问题排查方法。

学会了利用大模型（如讯飞星火、DeepSeek）进行内容改写和集成超拟人语音合成等前沿AI技术，实现复杂的自动化工作流。

实践了利用PostgreSQL、MySQL、Redis等多种数据库/缓存服务存储不同类型数据（如工作流数据、智能体配置）的架构设计。

3.3 反思与感悟

本次开源项目的复刻并进行二次开发，从技术选型、环境搭建到功能实现的全过程，带来了丰富而深刻的心得体会。单个AI技术的能力是有限的，但通过精巧的集成和编排，可以产生远超个体之和的协同效应。例如单独的DeepSeek模型是一个强大的代码助手。单独的工作流引擎是一个灵活的自动化工具。单独的TTS技术是一个文本转语音的服务。但通过Astron-Agent的工作流，将这三者串联起来：用户输入话题→DeepSeek模型改写为口播稿→TTS生成语音→虚拟人播报，就创造出了一个全新的产品——“AI解忧电台主持人”。这种通过工作流进行技术集成的模式，极大地降低了复杂AI应用开发的难度，让开发者可以像搭积木一样组合各种AI能力，快速构建出满足特定场景需求的解决方案。

在项目中，我深刻认识到，提示词的质量直接决定了智能体的专业性和可用性。一个泛泛而谈的提示词只能得到一个平庸的、通用的聊天机器人。而一个精心设计的提示词则能“塑造”出专家的灵魂。对于简历评估的智能体，不仅定义了角色，还详细规定了其必须执行的四个技能（打分、找优势、找不足、给建议），并为每个技能提供了严格的输出格式示例。这使得模型的输出高度结构化、可预测化，非常便于后端系统解析和前端展示，提升了用户体验；对于解忧大师智能体，提示词则侧重于风格塑造，明确要求“嘴上贫、心里明白”、“口语化”、“有幽默感”，并禁止使用标题格式。这确保了生成的内容完全符合播客的场景需求。

因此，提示词工程不再是简单的“提问技巧”，而是智能体行为规划和角色设定的核心环节，需要进行严谨的构思和迭代。

直接基于AstronAgent进行二次开发，而非从零开始，是本项目能快速成功的关键。这带来了“站在巨人肩膀上”的效应：直接获得了成熟稳定的工作流引擎、用户管理体系、前端界面等，节省了数以月计甚至年计的基础开发时间。AstronAgent作为企业级开源项目，其架构设计和代码质量经过验证，减少了项目因底层技术问题而失败的风险。

四、总结与展望

4.1 项目总结

“Omni-Agent Workshop（多维智能体工坊）”项目成功地实现了预定目标，完成了一个集指令型、工作流型、实时交互数字人型智能体于一体的多功能平台的构建、部署和验证。

在技术上，项目验证了以AstronAgent为框架，整合LLM、TTS、OCR等多种AI技术，并通过微服务和容器化实现高效管理和部署的完整技术路径的可行性。
在应用上，通过三个典型的智能体场景，生动展示了AI技术如何在实际生产生活中转化为提升效率、优化流程、创新体验的具体工具。
在实践上，证明了中小团队完全有能力基于优秀的开源基础，快速构建出功能强大、体验良好的企业级智能体应用。

4.2 未来展望

尽管项目取得了阶段性成果，但仍有广阔的进化空间。未来的工作可以从以下几个方面展开：

功能深化与扩展：

智能体类型扩充：引入多模态智能体，使其能够理解和生成图像或者视频内容。例如，开发一个能分析设计稿并生成前端代码的智能体。
记忆与持续学习：为智能体引入向量数据库，使其能够记忆与用户的交互历史，实现基于上下文的个性化服务，打造真正的“个人工作搭档”。

性能与体验优化：

流式响应与低延迟：优化工作流执行引擎，对大模型响应和语音合成实现流式输出，让用户几乎实时地看到生成过程和听到语音开头，极大改善交互体验。

应用场景探索与商业化：

垂直行业解决方案：将平台打包成针对特定行业的解决方案。例如，为教育行业定制智能备课助手，为金融行业定制智能投研报告生成工作流等。

结论

“Omni-Agent Workshop”项目不仅是一次成功的技术实践，更是一次对未来人机协作模式的积极探索。它证明了通过集成化和场景化的思路，智能体技术能够切实地赋能给千行百业。随着底层AI模型的不断进化和发展平台的日益成熟，多维智能体必将在不久的将来，从实验室和演示项目走向更广泛的生产环境中，成为推动社会数字化转型的重要力量。

lwenhao

一、项目介绍

1.1 研究背景及意义

1.2 核心目标