从一对一到万人会：WebRTC 多人会议架构（Mesh, MCU, SFU）

一月 31, 2026

WebRTC（Web Real-Time Communication）的出现，极大地简化了浏览器间的实时音视频通信。从最初的一对一音视频通话，到如今支持万人在线的互动直播，WebRTC 在多人会议领域的应用和架构也在不断演进。本文将深入探讨 WebRTC 多人会议的三种主要架构：Mesh、MCU 和 SFU，并分析它们的优缺点、适用场景以及各自在扩展性方面的表现。

1. WebRTC 的基石：点对点连接与信令

在深入探讨多人会议架构之前，我们首先回顾一下 WebRTC 的基础。WebRTC 本质上是基于点对点（Peer-to-Peer, P2P）连接的。这意味着两个浏览器可以直接建立连接，进行音视频数据的传输，而无需服务器作为中间人。然而，P2P 连接的建立并非一帆风顺，它需要一个"信令服务器"（Signaling Server）来协调双方的连接过程。信令服务器负责交换以下信息：

SDP (Session Description Protocol) 信息： 包含音视频编码格式、IP 地址、端口等会话描述信息。
ICE (Interactive Connectivity Establishment) 候选者： 包含客户端尝试连接的各种网络地址，用于穿越 NAT 和防火墙。

信令服务器只负责控制连接的建立和维护，并不直接传输媒体数据。一旦 P2P 连接建立成功，音视频数据将直接在浏览器之间传输。

2. 多人会议架构的演进

随着会议规模的扩大，简单的点对点连接开始暴露出其局限性。为了满足不同规模和需求的会议场景，WebRTC 多人会议架构逐渐演变为三种主流模式：Mesh、MCU 和 SFU。

2.1 Mesh (全连接) 架构：小规模会议的理想选择

原理： 在 Mesh 架构中，会议中的每个参与者都与其他所有参与者建立点对点连接。例如，一个有 N 个参与者的会议，每个参与者都需要建立 N-1 个连接。每个参与者会将自己的音视频流发送给其他所有参与者，同时接收来自其他所有参与者的音视频流。

优点：

部署简单： 无需复杂的媒体服务器，只需一个信令服务器。
成本较低： 服务器端主要负责信令传输，对带宽和计算资源要求不高。
低延迟： 媒体流直接在客户端之间传输，避免了服务器转发带来的延迟。

缺点：

客户端压力大： 随着参会人数增加，每个客户端需要建立和维护的连接数量呈线性增长（N-1），发送和接收的音视频流数量也呈线性增长。这会极大地消耗客户端的 CPU、内存和网络带宽资源。例如，一个 5 人的会议，每个客户端需要发送 1 路流，接收 4 路流；一个 10 人的会议，每个客户端需要发送 1 路流，接收 9 路流。
网络带宽要求高： 客户端的上行和下行带宽都会受到较大压力。上行带宽需要支持 N-1 路流的发送，下行带宽需要支持 N-1 路流的接收。
扩展性差： 通常只能支持 2-6 人的小型会议，再增加人数就会出现卡顿、延迟等问题。

适用场景： 小型家庭聚会、亲友视频通话等对人数和质量要求不高的场景。

2.2 MCU (Multipoint Control Unit) 架构：集中混流，简化客户端

原理： MCU 架构引入了一个中央媒体服务器，所有参与者的音视频流都会发送到这个服务器。MCU 服务器负责将所有输入的音视频流进行解码、混音、混屏，然后再编码成一路复合流，分发给所有参与者。

优点：

客户端压力小： 每个客户端只需要建立两个连接（一个上行到 MCU，一个下行从 MCU），上行发送一路流，下行接收一路复合流。极大地减轻了客户端的 CPU、内存和网络带宽压力。
兼容性好： MCU 可以根据不同客户端的网络状况和设备能力，提供不同分辨率、码率的复合流，增强了兼容性。
功能丰富： 易于实现录制、直播推流、转码等高级功能。

缺点：

服务器成本高： MCU 服务器需要强大的计算能力来完成大量的解码、混音、混屏和编码操作，对 CPU 和内存要求极高。服务器成本和运维成本显著增加。
延迟增加： 媒体流需要经过服务器的处理和转发，会引入额外的延迟。
单点故障风险： 如果 MCU 服务器出现故障，整个会议将会中断。

适用场景： 对视频质量和功能要求较高的中大型会议、在线教育、视频会议系统等。

2.3 SFU (Selective Forwarding Unit) 架构：媒体转发，性能与扩展性的平衡

原理： SFU 架构同样引入了一个中央媒体服务器，但与 MCU 不同的是，SFU 不对媒体流进行解码、混音或混屏。它只负责接收所有参与者的音视频流，然后根据订阅关系，选择性地将这些流转发给其他参与者。每个参与者会将其一路音视频流发送到 SFU 服务器，并从 SFU 服务器接收其订阅的其他参与者的多路音视频流。

优点：

服务器压力相对较低： SFU 服务器不进行媒体处理，只进行数据转发，对 CPU 资源消耗远低于 MCU。主要消耗的是网络带宽。
低延迟： 相比 MCU，SFU 的延迟更低，因为它避免了媒体处理过程。
更好的扩展性： SFU 服务器可以支持更多的并发用户，因为它不需要进行复杂的媒体处理。可以通过集群部署进一步提升扩展性。
灵活性强： 客户端可以根据需要选择性地订阅其他参与者的流，例如只订阅当前说话者的流，或者只显示主讲人的大画面。
支持 SVC (Scalable Video Coding)： SFU 可以利用 SVC 技术，根据客户端的网络状况和设备能力，转发不同质量层级的视频流，进一步优化用户体验。

缺点：

客户端压力相对 Mesh 架构大： 客户端需要接收多路音视频流，虽然比 Mesh 架构有所改善，但仍需处理多路流的解码和渲染。
网络带宽消耗： SFU 服务器的上行和下行带宽都会随着参会人数增加而增加。

适用场景： 大规模视频会议、互动直播、在线研讨会等需要高并发、低延迟且灵活度高的场景。SFU 架构是目前WebRTC 多人会议领域最主流和最具前景的架构。

3. 三种架构的对比总结

特性	Mesh (全连接)	MCU (混流)	SFU (选择性转发)
服务器端	信令服务器	媒体服务器（混音、混屏、转码）	媒体服务器（媒体转发）
客户端连接	N-1 个点对点连接	2 个连接（上行到 MCU，下行从 MCU）	1 个上行到 SFU，N-1 个下行从 SFU (或更少)
客户端流数	发送 1 路，接收 N-1 路	发送 1 路，接收 1 路复合流	发送 1 路，接收 N-1 路 (或更少)
客户端压力	高	低	中
服务器压力	低 (信令)	极高 (计算密集型)	中 (网络带宽密集型)
延迟	低	高	中低
扩展性	差 (通常 2-6 人)	中 (受限于服务器计算能力)	好 (可通过集群部署，支持数百甚至数千人)
成本	低	高	中
适用场景	小型会议	中大型会议、在线教育、专业视频会议	大规模视频会议、互动直播、在线研讨会

4. 架构演进与扩展性：从单机到分布式

WebRTC 多人会议的架构演进，本质上是对扩展性、性能和成本的权衡与优化。

Mesh 架构 在扩展性方面表现最差，其瓶颈在于客户端的计算和网络资源。
MCU 架构 将客户端的压力转移到服务器，但服务器的计算能力成为新的瓶颈。为了应对更大的并发量，MCU 需要更强大的服务器硬件，或者通过水平扩展来分散负载。
SFU 架构 在扩展性方面表现最佳，因为它将媒体处理的工作从服务器剥离，只进行数据转发。SFU 服务器主要受限于网络带宽，但可以通过以下方式进一步提升扩展性：

集群部署： 将多个 SFU 服务器组成集群，通过负载均衡将用户分配到不同的服务器。
区域部署： 在不同地理区域部署 SFU 服务器，让用户连接到最近的服务器，减少网络延迟。
级联部署： 将多个 SFU 服务器级联起来，实现超大规模会议。例如，一个主 SFU 负责协调多个子 SFU，每个子 SFU 处理一部分用户的媒体流。

5. 媒体服务器在 WebRTC 多人会议中的角色

无论 MCU 还是 SFU 架构，媒体服务器都扮演着至关重要的角色。一个高性能、高可用的媒体服务器是支撑大规模 WebRTC 多人会议的关键。除了上述提到的核心功能，现代媒体服务器通常还具备以下能力：

信令服务集成： 与信令服务器紧密集成，协调会议的建立、加入和离开。
媒体流管理： 管理所有参与者的音视频流，包括流的生命周期、质量控制等。
录制与回放： 支持会议内容的录制，并提供回放功能。
直播推流： 将会议内容推流到 CDN，实现大规模直播。
转码与转协议： 将 WebRTC 协议的媒体流转换为其他协议（如 RTMP、HLS），以适应不同的播放端。
质量监控与优化： 实时监控媒体流质量，并根据网络状况进行自适应调整，确保最佳用户体验。
安全性： 提供加密、认证等安全机制，保护会议内容的隐私。

6. 总结与展望

WebRTC 多人会议架构从简单的 Mesh 到复杂的 MCU 和 SFU，反映了实时通信技术不断追求更高性能、更强扩展性的趋势。SFU 架构凭借其在性能、扩展性和灵活性方面的优势，已经成为当前大规模 WebRTC 多人会议的主流选择，并将在未来继续发展。

随着 5G、边缘计算等新技术的普及，WebRTC 多人会议将迎来更广阔的应用前景。未来的架构可能会更加融合和智能化，例如：

混合架构： 结合 Mesh、MCU 和 SFU 的优点，根据会议规模和需求动态切换或组合不同架构。
边缘计算与分布式部署： 将部分媒体处理和转发能力下沉到离用户更近的边缘节点，进一步降低延迟，提升用户体验。
AI 赋能： 利用人工智能技术优化媒体处理、质量控制、会议分析等，提供更智能、更高效的会议体验。

WebRTC 多人会议技术仍在快速发展，不断突破技术瓶颈，为人们提供更加便捷、高效的沟通方式。理解这些核心架构，将有助于我们更好地设计和实现未来的实时通信应用。

搜索此博客

雪诺的小博客-分享关于网络的众多有趣的小知识

从一对一到万人会：WebRTC 多人会议架构（Mesh, MCU, SFU）

评论

发表评论

此博客中的热门博文

深度解析：Xray 核心技术 REALITY、Vision、xhttp 与 anytls 的协同工作原理

重新定义流媒体：Media over QUIC (MoQ) 为何是下个时代的终解？

gemini转发国内的部署教程