WebRTC 三大核心 API：MediaStream, RTCPeerConnection 与 RTCDataChannel

一月 31, 2026

WebRTC（Web Real-Time Communication）是一项革命性的技术，它允许网页浏览器之间进行实时的音视频通信和数据传输，无需任何插件或第三方软件。这为在线会议、远程教育、协作工具以及各种创新应用开启了无限可能。WebRTC 的强大功能主要归功于其三大核心 API：MediaStream、RTCPeerConnection 和 RTCDataChannel。本文将深入探讨这三大 API 的工作原理、应用场景以及它们如何协同工作，共同构建起 WebRTC 的实时通信能力。

1. MediaStream API：音视频的获取与管理

WebRTC 的第一步是获取本地设备的音视频数据，这正是 MediaStream API 的职责所在。MediaStream API 提供了一系列方法来访问用户的摄像头和麦克风，将这些设备的输入转换为可供 WebRTC 处理的媒体流。

1.1 获取媒体流

最常用的方法是 navigator.mediaDevices.getUserMedia()。该方法会向用户请求访问其麦克风和/或摄像头，并在用户同意后返回一个 MediaStream 对象。这个对象包含了音轨（AudioTrack）和视频轨（VideoTrack），分别对应着麦克风和摄像头的输入。

<JAVASCRIPT>

navigator.mediaDevices.getUserMedia({ video: true, audio: true })

.then(function(stream) {

/* 使用获取到的媒体流 */

const videoElement = document.querySelector('video');

videoElement.srcObject = stream; // 将媒体流显示在 video 元素上

})

.catch(function(err) {

console.error('获取媒体流失败:', err);

});

在上述代码中，{ video: true, audio: true } 表示我们请求同时访问视频和音频设备。获取到的 stream 对象可以直接赋值给 HTML <video> 或 <audio> 元素的 srcObject 属性，从而在页面上实时显示本地视频和播放本地音频。

1.2 MediaStream 对象

MediaStream 对象是音视频数据的抽象表示。它包含以下重要属性和方法：

id: 媒体流的唯一标识符。
active: 表示媒体流是否处于活跃状态。
getAudioTracks(): 返回媒体流中所有音频轨的数组。
getVideoTracks(): 返回媒体流中所有视频轨的数组。
addTrack(track): 向媒体流中添加一个媒体轨。
removeTrack(track): 从媒体流中移除一个媒体轨。

每个媒体轨（MediaStreamTrack）也有其自身的属性和方法，例如：

kind: 媒体轨的类型，可以是 "audio" 或 "video"。
enabled: 表示媒体轨是否启用。通过设置此属性，可以控制音视频的开关。
label: 媒体轨的标签，通常用于描述设备的名称。
stop(): 停止媒体轨。

1.3 应用场景

MediaStream API 是 WebRTC 应用的基础，广泛应用于：

视频聊天和会议： 获取本地摄像头和麦克风输入，并将其发送给远端参与者。
屏幕共享： 通过 navigator.mediaDevices.getDisplayMedia() 获取用户屏幕的媒体流，实现屏幕共享功能。
本地录制： 将 MediaStream 对象与 MediaRecorder API 结合，实现本地音视频录制。
实时滤镜和特效： 获取视频流后，可以通过 Canvas 或 WebGL 对视频帧进行实时处理，添加各种滤镜和特效。

2. RTCPeerConnection API：P2P 连接的桥梁

RTCPeerConnection API 是 WebRTC 的核心，它负责建立和管理浏览器之间的点对点（P2P）连接，从而实现音视频和数据的直接传输。RTCPeerConnection 抽象了复杂的网络协议和 NAT 穿越机制，为开发者提供了一套简洁的接口。

2.1 P2P 连接的建立过程

建立 RTCPeerConnection 连接通常涉及以下几个关键步骤：

创建 RTCPeerConnection 对象：

<JAVASCRIPT>

const pc = new RTCPeerConnection();

添加本地媒体流： 将 MediaStream API 获取到的本地媒体流添加到 RTCPeerConnection 对象中，以便将其发送给远端。

<JAVASCRIPT>

localStream.getTracks().forEach(track => pc.addTrack(track, localStream));

创建 Offer 和 Answer (SDP 交换)：

Offer: 发起连接的一方（Caller）会创建并设置一个 RTCSessionDescription 对象作为 Offer。Offer 包含了 Caller 的媒体能力（支持的编解码器、分辨率等）和网络信息。
Answer: 接收连接的一方（Callee）收到 Offer 后，会创建一个并设置一个 RTCSessionDescription 对象作为 Answer。Answer 包含了 Callee 的媒体能力和网络信息。

Offer 和 Answer 都是 SDP（Session Description Protocol）格式的字符串。它们通过一个信令服务器（Signaling Server）进行交换。信令服务器不参与媒体流的传输，只负责传递控制信息。

Caller 端:

<JAVASCRIPT>

pc.createOffer()

.then(offer => pc.setLocalDescription(offer))

.then(() => {

// 将 offer 发送给 Callee (通过信令服务器)

})

.catch(error => console.error('创建 Offer 失败:', error));

Callee 端:

<JAVASCRIPT>

// 收到 Caller 发送的 Offer

pc.setRemoteDescription(new RTCSessionDescription(offer))

.then(() => pc.createAnswer())

.then(answer => pc.setLocalDescription(answer))

.then(() => {

// 将 answer 发送给 Caller (通过信令服务器)

})

.catch(error => console.error('创建 Answer 失败:', error));

ICE 候选（Candidate）交换： 在 SDP 交换的同时，RTCPeerConnection 会通过 ICE（Interactive Connectivity Establishment）框架收集本地设备的网络地址信息（IP 地址、端口号等），这些信息被称为 ICE 候选。RTCPeerConnection 会监听 icecandidate 事件，当有新的 ICE 候选生成时触发。

<JAVASCRIPT>

pc.onicecandidate = event => {

if (event.candidate) {

// 将 candidate 发送给远端 (通过信令服务器)

}

};

远端收到 ICE 候选后，通过 addIceCandidate() 方法将其添加到自己的 RTCPeerConnection 对象中。双方交换所有 ICE 候选后，RTCPeerConnection 会尝试建立最佳的 P2P 连接。

接收远端媒体流： 当 P2P 连接建立成功后，远端发送的媒体流会通过 track 事件到达本地。

<JAVASCRIPT>

pc.ontrack = event => {

// 远端媒体流到达，将其显示在 video 元素上

const remoteVideo = document.querySelector('#remoteVideo');

remoteVideo.srcObject = event.streams[0];

};

2.2 RTCPeerConnection 的重要属性和方法

iceConnectionState: 表示 ICE 连接状态（如 "new", "checking", "connected", "completed", "failed", "disconnected", "closed"）。
signalingState: 表示信令状态（如 "stable", "have-local-offer", "have-remote-offer" 等）。
addStream(stream) (已废弃，推荐使用 addTrack): 添加本地媒体流。
removeStream(stream) (已废弃，推荐使用 removeTrack): 移除本地媒体流。
addTrack(track, stream): 添加单个媒体轨。
removeTrack(sender): 移除一个媒体轨的发送者。
createOffer(options): 创建一个 SDP Offer。
createAnswer(options): 创建一个 SDP Answer。
setLocalDescription(description): 设置本地 SDP 描述。
setRemoteDescription(description): 设置远端 SDP 描述。
addIceCandidate(candidate): 添加 ICE 候选。
close(): 关闭 RTCPeerConnection 连接。

2.3 应用场景

RTCPeerConnection 是所有 WebRTC 实时通信应用的核心：

实时音视频通话： 建立 P2P 连接，传输音视频流，实现高质量的通话体验。
在线会议： 允许多个参与者之间进行音视频通信。
云游戏和远程桌面： 通过传输视频流和控制指令，实现低延迟的远程交互。
去中心化应用： 利用 P2P 连接，构建不依赖中心服务器的实时通信系统。

3. RTCDataChannel API：P2P 数据传输的利器

除了音视频传输，WebRTC 还提供了 RTCDataChannel API，允许在浏览器之间建立可靠的、低延迟的点对点数据通道。这使得开发者可以在 WebRTC 连接上发送任意类型的数据，例如文本消息、文件、游戏数据等。

3.1 创建和使用数据通道

RTCDataChannel 的使用通常与 RTCPeerConnection 结合。在建立 RTCPeerConnection 连接后，可以通过以下方式创建数据通道：

Caller 端 (创建数据通道):

<JAVASCRIPT>

const dataChannel = pc.createDataChannel('chat'); // 'chat' 是数据通道的名称

dataChannel.onopen = () => {

console.log('数据通道已打开');

dataChannel.send('你好，远端！'); // 发送数据

};

dataChannel.onmessage = event => {

console.log('收到远端消息:', event.data);

};

dataChannel.onclose = () => {

console.log('数据通道已关闭');

};

dataChannel.onerror = error => {

console.error('数据通道错误:', error);

};

Callee 端 (接收数据通道):

<JAVASCRIPT>

pc.ondatachannel = event => {

const dataChannel = event.channel;

dataChannel.onopen = () => {

console.log('数据通道已打开');

dataChannel.send('你好，Caller！');

};

dataChannel.onmessage = event => {

console.log('收到远端消息:', event.data);

};

dataChannel.onclose = () => {

console.log('数据通道已关闭');

};

dataChannel.onerror = error => {

console.error('数据通道错误:', error);

};

3.2 RTCDataChannel 的特性

RTCDataChannel 提供了一系列配置选项，以满足不同的数据传输需求：

ordered: (默认为 true) 是否保证消息的顺序性。如果设置为 false，消息可能会乱序到达，但传输速度可能更快。
maxRetransmits: 最大重传次数。
maxPacketLifeTime: 数据包的最大存活时间（毫秒）。
negotiated: (默认为 false) 是否通过 SDP 协商数据通道。
protocol: 自定义协议字符串。

这些选项允许开发者根据具体应用场景选择不同的传输策略，例如，对于实时游戏数据，可能更倾向于低延迟而非严格的顺序性。

3.3 应用场景

RTCDataChannel 的应用场景非常广泛：

实时聊天和即时消息： 在浏览器之间发送文本、表情等消息。
文件传输： 在 P2P 连接上直接传输文件，无需经过服务器。
多人协作白板： 实时同步绘图数据，实现多人协同编辑。
实时游戏： 传输游戏状态、玩家操作等数据，实现低延迟的多人游戏体验。
物联网设备通信： 在支持 WebRTC 的设备之间进行数据交换。

4. 三大 API 的协同工作

MediaStream、RTCPeerConnection 和 RTCDataChannel 这三大 API 并非独立存在，而是紧密协作，共同构建了 WebRTC 的强大功能。

MediaStream 获取音视频： 首先，MediaStream API 负责从本地设备获取音视频输入，生成 MediaStream 对象。
RTCPeerConnection 建立连接： 接下来，MediaStream 对象被添加到 RTCPeerConnection 中。RTCPeerConnection 通过 SDP 交换和 ICE 候选交换，建立起浏览器之间的点对点连接。
音视频传输： 一旦 RTCPeerConnection 建立成功，音视频流就可以通过这个 P2P 连接直接传输给远端。
RTCDataChannel 数据传输： 在同一个 RTCPeerConnection 连接上，还可以创建 RTCDataChannel 来传输任意类型的数据，与音视频流并行不悖。

这种模块化的设计使得 WebRTC 既能处理实时音视频通信，又能进行高效的数据传输，为开发者提供了极大的灵活性和创造空间。

总结

WebRTC 的 MediaStream、RTCPeerConnection 和 RTCDataChannel 三大核心 API 共同构成了现代浏览器实时通信的基石。MediaStream 负责音视频的采集与管理，RTCPeerConnection 搭建了 P2P 连接的桥梁，而 RTCDataChannel 则为任意数据传输提供了可靠通道。理解并熟练运用这些 API，开发者能够构建出功能丰富、性能优越的实时通信应用，从而在 Web 平台上实现前所未有的交互体验。随着 WebRTC 技术的不断发展和普及，未来将有更多创新应用涌现，深刻改变我们与数字世界的交互方式。

搜索此博客

雪诺的小博客-分享关于网络的众多有趣的小知识

WebRTC 三大核心 API：MediaStream, RTCPeerConnection 与 RTCDataChannel

评论

发表评论

此博客中的热门博文

深度解析：Xray 核心技术 REALITY、Vision、xhttp 与 anytls 的协同工作原理

重新定义流媒体：Media over QUIC (MoQ) 为何是下个时代的终解？

gemini转发国内的部署教程