xref: /linux/samples/bpf/sockex3_kern.c (revision 7ae9fb1b7ecbb5d85d07857943f677fd1a559b18)
1530b2c86SAlexei Starovoitov /* Copyright (c) 2015 PLUMgrid, http://plumgrid.com
2530b2c86SAlexei Starovoitov  *
3530b2c86SAlexei Starovoitov  * This program is free software; you can redistribute it and/or
4530b2c86SAlexei Starovoitov  * modify it under the terms of version 2 of the GNU General Public
5530b2c86SAlexei Starovoitov  * License as published by the Free Software Foundation.
6530b2c86SAlexei Starovoitov  */
7530b2c86SAlexei Starovoitov #include <uapi/linux/bpf.h>
8530b2c86SAlexei Starovoitov #include <uapi/linux/in.h>
9530b2c86SAlexei Starovoitov #include <uapi/linux/if.h>
10530b2c86SAlexei Starovoitov #include <uapi/linux/if_ether.h>
11530b2c86SAlexei Starovoitov #include <uapi/linux/ip.h>
12530b2c86SAlexei Starovoitov #include <uapi/linux/ipv6.h>
13530b2c86SAlexei Starovoitov #include <uapi/linux/if_tunnel.h>
14530b2c86SAlexei Starovoitov #include <uapi/linux/mpls.h>
1503421a92SYonghong Song #include <bpf/bpf_helpers.h>
1603421a92SYonghong Song #include "bpf_legacy.h"
17530b2c86SAlexei Starovoitov #define IP_MF		0x2000
18530b2c86SAlexei Starovoitov #define IP_OFFSET	0x1FFF
19530b2c86SAlexei Starovoitov 
20530b2c86SAlexei Starovoitov #define PARSE_VLAN 1
21530b2c86SAlexei Starovoitov #define PARSE_MPLS 2
22530b2c86SAlexei Starovoitov #define PARSE_IP 3
23530b2c86SAlexei Starovoitov #define PARSE_IPV6 4
24530b2c86SAlexei Starovoitov 
25530b2c86SAlexei Starovoitov struct vlan_hdr {
26530b2c86SAlexei Starovoitov 	__be16 h_vlan_TCI;
27530b2c86SAlexei Starovoitov 	__be16 h_vlan_encapsulated_proto;
28530b2c86SAlexei Starovoitov };
29530b2c86SAlexei Starovoitov 
3032c00979SPrashant Bhole struct flow_key_record {
31530b2c86SAlexei Starovoitov 	__be32 src;
32530b2c86SAlexei Starovoitov 	__be32 dst;
33530b2c86SAlexei Starovoitov 	union {
34530b2c86SAlexei Starovoitov 		__be32 ports;
35530b2c86SAlexei Starovoitov 		__be16 port16[2];
36530b2c86SAlexei Starovoitov 	};
37530b2c86SAlexei Starovoitov 	__u32 ip_proto;
38530b2c86SAlexei Starovoitov };
39530b2c86SAlexei Starovoitov 
40*e5659e4eSRong Tao static inline void parse_eth_proto(struct __sk_buff *skb, u32 proto);
41*e5659e4eSRong Tao 
ip_is_fragment(struct __sk_buff * ctx,__u64 nhoff)42530b2c86SAlexei Starovoitov static inline int ip_is_fragment(struct __sk_buff *ctx, __u64 nhoff)
43530b2c86SAlexei Starovoitov {
44530b2c86SAlexei Starovoitov 	return load_half(ctx, nhoff + offsetof(struct iphdr, frag_off))
45530b2c86SAlexei Starovoitov 		& (IP_MF | IP_OFFSET);
46530b2c86SAlexei Starovoitov }
47530b2c86SAlexei Starovoitov 
ipv6_addr_hash(struct __sk_buff * ctx,__u64 off)48530b2c86SAlexei Starovoitov static inline __u32 ipv6_addr_hash(struct __sk_buff *ctx, __u64 off)
49530b2c86SAlexei Starovoitov {
50530b2c86SAlexei Starovoitov 	__u64 w0 = load_word(ctx, off);
51530b2c86SAlexei Starovoitov 	__u64 w1 = load_word(ctx, off + 4);
52530b2c86SAlexei Starovoitov 	__u64 w2 = load_word(ctx, off + 8);
53530b2c86SAlexei Starovoitov 	__u64 w3 = load_word(ctx, off + 12);
54530b2c86SAlexei Starovoitov 
55530b2c86SAlexei Starovoitov 	return (__u32)(w0 ^ w1 ^ w2 ^ w3);
56530b2c86SAlexei Starovoitov }
57530b2c86SAlexei Starovoitov 
58530b2c86SAlexei Starovoitov struct globals {
5932c00979SPrashant Bhole 	struct flow_key_record flow;
60530b2c86SAlexei Starovoitov };
61530b2c86SAlexei Starovoitov 
6259929cd1SDaniel T. Lee struct {
6359929cd1SDaniel T. Lee 	__uint(type, BPF_MAP_TYPE_ARRAY);
6459929cd1SDaniel T. Lee 	__type(key, __u32);
6559929cd1SDaniel T. Lee 	__type(value, struct globals);
6659929cd1SDaniel T. Lee 	__uint(max_entries, 32);
6759929cd1SDaniel T. Lee } percpu_map SEC(".maps");
68530b2c86SAlexei Starovoitov 
69530b2c86SAlexei Starovoitov /* user poor man's per_cpu until native support is ready */
this_cpu_globals(void)70530b2c86SAlexei Starovoitov static struct globals *this_cpu_globals(void)
71530b2c86SAlexei Starovoitov {
72530b2c86SAlexei Starovoitov 	u32 key = bpf_get_smp_processor_id();
73530b2c86SAlexei Starovoitov 
74530b2c86SAlexei Starovoitov 	return bpf_map_lookup_elem(&percpu_map, &key);
75530b2c86SAlexei Starovoitov }
76530b2c86SAlexei Starovoitov 
77530b2c86SAlexei Starovoitov /* some simple stats for user space consumption */
78530b2c86SAlexei Starovoitov struct pair {
79530b2c86SAlexei Starovoitov 	__u64 packets;
80530b2c86SAlexei Starovoitov 	__u64 bytes;
81530b2c86SAlexei Starovoitov };
82530b2c86SAlexei Starovoitov 
8359929cd1SDaniel T. Lee struct {
8459929cd1SDaniel T. Lee 	__uint(type, BPF_MAP_TYPE_HASH);
8559929cd1SDaniel T. Lee 	__type(key, struct flow_key_record);
8659929cd1SDaniel T. Lee 	__type(value, struct pair);
8759929cd1SDaniel T. Lee 	__uint(max_entries, 1024);
8859929cd1SDaniel T. Lee } hash_map SEC(".maps");
89530b2c86SAlexei Starovoitov 
update_stats(struct __sk_buff * skb,struct globals * g)90530b2c86SAlexei Starovoitov static void update_stats(struct __sk_buff *skb, struct globals *g)
91530b2c86SAlexei Starovoitov {
9232c00979SPrashant Bhole 	struct flow_key_record key = g->flow;
93530b2c86SAlexei Starovoitov 	struct pair *value;
94530b2c86SAlexei Starovoitov 
95530b2c86SAlexei Starovoitov 	value = bpf_map_lookup_elem(&hash_map, &key);
96530b2c86SAlexei Starovoitov 	if (value) {
97530b2c86SAlexei Starovoitov 		__sync_fetch_and_add(&value->packets, 1);
98530b2c86SAlexei Starovoitov 		__sync_fetch_and_add(&value->bytes, skb->len);
99530b2c86SAlexei Starovoitov 	} else {
100530b2c86SAlexei Starovoitov 		struct pair val = {1, skb->len};
101530b2c86SAlexei Starovoitov 
102530b2c86SAlexei Starovoitov 		bpf_map_update_elem(&hash_map, &key, &val, BPF_ANY);
103530b2c86SAlexei Starovoitov 	}
104530b2c86SAlexei Starovoitov }
105530b2c86SAlexei Starovoitov 
parse_ip_proto(struct __sk_buff * skb,struct globals * g,__u32 ip_proto)106530b2c86SAlexei Starovoitov static __always_inline void parse_ip_proto(struct __sk_buff *skb,
107530b2c86SAlexei Starovoitov 					   struct globals *g, __u32 ip_proto)
108530b2c86SAlexei Starovoitov {
109d691f9e8SAlexei Starovoitov 	__u32 nhoff = skb->cb[0];
110530b2c86SAlexei Starovoitov 	int poff;
111530b2c86SAlexei Starovoitov 
112530b2c86SAlexei Starovoitov 	switch (ip_proto) {
113530b2c86SAlexei Starovoitov 	case IPPROTO_GRE: {
114530b2c86SAlexei Starovoitov 		struct gre_hdr {
115530b2c86SAlexei Starovoitov 			__be16 flags;
116530b2c86SAlexei Starovoitov 			__be16 proto;
117530b2c86SAlexei Starovoitov 		};
118530b2c86SAlexei Starovoitov 
119530b2c86SAlexei Starovoitov 		__u32 gre_flags = load_half(skb,
120530b2c86SAlexei Starovoitov 					    nhoff + offsetof(struct gre_hdr, flags));
121530b2c86SAlexei Starovoitov 		__u32 gre_proto = load_half(skb,
122530b2c86SAlexei Starovoitov 					    nhoff + offsetof(struct gre_hdr, proto));
123530b2c86SAlexei Starovoitov 
124530b2c86SAlexei Starovoitov 		if (gre_flags & (GRE_VERSION|GRE_ROUTING))
125530b2c86SAlexei Starovoitov 			break;
126530b2c86SAlexei Starovoitov 
127530b2c86SAlexei Starovoitov 		nhoff += 4;
128530b2c86SAlexei Starovoitov 		if (gre_flags & GRE_CSUM)
129530b2c86SAlexei Starovoitov 			nhoff += 4;
130530b2c86SAlexei Starovoitov 		if (gre_flags & GRE_KEY)
131530b2c86SAlexei Starovoitov 			nhoff += 4;
132530b2c86SAlexei Starovoitov 		if (gre_flags & GRE_SEQ)
133530b2c86SAlexei Starovoitov 			nhoff += 4;
134530b2c86SAlexei Starovoitov 
135d691f9e8SAlexei Starovoitov 		skb->cb[0] = nhoff;
136530b2c86SAlexei Starovoitov 		parse_eth_proto(skb, gre_proto);
137530b2c86SAlexei Starovoitov 		break;
138530b2c86SAlexei Starovoitov 	}
139530b2c86SAlexei Starovoitov 	case IPPROTO_IPIP:
140530b2c86SAlexei Starovoitov 		parse_eth_proto(skb, ETH_P_IP);
141530b2c86SAlexei Starovoitov 		break;
142530b2c86SAlexei Starovoitov 	case IPPROTO_IPV6:
143530b2c86SAlexei Starovoitov 		parse_eth_proto(skb, ETH_P_IPV6);
144530b2c86SAlexei Starovoitov 		break;
145530b2c86SAlexei Starovoitov 	case IPPROTO_TCP:
146530b2c86SAlexei Starovoitov 	case IPPROTO_UDP:
147530b2c86SAlexei Starovoitov 		g->flow.ports = load_word(skb, nhoff);
148530b2c86SAlexei Starovoitov 	case IPPROTO_ICMP:
149530b2c86SAlexei Starovoitov 		g->flow.ip_proto = ip_proto;
150530b2c86SAlexei Starovoitov 		update_stats(skb, g);
151530b2c86SAlexei Starovoitov 		break;
152530b2c86SAlexei Starovoitov 	default:
153530b2c86SAlexei Starovoitov 		break;
154530b2c86SAlexei Starovoitov 	}
155530b2c86SAlexei Starovoitov }
156530b2c86SAlexei Starovoitov 
157*e5659e4eSRong Tao SEC("socket")
bpf_func_ip(struct __sk_buff * skb)158*e5659e4eSRong Tao int bpf_func_ip(struct __sk_buff *skb)
159530b2c86SAlexei Starovoitov {
160530b2c86SAlexei Starovoitov 	struct globals *g = this_cpu_globals();
161530b2c86SAlexei Starovoitov 	__u32 nhoff, verlen, ip_proto;
162530b2c86SAlexei Starovoitov 
163530b2c86SAlexei Starovoitov 	if (!g)
164530b2c86SAlexei Starovoitov 		return 0;
165530b2c86SAlexei Starovoitov 
166d691f9e8SAlexei Starovoitov 	nhoff = skb->cb[0];
167530b2c86SAlexei Starovoitov 
168530b2c86SAlexei Starovoitov 	if (unlikely(ip_is_fragment(skb, nhoff)))
169530b2c86SAlexei Starovoitov 		return 0;
170530b2c86SAlexei Starovoitov 
171530b2c86SAlexei Starovoitov 	ip_proto = load_byte(skb, nhoff + offsetof(struct iphdr, protocol));
172530b2c86SAlexei Starovoitov 
173530b2c86SAlexei Starovoitov 	if (ip_proto != IPPROTO_GRE) {
174530b2c86SAlexei Starovoitov 		g->flow.src = load_word(skb, nhoff + offsetof(struct iphdr, saddr));
175530b2c86SAlexei Starovoitov 		g->flow.dst = load_word(skb, nhoff + offsetof(struct iphdr, daddr));
176530b2c86SAlexei Starovoitov 	}
177530b2c86SAlexei Starovoitov 
178530b2c86SAlexei Starovoitov 	verlen = load_byte(skb, nhoff + 0/*offsetof(struct iphdr, ihl)*/);
179530b2c86SAlexei Starovoitov 	nhoff += (verlen & 0xF) << 2;
180530b2c86SAlexei Starovoitov 
181d691f9e8SAlexei Starovoitov 	skb->cb[0] = nhoff;
182530b2c86SAlexei Starovoitov 	parse_ip_proto(skb, g, ip_proto);
183530b2c86SAlexei Starovoitov 	return 0;
184530b2c86SAlexei Starovoitov }
185530b2c86SAlexei Starovoitov 
186*e5659e4eSRong Tao SEC("socket")
bpf_func_ipv6(struct __sk_buff * skb)187*e5659e4eSRong Tao int bpf_func_ipv6(struct __sk_buff *skb)
188530b2c86SAlexei Starovoitov {
189530b2c86SAlexei Starovoitov 	struct globals *g = this_cpu_globals();
190530b2c86SAlexei Starovoitov 	__u32 nhoff, ip_proto;
191530b2c86SAlexei Starovoitov 
192530b2c86SAlexei Starovoitov 	if (!g)
193530b2c86SAlexei Starovoitov 		return 0;
194530b2c86SAlexei Starovoitov 
195d691f9e8SAlexei Starovoitov 	nhoff = skb->cb[0];
196530b2c86SAlexei Starovoitov 
197530b2c86SAlexei Starovoitov 	ip_proto = load_byte(skb,
198530b2c86SAlexei Starovoitov 			     nhoff + offsetof(struct ipv6hdr, nexthdr));
199530b2c86SAlexei Starovoitov 	g->flow.src = ipv6_addr_hash(skb,
200530b2c86SAlexei Starovoitov 				     nhoff + offsetof(struct ipv6hdr, saddr));
201530b2c86SAlexei Starovoitov 	g->flow.dst = ipv6_addr_hash(skb,
202530b2c86SAlexei Starovoitov 				     nhoff + offsetof(struct ipv6hdr, daddr));
203530b2c86SAlexei Starovoitov 	nhoff += sizeof(struct ipv6hdr);
204530b2c86SAlexei Starovoitov 
205d691f9e8SAlexei Starovoitov 	skb->cb[0] = nhoff;
206530b2c86SAlexei Starovoitov 	parse_ip_proto(skb, g, ip_proto);
207530b2c86SAlexei Starovoitov 	return 0;
208530b2c86SAlexei Starovoitov }
209530b2c86SAlexei Starovoitov 
210*e5659e4eSRong Tao SEC("socket")
bpf_func_vlan(struct __sk_buff * skb)211*e5659e4eSRong Tao int bpf_func_vlan(struct __sk_buff *skb)
212530b2c86SAlexei Starovoitov {
213530b2c86SAlexei Starovoitov 	__u32 nhoff, proto;
214530b2c86SAlexei Starovoitov 
215d691f9e8SAlexei Starovoitov 	nhoff = skb->cb[0];
216530b2c86SAlexei Starovoitov 
217530b2c86SAlexei Starovoitov 	proto = load_half(skb, nhoff + offsetof(struct vlan_hdr,
218530b2c86SAlexei Starovoitov 						h_vlan_encapsulated_proto));
219530b2c86SAlexei Starovoitov 	nhoff += sizeof(struct vlan_hdr);
220d691f9e8SAlexei Starovoitov 	skb->cb[0] = nhoff;
221530b2c86SAlexei Starovoitov 
222530b2c86SAlexei Starovoitov 	parse_eth_proto(skb, proto);
223530b2c86SAlexei Starovoitov 
224530b2c86SAlexei Starovoitov 	return 0;
225530b2c86SAlexei Starovoitov }
226530b2c86SAlexei Starovoitov 
227*e5659e4eSRong Tao SEC("socket")
bpf_func_mpls(struct __sk_buff * skb)228*e5659e4eSRong Tao int bpf_func_mpls(struct __sk_buff *skb)
229530b2c86SAlexei Starovoitov {
230530b2c86SAlexei Starovoitov 	__u32 nhoff, label;
231530b2c86SAlexei Starovoitov 
232d691f9e8SAlexei Starovoitov 	nhoff = skb->cb[0];
233530b2c86SAlexei Starovoitov 
234530b2c86SAlexei Starovoitov 	label = load_word(skb, nhoff);
235530b2c86SAlexei Starovoitov 	nhoff += sizeof(struct mpls_label);
236d691f9e8SAlexei Starovoitov 	skb->cb[0] = nhoff;
237530b2c86SAlexei Starovoitov 
238530b2c86SAlexei Starovoitov 	if (label & MPLS_LS_S_MASK) {
239530b2c86SAlexei Starovoitov 		__u8 verlen = load_byte(skb, nhoff);
240530b2c86SAlexei Starovoitov 		if ((verlen & 0xF0) == 4)
241530b2c86SAlexei Starovoitov 			parse_eth_proto(skb, ETH_P_IP);
242530b2c86SAlexei Starovoitov 		else
243530b2c86SAlexei Starovoitov 			parse_eth_proto(skb, ETH_P_IPV6);
244530b2c86SAlexei Starovoitov 	} else {
245530b2c86SAlexei Starovoitov 		parse_eth_proto(skb, ETH_P_MPLS_UC);
246530b2c86SAlexei Starovoitov 	}
247530b2c86SAlexei Starovoitov 
248530b2c86SAlexei Starovoitov 	return 0;
249530b2c86SAlexei Starovoitov }
250530b2c86SAlexei Starovoitov 
251*e5659e4eSRong Tao struct {
252*e5659e4eSRong Tao 	__uint(type, BPF_MAP_TYPE_PROG_ARRAY);
253*e5659e4eSRong Tao 	__uint(key_size, sizeof(u32));
254*e5659e4eSRong Tao 	__uint(max_entries, 8);
255*e5659e4eSRong Tao 	__array(values, u32 (void *));
256*e5659e4eSRong Tao } prog_array_init SEC(".maps") = {
257*e5659e4eSRong Tao 	.values = {
258*e5659e4eSRong Tao 		[PARSE_VLAN] = (void *)&bpf_func_vlan,
259*e5659e4eSRong Tao 		[PARSE_IP]   = (void *)&bpf_func_ip,
260*e5659e4eSRong Tao 		[PARSE_IPV6] = (void *)&bpf_func_ipv6,
261*e5659e4eSRong Tao 		[PARSE_MPLS] = (void *)&bpf_func_mpls,
262*e5659e4eSRong Tao 	},
263*e5659e4eSRong Tao };
264*e5659e4eSRong Tao 
265*e5659e4eSRong Tao /* Protocol dispatch routine. It tail-calls next BPF program depending
266*e5659e4eSRong Tao  * on eth proto. Note, we could have used ...
267*e5659e4eSRong Tao  *
268*e5659e4eSRong Tao  *   bpf_tail_call(skb, &prog_array_init, proto);
269*e5659e4eSRong Tao  *
270*e5659e4eSRong Tao  * ... but it would need large prog_array and cannot be optimised given
271*e5659e4eSRong Tao  * the map key is not static.
272*e5659e4eSRong Tao  */
parse_eth_proto(struct __sk_buff * skb,u32 proto)273*e5659e4eSRong Tao static inline void parse_eth_proto(struct __sk_buff *skb, u32 proto)
274*e5659e4eSRong Tao {
275*e5659e4eSRong Tao 	switch (proto) {
276*e5659e4eSRong Tao 	case ETH_P_8021Q:
277*e5659e4eSRong Tao 	case ETH_P_8021AD:
278*e5659e4eSRong Tao 		bpf_tail_call(skb, &prog_array_init, PARSE_VLAN);
279*e5659e4eSRong Tao 		break;
280*e5659e4eSRong Tao 	case ETH_P_MPLS_UC:
281*e5659e4eSRong Tao 	case ETH_P_MPLS_MC:
282*e5659e4eSRong Tao 		bpf_tail_call(skb, &prog_array_init, PARSE_MPLS);
283*e5659e4eSRong Tao 		break;
284*e5659e4eSRong Tao 	case ETH_P_IP:
285*e5659e4eSRong Tao 		bpf_tail_call(skb, &prog_array_init, PARSE_IP);
286*e5659e4eSRong Tao 		break;
287*e5659e4eSRong Tao 	case ETH_P_IPV6:
288*e5659e4eSRong Tao 		bpf_tail_call(skb, &prog_array_init, PARSE_IPV6);
289*e5659e4eSRong Tao 		break;
290*e5659e4eSRong Tao 	}
291*e5659e4eSRong Tao }
292*e5659e4eSRong Tao 
293*e5659e4eSRong Tao SEC("socket")
main_prog(struct __sk_buff * skb)294530b2c86SAlexei Starovoitov int main_prog(struct __sk_buff *skb)
295530b2c86SAlexei Starovoitov {
296530b2c86SAlexei Starovoitov 	__u32 nhoff = ETH_HLEN;
297530b2c86SAlexei Starovoitov 	__u32 proto = load_half(skb, 12);
298530b2c86SAlexei Starovoitov 
299d691f9e8SAlexei Starovoitov 	skb->cb[0] = nhoff;
300530b2c86SAlexei Starovoitov 	parse_eth_proto(skb, proto);
301530b2c86SAlexei Starovoitov 	return 0;
302530b2c86SAlexei Starovoitov }
303530b2c86SAlexei Starovoitov 
304530b2c86SAlexei Starovoitov char _license[] SEC("license") = "GPL";
305