熊喵君的博客

Thinking will not overcome fear but action will.

Linux 内核之旅(十三):epoll

epoll机制在内核的运行原理

0x00 前言 Linux的IO 多路复用机制(I/O Multiplexing)是一种通过单个线程或进程同时管理多个 I/O 通道(如网络套接字、文件描述符)的机制,用来解决大量并发文件描述符fd场景下,如何快速发现哪些fd触发了事件(读/写)。为了解决遍历fds导致的性能浪费,内核提供了select、poll、epoll这几类机制,本文就以内核的角度来拆解下epoll机制的实现 ...

EBPF 内核态代码学习(三):network stack tracing

tcpstate、tcprtt、tcpconnlat等工具实现分析

0x00 前言 本文学习下基于ebpf技术的网络(协议栈)追踪 tcpstates:用于记录 TCP 连接的状态变化 tcprtt:则用于记录 TCP 的往返时间(RTT, Round-Trip Time) [root@VM-X-X-centos edriver]# perf list 'tcp:*' 'sock:inet*' List of pre-defined ev...

Linux 内核之旅(十二):内核视角下的三次握手

0x00 前言 服务端代码: int main(int argc, char const *argv[]) { int fd = socket(AF_INET, SOCK_STREAM, 0); bind(fd, ...); listen(fd, 128); accept(fd, ...); //handler fd } 客户端代码: int main(){ ...

Linux 内核之旅(十一):追踪 open/write 系统调用

VFS

0x00 前言 本文代码基于 v4.11.6 版本 用户进程在能够读 / 写一个文件之前必须要先 open 这个文件。对文件的读 / 写从概念上说是一种进程与文件系统之间的一种有连接通信,所谓打开文件实质上就是在进程与文件之间建立起链接。在文件系统的处理中,每当一个进程重复打开同一个文件时就建立起一个由 struct file 结构代表的独立的上下文。通常一个 file 结构,即一个...

Linux 内核之旅(十):内核数据包发送

基础知识汇总与可观测

0x00 前言 本文代码基于 v4.11.6 版本 0x01 报文发送过程 本小节使用以太网的物理网卡,以一个UDP包的发送过程作为示例,了解下具体的发包过程 socket层 1、socket():创建一个UDP socket结构体,并初始化相应的UDP操作函数 2、sendto(sock, ...):应用层的程序(Application)调用该函数开始发送数据包,该函数会进...

Linux 内核之旅(九):OverlayFS

0x00 前言 0x01 overlayFS 基础 OverlayFS是一种堆叠文件系统,它依赖并建立在其它文件系统(如ext4fs/xfs等)之上,并不直接参与磁盘空间结构的划分,仅仅将原来底层文件系统中不同的目录进行(策略式)合并,然后向用户呈现。对于用户来说,它所见到的overlay文件系统根目录下的内容就来自挂载时所指定的不同目录按策略合并之后的结果,挂载文件的基本命令...

Linux 内核之旅(八):内核数据包接收

基础知识汇总

0x00 前言 笔者最近在研究基于ebpf的网络协议栈可观测及tracing,本文对协议栈的数据处理基础做了若干总结 本文代码基于 v4.11.6 版本 Linux 网络栈接收数据(RX):原理及内核实现(2022) 0x01 网卡的报文接收过程 一些背景知识: 网卡驱动是加载到内核中的模块,负责衔接网卡和内核的网络模块,驱动在加载的时候将自己注册进网络模块,...

Linux 内核之旅(七):虚拟内存管理(下)TODO

内核视角的虚拟内存管理

0x00 前言 0x0 参考 4.6 深入理解 Linux 虚拟内存管理 4.7 深入理解 Linux 物理内存管理 mmap 源码分析 linux源码解读(十六):红黑树在内核的应用——虚拟内存管理 图解 Linux 虚拟内存空间管理

Linux 内核之旅(六):进程调度(CFS)

0x00 前言 本文学习下CFS调度算法(Completely Fair Scheduler,完全公平调度器)用于Linux系统中普通进程的调度,CFS调度器的目标是让所有普通进程的vruntime尽可能接近,实现公平的调度。CFS的设计理念是在真实硬件上实现理想的、精确的多任务CPU。CFS调度器和先前内核版本调度器不同之处在于没有时间片的概念,而是分配cpu使用时间的比例,若2个相...

Linux 内核之旅(五):内核的可观测技术

内核追踪的工具入门:ftrace/bpftrace/perf

0x00 前言 追踪类调试工具鸟瞰图 性能追踪 宏观:通过全链路监控找出整个分布式系统中的瓶颈组件 微观:快速地找出进程内的瓶颈函数,从(内核)代码层面直接寻找调用次数最频繁、耗时最长的函数,通常它就是性能瓶颈 linux tracing技术 1、观测数据源,分为指标&事件两类 指标观测 事件观测 0x01 ftrace 工作原理 ...