FILEBEAT ：一款轻量级日志采集器agent的实现与分析

0x00 前言

下图形象的说明了filebeat的功能，主要包括两点：

filebeat

本文版本基于v9.0.1进行

下面是官方的架构图，两个重要组件Input、Harvester：

TODO

从源码视角，filebeat的架构如下：

module

Crawler：负责管理和启动各个Input，管理所有Input收集数据并发送事件到libbeat的Publisher
Input：负责管理和解析输入源的信息，以及为每个文件启动 Harvester
Harvester：负责读取一个文件的数据，对应一个输入源，是收集数据的实际工作者（配置中一个具体的Input可以包含多个输入源Harvester）
module：简化了一些常见程序日志（比如nginx日志）收集、解析、可视化（kibana dashboard）配置项
fileset：module下具体的一种Input定义（比如nginx包括access和error log），包含
- 输入配置
- es ingest node pipeline定义
- 事件字段定义
- 示例kibana dashboard
Registrar：接收libbeat反馈回来的ACK, 作相应的持久化，管理记录每个文件处理状态，包括偏移量、文件名等信息。当 Filebeat 启动时，会从 Registrar 恢复文件处理状态

Pipeline（publisher）：负责管理缓存、Harvester 的信息写入以及 Output 的消费等，是 Filebeat 最核心的组件

client：提供Publish接口让filebeat将事件发送到Publisher。在发送到队列之前，内部会先调用processors（包括input 内部的processors和全局processors）进行处理
processor：事件处理器，可对事件按照配置中的条件进行各种处理（比如删除事件、保留指定字段，过滤添加字段，多行合并等）
queue：事件队列，有memqueue（基于内存）和spool（基于磁盘文件）两种实现
outputs：事件的输出端，比如ES、Logstash、kafka等
acker：事件确认回调，在事件发送成功后进行回调

Latex gRPC 负载均衡 OpenSSH Authentication Consul Etcd Kubernetes 性能优化 Python 分布式锁 WebConsole 后台开发 Golang OpenSource Nginx Vault 网络安全 Perl 分布式理论 Raft 正则表达式 Redis 分布式限流 go-redis 微服务反向代理 ReverseProxy Cache 缓存连接池 OpenTracing GOMAXPROCS GoMicro 微服务框架日志 zap Pool Kratos Hystrix 熔断并发 Pipeline 证书 Prometheus Metrics PromQL Breaker 定时器 Timer Timeout Kafka Xorm MySQL Fasthttp bytebufferpool 任务队列队列异步队列 GOIM Pprof errgroup consistent-hash Zinx 网络框架设计模式 HTTP Gateway Queue Docker 网关 Statefulset NFS Machinery Teleport Zero Trust Oxy 存储 Confd 热更新 OAuth SAML OpenID Openssl AES 微服务网关 IM KMS 安全数据结构 hashtable Sort Asynq 基数树 Radix Crontab 热重启系统编程 sarama Go-Zero RDP VNC 协程池 UDP hashmap 网络编程自适应技术环形队列 Ring Buffer Circular Buffer InnoDB timewheel GroupCache Jaeger GOSSIP CAP Bash websocket 事务 GC TLS singleflight 闭包 Helm network iptables MITM HTTPS Tap Tun 路由 wireguard gvisor Git NAT 协议栈 Envoy FRP DPI gopacket Cgroup Namespace DNS eBPF GoZero Gost Clash Tracee gopsutil Linux HIDS ELKEID XDP TC Systemd DDoS DPDK netlink Kernel BCC rootkit bpftrace AI TCP eino Memory