缓冲溢出弱点诞生于70年代。Morris Worm(80年代)可以认为是它们的第一次公开应用。从90年代开始,相关的文档,如著名的Aleph1的”Smashing the Stack for Fun and Profit”和代码已经在互联网上公开。
这篇文章是关于某种需要非常重视的主题的系列文章的开始,并且包括了很多的细节;它的目的是解释和阐明非常基本的漏洞类型,即所谓的本地溢出,而且论述了如何编写利用这种漏洞的代码。
为了理解接下来的内容,需要一些C和汇编的知识。虚拟内存,一些操作系统的基本知识例如象一个进程在内存里是如何布局的。你必须知道什么是setuid二进制文件,而且当然你需要至少能够使用UNIX系统。如果你有gdb/cc调试编译的经验,那就非常好了。文档特定在Linux/ix86环境下。细节的不同之处取决于操作系统或者你使用的架构。在接下来的文档里面,将介绍相应的更高级的溢出和shellcode技术。
最新版本的文档可以在这里找到:
http://www.enderunix.org/documents/eng/bof-eng.txt
什么是溢出?
如果你知道C,你肯定知道什么是字符型数组。假设你用C写代码,你应该已经知道数组的基本特性,象:数组拥有同样类型的对象,例如:int,char,float。就像所有的数据结构一样,它们能够被分成是”静态”或者是”动态”。静态变量被填入程序的数据段,然而,动态变量在内存中的可执行程序的堆栈区域分配和重新分配。”基于堆栈”的溢出就在这里发生了,我们在数据结构中填更多的数据,也就是说多于一个数组能够存储的数据,我们忽略许多重要的数据超越这个数组的界限。简单的,拷贝20字节到一个只能存储12字节的数组里。
一个Linux ELF格式二进制的存储结构相当的复杂。特别是在ELF (详细内容,在google中搜索”Executable and Linkable Format”)和共享库引入后,它已经变得更加复杂。然而,基本上,每一个进程运行时有3段:
1.文本段,是一个只读部分包括所有的程序指令。对于等同于下面C代码的指令集合将被包括在这段。
for (i = 0; i
2.数据段是初始化了的和未初始化的数据(也被认为是BBS段)所在的块。
if you code;
int i;
the variable is an uninitialized variable, and it'll be stored in
the "uninitialized variables" part of the Data Segment. (BSS)
and, if you code;