網頁

2008年3月1日 星期六

va函數的實現

va函數的實現就是對參數指針的使用和控制。
typedef char * va_list; // x86平台下va_list的定義
函數的固定參數部分,可以直接從函數定義時的參數名獲得;對於可選參數部分,先將指針指向第一個可選參數,然後依次後移指針,根據與結束標誌的比較來判斷是否已經獲得全部參數。因此,va函數中結束標誌必須事先約定好,否則,指針會指向無效的記憶體地址,導致出錯。
這裡,移動指針使其指向下一個參數,那麼移動指針時的偏移量是多少呢,沒有具體答案,因為這裡涉及到記憶體對齊(alignment)問題,記憶體對齊跟具體使用的硬體平臺有密切關係,比如大家熟知的32位x86平臺規定所有的變數地址必須是4的倍數(sizeof(int) = 4)。va機制中用宏_INTSIZEOF(n)來解決這個問題,沒有這些宏,va的可攜性無從談起。
首先介紹宏_INTSIZEOF(n),它求出變數佔用記憶體空間的大小,是va的實現的基礎。
#define _INTSIZEOF(n) ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) )
//第一個可選參數地址
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
#define va_end(ap) ( ap = (va_list)0 )
//將指針置為無效
下表是針對函數int TestFunc(int n1, int n2, int n3, …)
參數傳遞時的記憶體堆棧情況。(C編譯器默認的參數傳遞方式是__cdecl。)
對該函數的調用為int result = TestFunc(a, b, c, d. e); 其中e為結束標誌。

高位址
最後一個可選參數 => 用va_start後,arg_ptr指向下一個可選參數的位址
第一個可選參數 => 用va_start後,arg_ptr指向的位址
N3位址
N2位址
N1位址
函式返回位址
低位址

從上圖中可以很清楚地看出va_xxx宏如此編寫的原因。
1. va_start。為了得到第一個可選參數的地址,我們有三種辦法可以做到:
A) = &n3 + _INTSIZEOF(n3)
// 最後一個固定參數的地址 + 該參數佔用記憶體的大小
B) = &n2 + _INTSIZEOF(n3) + _INTSIZEOF(n2)
// 中間某個固定參數的地址 + 該參數之後所有固定參數佔用的記憶體大小之和
C) = &n1 + _INTSIZEOF(n3) + _INTSIZEOF(n2) + _INTSIZEOF(n1)
// 第一個固定參數的地址 + 所有固定參數佔用的記憶體大小之和
從編譯器實現角度來看,方法B),方法C)為了求出地址,編譯器還需知道有多少個固定參數,以及它們的大小,沒有把問題分解到最簡單,所以不是很聰明的途徑,不予採納;相對來說,方法A)中運算的兩個值則完全可以確定。va_start()正是採用A)方法,接受最後一個固定參數。調用va_start ()的結果總是使指針指向下一個參數的地址,並把它作為第一個可選參數。在含多個固定參數的函數中,調用va_start()時,如果不是用最後一個固定參數,對於編譯器來說,可選參數的個數已經增加,將給程式帶來一些意想不到的錯誤。(當然如果你認為自己對指針已經知根知底,遊刃有餘,那麼,怎麼用就隨你,你甚至可以用它完成一些很優秀(高效)的代碼,但是,這樣會大大降低代碼的可讀性。)
注意:宏va_start是對參數的地址進行操作的,要求參數地址必須是有效的。一些地址無效的類型不能當作固定參數類型。比如:寄存器類型,它的地址不是有效的記憶體地址值;數組和函數也不允許,他們的長度是個問題。因此,這些類型時不能作為va函數的參數的。
2. va_arg身兼二職:返回當前參數,並使參數指針指向下一個參數。
初看va_arg宏定義很彆扭,如果把它拆成兩個語句,可以很清楚地看出它完成的兩個職責。
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
// 將( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )拆成:
/* 指針ap指向下一個參數的地址 */
1. ap += _INTSIZEOF(t); // 當前,ap已經指向下一個參數了
/* ap減去當前參數的大小得到當前參數的地址,再強制類型轉換後返回它的值 */
2. return *(t *)( ap - _INTSIZEOF(t))
回想到printf/scanf系列函數的%d %s之類的格式化指令,我們不難理解這些它們的用途了- 明示參數強制轉換的類型。
(注:printf/scanf沒有使用va_xxx來實現,但原理是一致的。)
3.va_end很簡單,僅僅是把指針作廢而已。
#define va_end(ap) (ap = (va_list)0) // x86平臺
四、 簡潔、靈活,也有危險
從va的實現可以看出,指針的合理運用,把C語言簡潔、靈活的特性表現得淋漓盡致,叫人不得不佩服C的強大和高效。不可否認的是,給編程人員太多自由空間必然使程式的安全性降低。va中,為了得到所有傳遞給函數的參數,需要用va_arg依次遍歷。其中存在兩個隱患:
1)如何確定參數的類型。
2)va_arg在類型檢查方面與其說非常靈活,不如說是很不負責,因為是強制類型轉換,va_arg都把當前指針所指向的內容強制轉換到指定類型;
3) 2)結束標誌。如果沒有結束標誌的判斷,va將按默認類型依次返回記憶體中的內容,直到訪問到非法記憶體而出錯退出。例2中SqSum()求的是自然數的平方和,所以我把負數和0作為它的結束標誌。例如scanf把接收到的回車符作為結束標誌,大家熟知的printf()對字符串的處理用'0'作為結束標誌,無法想像C中的字符串如果沒有'0', 代碼將會是怎樣一番情景,估計那時最流行的可能是字符數組,或者是malloc/free。
4)允許對記憶體的隨意訪問,會留給不懷好意者留下攻擊的可能。當處理cracker精心設計好的一串字符串後,程式將跳轉到一些惡意代碼區域執行,以使 cracker達到其攻擊目的。(常見的exploit攻擊)所以,必需禁止對記憶體的隨意訪問和嚴格控制記憶體訪問邊界。

沒有留言:

張貼留言