雜記: va函數的實現

va函數的實現就是對參數指針的使用和控制。
typedef char * va_list; // x86平台下va_list的定義
函數的固定參數部分，可以直接從函數定義時的參數名獲得；對於可選參數部分，先將指針指向第一個可選參數，然後依次後移指針，根據與結束標誌的比較來判斷是否已經獲得全部參數。因此，va函數中結束標誌必須事先約定好，否則，指針會指向無效的記憶體地址，導致出錯。
這裡，移動指針使其指向下一個參數，那麼移動指針時的偏移量是多少呢，沒有具體答案，因為這裡涉及到記憶體對齊（alignment）問題，記憶體對齊跟具體使用的硬體平臺有密切關係，比如大家熟知的32位x86平臺規定所有的變數地址必須是4的倍數(sizeof(int) = 4)。va機制中用宏_INTSIZEOF(n)來解決這個問題，沒有這些宏，va的可攜性無從談起。
首先介紹宏_INTSIZEOF(n)，它求出變數佔用記憶體空間的大小，是va的實現的基礎。
#define _INTSIZEOF(n) ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) )
//第一個可選參數地址
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
#define va_end(ap) ( ap = (va_list)0 )
//將指針置為無效
下表是針對函數int TestFunc(int n1, int n2, int n3, …)
參數傳遞時的記憶體堆棧情況。（C編譯器默認的參數傳遞方式是__cdecl。）
對該函數的調用為int result = TestFunc(a, b, c, d. e); 其中e為結束標誌。

高位址
最後一個可選參數 => 用va_start後，arg_ptr指向下一個可選參數的位址
第一個可選參數 => 用va_start後，arg_ptr指向的位址
N3位址
N2位址
N1位址
函式返回位址
低位址

從上圖中可以很清楚地看出va_xxx宏如此編寫的原因。
1． va_start。為了得到第一個可選參數的地址，我們有三種辦法可以做到：
A) = &n3 + _INTSIZEOF(n3)
// 最後一個固定參數的地址 + 該參數佔用記憶體的大小
B) = &n2 + _INTSIZEOF(n3) + _INTSIZEOF(n2)
// 中間某個固定參數的地址 + 該參數之後所有固定參數佔用的記憶體大小之和
C) = &n1 + _INTSIZEOF(n3) + _INTSIZEOF(n2) + _INTSIZEOF(n1)
// 第一個固定參數的地址 + 所有固定參數佔用的記憶體大小之和
從編譯器實現角度來看，方法B)，方法C)為了求出地址，編譯器還需知道有多少個固定參數，以及它們的大小，沒有把問題分解到最簡單，所以不是很聰明的途徑，不予採納；相對來說，方法A)中運算的兩個值則完全可以確定。va_start()正是採用A)方法，接受最後一個固定參數。調用va_start ()的結果總是使指針指向下一個參數的地址，並把它作為第一個可選參數。在含多個固定參數的函數中，調用va_start()時，如果不是用最後一個固定參數，對於編譯器來說，可選參數的個數已經增加，將給程式帶來一些意想不到的錯誤。(當然如果你認為自己對指針已經知根知底，遊刃有餘，那麼，怎麼用就隨你，你甚至可以用它完成一些很優秀（高效）的代碼，但是，這樣會大大降低代碼的可讀性。)
注意：宏va_start是對參數的地址進行操作的，要求參數地址必須是有效的。一些地址無效的類型不能當作固定參數類型。比如：寄存器類型，它的地址不是有效的記憶體地址值；數組和函數也不允許，他們的長度是個問題。因此，這些類型時不能作為va函數的參數的。
2． va_arg身兼二職：返回當前參數，並使參數指針指向下一個參數。
初看va_arg宏定義很彆扭，如果把它拆成兩個語句，可以很清楚地看出它完成的兩個職責。
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數地址
// 將( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )拆成：
/* 指針ap指向下一個參數的地址 */
1． ap += _INTSIZEOF(t)； // 當前，ap已經指向下一個參數了
/* ap減去當前參數的大小得到當前參數的地址，再強制類型轉換後返回它的值 */
2． return *(t *)( ap - _INTSIZEOF(t))
回想到printf/scanf系列函數的%d %s之類的格式化指令，我們不難理解這些它們的用途了- 明示參數強制轉換的類型。
(注：printf/scanf沒有使用va_xxx來實現，但原理是一致的。)
3．va_end很簡單，僅僅是把指針作廢而已。
#define va_end(ap) (ap = (va_list)0) // x86平臺
四、簡潔、靈活，也有危險
從va的實現可以看出，指針的合理運用，把C語言簡潔、靈活的特性表現得淋漓盡致，叫人不得不佩服C的強大和高效。不可否認的是，給編程人員太多自由空間必然使程式的安全性降低。va中，為了得到所有傳遞給函數的參數，需要用va_arg依次遍歷。其中存在兩個隱患：
1）如何確定參數的類型。
2）va_arg在類型檢查方面與其說非常靈活，不如說是很不負責，因為是強制類型轉換，va_arg都把當前指針所指向的內容強制轉換到指定類型；
3） 2）結束標誌。如果沒有結束標誌的判斷，va將按默認類型依次返回記憶體中的內容，直到訪問到非法記憶體而出錯退出。例2中SqSum()求的是自然數的平方和，所以我把負數和0作為它的結束標誌。例如scanf把接收到的回車符作為結束標誌，大家熟知的printf()對字符串的處理用'0'作為結束標誌，無法想像C中的字符串如果沒有'0'，代碼將會是怎樣一番情景，估計那時最流行的可能是字符數組，或者是malloc/free。
4）允許對記憶體的隨意訪問，會留給不懷好意者留下攻擊的可能。當處理cracker精心設計好的一串字符串後，程式將跳轉到一些惡意代碼區域執行，以使 cracker達到其攻擊目的。(常見的exploit攻擊)所以，必需禁止對記憶體的隨意訪問和嚴格控制記憶體訪問邊界。

網頁

2008年3月1日星期六

va函數的實現

沒有留言:

張貼留言

追蹤者

網頁

2008年3月1日 星期六

va函數的實現

沒有留言:

張貼留言

2008年3月1日星期六