首頁 > 軟體

一篇文章帶你瞭解C語言--資料的儲存

2021-08-13 19:00:32

前言

前面我們學習了C語言的一些基本知識和基礎的語法,想必大家對C語言都有了自己的認識。

當然只是學習這些知識還是不夠的,我們需要進行更加深入的學習。

從本章開始,我們將進行C語言進階階段的學習,所以難度會有所增加。

資料型別介紹

前面我們已經學習了基本的內建型別:

char //字元資料型別
short //短整型
int //整形
long //長整型
long long //更長的整形
float //單精度浮點數
double //雙精度浮點數

//C語言有沒有字串型別?

C語言中沒有字串型別,但是C語言提供了字串常數。

C語言中字串的概念:以 NULL('') 位元組結尾的零個或多個字元,字串通常儲存在字元陣列中

當一個字串常數出現在一個表示式中時,表示式所使用的值就是這些字元所儲存的地址,因此可以把字串常數賦值給一個「指向字元的指標」。以及他們所佔儲存空間的大小。

型別的意義:

1. 使用這個型別開闢記憶體空間的大小(大小決定了使用範圍)。

2. 如何看待記憶體空間的視角。

int main()
{
	int a = 10;//建立空間後,這塊空間的內容以整型的方式考慮和使用
	char c = 'a';//建立空間後,以字元型別的方式考慮和使用
	return 0;
}

型別的基本歸類

整形家族:

char
unsigned char
signed char

short
unsigned short [int]
signed short [int]

int
unsigned int
signed int

long
unsigned long [int]
signed long [int]

無符號數:即有符號數的符號位表示為有效位。

例如:

#include<stdio.h>
int main()
{
	unsigned int a = -1;
	printf("%u", a);
	return 0;
}

這裡的-1是一個有符號數,當我們以無符號數列印時,最高位不再是符號位,且無符號數的原反二補數相同,則它的所有位為1,列印出來是一個很大的數。

這裡我們可以清楚的看出無符號與有符號數的區別。

注意:有符號中的 -128 就表示為 10000000。

並且我們可以推算出有符號char型別所能表示的範圍是-128——127;無符號char型別所能表示的範圍是0——255。同理也可以推算出其他型別的範圍。

ps:char型別有無符號取決於編譯器的型別 ,short,int,long均表示為有符號,前面加unsigned才表示為無符號

浮點數家族:

float
double

構造型別:

> 陣列型別
> 結構體型別 struct
> 列舉型別 enum
> 聯合型別 union

所謂陣列型別,即去掉陣列名後剩下的就是陣列的型別。

例如:我們求一個變數的大小,可以通過它變數名求,也可以通過它的型別求大小。陣列亦是如此。

int main()
{
	int a = 10;
	int arr[10] = { 0 };
	printf("%dn", sizeof(a));//4
	printf("%dn", sizeof(int));//4
	printf("%dn", sizeof(arr));//40
	printf("%dn", sizeof(int [10]));//40
	return 0;
}

指標型別

int *pi;
char *pc;
float* pf;
void* pv;

空型別:

void 表示空型別(無型別)
通常應用於函數的返回型別、函數的引數、指標型別。

void test(void)
{
	printf("hehen");
}
int main()
{
	test();
	return 0;
}

整形在記憶體中的儲存

我們之前講過一個變數的建立是要在記憶體中開闢空間的。空間的大小是根據不同的型別而決定的。
那接下來我們談談資料在所開闢記憶體中到底是如何儲存的?

比如:

int a = 20;
int b = -10;

我們知道為 a 分配四個位元組的空間。 那如何儲存?
下來了解下面的概念:

原碼、反碼、二補數

計算機中的有符號數有三種表示方法,即原碼、反碼和二補數。
三種表示方法均有符號位和數值位兩部分,符號位都是用0表示「正」,用1表示「負」,而數值位
三種表示方法各不相同。


原碼
直接將二進位制按照正負數的形式翻譯成二進位制就可以。

反碼
將原碼的符號位不變,其他位依次按位元取反就可以得到了

二補數
反碼+1就得到二補數。

正數的原、反、二補數都相同。
對於整形來說:資料存放記憶體中其實存放的是二補數。

為什麼呢?

在計算機系統中,數值一律用二補數來表示和儲存。原因在於,使用二補數,可以將符號位和數值域統一處理; 同時,加法和減法也可以統一處理(CPU只有加法器)此外,二補數與原碼相互轉換,其運算過程是相同的,不需要額外的硬體電路

例如:

int main()
{
	int a = -1;
	//10000000000000000000000000000001--原碼
	//11111111111111111111111111111110--反碼(原碼符號位不變,其他位按位元取反)
	//11111111111111111111111111111111--二補數(二補數+1)
	int b = 10;//正整數原反補相同
	//00000000000000000000000000001010--原碼
	//00000000000000000000000000001010--反碼
	//00000000000000000000000000001010--二補數
	return 0;
}

我們看看在記憶體中的儲存:

記憶體中是以十六進位制的形式儲存的,那10應該表示為 00 00 00 0a,為什麼這裡會倒過來呢??

大小端介紹

什麼大端小端:

大端(儲存)模式,是指資料的低位儲存在記憶體的高地址中,而資料的高位,儲存在記憶體的低地址中;

小端(儲存)模式,是指資料的低位儲存在記憶體的低地址中,而資料的高位,,儲存在記憶體的高地址中。

為什麼有大端和小端:

為什麼會有大小端模式之分呢?這是因為在計算機系統中,我們是以位元組為單位的,每個地址單元都對應著一個位元組,一個位元組為8bit。但是在C語言中除了8bit的char之外,還有16bit的short型,32bit的long型(要看具體的編譯器),另外,對於位數大於8位元的處理器,例如16位元或者32位元的處理器,由於暫存器寬度大於一個位元組,那麼必然存在著一個如果將多個位元組安排的問題。因此就導致了大端儲存模式和小端儲存模式。
例如一個 16bit 的 short 型 x ,在記憶體中的地址為 0x0010 , x 的值為 0x1122 ,那麼 0x11 為高位元組, 0x22為低位元組。對於大端模式,就將 0x11 放在低地址中,即 0x0010 中, 0x22 放在高地址中,即 0x0011 中。小端模式,剛好相反。我們常用的 X86 結構是小端模式,而 KEIL C51 則為大端模式。很多的ARM,DSP都為小端模式。有些ARM處理器還可以由硬體來選擇是大端模式還是小端模式。

百度2015年系統工程師筆試題:

請簡述大端位元組序和小端位元組序的概念,設計一個小程式來判斷當前機器的位元組序。(10分)

//程式碼1
#include <stdio.h>
int check_sys()
{
    int i = 1;
    //char*p = (char*)&i;
    return (*(char*)&i);//先將i的地址取出強制型別轉換為char*
                        //解除參照後只會存取一個位元組,且為最低位的那個位元組
                        //如果是小端儲存(01 00 00 00)則解除參照後得到的是1
                        //如果是大端儲存(00 00 00 01)則解除參照後得到的是0
}
int main()
{
    int ret = check_sys();
    if (ret == 1)
    {
        printf("小端n");
    }
    else
    {
        printf("大端n");
    }
    return 0;
}
//程式碼2
int check_sys()//這裡我們後面講到聯合時再仔細講解
{
    union
    {
        int i;
        char c;
    }un;
    un.i = 1;
    return un.c;
}

練習

1.
//輸出什麼?
#include <stdio.h>
int main()
{
    char a= -1;
    signed char b=-1;
    unsigned char c=-1;
    //00000000000000000000000011111111
    printf("a=%d,b=%d,c=%d",a,b,c);
    return 0;
}

a和b毫無疑問是-1,雖然會進行整形提升,但所有位都是1並不會影響最後的結果。

c因為是一個無符號數,而這裡%d是以有符號數da印,需要整型提升,所以應該是255。

下面程式輸出什麼?

2.
#include <stdio.h>
int main()
{
    char a = -128;
    //-128的二進位制位
    //10000000000000000000000010000000
    //11111111111111111111111101111111
    //11111111111111111111111110000000
    // a中存的二進位制位
    //100000000
    printf("%un",a);//以無符號整形列印,需進行整形提升,左邊補1
                     //11111111111111111111111110000000  4294967168
    return 0;
}
3.
#include <stdio.h>
int main()
{
    char a = 128;
    //char型別的範圍是-128到127,128按照二進位制位轉換其實就是-128,所以和上面相同
    printf("%un",a);
    return 0;
}
4.
int i= -20;
unsigned int j = 10;
//-20
//10000000000000000000000000010100  原碼
//11111111111111111111111111101011  反碼
//11111111111111111111111111101100  二補數
//10
//00000000000000000000000000001010  原反補
//i+j
//11111111111111111111111111110110  二補數
//11111111111111111111111111110101  反碼
//10000000000000000000000000001010  原碼  -10
printf("%dn", i+j);
//按照二補數的形式進行運算,最後格式化成為有符號整數
5.
unsigned int i;
for(i = 9; i >= 0; i--)//i為無符號數恆大於0,條件恆成立,死迴圈
{
    printf("%un",i);
}
6.
int main()
{
    char a[1000];
    int i;
    for(i=0; i<1000; i++)
    {
        a[i] = -1-i;//a[0]=-1,且陣列中資料型別為char,範圍是-128到127
    }
    printf("%d",strlen(a));//strlen遇到''(0)就停止計數,而這裡陣列的第256個元素a[255]=0
    return 0;              //所以這裡輸出255
}
7.
#include <stdio.h>
unsigned char i = 0;
int main()
{
    for(i = 0;i<=255;i++)//i為無符號數且為char型別,i<=255恆成立,死迴圈
    {
        printf("hello worldn");
    }
    return 0;
}

浮點型在記憶體中的儲存

常見的浮點數:

3.14159 1E10 浮點數家族包括: float、double、long double 型別。 浮點數表示的範圍:float.h中定義。

浮點數儲存的例子:

int main()
{
    int n = 9;
    float *pFloat = (float *)&n;
    printf("n的值為:%dn",n);
    printf("*pFloat的值為:%fn",*pFloat);
    *pFloat = 9.0;
    printf("num的值為:%dn",n);
    printf("*pFloat的值為:%fn",*pFloat);
    return 0;
} 

輸出的結果是什麼呢?

num 和 *pFloat 在記憶體中明明是同一個數,為什麼浮點數和整數的解讀結果會差別這麼大? 要理解這個結果,一定要搞懂浮點數在計算機內部的表示方法。

根據國際標準IEEE(電氣和電子工程協會) 754,任意一個二進位制浮點數V可以表示成下面的形式:

  • (-1)^S * M * 2^E
  • (-1)^s表示符號位,當s=0,V為正數;當s=1,V為負數。
  • M表示有效數位,大於等於1,小於2。
  • 2^E表示指數位。

舉例來說:

十進位制的5.0,寫成二進位制是 101.0 ,相當於 1.01×2^2 。 那麼,按照上面V的格式,可以得出s=0,M=1.01,E=2。

十進位制的-5.0,寫成二進位制是 -101.0 ,相當於 -1.01×2^2 。那麼,s=1,M=1.01,E=2

注意:有些數位可能不能精確表示,例如0.3

IEEE 754規定: 對於32位元的浮點數,最高的1位是符號位s,接著的8位元是指數E,剩下的23位為有效數位M。

對於64位元的浮點數,最高的1位是符號位S,接著的11位是指數E,剩下的52位為有效數位M。

IEEE 754對有效數位M和指數E,還有一些特別規定。 前面說過, 1≤M<2 ,也就是說,M可以寫成 1.xxxxxx 的形式,其中xxxxxx表示小數部分。

IEEE 754規定,在計算機內部儲存M時,預設這個數的第一位總是1,因此可以被捨去,只儲存後面的xxxxxx部分。比如儲存1.01的時候,只儲存01,等到讀取的時候,再把第一位的1加上去。這樣做的目的,是節省1位有效數位。以32位元浮點數為例,留給M只有23位,將第一位的1捨去以後,等於可以儲存24位元有效數位。

至於指數E,情況就比較複雜。

首先,E為一個無符號整數(unsigned int) 這意味著,如果E為8位元,它的取值範圍為0~255;如果E為11位,它的取值範圍為0~2047。但是,我們知道,科學計數法中的E是可以出現負數的,所以IEEE 754規定,存入記憶體時E的真實值必須再加上一個中間數,對於8位元的E,這個中間數是127;對於11位的E,這個中間數是1023。比如,2^10的E是10,所以儲存成32位元浮點數時,必須儲存成10+127=137,即10001001。

例如:

int main()
{
	float f = 5.5f;
	//101.1
	//科學計數法:(-1)^0*1.011*2^2
	//S=0
	//M=1.011
	//E=2  +127儲存
	//二進位制表示:0 10000001 01100000000000000000000
	//十六進位制:  40 B0 00 00
	return 0;
}

其中我們可以看出浮點數在記憶體中的儲存,也是有大小端的。

然後,指數E從記憶體中取出還可以再分成三種情況:

E不全為0或不全為1

這時,浮點數就採用下面的規則表示,即指數E的計算值減去127(或1023),得到真實值,再將有效數位M前加上第一位的1。 比如: 0.5(1/2)的二進位制形式為0.1,由於規定正數部分必須為1,即將小數點右移1位,則為1.0*2^(-1),其階碼為-1+127=126,表示為01111110,而尾數1.0去掉整數部分為0,補齊0到23位00000000000000000000000,則其二進位制表示形式為:

0 01111110 00000000000000000000000

E全為0

這時,浮點數的指數E等於1-127(或者1-1023)即為真實值, 有效數位M不再加上第一位的1,而是還原為0.xxxxxx的小數。這樣做是為了表示±0,以及接近於0的很小的數位。

E全為1

這時,如果有效數位M全為0,表示±無窮大(正負取決於符號位s);

最後來解釋一下前面的題:

int main()
{
    int n = 9;
    //000000000000000000000000000001001
    float* pFloat = (float*)&n;
    //將整形9的二進位制位轉化為浮點型,S=0,E為全0,所以可以表示近似為0
    printf("n的值為:%dn", n);
    printf("*pFloat的值為:%fn", *pFloat);
    *pFloat = 9.0;
    //1001.0
    //S=0,E=130(3+127),M=1001
    //9.0在記憶體中的二進位制:01000001000100000000000000000000
    printf("num的值為:%dn", n);//這裡列印的n是以9.0在記憶體中的二進位制位以整形列印,所以結果不是9.0
    printf("*pFloat的值為:%fn", *pFloat);
    return 0;
}

總結

本篇文章就到這裡了,希望能給你帶來幫助,也希望您能夠多多關注it145.com的更多內容!


IT145.com E-mail:sddin#qq.com