Web-CGI通用网管接口

CGI (通用网关接口)

公共网关接口（Common Gateway Interface，CGI）是Web 服务器运行时外部程序的规范，按CGI 编写的程序可以扩展服务器功能。CGI 应用程序能与浏览器进行交互，还可通过数据API与数据库服务器等外部数据源进行通信，从数据库服务器中获取数据。格式化为HTML文档后，发送给浏览器，也可以将从浏览器获得的数据放到数据库中。几乎所有服务器都支持CGI，可用任何语言编写CGI，包括流行的C、C ++、Java、VB 和Delphi 等。CGI分为标准CGI和间接CGI两种。标准CGI使用命令行参数或环境变量表示服务器的详细请求，服务器与浏览器通信采用标准输入输出方式。间接CGI又称缓冲CGI，在CGI程序和CGI接口之间插入一个缓冲程序，缓冲程序与CGI接口间用标准输入输出进行通信 [1] 。

cgiarch

简介

CGI（Common Gateway Interface）公共网关接口，是外部扩展应用程序与 Web 服务器交互的一个标准接口。服务器端与客户端进行交互的常见方式多，CGI 技术就是其中之一。根据CGI标准，编写外部扩展应用程序，可以对客户端浏览器输入的数据进行处理，完成客户端与服务器的交互操作。CGI规范定义了Web服务器如何向扩展应用程序发送消息，在收到扩展应用程序的信息后又如何进行处理等内容。对于许多静态的HTML网页无法实现的功能，通过 CGI可以实现，比如表单的处理、对数据库的访问、搜索引擎、基于Web的数据库访问等等。使用CGI实现客户端与服务器的交互有以下几个标准步骤，具体步骤如下：

（1）Web 客户端的浏览器将URL的第一部分解码与Web服务器相连。

（2）Web 浏览器将URL的其余部分提供给服务器。

（3）Web 服务器将URL转换成路径和文件名。

（4）Web 服务器发送 HTML 和别的组成请求页面的文件给客户。一旦页面内容传送完，

这个连接自动断开。

（5）在客户端，HTML脚本提示用户做动作或输入。当用户响应后，客户请求Web服务器建立一个新的连接。

（6）Web 服务器把这些信息和别的进程变量传送给由HTML以URL的形式指定CGI程序。

（7）CGI 根据输入作出响应，把响应结果传送给 Web 服务器。

（8）Web 服务器把响应的数据传给客户，完成后关闭连接。 [2]

一．基本原理

CGI：通用网关接口（Common Gateway Interface）是一个Web服务器主机提供信息服务的标准接口。通过CGI接口，Web服务器就能够获取客户端提交的信息，转交给服务器端的CGI程序进行处理，最后返回结果给客户端。

组成CGI通信系统的是两部分：一部分是html页面，就是在用户端浏览器上显示的页面。另一部分则是运行在服务器上的Cgi程序。它们之间的通讯方式如下图：

服务器和客户端之间的通信，是客户端的浏览器和服务器端的http服务器之间的HTTP通信，我们只需要知道浏览器请求执行服务器上哪个CGI程序就可以了，其他不必深究细节，因为这些过程不需要程序员去操作。

服务器和CGI程序之间的通讯才是我们关注的。一般情况下，服务器和CGI程序之间是通过标准输入输出来进行数据传递的，而这个过程需要环境变量的协作方可实现。

1. 服务器将URL指向一个应用程序

2. 服务器为应用程序执行做准备

3. 应用程序执行，读取标准输入和有关环境变量

4. 应用程序进行标准输出

对于Windows系统而言，还可以通过profile文件进行数据传输（如ini文件），但在这里不做研究。环境变量在CGI中有着重要的地位！每个CGI程序只能处理一个用户请求，所以在激活一个CGI程序进程时也创建了属于该进程的环境变量。

二．环境变量

对于CGI程序来说，它继承了系统的环境变量。CGI环境变量在CGI程序启动时初始化，在结束时销毁。

当一个CGI程序不是被HTTP服务器调用时，它的环境变量几乎是系统环境变量的复制。当这个CGI程序被HTTP服务器调用时，它的环境变量就会多了以下关于HTTP服务器、客户端、CGI传输过程等项目。

CONTENT_TYPE:如application/x-www-form-urlencoded，表示数据来自HTML表单，并且经过了URL编码。

ACCEPT:客户机所支持的MIME类型清单，内容如：”image/gif,image/jpeg”

REQUEST_METHOD：它的值一般包括两种:POST和GET，但我们写CGI程序时，最后还要考虑其他的情况。

1．POST方法
如果采用POST方法，那么客户端来的用户数据将存放在CGI进程的标准输入中，同时将用户数据的长度赋予环境变量中的CONTENT_LENGTH。客户端用POST方式发送数据有一个相应的MIME类型（通用Internet邮件扩充服务：Multi-purpose Internet Mail Extensions）。目前，MIME类型一般是：application/x-wwww-form-urlencoded，该类型表示数据来自HTML表单。该类型记录在环境变量CONTENT_TYPE中，CGI程序应该检查该变量的值。

2．GET方法
在该方法下，CGI程序无法直接从服务器的标准输入中获取数据，因为服务器把它从标准输入接收到得数据编码到环境变量QUERY_STRING（或PATH_INFO）。

GET与POST的区别：采用GET方法提交HTML表单数据的时候，客户机将把这些数据附加到由ACTION标记命名的URL的末尾，用一个包括把经过URL编码后的信息与CGI程序的名字分开：http://www.mycorp.com/hello.html？name=hgq$id=1，QUERY_STRING的值为name=hgq&id=1

有些程序员不愿意采用GET方法，因为在他们看来，把动态信息附加在URL的末尾有违URL的出发点：URL作为一种标准用语，一般是用作网络资源的唯一定位标示。

环境变量是一个保存用户信息的内存区。当客户端的用户通过浏览器发出CGI请求时，服务器就寻找本地的相应CGI程序并执行它。在执行CGI程序的同时，服务器把该用户的信息保存到环境变量里。接下来，CGI程序的执行流程是这样的：查询与该CGI程序进程相应的环境变量：第一步是request_method，如果是POST，就从环境变量的len，然后到该进程相应的标准输入取出len长的数据。如果是GET，则用户数据就在环境变量的QUERY_STRING里。

3．POST与GET的区别
以 GET 方式接收的数据是有长度限制，而用 POST 方式接收的数据是没有长度限制的。并且，以 GET 方式发送数据，可以通过URL 的形式来发送，但 POST方式发送的数据必须要通过 Form 才到发送。

三．CGI程序实现步骤
1．从服务器获取数据
C语言实现代码：

#include <stdio.h>

#include <stdlib.h>

#include <string.h>


int get_inputs()

{

int length;

char *method;

char *inputstring;

method = getenv(“REQUEST_METHOD”); //将返回结果赋予指针

if(method == NULL)

    return 1;       //找不到环境变量REQUEST_METHOD

if(!strcmp(method, ”POST”))  // POST方法

{

    length = atoi(getenv(“CONTENT_LENGTH”)); //结果是字符，需要转换

    if(length != 0)

    {

        inputstring = malloc(sizeof(char)*length + 1) //必须申请缓存，因为stdin是不带缓存的。

        fread(inputstring, sizeof(char), length, stdin); //从标准输入读取一定数据

}

}

else if(!strcmp(method, “GET”))

{

    Inputstring = getenv(“QUERY_STRING”);   

    length = strlen(inputstring);

}

if(length == 0)

return 0;

}

Perl实现代码：

$method = $ENV{‘REQUEST_METHOD’};

if($method eq ‘POST’)

{

    Read(STDIN, $input, $ENV{‘CONTENT_LENGTH’});

}

if($method eq ‘GET’ || $method eq ‘HEAD’)

{

    $input = $ENV{‘QUERY_STRING’};

}

if($input eq “”)

{

&print_form;

exit;

}

PYTHON代码实现

#!/usr/local/bin/python

import cgi

def main():

form = cgi.FieldStorage()

Python代码实现更简单，cgi.FieldStorage()返回一个字典，字典的每一个key就是变量名，key对应的值就是变量名的值，更本无需用户再去进行数据解码！

获取环境变量的时候，如果先判断“REQUEST_METHOD”是否存在，程序会更健壮，否则在某些情况下可能会造成程序崩溃。因为假若CGI程序不是由服务器调用的，那么环境变量集里就没有与CGI相关的环境变量（如REQUEST_METHOD，REMOTE_ADDR等）添加进来，也就是说“getenv(“REQUEST_METHOD”)”将返回NULL！

2．URL编码

不管是POST还是GET方式，客户端浏览器发送给服务器的数据都不是原始的用户数据，而是经过URL编码的。此时，CGI的环境变量Content_type将被设置，如Content_type = application/x-www-form-urlencode就表示服务器收到的是经过URL编码的包含有HTML表单变量数据。

编码的基本规则是：

变量之间用“&”分开；

变量与其对应值用“=”连接；

空格用“+”代替；

保留的控制字符则用“%”连接对应的16禁止ASCII码代替；

某些具有特殊意义的字符也用“%”接对应的16进制ASCII码代替；

空格是非法字符；

任意不可打印的ASCII控制字符均为非法字符。

例如，假设3个HTML表单变量filename、e-mail和comments，它们的值对应分别为hello、mike@hotmail.com和I’ll bethere for you，则经过URL编码后应为：

1	filename=hello&e-mail=hello@hotmail.com&comments=I%27ll+be+there+for+you

所以，CGI程序从标准输入或环境变量中获取客户端数据后，还需要进行解码。解码的过程就是URL编码的逆变：根据“&”和“=”分离HTML表单变量，以及特殊字符的替换。

在解码方面：

PYTHON代码实现是最理想的，cgi.FieldStorage()函数在获取数据的同时就已自动进行代码转换了，无需程序员再进行额外的代码编写。Perl其次，因为在一个现成的Perl库：cgi-lib.pl中提供了ReadParse函数，用它来进行URL解码很简单：

1
2
3

require ‘cgi-lib.pl’;

&ReadParse(*input);

CGI数据输出方面：

CGI程序如何将信息处理结果返回给客户端？这实际上是CGI格式化输出。

在CGI程序中的标准输出stdout是经过重定义了的，它并没有在服务器上产生任何的输出内容，而是被重定向到客户浏览器，这与它是由C，还是Perl或Python实现无关。

所以，我们可以用打印来实现客户端新的HTML页面的生成。比如，C的printf是向该进程的标准输出发送数据，Perl和Python用print向该进程的标准输出发送数据。

（1） CGI标题

CGI的格式输出内容必须组织成标题/内容的形式。CGI标准规定了CGI程序可以使用的三个HTTP标题。标题必须占据第一行输出！而且必须随后带有一个空行

( 2 ) MIME：

向标准输出发送网页内容时要遵守MIME格式规则：

任意输出前面必须有一个用于定义MIME类型的输出内容（Content-type）行，而且随后还必须跟一个空行。如果遗漏了这一条，服务将会返回一个错误信息。（同样使用于其他标题）

例如Perl和Python：

print “Content-type:text/html\n\n”;   //输出HTML格式的数据

print “<body>welcome<br>”

print “</body>”

C语言：

1
2
3

printf( “Content-type:text/html\n\n”);

printf(“Welcome\n”);

MIME类型以类型/子类型（type/subtype）的形式表示。

其中type表示一下几种典型文件格式的一种：

Text、Audio、Video、Image、Application、Mutipart、Message

Subtype则用来描述具体所用的数据格式。

Location：

使用Location标题，一个CGI可以使当前用户转而访问同一服务器上的另外一个程序，甚至可以访问另外一个URL，但服务器对他们的处理方式不一样。

使用Location的格式为：Location：Filename/URL，例如：

       print “Location:/test.html\n\n”;

这与直接链接到test.html的效果是一样的。
print “Location:http://www.chinaunix.com/\n\n”

由于该URL并不指向当前服务器，用户浏览器并不会直接链接到指定的URL，而是给用户输出提示信息。

HTTP状态码：

表示了请求的结果状态，是CGI程序通过服务器用来通知用户其请求是否成功执行的信息码，本文不做研究。

就是获得getResponseCode(),一般值在0~200为正常，超过视为不正常或特殊意思

四．CGI中的信号量和文件锁

因为CGI程序时公用的，而WEB服务器都支持多进程运行，因此可能会发生同时有多个用户访问同一个CGI程序的情况。比如，有2个用户几乎同时访问同一个CGI程序，服务器为他们创建了2个CGI程序进程，设为进程A和进程B。假如进程A首先打开了某个文件，然后由于某种原因被挂起（一般是由于操作系统的进程调度）；而就在进程A被挂起的这段时间内，进程B完成了对文件的整个操作流程：打开，写入，关闭；进程A再继续往下执行，但进程A所操作的文件依旧是原来文件的就版本，此时进程A的操作结果将覆盖进程B的操作结果。

为了防止这种情况发生，需要用到文件锁或者信号量。

钥匙文件？

假如有多个不同的HTML可以调用同一个CGI程序，那么CGI程序如何区分它们呢？一个是通过隐含的INPUT标签。不过觉得这个比较麻烦，因为CGI必须经过一系列解码后才能找到这个隐含INPUT的变量和其值。

五．设置HTTP服务器以兼容CGI

用Perl编写的CGI程序后缀为：.pl；Python编写的CGI程序后缀为：.py；而C编写的CGI程序后缀为：.cgi，如果在win下编译出来的是.exe，最好将它重命名为.cgi。这些都是为了HTTP服务能够识别并调用它们。

当使用appche httpd服务器时

请编辑它的配置文件httpd.conf如下：

修改AddHandler cgi-script一句为AddHandler cgi-script .cgi .py.pl

在指定目录下添加.htaccess文件,内容如下:
1
Options +ExecCGI AddHandler cgi-script .sam

六．关于CGI的C语言库——cgihtml

Cgihtml是一个应用非常广泛的C语言编写的CGI库。它提供的功能函数如下：

Read_cgi_input()：获取并解析HTML表单输入，返回一个指向某结构体的指针

Cgi_val()：获取每个表单变量的值

Html_header():输出HTML标题栏

Html_begin():输出HTML文档的开始部分

H1():输出一行字符，字体为H1

Html_end():输出HTML文档的结尾部分。

#include “cgi-lib.h”

#include “html-lib.h”

#include “string-lib.h”