首先在服务器端采用1+N的模型来安装和配置MySQL数据库。1就是一个master数据库,N就是一至多个slave数据库。master数据库必须启用binlog模式,关于这两种数据库的配置参见MySQL的文档。配置完成后就形成了一个1+N的复制集群,当对master进行修改时会自动把修改的数据更新到N个slave数据库上。但是有一个注意的是,所有的修改操作包括添加、删除、修改等语句必须作用在master数据库上,这样才能使数据可靠的复制到其他slave服务器上。另外,由于slave服务器只用作查询,因此选用MyISAM的存储引擎可以提高查询的速度。
而在客户端呢?如何使客户端程序能均衡的使用这些可用的服务器呢?而且更新操作只能对master进行处理。这个岂不是应用程序对数据库的操作逻辑非常的复杂?
其实没有那么复杂,MySQL为我们提供了接口可以将这些复杂的操作透明化。下面主要介绍采用JDBC的客户端如何工作在基于复制的集群环境中,其他编程语言请参照mysql的文档。
MySQL最新的JDBC驱动程序包中提供了一个驱动类就是 com.mysql.jdbc.ReplicationDriver 。这个驱动类允许在url中设置多个mysql主机地址,例如:
jdbc:mysql://master1,slave1,slave2/dlog?autoReconnect=true&roundRobinLoadBalance=true
在上面的url中,有三个主机地址分别是master1,slave1,slave2,其中ReplicationDriver 规定第一个主机是master主机地址,剩下的全部是slave主机。另外有两个参数必须指定为true,就是autoReconnect和roundRobinLoadBalance。
使用这个驱动和配置后还不能马上解决所有的问题,我们还需要对程序做一些小改动。
我们必须告诉驱动程序,哪些语句的执行是作用在master数据库,而哪些语句的执行作用在slave数据库上。
ReplicationDriver 是通过Connection对象的readOnly属性来判断该操作是否为更新操作。因此我们在执行一个sql语句的时候必须调用一下setReadOnly告诉驱动程序当前执行的操作是否是只读。如果你是使用hibernate操作数据库的,那可以调用Query.setReadOnly方法。
以上就是整个思路的大概描述,猜想肯定还有存在一些问题,例如因为数据的复制过程是异步的,也是说有可能执行了某个更新操作,但是查询的时候查不到的情况出现。当然这些问题只能在实际的过程中进行解决。
另外关于最新版本的MySQL 5.1有一个集群的功能,不过经过研究发现这个东西简直就是儿戏,实在搞不懂MySQL怎么会做这么不负责任的设计,因为这个特性要求数据库是整个load到内存中的,也就是说你的数据有多大,内存就得有多大,怎么说呢? 如果你真的内存足够大,你去试试吧,反正这种方案已经被我否决了,希望MySQL能改进一下。 |