根据MEGA说明书,该软件处理的序列(不论核酸、蛋白)应当为一样长度,所以在分析之前必须对序列进行联配(align)。
如果序列长度差异在在内部,即存在插入/缺失(insert/deletion),联配后短序列中缺失的部分会自动以连字符(dash)填充;若序列长度差异在两端,则联配后须要手动将序列修剪齐平(trim)。
联配(align),传统上使用 Clustal 来完成,不过 MEGA 已经集成了该功能,所以我几乎就不用 Clustal 了。
经 MEGA 联配的一组序列默认保存为 .mas 格式文件,此格式为 MEGA 联配序列专用,可编辑,包括进行序列修平(trim),即选中多于的部分按Delete键删除。当保存完 .mas 格式文件退出 MEGA 时,程序会提示用户是否保存 .meg 格式文件,这是 MEGA 做进化分析的专用文件格式,一旦保存,程序本身不再提供对该文件的修改——当然,用记事本可以打开该文件,但相信几乎没人会在记事本中编辑序列吧。所以,如果对联配结果不满意(问题基本上出在对插入/缺失位点核苷酸的对齐上),可以用MEGA打开 .mas 格式文件,手工微调、修正后重新保存为 .meg 格式文件,然后再作进一步分析:基本多态统计、遗传距离、建树等。
经以上处理过的序列长度一致,就不会报错了