A Method for Constructing GC Constant Weight DNA Codes
-
摘要: GC重量是DNA码的一个重要参数,如何构造满足GC常重量约束的DNA码是一个有趣的问题。该文通过在DNA码与四元码之间建立一个双射,将构造满足GC常重量约束的DNA码转化为构造GC常重量四元码。通过代数的方法,构造了3类满足GC常重量约束的DNA码。Abstract: GC weight is an important parameter of DNA code, and how to meet GC constant weight constraint DNA code is an interesting problem. In this paper, by establishing a bijection between DNA code and quaternion code, the DNA code that satisfies the GC constant weight constraint is converted into a GC constant weight quaternary code. Through the algebraic method, three types of DNA codes that meet the constant weight constraints of GC are constructed.
-
Key words:
- Quaternary code /
- DNA code /
- GC weight
-
1. 引言
脱氧核糖核酸(DNA)是一种长链聚合物。通常DNA是由两条DNA链反向平行盘绕构成,具有双螺旋结构。每条DNA链的组成单元为
4 种脱氧核苷酸,即腺嘌呤脱氧核苷酸A ,胸腺嘧啶脱氧核苷酸T ,胞嘧啶脱氧核苷酸G ,鸟嘧啶脱氧核苷酸C 。两条DNA链按照Watson-Crick模型链接:A 与T 相连,C 与G 相连,这种配对是反向平行的。设Ξ={A,G,T,C} ,定义Ξn={(c0,c1,···,cn−1): c0,c1,···,cn−1∈Ξ} ,其中n 是一个正整数。设a∈Ξ ,与a 配对的元素称为a 的补,记作ˉa ,即¯A=T ,¯C=G ,¯T=A ,¯G=C 。对于
Ξn 中的每个n− 元组x=(x0,x1,···,xn−1) ,定义x 的补、倒换和倒换补分别为ˉx=(ˉx0,ˉx1,···,ˉxn−1) ,xr=(xn−1,xn−2,···,x0) 和ˉxr=(ˉxn−1,ˉxn−2,···,ˉx0) 。因此,对于一个长度为n 的DNA单链x ,与之配对的另一条DNA单链为ˉxr 。例如,设AGTTC 是一条DNA链,则它的补为TCAAG ,而与这条链配对的另外一条DNA链为GAACT 。基于DNA分子的特殊结构,Adleman[1]通过生化方法求解了
7 个顶点的哈密顿回路问题,显示了DNA计算的可行性和高效性。Ξn 的每个非空子集C 都叫做一个码长n 的DNA码。在DNA计算中,关键在于设计满足特定约束的DNA码。设d 是一个固定的整数,针对特定的目的,通常考虑如下约束:(1) 汉明距离约束:对任意
x=(x0,x1,···,xn−1), y=(y0,y1,···,yn−1)∈C 且x≠y ,|{i:xi≠yi,0≤ i≤n−1}|=:d(x,y)≥d ;(2) 倒换约束:对任意
x,y∈C ,d(xr,y)≥d ;(3) 倒换补约束:对任意
x,y∈C ,d(ˉxr,y)≥d ;(4) GC常重量约束:码
C 中的每个码字含有G 和C 的总位数是一个常值。前
3 个约束的目的是为了减少非特定配对的概率,GC常重量约束用于获得相似的熔化温度[2,3]。基于各种经典的线性码,学者们构造了满足各种特定约束的DNA码。文献[4]利用域
F4 上的循环码构造了满足倒换约束的DNA码。随后,通过加性和线性的四元码,构造了满足各种约束的DNA码[5],特别地,以四元汉明码和Z4 Kerdock码为工具构造了两类满足GC常重量约束的DNA码。文献[6]用域F4 上的循环码构造了满足倒换补约束的DNA码,并获得了一些参数好的DNA码,自此,循环DNA码受到学者们的关注。学者们进一步研究了环F2[u]/(u2−1) 上的循环码并构造了满足倒换补约束的DNA码[7],同时,基于擦除距离,研究了满足GC常重量约束的循环DNA码。文献[8]基于环F2[u]/(u2) 研究了长度为奇数的循环码,构造了满足各种约束的DNA码。文献[9]将文献[8]的结果推广到一般情形,构造了任意长度的满足各种约束的DNA码。对于满足倒换约束和倒换补约束的任意长度的循环DNA码的结构,文献[10]利用Gray映射进行了研究。Dinh等人[11]建立了多项式环F2[u,v]/ (u2,v3=v) 中元素与64 密码子之间的联系,从而构造了满足倒换约束和倒换补约束的DNA码。接着Shi等人[12]研究了环F2[u,v]/(u3,v2=v,uv−vu) 上循环DNA码的结构,Singh等人[13]研究了一类64元环上的循环码的对偶码,并由此构造了DNA码。目前,满足GC常重量约束的DNA码的研究相对较少。2017年Oztas等人[14]基于不可约循环码构造了一类满足GC常重量约束的DNA码,受此启发,本文通过可约循环码构造满足GC常重量约束的DNA码。2. 预备知识
设
F4={0,1,ω,ˉω} 是4 元有限域,其中ˉω=ω2= ω+1 。设Fn4 是F4 上的n 维行向量空间,其中,n 是一个正奇数。向量空间Fn4 的每个非空子集C 都称为一个码长n 的四元码。对于任意的a∈F4 和向量x=(x0,x1,···,xn−1)∈Fn4 ,定义Na(x):=|{i:xi=a,0≤i≤n−1}| (1) 码
C 的最小汉明距离定义为d(C)=n−max{N0(x−y):x,y∈C,x≠y} (2) 向量
x 的GC重量定义为NGC(x)=Nω(x)+Nˉω(x) (3) 码
C 的GC重量分布定义为N(C)={NGC(x): x∈C} 。如果N(C) 只有一个值,则称C 为GC常重量码。用(n,M,d1,d2) 表示一个码长为n 码字个数为M 最小汉明距离为d1 GC重量为d2 的GC常重量码。定义映射φ:F4→Ξ ,0↦A ,ω↦C ,ˉω↦G 且1↦T 。将映射φ 延拓可得Φ:Fn4→Ξn,(c0,c1,···,cn−1)↦(φ(c0),φ(c1),···,φ(cn−1)) (4) 显然,映射
Φ 是一个双射。设C 是一个码长为n 的四元码,定义Φ(C)={Φ(c):c∈C} ,则Φ(C) 是一个码长为n 的DNA码。如果码C 是一个码长为n 的GC常重量码,由Φ 的定义,Φ(C) 是一个满足GC常重量约束的DNA码。于是构造满足GC常重量约束的DNA码等价于构造一个GC常重量码。设
C 是一个码长n 的四元码,如果C 是Fn4 的线性子空间,则称C 是一个码长n 的四元线性码。四元线性码C 中,对任意(c0,c1,···,cn−1)∈C ,有(cn−1,c0,c1,···,cn−2)∈C ,称四元线性码C 为循环码。设R=F4[x]/(xn−1) 表示多项式环F4[x] 关于理想(xn−1) 的商环,则环R 是一个主理想环。定义映射ϕ:Fn4→R ,(c0,c1,···,cn−1)↦c0+c1x+···+ cn−1xn−1 ,则码C 是一个码长n 的四元循环码当且仅当ϕ(C) 是环R 的理想,其中ϕ(C) 表示码C 在映射ϕ 下的像。在不引起混淆的情况下,本文不区分C 与ϕ(C) 。由于R 是主理想环,所以存在g(x)∈F4[x] 使得C=(g(x)) 且g(x)|(xn−1) 。通常,g(x) 称为C 的生成多项式,h(x)=(xn−1)/g(x) 称为C 的校验多项式。如果h(x) 是不可约的,则称C 为不可约循环码,如果h(x) 是可约的,则称C 为可约循环码。设
m 是一个正整数,用F4m 表示域F4 的m 次扩域。域F4m 到域F4 的迹函数定义为Trm2(x)=x+x4+ ···+x4m−1 ,对任意的x∈F4m 。可以验证,Trm2 是一个F4m− 线性映射。类似地,域F4m 到域F2 的绝对迹定义为Trm1(x)=x+x2+···+x2m−1 。关于迹函数的更多性质可参阅文献[15]。设g 是域F4m 的一个本原元,t 是一个正整数,s 是使得t4s≡t(od4m−1) (5) 成立的最小正整数,显然,
s 整除m 。定义码
C={c(a,b)=(c0(a,b),c1(a,b),···,c4m−2 (a,b)):a∈F4s,b∈F4m} ,其中cl(a,b)=Trs2(aglt)+ Trm2(bgl) ,0≤l≤4m−2 ,则C 是一个码长为4m−1 维数为m+s 的四元可约循环码。下文通过码C 构造3 类码长为n 的GC常重量码,并由此构造3 类满足GC常重量约束的DNA码。3. 主要结果
情形1
t=0 ,即s=1 ,定义˜C={c(a,b)= (c0(a,b),c1(a,b),···,c4m−2(a,b)):a∈{0,1} ,b∈F∗4m} 则码˜C 的参数如下。定理1 码
˜C 是一个参数为(4m−1,2(4m−1), 3×4m−1−1,22m−1) 的GC常重量码。证明 码长和码字的个数是显然的。下面讨论码
˜C 的最小汉明距离和GC重量。由定义,码˜C 的最小汉明距离为4m−1−max{N0(c(a,b)−c(a′,b′)):(a,b)≠(a′,b′)} (6) 其中
a,a′∈{0,1},b,b′∈F∗4m 。对任意的a∈{0,1} ,b∈F∗4m 和β∈F4 ,定义Ta,b(β)=|{l:a+Trm2(bgl)=β,0≤l≤4m−2}|=|{x∈F∗4m:Trm2(bx)=β−a}| (7) 因为
c(a,b)−c(a′,b′)=c(a−a′,b−b′) ,所以N0(c(a,b)−c(a′,b′))=Ta−a′,b−b′(0) 。当
b≠0 时,Ta,b(β)=|{x∈F∗4m:Trm2(x)= β−a}| 。由于Trm2 是F4m 到F4 的4m−1 对1的满映射,故当β≠a 时,Ta,b(β)=4m−1 ;当β=a 时,Ta,b(β)= 4m−1−1 。由此推出,max{N0(c(a,b)−c(a′,b′)):(a,b)≠(a′,b′)}=4m−1 (8) 即码
˜C 的最小汉明距离为3×4m−1−1 。接下来,证明码
˜C 的GC重量为22m−1 。对任意b∈F∗4m ,由GC重量的定义,NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b))=Ta,b(ω)+Ta,b(ˉω)=4m−1+4m−1 (9) 综上所述,结论成立。 证毕
情形2
m≥4 是一个偶数且t=2m+1 。容易验证,s=m/2 。对任意的α∈F4 ,设Lα={(a,b):a∈F∗2m,b∈F4m,Trm/22(a−1b2m+1)=α} (10) 显然
{(a,b):a∈F∗2m,b∈F4m}=L0∪L1∪Lω∪Lˉω 。定义⌢C1={c(a,b):(a,b)∈L0∪L1}和⌢C2={c(a,b):(a,b)∈Lω∪Lˉω} (11) 下面,证明码
⌢C1 和⌢C2 是GC常重量码。为此,首先给出两个必要的引理。引理1 设
Lα 定义如上,则|Lα|={(4m−1)2m−2, α∈F∗4(4m−2m+2+3)2m−2, α=0 (12) 证明 对任意的
β∈F4m/2 ,令Mα={x∈F4m: x2m+1=β} 。显然|M0|=1 。当β≠0 时,容易验证,x2m+1 是F∗4m 到F∗4m/2 的2m+1 对1 满映射,故|Mβ|=2m+1 。又因为Trm/22 是F4m/2 到F4 的2m−2 对1满映射,于是当α≠0 时,|Lα|=|{(a,b)∈F∗2m×F4m:Trm/22(β)=α,a−1b2m+1=β}|=(2m−1)(2m+1)2m−2 (13) 当
α=0 时,|Lα|=|{(a,b)∈F∗2m×F4m:Trm/22(β)=0,a−1b2m+1=β≠0}|+|{(a,b)∈F∗2m×F4m:a−1b2m+1=0}|=(2m−1)(2m+1)(2m−2−1)+(2m−1)=(22m−2m+2+3)2m−2 (14) 综上所述,结论成立。 证毕
引理2 设
a∈F∗2m 和b∈F4m ,则S(a,b)=∑x∈F4m(−1)Trm/21(ax2m+1)+Trm1(bx)=−2m(−1)Trm/21(a−1b2m+1) (15) 证明 首先,
x2m+1 是F∗4m 到F∗2m 的2m+1 对1满映射,所以,S(a,0)=∑x∈F4m(−1)Trm/21(ax2m+1)=1+∑x∈F∗4m(−1)Trm/21(ax2m+1)=1+(2m+1)∑x∈F∗2m(−1)Trm/21(ax)=1+(2m+1)(−1)=−2m (16) 接下来,计算
S(a,b)S(a,0)=∑z∈F4m(−1)Trm/21(az2m+1)+Trm1(bz)∑y∈F4m(−1)Trm/21(ay2m+1)=∑x,y∈F4m(−1)Trm/21(a[(x+y)2m+1+y2m+1])+Trm1(b(x+y))=∑x∈F4m(−1)Trm/21(ax2m+1)+Trm1(bx)∑y∈F4m(−1)Trm1((ax2m+b)y)=4m∑x∈F4m,x2m=a−1b(−1)Trm/21(ax2m+1)+Trm1(bx)=4m(−1)Trm/21(a−1b2m+1) (17) 因此,
S(a,b)=−2m(−1)Trm/21(a−1b2m+1) 。 证毕定理2 (1) 码
⌢C1 是一个参数为(4m−1,(4m− 2m+1+1)2m−1,3×4m−1−2m−2,2(4m−1+2m−2)) 的GC常重量码。(2) 码
⌢C2 是一个参数为(4m−1,(4m−1)2m−1, 3×4m−1−2m−2,2(4m−1−2m−2)) 的GC常重量码。证明 下面证明定理2(1)成立。定理2(2)的证明是类似的,略去。
由引理1和
⌢C1 的定义知,|⌢C1|=|L0|+|L1|= (4m−2m+1+1)2m−1 。下面讨论码⌢C1 的最小汉明距离和GC重量。由定义,码⌢C1 的最小汉明距离为4m−1−max{N0(c(a,b)−c(a′,b′)):(a,b)≠(a′,b′)∈L0∪L1} (18) 因为,
c(a,b)−c(a′,b′)=c(a−a′,b−b′) ,所以N0(c(a,b)−c(a′,b′))=N0(c(a−a′,b−b′))=|{x∈F∗4m:Trm/22((a−a′)x2m+1)+Trm2((b−b′)x)=0}| (19) 由特征的正交关系[15],
N0(c(a,b)−c(a′,b′))=∑x∈F∗4m14∑y∈F4(−1)Tr(yTrm/22((a−a′)x2m+1)+yTrm2((b−b′)x))=−1+∑x∈F4m14⋅∑y∈F4(−1)Trm/21((a−a′)yx2m+1)+Trm1((b−b′)yx)=4m−1−1+14⋅∑y∈F∗4∑x∈F4m(−1)Trm/21((a−a′)yx2m+1)+Trm2((b−b′)yx) (20) 其中
Tr 表示F4 到F2 的迹映射。当
a−a′=0 ,b−b′≠0 ,N0(c(a,b)−c(a′,b′))= 4m−1−1 。当
a−a′≠0 ,由引理2,N0(c(a,b)−c(a′,b′))=4m−1−1−2m−2⋅∑y∈F∗4(−1)Trm/21((a−a′)−1(b−b′)2m+1y2m)=4m−1−1−2m−2⋅∑y∈F∗4(−1)Tr(y(Trm/22(a−a′)−1(b−b′)2m+1))) (21) 所以,
N0(c(a,b)−c(a′,b′))={4m−1−1+2m−2,Trm/22((a−a′)−1(b−b′)2m+1)≠04m−1−1−3×2m−1,Trm/22((a−a′)−1(b−b′)2m+1)=0 (22) 注意当
(a,b)≠(a′,b′)∈Lα 时,(a,b)−(a′,b′) 取遍F2m×F4m 中非零元,故码⌢C1 的最小汉明距离为3×4m−1−2m−2 。由GC重量的定义得
NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b)) (23) 对任意的
β∈F∗4 ,Nβ(c(a,b))=|{x∈F∗4m: Trm/22(ax2m+1)+Trm2(bx)=β}| 。由于a∈F∗2m 和b∈F4m ,则4Nβ(c(a,b))=∑x∈F∗4m∑y∈F4(−1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)−β])=∑x∈F4m∑y∈F4(−1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)−β])=4m+∑x∈F4m∑y∈F∗4(−1)Tr(y[Trm/22(ax2m+1)+Trm2(bx)−β])=4m+∑y∈F∗4(−1)Tr(βy)⋅∑x∈F4m(−1)Tr1m/2(ayx2m+1)+Tr1m(byx) (24) 由引理1
4Nβ(c(a,b))=4m−2m∑y∈F∗4(−1)Tr(βy)(−1)Trm2(a−1b2m+1y)=4m−2m∑y∈F∗4(−1)Tr(βy)(−1)Tr(yTrm2(a−1b2m+1)) (25) 由于
(a,b)∈Lα ,所以4Nβ(c(a,b))=4m−2m∑y∈F∗4(−1)Tr((α−β)y) (26) 即
Nβ(c(a,b))={4m−1−3×2m−2, β=α4m−1+2m−2, β≠α (27) 由此推出,当
(a,b)∈L0∪L1 时,NGC(c(a,b))=Nω(c(a,b))+Nˉω(c(a,b))=2(4m−1+2m−2) (28) 综上所述,结论成立。 证毕
由定理1和定理2,得出如下推论。
推论 (1) 设
m 是一个正整数,则存在参数为(4m−1,2(4m−1),3×4m−1−1,22m−1) 且满足GC常重量约束的DNA码。(2) 设
m 为偶数,且m≥4 ,则存在参数为(4m−1, (4m−2m+1+1)2m−1,3×4m−1−2m−2 ,2(4m−1+ 2m−2)) 的满足GC常重量约束的DNA码。(3)设
m≥4 是偶数,则存在参数为(4m−1, (4m−1)2m−1,3×4m−1−2m−2 ,2(4m−1−2m−2)) 的满足GC常重量约束的DNA码。4. 结束语
本文基于四元可约的循环码构造了
3 类满足GC常重量的DNA码。通过建立四元码和DNA码的一个对应关系,将构造满足GC常重量约束的DNA码转化为构造四元GC常重量码。利用循环码的迹表示,选取循环码的特定子码,构造了3 类四元GC常重量码,由此获得3 类满足GC常重量约束的DNA码。 -
ADLEMAN L M. Molecular computation of solutions to combinatorial problems[J]. Science, 1994, 266(5187): 1021–1024. doi: 10.1126/science.7973651 FRUTOS A G, LIU Qinghua, THIEL A J, et al. Demonstration of a word design strategy for DNA computing on surfaces[J]. Nucleic Acids Research, 1997, 25(23): 4748–4757. doi: 10.1093/nar/25.23.4748 MARATHE A, CONDON A E, and CORN R M. On combinatorial DNA word design[J]. Journal of Computational Biology, 2001, 8(3): 201–220. doi: 10.1089/10665270152530818 RYKO V V, MACULA A J, TORNEY D C, et al. DNA sequences and quaternary cyclic codes[C]. 2001 IEEE International Symposium on Information. Washington, USA, 2001: 248–248. GABORIT P and KING O D. Linear constructions for DNA codes[J]. Theoretical Computer Science, 2005, 334(1/3): 99–113. doi: 10.1016/j.tcs.2004.11.004 ABUALRUB T, GHRAYEB A, and ZENG Xiangnian. Construction of cyclic codes over GF(4) for DNA computing[J]. Journal of the Franklin Institute, 2006, 343(4/5): 448–457. doi: 10.1016/j.jfranklin.2006.02.009 SIAP I, ABUALRUB T, and GHRAYEB A. Cyclic DNA codes over the ring F2[u]/(u2−1) based on the deletion distance[J]. Journal of the Franklin Institute, 2009, 346(8): 731–740. doi: 10.1016/j.jfranklin.2009.07.002GUENDA K and GULLIVER T A. Construction of cyclic codes over F2+uF2 for DNA computing[J]. Applicable Algebra in Engineering, Communication and Computing, 2013, 24(6): 445–459. doi: 10.1007/s00200-013-0188-xLIANG Jing and WANG Liqi. On cyclic DNA codes over F2+uF2 [J]. Journal of Applied Mathematics and Computing, 2016, 51(1/2): 81–91. doi: 10.1007/s12190-015-0892-8ZHU Shixin and CHEN Xiaojing. Cyclic DNA codes over F2+uF2+vF2+uvF2 and their applications[J]. Journal of Applied Mathematics and Computing, 2017, 55(1/2): 479–493. doi: 10.1007/s12190-016-1046-3DINH H Q, SINGH A K, PATTANAYAK S, et al. Cyclic DNA codes over the ring F2+uF2+vF2+uvF2+ v2F2+uv2F2 [J]. Designs, Codes and Cryptography, 2018, 86(7): 1451–1467. doi: 10.1007/s10623-017-0405-xSHI Minjia and LU Yaqi. Cyclic DNA codes over F2[u,v]/<u3,v2−v,vu−uv> [J]. Advances in Mathematics of Communications, 2019, 13(1): 157–164. doi: 10.3934/amc.2019009SINGH A K, KUMAR N, MISHRA P, et al. Construction of dual cyclic codes over F2[u,v]/⟨u2,v2−v,uv−vu⟩ for DNA Computation[J]. Defence Science Journal, 2018, 68(5): 467–472. doi: 10.14429/dsj.68.12344OZTAS E S, YILDIZ B, and SIAP I. A novel approach for constructing reversible codes and applications to DNA codes over the ring F2[u]/<u2k−1> [J]. Finite Fields and Their Applications, 2017, 46: 217–234. doi: 10.1016/j.ffa.2017.04.001LIDL R and NIEDERREITE H. Finite Fields[M]. New York: Addison-Wesley Publishing Company, 1983. 期刊类型引用(4)
1. 杨小平,倪萍,诸葛天秋,罗跃新,郭春雨,庞月兰,吴雨婷. 基于机器学习的茶树DNA聚类算法. 广西大学学报(自然科学版). 2024(02): 386-399 . 百度学术
2. 柳娟,谢文彬,汪改英,汤敏丽. 基于DNA和限制性核酸内切酶的基本逻辑门设计. 电子与信息学报. 2020(06): 1332-1339 . 本站查看
3. 牛莹,张勋才. 基于变步长约瑟夫遍历和DNA动态编码的图像加密算法. 电子与信息学报. 2020(06): 1383-1391 . 本站查看
4. 孙军伟,李智,王延峰. 基于DNA链置换的三级联组合分子逻辑电路设计. 电子与信息学报. 2020(06): 1401-1409 . 本站查看
其他类型引用(0)
-
计量
- 文章访问数: 2148
- HTML全文浏览量: 868
- PDF下载量: 56
- 被引次数: 4