DNAベースのファイルシステムにより近いインチング

「DNAベースのファイルシステムにより近いインチング」 拡大する ハーバード大学

データストレージに関しては、アクセスを高速化する取り組み 注目のほとんど。 ただし、データの長期アーカイブは同等です 重要であり、通常は完全に異なるセットが必要です プロパティ。 これを正しくすることが重要である理由を理解するには、 最近復活したNASA衛星を 例-衛星のデータから何かを抽出するには 別のNASAミッションに時代遅れのテープドライブがあったという事実 衛星の通信ソフトウェアを読み取ることができます。

参考文献

NASAの確認:そのアンデッド衛星が稼働中

いくつかを受け取るためのより予想外の技術の一つ アーカイブストレージメディアとしての注目はDNAです。 それが DNAからのデータの保存と取得が非常に遅いため、 何万ものDNAから情報を引き出すことができます 歳。 そして、いくつかの印象的なデモンストレーションがありました オペレーティングシステムがDNAに保存されているようなアプローチ 215ペタバイト/グラムの密度。

しかし、その方法はDNAを組織化されていないビットの塊として扱いました。 いずれかのデータを取得するために、すべてをシーケンスする必要がありました。 さて、 研究者のチームは、次のようなものを追加する方法を見つけました 特定のデータへのランダムアクセスを許可するDNAストレージへのファイルシステ� DNAの大規模なコレクション内。 これをしながら、チームも 最近開発されたDNAシーケンシングの方法をテストしました。 コンパクトなUSBデバイスを使用して行います。

ランダム化

DNAは4つのベースの組み合わせとしてデータを保持するため、データを保存します そのためには、ビットをこのシステムに変換する方法が必要です。 一度 データのビットが変換され、小さな断片に切り分けられます (通常は100から150塩基の長さ)および両端間に挿入 コピーとシーケンスを簡単にします。 これらの端には データがストレージ全体のどこにあるかの情報 スキーム-つまり、これらは197〜300バイトです。

データを復元するには、すべてのDNAをシーケンスする必要があります。 位置情報が読み取られ、DNAシーケンスがデコードされます。 実際には、 が存在するため、DNAを数回配列決定する必要があります。 エラーとランダム性の程度は、 フラグメントはシーケンスされます。

データへのランダムアクセスを追加すると、 実行する必要があるシーケンスの量。 のではなく 1つのファイルを取得するためにアーカイブ全体をシーケンスし、 シーケンスははるかにターゲットを絞ることができます。 そして、結局のところ、 マイクロソフトリサーチと大学のコラボレーション ワシントンはこれを行う比較的簡単な方法を見つけました。

上記の短いフランキングDNAの間にデータが詰められていることに注意してください シーケンス。コピーとシーケンスが簡単になります。 がある の観点から法案に適合することができる多くの潜在的なシーケンス DNAを扱いやすくします。 特定された研究者 それらの数千。 これらのそれぞれを使用して、介在するタグを付けることができます 特定のファイルに属するものとしてデータを増幅できるようにする 大規模な混合物が存在する場合でも、個別にシーケンス 異なるファイルからのDNAの。 さらにファイルを保存したい場合は、 それぞれがいくつかを含むDNAの異なるプールを保持する必要があります 千ファイル(または数テラバイト)。 これらのプールを維持する 物理的に分離するには、約1平方ミリメートル スペース。

(これらのDNAシーケンシングタグをさらに多く持つことができますが、 しかし、著者は非常に生成するものだけを選択しました 一貫した増幅結果。)

また、チームは、 DNAストレージの問題。 多くのデジタルファイルには長い時間がかかります 同じビットのストレッチ(青い空や数秒の 音楽トラックでの静寂)。 残念ながら、DNAシーケンスは 同一のベースの長いランに直面したとき、チョーク エラーを生成するか、単に停止します。 これを避けるために、研究者は ランダムシーケンスを作成し、それを使用してビットフリッピングを行いました エンコードされるシーケンスとの操作(XOR)。 これは壊れます 同一のベースの長いランをアップし、最小限のリスクをもたらします 新しいものを作成します。

長い読み取り

この出版物のもう1つのニュースは、 スタッフィングを含む比較的新しいDNA配列決定技術 小さな細孔を通るDNAの鎖と、各塩基をそのまま読み取る 通過します。 このための技術は十分にコンパクトなので、 手のひらサイズのUSBデバイスで使用できます。 テクノロジーは かなりエラーが発生しやすいが、十分に改善されて最近になった ヒトゲノム全体の配列決定に使用されます。

参考文献

ヒトゲノム配列全体をスキャンするために使用されるポケットサイズのDNAリーダー

ナノポア技術にはエラーの問題がありますが、 はるかに長いDNAを扱う利点。 だから 作成者は保存されたデータを整理し、より少ない、より長い DNA分子とハードウェアのテストを行いました。

エラー率は驚くほど高く、約12% 彼らの測定。 これは、システムを適応させる必要があることを示唆しています 著者が準備したDNAサンプルを使用します。 それでも、 エラーはほとんどランダムであり、チームは特定し、 平均して、 各DNA配列は36回読み取られました。

そのため、ファイルシステムとコンパクトなリーダーに似たもので、 DNAベースのストレージが存在するポイントに近づいていますか 実用的? ではない正確に。 著者は、の問題を指摘している 容量。 DNAを合成する私たちの能力は驚くほど成長しました ペースですが、数十年前にはほとんど何もなかったので、 まだ比較的小さい。 DNAベースのドライブができると仮定すると 1秒あたり数KBを読むと、研究者はそれを計算します DNAのすべてのビットを読み取るのに約2週間しかかかりません 毎年合成できます。 言い換えると、私たちの能力 DNAを合成することは、実際に保存するまでには長い道のりがあります 多くのデータ。

Nature Biotechnology、2018. DOI:10.1038 / nbt.4079(約 DOI)。

Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: