科学研究を支えるデータは、科学的理解の進歩を促進するものです。 これらのデータセットは、今日の科学者が直面している最も差し迫った質問の多くに対する重要な手がかりを保持し、過去の発見に新たな光を当てることができます。既存の科学の記録を検証または無効にし、新しい研究と新しい理解の可能性を開きます。 ただし、この種の情報は、データが共有されていないか、アクセスや調査が容易な形式で利用できないために、科学的発見を公開する過程で消えてしまうことがよくあります。
「科学では、多くのすばらしい作品がPDFドキュメントとして公開されることになります。 記事を印刷して読むことができることは人間にとっては素晴らしいことですが、PDFで報告されたものを構築するために使用された多くの情報は結局隠されてしまいます。 全体像を把握し、特定のプロセスまたは反応に関連して行われ、文献で報告されているすべての実験を確認したい場合、それらすべてのPDFからすべての情報を抽出することは非常に困難です。 」のエグゼクティブディレクターであるSimonHodsonは説明します。 ISC-CODATA.
化学者のPeterMurray-Rustの言葉を借りれば、PDFから有用な情報を取得することは、「ビーフバーガーから牛を再構築する」ようなものです。
長年の研究の過程で生み出された科学的データは豊富にありますが、多くの場合、それは不可能です。 - そして確かに簡単ではありません - そのデータを見つけてクエリを実行し、他の調査結果や進行中の作業と比較します。 この難問に直面し、オープンサイエンスの要請に沿って、研究者は現在、データのアクセス可能性と相互運用性をサポートするフレームワークを通じて、データ駆動型科学をさらに可能にするために取り組んでいます。
これを行うための最新かつ最も顕著なアプローチのXNUMXつはFAIRです。これは、可能な限り使用可能で価値のあるものにするために必要なデータをカプセル化します。FAIRデータは F不可抗力; Aアクセス可能; I相互運用可能で Re-usable。
「発見可能」とは、科学的発見の裏付けとなる証拠の一部として公開されている、または公的資金による研究の結果として生成された科学データを、他の人が見つけて使用できるようにする必要があることを意味します。 データには、永続的で明確な識別子と、検出を可能にするための十分に豊富なメタデータが必要です。
「一部のデータを保護するのには十分な理由があります」とSimonHodson氏は言います。「しかし、これらの考慮事項が当てはまらない場合、FAIRの原則は、セキュリティの問題がある場合は承認を得て、Web経由でデータにアクセスできるようにする必要があることを意味します。 。 重要なことに、FAIRの原則は、科学者がプログラムで、つまり自分のマシンからも研究データにアクセスできるようにする必要があると主張しています。 データを取得してダウンロードできるだけではありません。理想的には、コンピューターコードを使用してデータをクエリできるはずです。」
FAIRのiは、「相互運用可能」を指します。つまり、さまざまなソースからのデータを組み合わせることができます。これは、メタデータと合意された用語または語彙の標準があるかどうかに大きく依存します。 たとえば、特定の国の社会調査のメタデータは、使用された年齢カテゴリまたは社会経済カテゴリ、およびカテゴリの境界がどこにあるかを明確に説明するため、データを社会調査のデータと簡単に比較できます。別の国で。
Rは再利用性を表します。これには、ユーザーがデータを再利用できるようにするライセンスが含まれ、再利用の条件が明確に示されます。 また、データの出所に関する情報(たとえば、データの収集方法、使用された調整または調整、データのさらなる処理とクリーニングなど)を取得して、研究者がデータの潜在的な長所と制限を理解できるようにすることも意味します。データを作成し、自信を持って使用してください。
FAIRデータも「完全にAI対応」です。 機械学習を使用してパターンを識別し、さまざまなデータセット全体の結果の予測を開始するには、データセット内のさまざまな変数の定義が不可欠であり、その定義に簡単にアクセスできる必要があります。
「データと関連サービスが公正である場合、コンピューターとコードを使用するすべての人が、概念と関連変数に使用された定義、測定値の取得方法、および自分自身を大切にします。 次に、データコードを操作し、おそらくそれを分解し、サブセットを取得し、他のデータと組み合わせることができます。 データが公正であれば、これははるかに効率的に行うことができ、分析と調査自体にメリットがあります」とSimonHodson氏は述べています。
科学のさまざまな領域でコアコンセプトを表現するための標準化された語彙を持つという考えは、決して新しいものではありません。 The 国際純正応用化学連合(IUPAC)ISCのメンバーである、は、1919年の設立以来、化学の国際標準化の必要性に応えてきました。今日、標準語彙はデジタル時代に適応し、それ自体が公正であることが不可欠です。 データドキュメンテーションイニシアチブで組織されたワークショップの結果として、Simon Cox(CODATA実行委員会の元メンバーおよび用語の使用に関する専門家)が率いるグループが公開されました。語彙を公平にするためのXNUMXの簡単なルール'。
これらのガイドラインに従って、CODATAは現在、 危険情報プロファイル これにより、説明されているすべての危険に関するWebベースの用語が作成され、GitHubおよびResearch Vocabularies Australiaサービスを介して、誰でも使用できるようになります。 これは、リスクの軽減と管理に関する戦略とアクションを開発している政府が、たとえば、災害損失やレポートのフレームワークに関する独自の統計とデータをすばやく比較できることを意味します。
CODATAは、国際学術会議(IUSSP)など、いくつかの異なるISCメンバーとのFAIR語彙にも取り組んでいます。 人口統計はデータが豊富な分野であり、持続可能な人間開発を理解するために非常に関連性があります。 IUSSPは、人口科学の主要な用語をFAIRにすることで、人口統計データを統計機関や社会科学者だけでなく、持続可能な関連のほとんどの分野を含む人口データを使用する多くの研究分野でそのようなデータを使用する人々にとってより有用なものにすることに貢献します。開発目標(SDG)。
CODATAは、新しいXNUMX年間のプロジェクトの一環として、IUPACと同様の作業を行う予定です。ワールドフェア: FAIRデータのポリシーと実践に関するグローバルな協力'、そのを通じて欧州委員会によって資金提供 ホライズンヨーロッパフレームワークプログラム。 コーディネート コデータ、 とともに 研究データ同盟 主要なパートナーとしての協会として、WorldFAIRプロジェクトは、XNUMXのドメインおよびクロスドメインのケーススタディのセットと連携して、FAIRデータの原則、特に相互運用性の実装を進め、FAIRの一連の推奨事項とフレームワークを開発します。一連の分野、または学際的な研究分野での評価。 WorldFAIRは、ISCプロジェクトへのCODATAの貢献の中核を形成します クロスドメインのグランドチャレンジでデータを機能させる.
IUPACは化学のケーススタディを主導しており、IUPACがキュレートする情報資産と用語をデジタル化とFAIRデータの時代に適したものにする方法を検討しています。 IUPACは、ナノマテリアルと地球化学に関する他のWorldFAIRケーススタディにも関与します。
もうXNUMXつのWorldFAIRパートナーは、米国のドレクセル大学で、SaludUrbanaenAméricaLatina(「ラテンアメリカの都市の健康」)(SALURBAL)プロジェクトを主導しました。 SALURBALは 人口統計学的特性、死亡率、健康行動とリスク、社会環境、構築環境などのドメインに関する多国間データセット、ラテンアメリカ全体の都市と都市内の近隣の比較を可能にします。 この驚くべきリソースは、地域の都市における健康と健康の不平等の推進要因に関する政策関連の研究を可能にします。 SALURBALは、データの調和に関する広範な作業をすでに行っています。 WorldFAIRは、この作業にさらに光を当てるのに役立ち、都市の健康におけるFAIRの用語に関する推奨事項を作成します。
CAG-CEPT、CODATA、およびUHWBポッドキャストシリーズの「データ-知識-都市システムのアクション」
都市システムのデータ知識アクションポッドキャストシリーズでは、インテリジェントな都市システムの構築に使用されるシステムについて説明します。 このシリーズは、都市が都市の幸福を処理するために適応的かつインテリジェントになるために必要な体系的な変化を反映しています。 これは、応用地理学センター、CODATA、および都市の健康と福祉プログラム(UHWB)によってホストされています。
15月16日とXNUMX日、Simon Hodsonは、ISCメンバー向けの知識共有セッションの一環として、CODATAの作業について説明しました。 デジタル時代の科学技術の融合.
WorldFAIRプロジェクト、FAIR語彙に関するCODATAの取り組み、およびデータと情報資産をFAIRにするためのさまざまな研究分野でのイニシアチブについて詳しく知ることができます。 国際データウィーク2022、20月23〜XNUMX日。
Écolepolytechniqueによる画像–Flickr経由のJ.Barande。