Maria Korolov
Alex Korolov
著者: Maria Korolov and Alex Korolov

効果的なデータ民主化のための基本チェックリスト

特集
27 Aug 20231分
データ管理IT戦略

データドリブンになるために、企業は規律と多様性を兼ね備えた民主化戦略を必要としています。データ収集、プラットフォームの選択、従業員トレーニングは始まりに過ぎません。

Japan Asia Shibuya Tokyo shopping district bokeh cityscape
クレジットShutterstock / Siriwat Sriphojaroen

真にデータドリブンな企業は、そうでない企業よりもビジネス成果が大幅に向上します。最近のIDCのホワイトペーパーによると、このような企業のリーダーは、多くのビジネス指標で、他の組織よりも平均2.5倍良い結果を出しています。特に、データとアナリティクスの活用においてリーダー的な企業は、収益の改善率が3倍高く、新製品や新サービスの市場投入までの期間が短縮されたと報告する確率が約3倍高く、顧客満足度、利益、業務効率が改善したと報告する確率が2倍以上でした。

しかし、データとアナリティクスから最大限の価値を引き出すためには、企業は組織全体にデータドリブンな文化を浸透させ、すべての事業部門が必要なデータに必要な方法で完全にアクセスできるようにする必要があります。

これをデータの民主化と言います。これを適切に行うには、思慮深いデータ収集、データへの包括的かつ安全なアクセスを可能にするデータプラットフォームの慎重な選択、データファーストの考え方を持つための従業員のトレーニングと能力向上が必要となります。セキュリティとコンプライアンスのリスクも立ちはだかっています。

強固なデータ基盤上でスタートする

データ共有のためのプラットフォームを選択する前に、組織はすでに持っているデータを把握し、エラーや重複を取り除く必要があります。

Insight Enterprisesのチーフアーキテクトで著名なエンジニアでもあるJuan Orlandini氏は、共有データの準備の大部分は、データ正規化の演習だと言います。

データのフォーマットやデータアーキテクチャには一貫性がないことが多く、データが不完全な場合もあります。「突然、データ担当者でない人にそのデータを渡そうとするわけです」と同氏は説明します。「ですから、そのデータから簡単に誤った、あるいは誤解を招くような分析情報を引き出すことができてしまうのです。」

組織は多くの場合、データの正規化の際に外部のサポートに頼ります。データの正規化を誤ると、データ品質に問題が残り、意図したようにデータを活用できなくなる可能性があるからです。

クラウドやクラウドネイティブ開発を利用する企業が増えるにつれ、データの正規化はより複雑になってきています。

「データは、NoSQLデータベース、グラフデータベース、あるいは現在利用可能な他のすべてのタイプのデータベースにあるかもしれません。これらすべてに一貫性を持たせることは本当に困難です」とOrlandini氏は言います。

効果的なプラットフォーム選択を行う

多くの場合、データの民主化を実践していない組織では、IT部門だけがデータやデータインテリジェンスツールにアクセスできます。そのため、すべての人がデータにアクセスできるようにするためには、新たなツールや技術が必要となります。

もちろん、コストは重要な検討事項であり、データをどこでホスティングするか、財政的に責任ある方法で利用できるようにすることも重要なことだ、とOrlandini氏は言います。また、パブリッククラウドではセキュリティ上の懸念があるため、データをオンプレミスで管理すべきかどうかも検討する必要があるかもしれません。しかし、コンサルティング会社SPRのデータおよび分析担当シニアコンサルタントのKevin Young氏は、組織はまず、Amazon S3やGoogle Cloud Storageのようなデータレイクを作成することでデータを共有できると言います。「組織全体のメンバーは、すべての部門が利用できるように、データをレイクに追加することができます」とYoung氏は説明します。しかし、適切なケアを行わなければ、データレイクは無秩序になり、使用できないデータで乱雑になってしまいます。ほとんどの組織はデータレイクを持つに至らないとOrlandini氏は明かします。「データの沼にはまってしまうのです」と同氏は言います。

しかし、データレイクだけが一元化されたデータリポジトリを構築する選択肢ではありません。

もう一つは、データファブリック(データサービスのアーキテクチャとセット)によるもので、組織のデータの統一されたビューを提供し、オンプレミス、クラウド、エッジデバイス上のさまざまなソースからの統合を可能にします。

データファブリックは、データセットをコピーすることなく結合でき、サイロ化を防ぐことができます。

IBM Cloud Pak for DataやSAP Data Intelligenceのように、データファブリックのソフトウェアベンダーは数多く存在し、いずれもフォレスターの「エンタープライズデータファブリック2022年第2四半期レポート」でトップに選ばれています。しかし、多くの選択肢がある中で、どれを選べばいいのか迷うこともあるでしょう。

最も重要なことはデータの分析とモニタリングであると、プロフェッショナルサービス企業GenpactのグローバルアナリティクスリーダーであるAmaresh Tripathy氏は言います。

「多くのプラットフォームが存在します」と同氏は説明します。「自分に合ったプラットフォームを選べばよいのですが、自動化されていて可視性があることが必要です。」また、技術的な経験のない人でも、データ分析レポートを簡単に作成できるセルフサービスプラットフォームからデータに簡単にアクセスできるようにする必要があります。「すべてのデータ、その意味、測定基準、収集元を確認できるポータルのようなものがおすすめです」とTripathy氏は言います。

完璧なツールはありません。そして多くの場合、ツールのデータリネージ、データカタログの作成、データ品質の維持は、トレードオフの関係にあります。「ほとんどの組織は、この3つの問題を一緒に解決しようとしています」とTripathy氏は付け加えます。「あるインデックスでは過剰評価されても、別のインデックでは良い値が得られないこともあります。」したがって、組織は何が最も重要かを決めるべきだと同氏は言います。「それを行う理由と、どのツールがこれら3つの問題で最も費用対効果がよいかを把握してから適切な判断を下すべきです。」

データの共有方法を考えるとき、組織はデータファブリックとは逆のアプローチをとるデータメッシュの実装を検討することもできます。データファブリックが単一の一元管理された仮想システムで複数のデータソースを管理するのに対し、データメッシュはエンタープライズデータアーキテクチャの一形態で、分散型アプローチをとり、複数のドメイン固有のシステムを構築します。

人や組織がデータを完全に制御できるよう支援する世界的な非営利団体、Data Collaboration Allianceの運営ディレクター、Chris McLellan氏は、データメッシュを使うと、組織はデータを最もよく理解している人の手に委ねるので、データが適切に取り扱われると説明します。それは財務責任者のような個人である場合も、データスチュワードとして行動する人たちのグループである場合もあります。

「その核心には、データを製品とみなすというコンセプトがあります」と同氏は言います。「データ製品とは、その分野の専門知識を持つ人が所有し、キュレーションできるものです。」

データメッシュアーキテクチャを実装することで、組織は特定のデータセットを専門家の手に委ねることができます。「これらの人たちは、規制、顧客、エンドユーザーに近い存在です」とMcLellan氏は言います。「彼らは、その特定の情報領域に関するあらゆることに近い存在なのです。」

データメッシュは特定のツールにリンクされているわけではないので、各チームはそれぞれのニーズに最も適したものを選ぶことができ、すべてが中央のデータチームを経由しなければならないというボトルネックもありません。

「ITやアプリの提供だけでなく、データマネジメントやデータガバナンスにも分散化が見られます」とMcLellan氏は言います。「これは良いことです。なぜなら、マーケティング担当者はITチームよりも消費者保護法を熟知しており、財務担当者はIT部門よりも財務規制に熟知しているからです。」

データメッシュを販売するベンダーは数多く存在しますが、これらはまだ真新しく、データメッシュの定義、使用するテクノロジー、そしてその価値における矛盾など、課題がある、とフォレスターは警告しています。

トレーニングと変更管理

データ民主化のアーキテクチャが確立されたら、従業員は新しいデータプロセスでの作業方法を理解する必要があります。適切なデータが与えられても、たとえ管理者や会計士としてのトレーニングを受けていたとしても、そのデータを使って何をすべきかを理解できるとは限らないとInsightのOrlandini氏は言います。組織をデータドリブンにするには、データアクセスを提供するだけでは十分ではありません。「トレーニングも必要です」と同氏は説明します。「きちんとやらなければ、せいぜい部分的に成功するか、あるいは失敗してしまうかもしれません。」

データの解釈と適切な扱い方を従業員に理解させるために、独自の社内研修プログラムを開始した組織もあります。

たとえば、Genpactは昨年、組織全体のデータリテラシーを向上させるため、DataBridgeイニシアチブと呼ぶものを導入しました。

「当社の意図は、10万人を市民データサイエンティストにすることではありませんでした」とTripathy氏は振り返ります。「従業員がどのように仕事をしているかという背景を踏まえて、認識を提供しています。」たとえば、請求の分析を担当する従業員が異常検知のすべてを学ぶ必要はありません。必要なのは、異常検知が自分にとって何を意味するのかを理解することです。「自分でデータを見るスキルがあるかどうかは別として、疑問を持ち、助けを求めることはできるはずです。そして、その質問を適切な方法でたずねることが、データ認識の側面なのです」と同氏は付け加えます。

セキュリティとコンプライアンスの基礎を固める

データ整合性を維持し、コストのかかるペナルティを避けるためには、最初から適切なデータガバナンスを実装する必要があります。

InsightのOrlandini氏は、ITリーダーとともに、セキュリティとコンプライアンスのチームも最初の会話に加わる必要があると言います。「これは大きな課題であり、多くの組織がこの問題に苦慮しています」と同氏は語り、企業のリーダーシップが共有するために何を提供しているかを正確に把握し、それが適切な人々に提供されていることを確認することが前提条件である、と付け加えます。

「私たちは細心の注意を払わなければならない、厳しい規制の世界に生きています」と同氏は言います。「特に医療や金融のような業界では、間違った人間に間違ったデータにアクセスさせると、深刻な結果を招く法律があります。」

また、個人を特定できる情報の漏えいを避けるために、データのマスキングやデータの難読化を支援するツールもあります。「PIIデータ、HIPAA記録、あるいはその他の規制要件を明らかにすることなく、分析情報を得ることができるようになります」と同氏は続けます。「属性ベースのアクセス制御が可能なツールもあり、実際に特定の種類の属性でデータにタグ付けをします。属性にはPIIやHIPAAが含まれますが、どんな属性でも可能です。これにより、適切な属性のデータにのみアクセスできるようになります。」

このようにして、データは自動的に制御されるようになり、パブリッククラウドや複数のロケーションにデータがあるハイブリッド環境、または厳格なコンプライアンス管理が可能なプライベート環境でも利用できます。

長期的なメリット

データの民主化は、企業のデータパイプラインのスピードアップに役立つだけでなく、データを分析し、扱う方法をよく認識すると、従業員は問題を解決する新しい方法を見つけることができます。

ガートナーは、データ民主化を採用することで、組織はリソース不足を解消し、ボトルネックを減らし、事業部門が独自のデータ要求をより簡単に処理できるようになると述べています。データを民主化することで、組織は、より多くの人がデータの分析と解釈に貢献できるようになり、組織内のチーム間のコラボレーションが向上し、より多くの人が情報にアクセスできるようになり、データドリブンな意思決定がどのように行われたかを確認できるため、透明性が高まります。

Alex Korolov
著者: Alex Korolov

Alex Korolov covers artificial intelligence, cybersecurity, and extended reality for leading technology publications. When he’s not writing, Alex performs early music throughout the U.S. on the lute and viola da gamba.