HRデータ分析で気をつけるべき10のポイント

今回は、実際に「HRデータの分析をされている方」または「HRデータ分析結果を意思決定に使われている方」向けの内容です。

これまで、50社以上（約10万人）のHRデータ分析や未来予測をしていて、気をつけていること・陥ったミスをまとめてみます。※データ分析では「可視化」「予測」のフェーズがありますが、今回は「予測」する際に気をつけるべきポイントにフォーカスしています。

多くの会社で
実は間違えたデータの使い方をしており、経営の意思決定に悪影響を与えている！
と感じています。少しでも情報がお役に立てれば幸いです。

データの見方
- 「統計的有意差」があっても「予測」はできない
評価指標
- 「相関係数」の数字はあてにならない
予測
- 予測精度90%をみたら疑う
検証
- 交差検証していない予測モデルは疑う
- 時系列データの予測モデルは、交差検証しても、なお疑う
予測する対象
- 入社後１年目評価は予測難易度高め
- 予測対象と学習対象の期間がずれると当たらない
最後に
- 組織が変化することを忘れない
まとめ

データの見方

「統計的有意差」があっても「予測」はできない

「高評価者」と「低評価者」を比べると、「指標Ａ」が統計的有意に高い。
そのため、「指標Ａ」が高い人を採用します！

という意思決定では、実は「高評価者」を採用できていないかもしれません。「統計的有意差」は「平均に差があること」を示していますが、「分布にどれだけ差があるか？」については、示してくれません。

以下の記事のように、統計的有意差がある（＝平均に差がある）場合でも、分布をみると「高評価者は55%しかおらず、残りの45%は低評価者」という場合もあるので、注意が必要です。

（参考記事）※「統計的有意」な項目を使うと、どれだけ評価を「予測」できるのかの分析記事

blog.trans-suite.jp

評価指標

「相関係数」の数字はあてにならない

「要因Ａ」は「要因B」より【相関係数が高い】から、Aを優先課題としよう

という考え方も、安易に行うと間違えた意思決定につながってしまうかもしれません。

相関係数は、例外的な値に弱く、例外的な値が１つあるだけで、大きく数値が変わってしまいます。相関係数を意思決定に用いる場合には、実際の分布がどのようになっているのかも、あわせて確認することが重要です。

（参考記事）

予測

予測精度90%をみたら疑う

「予測精度」には、色々な定義があるため、都合の良い定義を利用すれば、高い予測精度を実現することが可能です。

人に関する領域は、特殊な前提条件がない限り、様々な要素が影響を与えるため、「予測精度90%」で、"意味のある"予測をすることは、かなり難易度が高いと考えています。

※予測精度80~90%程度ないと予測の意味がないと言われる方もいるのですが、例えば「人間の面接の精度は37%」「データ分析の精度は60%」だと、やはり、データ分析を行うことに意味があると感じます。

（参考記事）

検証

交差検証していない予測モデルは疑う

機械学習を専門にしている人だと、交差検証を必ず行っているかと思います。（機械学習を始められたばかりの方で、交差検証をされておらず、経営に報告されていた怖い事例も見たことがありますが。。）

※交差検証：データを学習用（モデル作成用）と検証用に分け、作った予測モデルがどれだけ正しいか、検証用データで確認する方法。（予測モデルを作ったデータと、検証用のデータが同一だと、「過学習」（既存のデータに適合しすぎて、新しいデータの予測ができなくなる状態）を引き起こしてしまうので注意）

一方、「回帰モデル」を作る際に、交差検証が行われていない場合が散見されます。

ある企業では、外部コンサルタントに依頼し、2017年のデータを用いて、採用時点での入社後評価予測「回帰モデル」を作成してもらったのですが、2018年に実運用を行ったところ、全く当たらなかったとのことです。（「回帰モデル」を用いて、2017年のデータを予測したときには、当たっていたため、問題ないと考えていたそうです。）

弊社で「回帰モデル」を確認したところ、「交差検証」が行われておらず、この回帰モデルは「過学習」している可能性が高いという判断しました。

未来予測を行うときは、どんなモデルの作り方でも「交差検証」を行うべきだと考えています。

※いつも勝手に勉強させていただいているブログの記事が大変参考になります。

時系列データの予測モデルは、交差検証しても、なお疑う

前述した「交差検証」は未来予測には必須と考えていますが、「交差検証」だけでは不十分な場合があるので、こちらにも注意が必要です。

例① 「入社年」と「年齢／在籍年数」をモデルに含める

予測モデルを作成する際に「入社年」と「年齢（※退職時年齢）」を同時に含めると、予測精度が大幅に高まります。（入社年と年齢の差分を見ると、退職者は在職者よりも差分が小さくなるためです。）

しかし、「退職時年齢」は、「在籍している地点」では、入手不可能な情報のため、実際に未来予測しようとすると「通常の年齢」を用いることになり、予測ができない結果となります。

分析データは単に「年齢」としか入っていないため、気がつきにくいのですが、あくまで「予測する時点でわかっている情報のみを使用」した予測モデルでないと、実際に未来を予測することが難しいです。

※「在籍年数」（滞留）を退職予測に用いている事例も散見されますが、同じ理由で注意が必要です。

例② 「異動回数」をモデルに含める

大きな組織の変更があった場合にも、時系列データの扱いには注意が必要です。

弊社で以前作成した予測モデルで、「異動回数が少ないと退職しやすい」という結果が、高い予測精度で検出できたことがありました。

ただし、その後、詳細に分析していくと、その組織には、直近で大規模な組織変更があり、組織変更時点での在籍者は、データ上では異動回数が増えているという現象があることがわかりました。

結果、在籍者は「異動回数が多く」、退職者は「異動回数が少ない」という現象につながっており、予測精度が高く出てしまっていただけであるということに気が付きました。

※組織変更後のみのデータで予測すると、「異動回数」と「退職」には関係性が見られませんでした。

例③ 「退職３ヵ月以内の勤怠データ」が入っている（差分にも注意）

退職予測モデルを作る際、「退職３ヵ月以内の勤怠データ」を用いると、かなり高い確率で退職を予測することが可能です。（退職しそうな人は、勤務時間が短くなっている。）

一方、退職の３ヵ月以内だと、すでに退職を決めている可能性が高く、「予測精度が高く」ても、「施策が打てない」状況になります。そのため、「退職３ヵ月以内の勤怠データが入っている」場合には、「予測はできるが、予測しても意味がない」結論になってしまいます。

※また直接「退職3ヵ月以内の勤怠データ」が入っていなくても、「１年前と今の勤怠の差分」など、間接的に含まれてしまう場合にも、同じ状況になります。

（参考記事）※勤怠データを使って、退職予測しようとして失敗した話。

上記３つの事例のように、時系列データを用いた未来予測は、いろいろな落とし穴があり、分析の専門家でも見落としてしまうことが割とあります。

時系列データの場合、データが正確に用意できていないと、交差検証の意味がなくなってしまいます。（そして正確なデータの準備が結構大変です。）

そのため、最も確実な方法は、やや時間がかかりますが、実際に未来予測してみて確認する、というやり方だとも感じています。

※もちろん、過去データの交差検証で、予測精度が高いことは前提です。

予測する対象

入社後１年目評価は予測難易度高め

「入社後１年以内評価」の予測は、やや当たりにくいと感じています。これは１年間だと、評価・実績に対する印象・運が占める割合が高いためです。（一方、5年後や10年後の評価を予測しようとすると、教育や環境の要因も増えてくるため、別の理由で個人の資質のみから予測する難易度は上がっていきます）

そのため、入社後評価予測は２～３年を目安にすると、データがもっとの活かしやすいと感じています。

※一方、「営業成績」かつ「運の要素が低い（大型受注などが少ない）」場合には、入社後１年以内評価でも予測精度が高かったケースもあります。

予測対象と学習対象の期間がずれると当たらない

３年目の評価予測をおなうモデルを作る場合に、20年目の人をモデルに含めると予測できなくなる可能性が高いです。（３年目で高評価になるための資質と、20年目で高評価になるための資質が異なるため）

そのため予測精度を高めようとする場合には、「３年目の評価予測」を行う場合には「３年目（＋α）時点での評価を学習させる」ようにするとよいでしょう。

最後に

組織が変化することを忘れない

ここまで、色々な落とし穴を配慮して、交差検証もして、予測モデルを構築した！でも、実際に運用にのせると予測が当たらない、、ということがHR領域では比較的起こりやすいと考えています。

これは、
・組織が成長したことにより評価の基準が変わった
・ビジネスモデルが変わり、求められる資質が変化した
・組織長（評価者）が変わり、評価される価値観が変わった
など、時間経過によって、変化する要素があるためです。（HR領域の場合、検証期間が長いため、時間経過による変化が起こりやすい。）

そのため、評価の予測モデルの精度を高めるためには
・現状だけでなく、未来における「高評価者」は誰なのか？
を、ある程度人間が考える必要があると感じています。
（考える基準は、他社事例だったり過去の経験だったりします。）

「人間の知識・経験」と「データによる検証」を組み合わせることで、より未来予測の精度を高めていけると考えています。

まとめ

今回は、HRデータ分析（特に予測）を行っていて、陥りやすいミスについてまとめてみました。（ほぼ、私が１度ハマったミスですが。。）

落とし穴の情報共有することで、同じミスに陥る人が減り、よりよい予測ができるようになるとよいなと考えています。

※間違えた安易な未来予測は、逆に意思決定をミスリードする可能性があるので、大変怖いと感じています。

もしHR領域における未来予測を行われている方がいらっしゃいましたら、ぜひ情報交換させていただけますと幸いです。

※執筆者：塚本鋭

東京大学・大学院において、機械学習や大規模シミュレーションに関する研究に従事。人工知能学会研究会優秀賞・東京大学工学系研究科長賞（総代）等を受賞。大学院修了後、株式会社野村総合研究所にコンサルタントとして入社し、ICT・メディア領域を担当。2013年1月より株式会社クラウドワークスに8番目の社員として参画し、2014年12月に上場を経験。データ分析・産官学連携を軸としながら、B2B事業立ち上げ、カスタマーサポート部門立ち上げ、子会社副社長等を歴任。2018年より現職。

アッテル分析ブログ

経営（ヒト・モノ・カネ）に関して定量的な分析を発信する株式会社アッテルのブログ

HRデータ分析で気をつけるべき10のポイント

データの見方

「統計的有意差」があっても「予測」はできない

評価指標

「相関係数」の数字はあてにならない

予測

予測精度90%をみたら疑う

検証

交差検証していない予測モデルは疑う

時系列データの予測モデルは、交差検証しても、なお疑う

例① 「入社年」と「年齢／在籍年数」をモデルに含める

例② 「異動回数」をモデルに含める

例③ 「退職３ヵ月以内の勤怠データ」が入っている（差分にも注意）

予測する対象

入社後１年目評価は予測難易度高め

予測対象と学習対象の期間がずれると当たらない

最後に

組織が変化することを忘れない

まとめ

データの見方

「統計的有意差」があっても「予測」はできない

評価指標

「相関係数」の数字はあてにならない

予測

予測精度90%をみたら疑う

検証

交差検証していない予測モデルは疑う

時系列データの予測モデルは、交差検証しても、なお疑う

例① 「入社年」と「年齢／在籍年数」 をモデルに含める

例② 「異動回数」をモデルに含める

例③ 「退職３ヵ月以内の勤怠データ」が入っている（差分にも注意）

予測する対象

入社後１年目評価は予測難易度高め

予測対象と学習対象の期間がずれると当たらない

最後に

組織が変化することを忘れない

まとめ

例① 「入社年」と「年齢／在籍年数」をモデルに含める