いろいろなことを考察する

ドコモのビッグデータによる外出の自粛率についての検討

国立情報学研究所総合研究大学院大学の水野孝之さんは、研究室のサイト http://research.nii.ac.jp/~mizuno/ の中の 「COVID-19特設サイト:外出の自粛率の見える化」 で「外出の自粛率」を計算し、公開しています。

データ公開のページには、外出の自粛率の意義や詳細な定義として、水野さんによる 説明「流動人口ビッグデータによる地域住民の自粛率の見える化 - 感染者数と自粛の関係 -」 と、論文「流動人口ビッグデータによる地域住民の自粛率の見える化 感染者数と自粛の関係」 が示されています。

以下では、この論文で説明されている「外出の自粛率」について検討します。

(1)概要

上記論文において、外出の自粛率について説明されているのは、「3 住宅地の抽出」と「4 地域住民の自粛率の算出手法」であり、とりわけ「4 地域住民の自粛率の算出手法」です。

次項以下に、外出の自粛率の計算を説明します。
お読みになると「もっと精密にデータを見ればいいのに」と不満を感じるかも知れません。
ある意味では「ざっくりした」データ処理にも見えるからです。

しかし以下のロジックは、
「個人情報に配慮しているために個別の人の移動情報(に繋がる可能性のある情報)は見ることができないという制約の中で、人の自粛を計測するにはどうしたらいいだろうか」
という出発点から構築されていると思われます。
つまり水野さんには「よりよい自粛率計算のためにはもっと精密にデータを見たいのだが、個人情報保護的にできない」という側面があると思われます。
この事情ならば「もっと精密に見ればいいのに」と考えるのは、筋違いとなります。

(2)「住宅地」と「住宅地以外」の区分

まず日本を 500m 四方に区切ります(=これを以下「500mメッシュ」と書きます)。
各500mメッシュを「住宅地」と「住宅地以外」に区分し、「住宅地」のみを計算の対象とします。
もちろん、この区分は計算における便宜的なものです。

なぜ住宅地を決めなければいけないかというと、この自粛率は「居住地と思われる地域からの外出者数が、自粛以前と比べてどういう比率なのか」で算出しているからです。
この意味で、「その地域には、居住している人の割合が少ない」と思われる地域は除外しています。
この判断は、別の先行研究に依拠しています。詳細は、上掲の論文「3 住宅地の抽出」をご参照下さい。

(3)「外出者数」とは

「外出者数」は、「夜間人口ー昼間人口」として定義し、計算しています。
夜間人口、昼間人口については、論文で説明されているので、そちらをご参照下さい。

この定義から明らかなように、もし昼夜が反転している夜勤で勤務している人がいれば、その人の勤務地への移動は、外出とは計算されないだけでなく、「マイナスの外出」となり、昼間に勤務地に移動する人数を減じる効果を持つと思われます。
これはこの計算方法の限界となりますが、上にも述べたように、個人情報に関する制約があるので、やむ得ないのではないかと思います。

(4)平常時の外出者数と、ある日の外出者数

日付けを「平日」「土曜」「祝日・日曜」の3つに区分します。

この3つの区分毎に、平常時として、2020年1月6日から1月31日までにおける、外出者数(=平常時外出者数 a)を「夜間人口ー昼間人口」で計算します。
これは論文での記述が見つけられませんでしたが、男女別、年代別に計算されると思われます。

次に、ある日の外出者数 b を同様に計算します。

かくして、例えば東京都における、「平常時の外出者数 a」と、「ある日の外出者数 b」が得られました。

(5)自粛率の定義と特徴

「平常時の外出者数 a」と「ある日の外出者数 b」を用いて、ある日の自粛率を

自粛率=1 - (b/a)

と定義し、計算します。

定義から明らかなように、
全く外出しないならば(つまり b=0)、自粛率は 1.0 であり、
平常時と変わらずに外出する(つまり b=a) ならば、自粛率は、0.0 に
なります。
外出者数が平常時より多ければ(つまり a<b)、自粛率は負の値になります。

この計算には、一定の合理性があると思います。

(6)注意すべき点

上で述べた以外に注意すべき点として、以下があると思います。

(6-1)平常時の外出者数が区分毎に異なることの影響

年齢、曜日3区分、地域(=例えば東京都)ごとに平常時の外出者数は違います。
定義に示したように、自粛率は、平常時の外出者数との比率を元にしています。

例えば人口が同じP県とQ県があるとします。
平常時外出者数が、P県は100万人、Q県は80万人だとします。
ある日の外出者数が、P県は80万人、Q県は70万人だとします。
自粛率は、P県は、0.200、Q県は、0.125 となります。
計算式は以下です。
P県:1 - 80/100 = 1 - 0.800 = 0.200
Q県:1 - 70/ 80 = 1 - 0.875 = 0.125

この例を示したのは「Q県の方が外出者数は少ないのに、平常時との比率の関係で、自粛率は小さくなる」からです。
これはこの計算方法の限界とも言えますが、やむを得ないのではないかと思います。

上では、人口が同じと仮定したP県とQ県を例示しました。
しかし、同様のことは人口が違う各種の区分(地域、世代、男女)でも言えます。

「自粛率の大小」を論じる場合には、この点に注意する必要があります。
「ある区分で自粛率が高ければ、その区分の平常時と比べての外出比率は少なかった」は言えます。
「自粛率が高い区分の人は、低い区分の人よりも外出が少なかった」は必ずしも言えません。
「自粛率が高い区分の人は、低い区分の人よりも、平常時と比べての外出比率が少なかった」は言えます。
ちょっと面倒ですが、しょうがないです。

(6-2)居住者人口が変化する場合の問題

居住者人口に平常時の外出者数を計算した時点と現時点とで大差があると、その分は誤差になります。
(6-2a)「人口が減れば一般的に外出人数は減るが、これは自粛率が高いとなってしまう」
(6-2b)「人口が増えれば一般的に外出人数は増えるが、これは自粛率が低いとなってしまう」
です。

人数は、居住地と判断された500m四方の区分毎にカウントするので、例えばこの1年でマンションに多数の人が入居した地域では、(6-2b)の効果が目に見えるかも知れません。
極端に言うと「平常時」を計算した後にある区分から人がいなくなった場合は「自粛率 1.0」となりますが、これが自粛の高さを示していないことは、明らかです。
ただし、新型コロナの流行が開始してから今日まで程度の時間経過において、県単位などの区分において、これが大きな誤差になるとは思いません。

(6-3)夜間人口が少ない地区の除外

この計算では、住宅地の夜間人口が3000人未満の地区を計算から除外しています。(論文の「5 2020年1月以降の全国各地の自粛率の推移」の冒頭部分、あるいは、こちら の下の方での説明を参照。)
全ては列挙されていないようですが、少なくとも以下が該当です。
東京都で千代田区中央区、港区、新宿区、檜原村など。
大阪市区部で、阿倍野区大正区中央区天王寺区浪速区、西区、東成区、福島区都島区
私は大阪の事情はよくわかりませんが、少なくとも東京で新宿区が除外対象なのは、やや驚きでした。
おそらくポイントは、「住宅地」の定義にあると思われます。
我々の直感よりも多くの500mメッシュが住宅地から除外されてしまうため、本来は人が住んでいる地区が除外され、その結果、新宿区の夜間人口が3000人未満と計算されてしまったのだと思います。
これが新宿区の夜間人口の実態を表しているとは思いませんが、この論点は、上述したように先行研究に依拠している(上掲論文「3 住宅地の抽出」を参照)こともあり、ここでは論じません。

(6-4)外出先を区別していないことの問題

この計算では、「外出したかどうか」が論点です。
つまり「どこへ外出したか」は区別していません。
極端な場合、誰もいない山奥に車で移動し、一人キャンプをした場合でも外出(=自粛ではない)となります。
もちろん、往復の途中での飲食の可能性など、こうした行為が感染と無関係と断じることはできませんが、全ての外出を一緒にしてしまっていいのだろうか、とも思います。
社会がコロナに対応していくなかで、感染対策に留意した外出が増えるならば、その増加した外出(=自粛率の低下)は、感染にはつながりにくいと思われます。
ただし、この点についての良い対案がある訳でもありません。


私が検討したことは、以上です。