紹介するのは、Ars Technicaの記事「一握りの『極めて有毒な』Wikipedia編集者が、サイトにおける迷惑行為の9%を引き起こしている」(Annalee Newitz, "Handful of “highly toxic” Wikipedia editors cause 9% of abuse on the site", Ars Technica, 2017/02/11)。
記事では、Jigsaw(旧Google Ideas、現在Alphabet Inc.の傘下)の調査チームがWikipediaとの協力で行ったオンライン・コミュニティにおける迷惑行為に関する調査の報告書が紹介されている。
調査グループは、課題をシンプルにするために迷惑行為(abuse)の事例を個人攻撃に限定した上で、それぞれのコメントが攻撃か否かを10人の異なる人間に判定させるために、2004年から2015年にかけての英語Wikipedia上の10万件のコメントに目を通す仕事をクラウドソーシング・サイトCrowdflowerを通じて4000人に委託。このデータから機械学習のアルゴリズムを発展させたのだという。
調査チームは、彼らのアルゴリズムを2015年のあいだにWikipedia上でなされたコメントに向けて放った。正確さのために結果を絶えずチェックしながら、である。ほとんどすぐさま、匿名性が迷惑行為を招くという使い古された考えの誤りを暴くことができることに彼らは気がついた。匿名のコメントは6倍の確率で攻撃であることが多いものの、Wikipediaにおける全ての攻撃の半分にも満たないのである。「同様に、それ以前にほとんど参加履歴のないユーザーから来る攻撃も半分に満たなかった」、と調査チームは報告書で記す。「おそらく驚くべきことに、攻撃のおよそ30%は、100を超える貢献を持つ登録ユーザーから出ているのである。」言いかえると、個人攻撃の三分の一は、毎月いくつかの編集に貢献する常連Wikipedia編集者から出ているのである。個人攻撃は、Wikipediaの文化のなかに練り込まれているようなのだ。
調査チームはまた、攻撃の多くの割合が、とても小さい数の「極めて有毒な」Wikipedia貢献者から出てくることを発見した。2015年における9%もの攻撃が、たったの34人のユーザーから出ており、彼らは20以上もの個人攻撃を1年のあいだに行っていたのだ。「比較的小さな数の頻繁な攻撃者に対してモデレーションを行うだけで、大きな前進を確立することが可能なのかもしれない」と、調査チームは記す。この発見は、オンライン・コミュニティにおける問題は多くの場合、少数派の声高なユーザーから生じている、という考えを支持するものである。
アルゴリズムは、「積み重なり」(pile-on)としばしば呼ばれる現象を突き止めることにも成功した。〔・・・〕「個人攻撃は、時間的に見ても集中発生する」と、調査チームは述べる。「一つの個人攻撃はまた別の個人攻撃を引き出すためであろう。」
憂鬱なことに、調査は、ほんのわずかな個人攻撃しかモデレーションを受けていないことも明らかにした。警告やアカウント停止へとつながったのは、たったの17.9%の個人攻撃だけだったのである。
調査は、あくまで会話ページ上での個人攻撃に焦点を当てているので、Wikipedia上の迷惑行為(abuse)や嫌がらせ(harassment)と言っても、編集に参加するユーザー同士のあいだでのことで、荒らしや悪意のある編集のような記事ページそのものにおける悪用・濫用を問題としているわけではない。あるいは、つきまといや脅迫のような手の込んだ嫌がらせについても今回は深入りしていないようだ。
元の報告書(PDF)を見ると、個人攻撃か否かの、人間による判断は、次のような設問によってなされたのだという。
このコメントは個人攻撃または嫌がらせを含みますか?
- メッセージの受け取り相手に向けられたもの(例:お前って最低)
- 第三者に向けられたもの(例:ボブって最低)
- 報告または引用されたもの(例:ボブがヘンリーは最低だと言っていた)
- 他の種類の攻撃または嫌がらせ
- これは攻撃や嫌がらせではない
ゆえに、Jigsaw自身による報告の短い紹介も次のように調査結果の限定性を述べている。
私たちはこの仕事による貢献に興奮していますが、オンライン・ハラスメントについてのより深い理解とそれを緩和する手立ての発見に向けたほんの小さなステップに過ぎません。目に余る、容易に特定可能な個人攻撃だけに目を向けたことは調査の限界の一つです。データは英語のものだけであり、私たちの組み立てたモデルは英語しか理解しません。モデルは、Wikipediaにおける他の種類のハラスメントに対してほとんど効力を持ちません。たとえば、それは脅迫を特定することを苦手とします。また、私たちが私たちのモデルやデータについてまだ知らない重要なことがあります。たとえば、クラウドソースされた評価から不注意にも学習された意図されないバイアスがあるだろうか、といったことです。
0 件のコメント:
コメントを投稿
投稿されたコメントは管理人が承認するまで公開されません。