2011年7月12日火曜日

学術雑誌評価指標の理解(2)【IF,Eigen Factor,Article Influence】

さて、EFをどのように計算するかですが、公式で説明されているメソッドは中西印刷株式会社で和訳されていますので、それを見るのが簡単かと思います(引用4)。

(1)で書いた引用被引用のネットワークは、「研究者がある雑誌に費やす時間」を確率であると考えれば、ネットワーク全体を遷移確率行列と考えることができます。
なので、まずはその遷移確率行列を作るため、相互引用行列を求めます。

行列要素Zi,jは雑誌i に5年の間に掲載された論文が、EFを求める年に雑誌 j に掲載された論文から引用された数です。また、を求める際、同一雑誌中の自己引用(i=j)は0とします。これで、IFの時に問題となっていたことの一つがクリアできてしまうのです。

次に、この行列を規格化し、行列を算出します。これは既存のアミノ酸配列からWAGとかの遷移確率行列を算出するのに似ているかもしれませんね。


分母は各雑誌jからの引用総数です。これを見ると、EFの重み付けの一つである「あまり他の雑誌を引用しない雑誌からの引用は重みが大きい」がここに反映されているのがわかります。そういう雑誌では分母が小さくなるわけですから、Zi,jの値も大きくなります。

また、ここで算出される行列は遷移確率行列であるとみなせます。実はこの計算式はGoogleのページランキングで使われている計算式と同様のものです(引用5)。Googleのページランクでは、行列についてその最大固有値に対する固有ベクトル(固有ベクトルはそれにもとの行列Aに対しAπ = λπ:λは固有値、を満たすベクトルπ)を求めると、そのベクトルは各ページ(i)の評価値であるということになっています。これは、遷移確率行列を何回も掛け合わせる(先に述べた研究者の試行を何度も何度も繰り返す)と、最終的にはそれぞれの雑誌に研究者のかけた時間を表すベクトルに近づいていき、それは最大固有値に対する固有ベクトルとなるという理論に沿っています。ベクトルの各要素が雑誌iの価値を表すということですね。

さらに、この行列を掛け合わせることに、「多くの雑誌から引用される雑誌からの引用は価値が大きい」という重み付けが効いてくると僕は理解しています。研究者が試行を何度も繰り返せば(行列を掛け合わせ続ければ)、そういった雑誌からの引用で、ある雑誌iへ辿り着く確率は全体の中で大きくなります。最終的に得られる固有ベクトルには、その影響(と上述のもう一つの重み付けの影響)が大いに関係しているはずです。

ただ、上記の行列を何度も掛け合わせるには問題があります。それが「ぶらさがり結節(dangling node)」の存在です(引用3)。ぶら下がり結節とは行列の中でその要素が0しかない列のことですが、この例で言えば「他の雑誌を全く引用しない雑誌」ですね。なんでぶらさがり結節があるとダメなのかというと、行列計算よりも概念的に考えた方がわかりやすいです。上記のように固有ベクトルを求めることは遷移確率行列を何回も掛け合わせることが前提で、それは研究者が前述した試行123を繰り返すことを意味します。しかし、研究者が試行の中でぶら下がり結節に行き着くと、引用先が全くないわけですから、それ以上試行を続けることができなくなってしまいます。これが問題なわけですね。

そこで、EFの計算ではぶら下がり結節をなくすため、論文ベクトルaを計算し、ぶら下がり結節の列の要素(1~i)をaの要素で置き換えます。ここで要素a[i]は、考慮している5年間に渡り雑誌iに掲載された論文の数を、同じ5年間にどれかの雑誌に掲載された論文の総数で割ったものとなります。

これでぶら下がり結節は消せますが、この補正はかなり乱暴なので必ずしも正確な物ではありません。
そこで、この補正で算出された行列H'を、さらに行列で置換します。


行列の説明は文献4を見てほしいのですが、行列は一般にグーグル行列と呼ばれる物(文献6)で、EFでもグーグルのページランクと同様α=0.85を使用しています。簡単に説明すると、行列の計算では、研究者は試行の中である確率αで引用を辿る試行を続け、1-αで引用を辿るのをやめ、完全ランダムに新たに論文を選択し、試行をやり直します(ただし、その際論文ベクトルの要素、すなわち論文発行数で雑誌ごとの重み付けを行っている)。

そして、この行列について固有ベクトルπ*を求めます。これが、各雑誌の価値を示した物になるわけですね。最後にEFの計算を行います。


 補正をしてない状態の行列Hに対し固有ベクトルを掛け、EFをベクトルとして計算します。EFの各要素iが雑誌iのEF値です。ちなみにここで使う固有ベクトルは既に研究者の試行が十分に繰り返された後を想定して算出されたので、行列Hを使っても(ぶら下がり結節があっても)かまいません。
ちなみに、計算式を見れば分かるかと思いますが、EF値は割合なので、全ての雑誌のEFを合計すれば100になります。

これでEFが計算できたことになりますが、EFからさらに算出されるものとしてAIがあるので、それについても書きましょう。

もうちょっとだけ続くんじゃ。



引用文献
3,http://www.eigenfactor.org/methods.htm
4,http://www.nacos.com/pdf/abouteigen.pdf
5,http://ja.wikipedia.org/wiki/%E3%83%9A%E3%83%BC%E3%82%B8%E3%83%A9%E3%83%B3%E3%82%AF
6,http://web-tan.forum.impressrd.jp/e/2007/12/28/2428

0 件のコメント: