
Googleは今、厄介な問題を抱えている。同社が作った画像認識アルゴリズムはStreet Viewの画像から街区番号(番地など)を相当正確に読み取るので、ユーザにとってはたいへん便利だ。しかしこのアルゴリズムは、CAPTCHAの99%を解読してしまうのだ。ご存知のように、CAPTCHAはボット対策として、コンピュータには読めず、人間にしか読めない(はずの)ところにセキュリティ対策としての意味がある。
Googleのアルゴリズムは、Street Viewに写っている読みづらい街区番号(たとえば下図)を、90%の正答率で読む。そのことをGoogleは今日(米国時間4/16)公表した。GoogleのStreet ViewとreCAPTCHAのチームが発表した共同声明[PDF]によると、自然で不作為な写真の中にこの種のデータを認識することは、(ソフトウェア開発にとって)相当な難問だ。光も角度も焦点も多様で、真っ正面からきれいに撮れた写真はほとんどないからだ。でもGoogle Mapsの開発課題の一つとしては、街区番号を正確に読み取ることが重要だ。
画像認識の標準的な方法では、場所同定と分割と認識の三ステップが別々に行われるが、Googleはこれらのステップをすべて一体化して、”deep convolutional neural network“(DCNN) を用いる。DCNNは画像認識にとってとくに有効、とされているニューラルネットワークの方式だ。Googleが一般公開しているStreet View House Numbers(家屋番地)データセットを用いると、そのアルゴリズムの正答率は約96%になる。個々の文字のレベルでは97.84%の正答率だ。通常のStreet Viewの画像はもっと難しいから、90%の正答率にしかならない、とGoogleは説明している。
Googleによると、これまで世界中の1億近い街区番号の取り出しをこのアルゴリズムが可能にした。
Googleは、このアルゴリズムをテストするための独自のreCAPTCHAパズルを発表している。結果は、その相当難問のreCAPTCHAパズルに対して正答率は99.8%だった。CAPTCHAはコンピュータには読めないことを前提とするセキュリティ対策だから、この結果は驚きであるばかりでなく、人間の能力を超えているとも言えるだろう。ぼく自身も、CAPTCHAの解読能力はとても99.8%まではいかないだろう。
将来、DCNNのコードが誰でも簡単に入手利用できるようになれば、ブログのコメント欄をボットで荒らす連中が出てくるかもしれない。でもGoogleに言わせると、今のCAPTCHAは歪(ゆが)んだ文字を人間が単純に認識するだけでなく、特定のテキストを入力する、文字位置を指定するなど、より高度になりつつある。未来のCAPTCHAは、“人間とボットを区別できるための有効で多様な方法を用いるエンゲージメントのためのメディアに進化する”、とGoogleは言っている。
(翻訳:iwatani)
トムソン・ロイターは日本時間4月15日に、研究コミュニティに高いインパクトを持つ論文(高被引用論文)に注目することで、日本の研究機関の存在感を俯瞰する1つの指標とすることを目的とし、2014年より高被引用論文数による日本の研究機関ランキングを発表することにし、国内研究機関のトップ20のほか、国別の国際ランキングで日本が5位以内に入っている分野における国内研究機関のトップ10、そして全22分野における日本の国際ランキングなどを発表した。
今回の分析には、学術論文の引用動向データを提供する統計データベース「InCites Essential Science Indicators(ESI)」が使用された。データ対象期間は、2003年1月1日~2013年10月31日(データ取得時のESI情報に準拠)だ。学術文献・引用索引データベース「Web of ScienceR Core Collection」の収録レコードを基に、論文の被引用数から、世界のトップ1パーセントにランクされる研究者と研究機関の情報がそれぞれ収録されている。収録データの更新は2カ月ごとだ。
また今回のランキングは、「Web of Science Core Collection」に収録されているデータの内、article、review、proceeding paper(ジャーナル収録分)のみを対象とし、分母として算出された。meeting abstractなどは入れられていないため、今回のランキングにおける高被引用論文の割合を基に各研究機関の総論文数を計算することはできないようになっている。
さらにESIでは、共著者の所属機関をすべて網羅し包括的に収録する形だ。そのため、第1著者、責任著者、ほかの著者の区別なく、日本の研究機関が著者所属機関に含まれる高被引用論文の総計が順位に反映される形となっている。
加えて、「高被引用論文(Highly Cited Papers)」の定義についてだが、ESIの22の研究分野において被引用数が上位1%の論文とされている。引用は分野によって動向が異なること、一般的に論文発表から時間を経るほど多くなることが踏まえられており、各年・分野別の高被引用論文が特定され、集計されている。
○国内研究機関の総合トップ20(機関名/高被引用論文数/高被引用論文数の割合。*マークは、組織名を名寄せした集計値)
1. 東京大学/1219/1.53%
2. 科学技術振興機構/771/ 2.41%
3. 京都大学/710/1.21%
4. 大阪大学/613/1.28%
5. 理化学研究所/523/2.25%
6. 東北大学/457/0.98%
7. 産業技術総合研究所/354/1.25%
8. 名古屋大学/340/1.11%
9. 東京工業大学/315/1.17%
10. 自然科学研究機構*/284/1.32%
11. 筑波大学/246/1.25%
12. 九州大学/241/0.76%
13. 物質・材料研究機構/222/1.59%
14. 広島大学/200/1.15%
15. 北海道大学/193/0.61%
16. 岡山大学/175/1.18%
17. 神戸大学/148/1.09%
18. 早稲田大学/147/1.41%
19. 高エネルギー加速器研究機構/132/2.12%
20. 慶應義塾大学/125. 0.79%
○総合国別トップ5
1. 米国
2. ドイツ
3. 英国
4. 中国
5. 日本
以下は、分野別トップ10。日本の研究機関が著者所属機関に含まれる高被引用論文の総計が世界順位で5位以内の分野、化学、免疫学、材料科学、生物学・生化学の4分野をピックアップ。ESIでは22の分野を設けているが、全22分野の日本のランキングは、最後に掲載した。なお、ノーベル賞受賞者を複数輩出し、日本が得意と見える物理学分野は世界6位となっている。
○化学/CHEMISTRY(世界4位) (機関名/高被引用論文数/高被引用論文数の割合。*マークは、組織名を名寄せした集計値)
1. 科学技術振興機構/181/2.36%
2. 東京大学/155/1.86%
3. 京都大学/139/1.51%
4. 大阪大学/128/1.67%
5. 自然科学研究機構*/120/1.79%
6. 産業技術総合研究所/89/1.24%
7. 東北大学/57/0.89%
8. 物質・材料研究機構/54/2.09%
9. 東京工業大学/46/0.68%
10. 名古屋大学/43/1.06%
○化学分野国別トップ5
1. 米国
2. 中国
3. ドイツ
4. 日本
5. 英国
○材料科学(世界4位) (機関名/高被引用論文数/高被引用論文数の割合)
1. 物質・材料研究機構/92/1.94%
2. 科学技術振興機構/84/4.16%
3. 東北大学/60/0.94%
4. 東京大学/55/1.63%
5. 産業技術総合研究所/52/1.22% 6/京都大学/36/1.23% 7/大阪大学/32/0.79% 8/東京工業大学/24/0.85% 9/理化学研究所/16/3.25% 10/九州大学/13/0.63% 10/山形大学/13/4.74%
○材料科学分野国別トップ5
1. 米国
2. 中国
3. ドイツ
4. 日本
5. 英国
○免疫学(世界4位) (機関名/高被引用論文数/高被引用論文数の割合)
1. 大阪大学/70/5.74%
2. 科学技術振興機構/55/8.33%
3. 東京大学/36/2.65%
4. 京都大学/33/4.07%
5. 理化学研究所/26/3.93%
6. 九州大学/12/2.19%
7. 東北大学/9/1.78%
8. 国立感染症研究所/6/0.66%
9. 兵庫医科大学/6/3.92%
10. 東京医科歯科大学/4/0.96%
11. 北海道大学/4/0.73%
12. 千葉大学/4/1.03%
13. 東京都臨床医学総合研究所/4/2.88%
14. 名古屋大学/4/1.44%
○免疫分野国別トップ5
1. 米国
2. 英国
3. ドイツ
4. 日本
5. フランス
○生物学・生化学(世界5位) (機関名/高被引用論文数/高被引用論文数の割合。*マークは、組織名を名寄せした集計値)
1. 東京大学/68/1.04%
2. 科学技術振興機構/67/1.94%
3. 京都大学/52/1.07%
4. 理化学研究所/39/1.26%
5. 大阪大学/38/0.85%
6. 自然科学研究機構*/21/1.64%
7. 九州大学/18/0.66%
8. 産業技術総合研究所/17/0.88%
9. 慶應義塾大学/15/1.24%
10. 北海道大学/12/0.44%
11. 名古屋大学/12/0.51%
12. 情報・システム研究機構*/12/4.51%
○生物学・生化学分野国別トップ5
1. 米国
2. 英国
3. ドイツ
4. カナダ
5. 日本
なお、全22分野における日本の順位は以下の通り。残念ながら最高は4位で、3位以上はない。また、経済・ビジネス、精神医学・心理学、社会科学などは20位以下とあまり得意としていない分野であることがわかる。しかし、世界にはおおよそ200の国家や地域があり、それを考えれば、これだけの分野でベスト10以内も多く、資源もなければ国土もあまり広くない日本が奮闘しているという見方も可能だろう。
○全22分野における日本の国際ランキング
・宇宙科学(SPACE SCIENCE)/8
・化学(CHEMISTRY)/4
・環境・生態学(ENVIRONMENT ECOLOGY)/17
・経済・ビジネス(ECONOMICS & BUSINESS)/22
・工学(ENGINEERING)/11
・コンピューター科学(COMPUTER SCIENCE)/14
・材料科学(MATERIALS SCIENCE)/4
・社会科学(SOCIAL SCIENCES、GENERAL)/21
・植物・動物学(PLANT & ANIMAL SCIENCE)/6
・神経科学・行動学(NEUROSCIENCE & BEHAVIOR)/10
・数学(MATHEMATICS)/13
・精神医学・心理学(PSYCHIATRY PSYCHOLOGY)/20
・生物学・生化学(BIOLOGY & BIOCHEMISTRY)/5
・地球科学(GEOSCIENCES)/8
・農科学(AGRICULTURAL SCIENCES)/14
・微生物学(MICROBIOLOGY)/10
・複合領域(MULTIDISCIPLINARY)/11
・物理学(PHYSICS)/6
・分子生物学・遺伝学(MOLECULAR BIOLOGY & GENETICS)/6
・免疫学(IMMUNOLOGY)/4
・薬物学・毒物学(PHARMACOLOGY & TOXICOLOGY)/6
・臨床医学(CLINICAL MEDICINE)/13
研究の国際化や競争の激化に伴い、大学・研究機関における研究評価のニーズは年々高まりをみせており、多角的な研究力分析には、論文数、被引用数など従来の絶対的指標と共に、高被引用論文を初めとする相対的指標の併用が求められるようになってきているという。
また相対的指標を見ることで、国・研究機関・研究者個人が、特定の集合体の中でどのくらいの位置にいるか、ベンチマークと比較してどうかなど、各自のポジションを客観的に把握し、機関の現状分析や戦略策定に活用することができるとする。高被引用論文を多く輩出する研究機関は、その分野で関心を集める傾向があり、今回のランキングは、世界的な学問・研究に対する影響力など、研究機関の世界の位置を示唆する1つの有力な指標となるとした。
インクリメントPは、iOS向け地図ナビアプリ「MapFan+」およびAndroid向けオフライン地図ナビアプリ「MapFan for Android 2013」のオフライン用地図のダウンロードデータを最新データへ更新した。
[関連写真]
今回の更新では、2014年3月末までに実施された、市区町村の合併や道路の開通、交通関連施設・公共施設・ランドマークの新設などを反映している。更新箇所は以下の通り。
<市町村の合併>
栃木県「下都賀郡岩舟町」→「栃木市」
<道路の開通・変更>
【開通】三陸縦貫自動車道「高田道路」 通岡IC~陸前高田IC(岩手県)
【開通】環状第二号線 新橋~虎ノ門(通称:マッカーサー道路)(東京都)
【開通】蒲郡バイパス 幸田芦谷IC~蒲郡IC(愛知県)
【開通】中勢道路(三重県)
【開通】京奈和自動車道 紀北かつらぎIC~紀の川IC(和歌山県)
【開通】尾道自動車道 吉舎IC~三次東JCT・IC(広島県)
【開通】東九州自動車道 苅田北九州空港IC~行橋IC(福岡県)
【開通】九州中央自動車道 嘉島JCT~小池高山IC(熊本県)
【開通】東九州自動車道 北浦IC~須美江IC、日向IC~都農IC(宮崎県)
<施設の新設・名称変更など>
【復興】三陸鉄道 南リアス線(釜石~吉浜)、北リアス線(田野畑~小本)(岩手県)
【完成】胆沢ダム(岩手県)
【開設】新潟アサヒアレックスアイスアリーナ(新潟県)
【開店】テラスウォーク一宮(愛知県)
【開業】中之島LOVE CENTRAL(大阪府)
【完成】那覇空港 国際線旅客ターミナルビル(沖縄県)
《レスポンス 纐纈敏也@DAYS》