第1回ウェブ学会シンポジウム

第1回ウェブ学会シンポジウムに行ってきました。

安田講堂第1回ウェブ学会シンポジウム 東大本郷キャンパスの銀杏並木

全体的にウェブに関する様々なテーマを広く扱っていましたが、内容盛りだくさんでどれも楽しく聞くことができました。個人的には午後の技術系のセッションがお目当でしたけど。忘備録として覚えている範囲でメモ。

■サーチとインタラクション
ユーザとサービス間のギャップをどう埋めるか

  • インタラクションによる補完

インタラクションはユーザとサービスの架け橋

■ウェブがつくる人工知能
人工知能としてのWeb

関係抽出の課題

  • 非構造データ
  • 矛盾する事柄
  • ノイズ成分
  • スケーラビリティ

同姓同名問題
同一のentityが複数の名前で参照される場合の問題

entityの類似性と関係の類似性

  • 属性類似性
  • 関係類似性

Document Retrievalからobject Retrievalへ

  • ユーザが求めている情報は複数サイトに分散
  • ユーザはdocumentではなく何らかのobjectを検索したい

検索→推論

■ウェブデータを使った統計的自然言語処理
Google日本語入力を開発された工藤さんの発表。

In Google
・Web上のデータのような大規模データを扱う際に、MapReduceを用いると有効かどうかをまず考える

・あるアルゴリズムを扱う際に、Webでスケールするかどうか

ゼロ頻度問題にはスムージング手法を用いて補正。
代表的なスムージング手法
Kneer_Ney(KN)(なんて読むんでしょうか。。)
Stupid-Backoff(SB)
計算量は KN>SBだが、WebではKN

  • モデル圧縮・辞書の効率的圧縮

データを効率よく圧縮
エラーを許容した圧縮(Randomized Algorythm)
ex)
- 不可逆圧縮(jpg)
- ハッシュ値をそのまま使う
- Bloom Filter

■ウェブアーカイブを用いた社会分析
実社会の射影としてのウェブ(ウェブは社会のセンサ)
ウェブの時系列分析
検索エンジンスパムなどのウェブ可視化と構造解析

検索エンジン→今のウェブをリアルタイム検索
Socio-Sence→過去から現在に至るウェブの変遷から価値を見つける