第1回ウェブ学会シンポジウム
第1回ウェブ学会シンポジウムに行ってきました。
全体的にウェブに関する様々なテーマを広く扱っていましたが、内容盛りだくさんでどれも楽しく聞くことができました。個人的には午後の技術系のセッションがお目当でしたけど。忘備録として覚えている範囲でメモ。
■サーチとインタラクション
ユーザとサービス間のギャップをどう埋めるか
- インタラクションによる補完
インタラクションはユーザとサービスの架け橋
- 知識ベースを作る
- セマンティックWeb
関係抽出の課題
- 非構造データ
- 矛盾する事柄
- ノイズ成分
- スケーラビリティ
同姓同名問題
同一のentityが複数の名前で参照される場合の問題
entityの類似性と関係の類似性
- 属性類似性
- 関係類似性
Document Retrievalからobject Retrievalへ
- ユーザが求めている情報は複数サイトに分散
- ユーザはdocumentではなく何らかのobjectを検索したい
検索→推論
■ウェブデータを使った統計的自然言語処理
Google日本語入力を開発された工藤さんの発表。
In Google
・Web上のデータのような大規模データを扱う際に、MapReduceを用いると有効かどうかをまず考える
・あるアルゴリズムを扱う際に、Webでスケールするかどうか
- 凝ったアルゴリズムは使わない(運用上のノウハウ)
ゼロ頻度問題にはスムージング手法を用いて補正。
代表的なスムージング手法
Kneer_Ney(KN)(なんて読むんでしょうか。。)
Stupid-Backoff(SB)
計算量は KN>SBだが、WebではKN
- モデル圧縮・辞書の効率的圧縮
データを効率よく圧縮
エラーを許容した圧縮(Randomized Algorythm)
ex)
- 不可逆圧縮(jpg)
- ハッシュ値をそのまま使う
- Bloom Filter
■ウェブアーカイブを用いた社会分析
実社会の射影としてのウェブ(ウェブは社会のセンサ)
ウェブの時系列分析
検索エンジンスパムなどのウェブ可視化と構造解析
検索エンジン→今のウェブをリアルタイム検索
Socio-Sence→過去から現在に至るウェブの変遷から価値を見つける