リアルSEOホーム » 用語集 » か行 » 形態素解析
形態素解析 - 解説
形態素解析 - 解説 
形態素解析とは日本語特有の語句の解析処理のことである。
英語などであれば、単語の区切り文字はスペースなので、検索エンジンなども、どこからどこまでが、1単語なのか明確にわかる。
しかし、日本語や中国語などは単語同士の区切りがわかりにくくなっており、インデックスを行う前に、文章を単語に切り分けて処理を行っている。
Yahooでは以下の文
庭には二羽ニワトリがいる
を
庭|に|は|二|羽|ニワトリ|が|いる
というように語句処理をして、インデックスしている。
"形態素解析" 関連の人気・注目記事
以下の記事は、自動収集しています。不適合な内容が表示されることがあります。ご了承ください。
タイトルの後に表示されるusersのタグは、ブックマーク数です。左が【はてな】右が【ライブドア】のブックマークの数です。数字が多いほど人気の高い記事ということになります。
・ネットソリューションズ、圧縮インデックスライブラリをオープンソースで公開 - SourceForge.JP Magazine 














最新Webブラウザに向けたWebサイト開発テクニック[10/31更新] 2008年になり、FirefoxやInternet Explorer、Operaといった主要Webブラウザが相次いでメジャーバージョンアップ... SourceForge.JPを活用する[10/10更新] 本特集では、CVSやSVNといったバージョン管理システムの使い方や、SSH/SCPによるリモートログイン/ファイル転送...
・[を] さくらの500円レンタルサーバで MeCab を使う
さくらの500円レンタルサーバで MeCab を使うための手順。 「MeCabをPerlから使う」[2006-02-25-4]を参考に。 MeCab は日本語形態素解析器です。 日本語文を単語に切り分けてくれます。 - MeCab: Yet Another Part-of-Speech and Morphological Analyzer http://mecab.sourceforge.net/ ソースの入手は上記 URL から。 MeCab 本体のインストール まずは本体を入れなければ話になりません。 tar zxfv mecab-0.97.tar.gz cd m...
・第11回情報論的学習理論ワークショップ(IBIS2008)
最近, ノンパラメトリック・ベイズ法とよばれるベイズ統計モデルが脚光を浴びているが, 理論的な前提の難解さのために, 多くの人にとってその本質がわかりにくい面があると思われる。そこで本チュートリアルでは, * ノンパラメトリックベイズ法とは何か? どんなモデルがあるのか? * どうして推定が可能なのか? * どのような応用があるのか? * 興味を持った場合, どうやって勉強...
・これはセンスが良い。Lingua::JA::TFIDF - プログラマになりたい
手軽にTF/IDFを計算するモジュール 情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。 ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。 今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します...
・Twitter上の発言からユーザの躁鬱状態を推定する - Hatena::Diary::Shunirr とあるしゅにるの禁書目録
対象:shunirr 解析期間:2008年9月1日から9月30日まで 簡単なアルゴリズム Twitterの発言を形態素解析 バラした語を 感情語辞書から検索 発言当りのポイントを計算 一日の平均を出力 グラフ化 結果 こんな感じ 特徴のある部分のログを見ても、特に感情の変化が分からないので精度が微妙すぎる。
・louiseuuuwaaaan :: labs.m2hq.net
Wed, 22 Oct 2008 00:30:59 JST
・[を] ルビ振りAPIで「ふりがな」を付けよう!
Yahoo!デベロッパーネットワークで、 ちょっと前に「ルビ振りAPI」が公開されました。 Yahoo!デベロッパーネットワーク - テキスト解析 - ルビ振り http://developer.yahoo.co.jp/jlp/FuriganaService/V1/furigana.html ルビ振りWebサービス 漢字かな交じり文に、ひらがなとローマ字のふりがな(ルビ)を付けます。 この記事では、 その特徴と簡単なサンプルプログラムを紹介します。 特徴 ふりがなを...
・ニュースの可視化サイト『Newsgraphy』を公開しました - kaisehのブログ
日本のニュースを地図化して俯瞰できる『Newsgraphy』というサービスを作りました。 Newsgraphy 6月に公開して大きな反響をいただいたHatenarMapsの可視化手法を、Yahoo!のトピックスAPIから取得したニュース記事に適用して、いろいろと機能強化を施したものがNewsgraphyです。Mashup Award 4thにも応募しています。 ニュースの可視化と言えばnewsmapが有名ですが、newsmapよりも面白くて実用性の...
・to
Tomblooは日本語のタグをどうやってインクリメントに絞り込んでるんだい? Twitter / griffin_stewie こんな流れ。 タグを結合(’ [‘で区切る) -> 全角が含まれてるかチェック(英語タグしか使ってないとAPIの無駄づかいになるから) -> Yahooの形態素解析エンジンでかなに変換(ここで得られるローマ字と入力のローマ字は違うため使わない) -> カタカナに変換 -> ローマ字テーブルを使って変...
・yebo blog: iPhoneの仮名漢字変換はMeCabを利用
iPhone OS 2.1になって仮名漢字変換の速度と精度の向上が図られている。変換精度を上げているのは、MeCab (和布蕪) が使われているためだ (Leopard でも Spotlightの入力解析のために搭載されている)。かなりの長文を入力してもうまく変換できるのはMeCabの優秀な形態素解析エンジンのおかげだ。実際、VFDecrypt鍵を使ってそれぞれのファームウェアをマウントして比較してみると、2.0.2(BigBe...
・国立国語研究所、「近代文語UniDic」ver.0.8を公開(2008-08-01) - ACADEMIC RESOURCE GUIDE (ARG) - ブログ版
国立国語研究所が「近代文語UniDic」のver.0.8を公開した(2008-08-01)。 ・「近代文語UniDic」ver.0.8 http://www.kokken.go.jp/lrc/index.php?UniDic ・言語データベースとソフトウェア http://www.kokken.go.jp/lrc/ ・国立国語研究所 http://www.kokken.go.jp/ 「近代文語UniDic」は、近代文語文を解析するための形態素解析辞書で明治期の文語論説文の一般的な文章であれば、解析精度は96%から98%にのぼるという。な...
・ナイーブベイズによるテキスト分類体験アプリ - 睡眠不足?!
もともとは研究室の新入生にNaive Bayesのイメージをつけるためにつくったもの.Naive Bayesを世の中に広めるために,きちんと公開することにしました. Text classification by Naive Bayes Naive Bayesナニソレ?という方はとりあえずググりましょう.理屈はわかったけれど,うまくイメージがつかないなぁ..という状態になったら本プログラムを触ってみてください.すっきりします.たぶ...
・[を] RSS を読み込んでランダムな文章を生成する
今日のIIR輪講[2008-09-07-2]の内容のフォローも兼ねて、 ちょっとしたハックを紹介。 bigram language model に基づく、 ランダム文生成を行います。 って、まあ、単純にある単語の次に現れる単語の分布を用いて、 文章を生成していくだけですが。 以下、サンプルプログラムと実行例です。 サンプルコード rss-lm.pl #!/usr/bin/perl use strict; use warnings; use XML::RSS; use LWP::Simple; use XML::Simple; use URI...
・関連するタグのデータをAPIで提供する『tagatum』 | 100SHIKI.COM
これは興味深いプロジェクト。 tagatumでは、ブロガーが記事につけたタグを解析し、どのタグとどのタグがペアで使われているかを分析、そのデータをAPIで提供している。 これを使えば関連記事の検索がしやすくなったり、検索後の提案ができたりするかもしれない。 サイトには使用例があげられているが、基本的には「APIは作ったのであとはあなたに任せた!」という姿勢も潔...
・これで翻訳と名乗れるその神経がわかりません、Googleさん。 - I have got some news from ...
「google翻訳 使えない」という底意地の悪い検索で見つけた2ちゃんの投稿をまとめたページ@2008年5月*1にあった「めちゃくちゃな“翻訳”の例」から、2つの例をやってみた。3ヵ月も経過していれば何らかの進展はあったかもしれない。 僕はばかだ。→ I was dead. ※5月から変化なし *2 ありえない。 Googleの翻訳は役に立ちません。→ Google’s translation is useful. ※5月から変化なし...




