リアルSEOホーム » 用語集 » か行 » 形態素解析
形態素解析 - 解説
形態素解析 - 解説 
形態素解析とは日本語特有の語句の解析処理のことである。
英語などであれば、単語の区切り文字はスペースなので、検索エンジンなども、どこからどこまでが、1単語なのか明確にわかる。
しかし、日本語や中国語などは単語同士の区切りがわかりにくくなっており、インデックスを行う前に、文章を単語に切り分けて処理を行っている。
Yahooでは以下の文
庭には二羽ニワトリがいる
を
庭|に|は|二|羽|ニワトリ|が|いる
というように語句処理をして、インデックスしている。
"形態素解析" 関連の人気・注目記事
以下の記事は、自動収集しています。不適合な内容が表示されることがあります。ご了承ください。
タイトルの後に表示されるusersのタグは、ブックマーク数です。左が【はてな】右が【ライブドア】のブックマークの数です。数字が多いほど人気の高い記事ということになります。
・KyTea: 京都テキストツールキット を試してみた - nokunoの日記 



















Twitterで@neubigさんのつぶやきを見て早速使ってみました。KyTea (京都テキスト解析ツールキット) KyTeaを使うと、文章から単語の区切りと読みを推定して出力してくれます。例えば「今日の天気は晴れです。」という文章を入力すると、「今日/きょう の/の 天気/てんき は/は 晴れ/はれ で/で す/す 。/。」というように単語をスペース区切りで、読みをスラッシュ(/)区切りで出力し...
・mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ
(インストールの仕方などはほかの人がいっぱい説明してくれているので割愛) どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に 「wikipediaとhatenaキーワードをユーザ辞書として利用する」 ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/mu...
・unnonouno: 構文解析が何に役立つのか
2010年2月6日土曜日構文解析が何に役立つのか思いがけずたくさんブックマークしていただいたので,この機会になんで構文解析なんかやるのかというお話を書こうと思います.おそらく,NLP界隈の人には何をいまさらと思われるかもしれませんが,それが本当に役立つかというとなかなか一筋縄では行きません.今回興味を持たれた方の多くはNLP分野外の方なんじゃないかな,と勝手に考えてますのでそのつもりで書きます. ...
・Google技術講演会@東大に行ってきました - nokunoの日記
id:tsubosakaに教えられて東大へ。Web上での告知は工藤さんのつぶやきだけだったのですが、最後に挙手をしてもらっていたのを見るに、他にも他大学や社会人の方がいらしていたようです。内容的には1/30に行われた大阪での講演と同じもので、詳しいレポートも上がっているのですが、自分の目で見て話を聞くとやっぱり情報量が違うな、ということが分かりました。 本の虫: Google日本語入力の技術講演会...
・unnonouno: 構文解析と情報科学
2010年2月1日月曜日構文解析と情報科学そろそろ論文紹介記事を書いてみます. NLP2010のプログラムにもあるとおり,しばらく係り受け構文解析周りをやっていました(います).私の出身研究室では構文解析をやっている人がたくさんいたのですが,最近その面白さがなんとなくわかってきました.いや,一応私も2年間日本語係り受け解析の演習担当やってたよ! 構文解析のおもしろさというのは,言語学,機械学習,プ...
・NLTK Bookで教師なし形態素解析 - nokunoの日記
意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究...
・まほろば::GalateaTalk(形態素解析辞書)
GalateaTalk は、形態素解析ツール「ChaSen(茶筌)」を使って、文章を解析して「それ以上分割できない最小の文字列(形態素)」に分割します。その際に使用される辞書を形態素解析辞書といい、ipadic と NAIST-jdic と Unidic などがあります。 ●ipadic「茶筌」は、奈良先端科学技術大学院大学松本研究室で作成したフリーの形態素解析システムです。利用に関する制限はあり...
・ヽ( ・∀・)ノくまくまー(2010-01-06)
● [Ruby] Chawan gateway interfacesChawan を更新しました。(ver 0.0.4)http://github.com/maiha/chawan変更点ChasenAnalyzer を実装 (chasen, mecab のどちらも動作するようになった)parse の戻り値を Array から Chawan::Nodes に変更 (gateway interface...
・ヽ( ・∀・)ノくまくまー(2010-01-03)
● [Ruby] chawanchasen (形態素解析システム)を Ruby から使うには、yu-yan 作の gyokuro ライブラリが便利でずっと愛用していたのだが、最近の UTF-8 な chasen だと相性が悪いみたい。困ってても仕方ないので、とりあえず自作。chasen の受け皿として chawan と命名。http://github.com/maiha/chawanインストール
・ヽ( ・∀・)ノくまくまー(2010-01-03)
● [Ruby] chawanchasen (形態素解析システム)を Ruby から使うには、yu-yan 作の gyokuro ライブラリが便利でずっと愛用していたのだが、最近の UTF-8 な chasen だと相性が悪いみたい。困ってても仕方ないので、とりあえず自作。chasen の受け皿として chawan と命名。http://github.com/maiha/chawanインストール
・ JavaScript で 形態素解析ってこうですか? わかりません >< - latest log
js, ネタhttp://pigs.sourceforge.jp/blog/20091232/perry.zipzip ファイルを解凍し、perry.htm を IE で開きます。 文章を選択するか [say] ボタンをクリックActiveX の実行を許可しますか? と聞かれたら、許可してください。だいたい、小学校三年生ぐらいだったはず。
・[を] ウェブサービス(Web API)をプログラムから使う
ウェブサービス(Web API)をプログラムから使う2009-12-26-2[WebAPI][Programming]前回[2009-12-24-1]はウェブサービス(Web API)の基本的事項と、よく採用されているプロトコルとデータ構造の概要を解説した。 プロトコルとデータ構造の組み合わせ、計4つのうち3つを取り上げて、実際にプログラムから Web API を使う方法を例を用いて説明する。 今...
・[を] ウェブサービス(Web API)とは?
ウェブサービス(Web API)とは?2009-12-24-1[Programming]Webサービス(Web API)とは、ユーザがウェブ経由で他の人・会社が持っているデータや処理をアクセスして使うための技術。 プログラムから呼び出して使うことが多く、それを前提としたプロトコル、データ構造となっている。 商品検索、ウェブ検索、ソーシャルブックマーク、写真サービス、ツイッター、カレンダー、番組表、...
・第10回 全文検索システムの「Kabayaki」と「Namazu」の特徴 - 企業システムで有効なオープンソース活用法:ITpro
今回から,全文検索システムの「Kabayaki」を紹介します。Kabayakiは,日本語文書用に作られた全文検索システムです。オープンソースの全文検索エンジン「Namazu」に対してWebブラウザで各種設定を可能にするなど,使いやすく改良したものです。全文検索は,文書の全情報が検索対象となります。ファイル名や見出し,文書中の特定の要素に限定しません。また,ファイル内の文字列検索が単一ファイルを対象...
・CNFはGoogle日本語入力の夢を見るか? - nokunoの日記
タイトルは釣りです(笑)。Conditional Neural Fields (pdf)NIPS 2009の論文が公開されていたので、上の論文を読みました。ちなみに最近はTwitterでこういった情報を知ることが多く、自然言語処理関係のリストを見ていると結構業界の動向がなんとなく分かったりします。さてConditional Neural Fields(CNF)というのはConditional Ra...
・構築した辞書を元にAho Corasick法を使ってキーワードを探す - Seeking for my unique color.
最近はこんな活動やってます。 卒研発表会での発表(アクセス数予測モデルの作成)1000speakersでの発表(ロジスティックモデルを用いたTwitter remove判別モデル)Tsukuba.R(R userのためのコミュニティ活動)Tsukuba.R#1, Tsukuba.R#2, Tsukuba.R#3, Tsukuba.R#4, Tsukuba.R#5, Tsukuba.R#6
・「言語研究って、おもしろいですよ」宮尾祐介助教へのインタビュー
コンピュータに英文解析と意味理解の能力を “考えるコンピュータ”も視野に研究を加速「太郎は花子が好き」、「花子は太郎が愛している人」。この2つの文章は、高校生以上ならほとんど同じ意味だとわかるだろうが、いまのコンピュータには、人間と同じような理解力はない。宮尾助教が目指しているのは、コンピュータが英語文の構造(構文)を解析し、意味を理解する能力を持たせることにある。「英語をはじめ外国語の勉強が嫌い...
・Google日本語入力 ショートレビュー
すでに大きな話題になっていますが、Googleが独自のインプットメソッドであるGoogle日本語入力(beta)を発表しました。32bit版のWindows XP SP2以降 / Vista SP1以降 / 7、およびMac OSに対応しています。特徴はウェブを解析して得られた新語、専門用語、芸能人の名前などの多様な語彙を誇ること、軽快な動作とともに次々とサジェスト表示していくこと。ネットジャーゴ...
・痛いニュース(ノ∀`):「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる?
「ひとがご→人がゴミのようだ」 桁違いの語彙力、Googleが日本語入力ソフト(無料)発表…ATOKどうなる?1 名前:☆ばぐた☆ ◆JSGFLSFOXQ @☆ばぐ太☆φ ★ :2009/12/03(木) 15:07:34 ID:???0 グーグル日本法人は3日、日本語入力ソフト(ベータ版)の提供を始めた。ネット上から自動的に単語を収集して辞書をつくり、新しい言葉や専門用語、著名人の名前なども収録...
・WordPressに『WordPress Related Post for Japanese』を導入する方法 - IDEA*IDEA 〜 百式管理人のライフハックブログ
もう既に導入している人も多いでしょうが、「WordPress Related Post for Japanese」の導入方法を友達のためにまとめてみますよ(いまさら?とか言わない!w)。関連記事を表示するためのプラグインですね。関連記事を表示しておくと訪問者がたくさんのページを見てくれるのでいろいろ良いですよ。おすすめです。なお、英語版では有名な「WordPress Plugins」を導入している...




