起業率も女性の役員比率も低い国日本

世界的に見て日本の起業率は低く途上国並

 OECDの統計によると、起業率の国別ランキングにおける日本の順位は39ヶ国中30位と低く、設立までにかかる手続き、日数もそれぞれ8段階、23日と比較的多い傾向にある。
 これら手続き数、日数を設立コストと捉えて各国の起業率ランクとの関係を見ると、いずれも有意に強いプラスの相関を示している(p < 0.0001, R-2乗値 = 0.638205, 0.54049)(図表1, 2)。図表から、中国やインドネシアなどの新興アジア諸国の設立コストは高く、新しく簡易的手続きによる企業形態(Auto-Entrepreneur)を導入して起業率を増やしたフランス、書類一枚で設立可能な米国などの先進諸国とは対照的となっている。日本はこれらの中間に位置しており、会社設立はあまり容易とは言えない。中小企業庁白書では今よりも開業率・廃業率が上昇した多産多死型の社会が理想と記述されており、起業率についても一層の増加が望まれる。このOECDのレポートは、起業による機会損失および設立コストと期待ベネフィットとの比較考量が、各国の起業の活性度に重要な因子として関与することを主張しており、データによりそれが裏付けられていることを示している。ひるがえって日本の起業率の低さを考えると、このデータからは日本の会社設立における設立コストの高さがその要因として示唆される。


f:id:marcie_vn_nv:20130712003049j:plain
図表1: 起業率の国別ランクと手続き数の関係( R^2 = 0.638205 )

f:id:marcie_vn_nv:20130712003054j:plain
図表2: 起業率の国別ランクと設立までの日数の関係( R^2 = 0.54049 )

OECD Entrepreneurship at a Glance 2012より作成)

企業の生存率は5年で80%と高い

 
 生存率についてはあまり信ぴょう性のあるデータが見つからないが、中小企業庁白書の統計では5年で80%と国際的にも高い水準にある。OECDの統計では5年で50%ほどになるのが一般的となっている。計算方法の違いがあるため一概に比較できないが、日本には長寿企業が多いのも実際である。なお近年ではイノベーションの加速化などから、世界的に廃業率の増加する傾向が見られる。

f:id:marcie_vn_nv:20130713200447p:plain
図表3: 日本企業の生存率
f:id:marcie_vn_nv:20130713215042p:plain
図表4: 諸外国の生存率

取締役会の女性比率は36ヵ国中最下位

 一時期話題になった覚えのある話であるが、日本の取締役会における女性比率は約4%とOECD諸国の中でも最低水準にある。女性の就業率が6割を超える中、何らの性差別もないと仮定するとこの数倍程度にはなるはずであり明らかに低い水準と言える。すなわち日本では、故意に女性が出世しにくいのが現状である。就業率や他国との比較からすると適正水準は10―20%程度にはなると思われることから、女性役員数は今よりも数倍程度に増える必要がある。この実現には単なる意識改革だけではなく、抜本的な変革が求められると思われる。具体的には、女性の高学歴化、育児休業制度の実質化、昇進要件からの勤続年数の廃止などが必要と思われる。


f:id:marcie_vn_nv:20130712070851j:plain
図表5: 取締役会における女性比率の国際比較

OECD Entrepreneurship at a Glance 2012より作成)

An Introduction to Interactive Programming in Pythonが終わった

これまでに受けた中でも最高レベルにクールでインタレスティングなコースだった。

入念に準備されていて、終える頃にはこれでPythonの基本はマスターできたと自信を持たせてくれた。

大体分かったところで今度はPythonでオリジナルゲーム作りに挑戦しようと思ってる。

それと最近とりはじめたのが、スマフォのアプリ開発が学べる次のコース。

Creative Programming for Digital Media & Mobile Apps
http://p.tl/ivti

提出課題がやや大変そうだけど、アプリ開発を始めたいところだったしちょうどいい。


以下、Codeskulptorの課題コード

Internet Explorer非対応
My project on codeskulptor #7, #8 Rice Rocks simple shooting game

codesculptor課題メモ #5,#6―memory, Blackjack

古典的カードゲーム、メモリー(神経衰弱)とブラックジャックの課題プログラムのメモ


スクリーンショット

f:id:marcie_vn_nv:20130608102855p:plain
f:id:marcie_vn_nv:20130608102846p:plain:w250


操作説明:

メモリー

 2枚めくって同じ数字のカードが揃えばそのまま。違う数字が出たら裏返してやりなおし
全部で16枚のカードをできるだけ少ない回数でめくろう!


ブラックジャック

 特殊ルールなしのブラックジャック。ベット(掛け金)の設定機能は課題にはない追加機能(日本円バージョン)。ラウンド終了時にしかベット設定できない仕様です。



#5メモリー
http://www.codeskulptor.org/#user16_o94JdAfU4c_8.py


#6ブラックジャック
http://www.codeskulptor.org/#user16_Bd17bCpfQL_10.py


追記:

 ブラックジャックのプログラムを作るのはやや困難だった(提出期限に間に合わなかった)。ロジックとしてはそう難しいわけではないけれど、クラス化してカードをオブジェクト化したり画像を描画したりしているためか、処理がやや煩雑で想像しづらいところがあった。でも、よくわからなかったオブジェクト指向プログラミングが理解できたのは大きな収穫だったな。

 カードゲーム形式のガチャアプリも、している操作はこのプログラムとそう変わらないと思う(多分)。カードオブジェクトごとに攻撃力やらスキルやらを持たせて、カードの配置やアニメーションなどで戦闘シーンを演出。pythonでもスマホアプリは作れるから、ギミックとしてはガチャアプリも作れると思う。ガチャアプリは基本絵がすごいのであって、凝ったギミックをしたものはそれほど多くないと思う。ビジネスの世界では要領の良さが重要というか、他社製品の真似ばかりしている企業ほどシェアトップになったりするものだから、妙なこだわりなんかいらないのかもな、ともおもったり

PyQTでのインターフェイス作りが一段落

作ろうと思っていたテキストマイニングツールのインターフェイスの試作版が完成しました。簡単に2、3日で作るつもりがQTDesigner関係のドキュメントがあまりなくて予想外に苦労しました。QTDesignerの使い方についてはあとでまとめとこう。

f:id:marcie_vn_nv:20130526041900p:plain

今後の構想としては、クローラーと合わせてgoogleの検索結果やtwitterのつぶやきからの共起語抽出や、感情語との共起をもとにしたネガポジ分析など

pythonでピンポンゲーム作ったった

courseraの授業で作ったゲーム、pongとか言う卓球ゲームらしい。

キーボードによる操作が付いて、ようやくゲームらしいゲームな感じがしてきた。

提出期限も過ぎたことだし、貼り付けておこう。

http://www.codeskulptor.org/#user13_jodIA44zKT_8.py



操作方法:

飛んできたボールをパッドを使って打ち返そう!

操作キー:

1P: w,s
2P: ↑,↓

courseraのpythonでゲーム作ろうぜ的な授業で書いたやつ

世界中に200万人以上の利用者がいる無料のオンラインコースcoursera日本の利用者は数万人程度)。

そのなかでも割合に人気のあるAn Introduction to Interactive Programming in Pythonというプログラミングが学べるコースでは、毎週プログラミング課題が出る。

別に課題をやったところで特に良いことがある訳でもない。ただし勉強にはなるという、現状ではそんな感じ(将来的には取った科目を対外的に証明できるようにしていくつもりらしい)。

今週で5つ目の課題に入っていて、これまでに4つのプログラムを提出した。ブラウザ上で簡単に動かして見れるようになっている。

実行は左上の再生ボタンを押すだけ。ね、簡単でしょ。


"We want... a shrubbery!"
http://www.codeskulptor.org/#user10_dDOI4PfEbM_0.py


Rock-paper-scissors-lizard-Spock
http://www.codeskulptor.org/#user10_H3qxQvxhba_3.py


"Guess the number" game"
http://www.codeskulptor.org/#user13_GmaB66L4Dg_9.py


"Stopwatch: The Game"
http://www.codeskulptor.org/#user12_vAULwwiuuu_5.py

pythonで類似度の計算とか

研究でやった共起頻度とかの共起まわりの計算処理をツール化しようという計画。
pythonGUIを使ってInteractiveに仕上げる…予定。
とりあえずMeCabをインポート。mathも便利なので使う。

import sys
import MeCab
import math

形態素の処理の部分

accep_f=['感動詞','形容詞','動詞','名詞','未知語','フィラー']
accep_d=['サ変接続','一般','自立']

text=open('text.txt','r')
m = MeCab.Tagger('')

for line in text:
    node = m.parseToNode(line)
    id_doc+=1
    
    while node:
        N+=1
        if(node.feature.split(",")[0] in accep_f and
              node.feature.split(",")[1] in accep_d):
            freq_vector(node.surface,id_doc,line.count(node.surface))
        node=node.next

すごく楽。しているのはIDの付与と単語数のカウントと、単語ごとの文脈ベクトルを作ることぐらい。ちなみに前に作ったperl版だとこの辺で100行ぐらい消費。
文脈ベクトルfreq_vectorpythonの辞書で定義。numpyの行列でしようと思ったけどうまくいかず、結局そこに落ち着いた

def freq_vector(x,y,freq):
    vector.setdefault(x, {})[y] = freq

これで単語が行、文書が列の擬似的な行列が作れる
例:

文書1 文書2
りんご 1 1
みかん 2 0

参照はvector['単語']['文書']という感じで。
出力してみる

print '\n'.join('%s: %s' %i for i in vector.items())

こんな感じで出力されてくる

男性: {9: 1, 2: 1, 5: 1}
確認: {9: 1}
い: {1: 4}
コミュニケーション: {10: 1}
位置: {9: 1}
し: {11: 1, 1: 2, 2: 2, 3: 1, 9: 1}
する: {9: 1, 11: 1}
入れ: {6: 1}
自分: {9: 1, 11: 1}
あり: {1: 1, 3: 1}
ある: {5: 1}
仕事: {2: 1, 10: 1, 5: 1}
コーヒー: {6: 1}

{}の中は{文書ID: 出現数}となっていて、単語ごとに出現した文書とその出現数をカウントしている
これを使ってテキスト中の単語間の共起頻度や類似度などを計算することができる

def colocation(v1,v2):
    return sum(v1[i]+v2[i]-1 for i in v1 if i in v2)

def sim_cos(v1,v2):
    inner = sum(v1[i]*v2[i] for i in v1 if i in v2)
    denominator = math.sqrt(sum(v1[i]**2 for i in v1)*sum(v2[j]**2 for j in v2))
    return float(inner/denominator) if denominator !=0 else 0

def sim_simpson(v1,v2):
    numerator = sum(i in v1 for i in v2)
    denominator = min(len(v1), len(v2))
    return float(numerator/denominator) if denominator !=0 else 0

Print outすると

>>> print colocation(vector['コミュニケーション'],vector['仕事'])
1
>>> print sim_cos(vector['コミュニケーション'],vector['仕事'])
0.57735026919
>>> print sim_simpson(vector['コミュニケーション'],vector['仕事'])
1.0

これを見ると、解析したテキスト内で”コミュニケーション”と”仕事”という単語は1回共起していて、コサイン類似度で言えば0.58、シンプソン係数では1.0類似している

シンプソン係数が1になってしまっているけれども、テキストの量が少ないからでテキスト量が増えればコサイン類似度に近い値になる
まともな値を得たければ、どの類似度についてもある程度のテキスト量が必要になる

参考
http://sucrose.hatenablog.com/entry/2012/11/30/132803