裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

Julia に翻訳--193 判別分析,線形判別関数

2021年04月17日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

判別分析(線形判別関数)
http://aoki2.si.gunma-u.ac.jp/R/disc.html

ファイル名: disc.jl  関数名: disc, printdisc, plotdisc

翻訳するときに書いたメモ

結果の表示に NamedArray を使ってみた。

==========#

using CSV, DataFrames, Statistics, LinearAlgebra, Rmath, NamedArrays, Plots, StatsPlots

function disc(data::DataFrame, group)
    disc(Matrix(data), group, name=names(data))
end

function disc(data::Array{Int64,2}, group; name=[])
    disc(Matrix(data), group, name)
end

function disc(data::Array{Float64,2}, group; name=[])
    ncase, p = size(data)
    if length(name) == 0
        name = "X" .* string.(1:p)
    end
    gname, num = table(group)
    ng = length(num)
    gmean = vec(mean(data, dims=1))
    t = cov(data, corrected=false) .* ncase
    means = zeros(ng, p)
    vars = zeros(p, p, ng)
    for i = 1:ng
        gdata = data[group .== gname[i], :]
        means[i, :] = vec(mean(gdata, dims=1))
        vars[:, :, i] = cov(gdata, corrected=false) .* num[i]
    end
    w = sum(vars, dims=3)[:, :, 1]
    gsd = vec(std(data, dims=1))
    detw = det(w)
    dett = det(t)
    wl = detw / dett
    temp = (w \ transpose(means))
    a = -2 * (ncase - ng) .* temp
    a0 = sum(transpose(temp) .* means, dims=2) * (ncase - ng)
    cfunction = vcat(a, a0')
    m = (ng - 1) * ng ÷ 2
    dfunction = zeros(p + 1, m)
    header = fill("", m)
    k = 0
    for i = 1:ng-1
        for j = i+1:ng
            k += 1
            header[k] = gname[i] * ":" * gname[j]
            dfunction[:, k] = (cfunction[:, j] - cfunction[:, i]) ./ 2
        end
    end
    invw = inv(w)
    F = diag(inv(t) ./ invw)
    idf1 = ng - 1
    idf2 = ncase - idf1 - p
    F = idf2 / idf1 * (1 .- F) ./ F
    P = pf.(F, idf1, idf2, false)
    c1 = (p ^ 2 + idf1 ^ 2 != 5) ? sqrt((p ^ 2 * idf1 ^ 2 - 4) / (p ^ 2 + idf1 ^ 2 - 5)) : 1
    c2 = wl ^ (1 / c1)
    df1 = p * idf1
    df2 = (ncase - 1 - (p + ng) / 2) * c1 + 1 - 0.5 * p * idf1
    Fwl = df2 * (1 - c2) / (df1 * c2)
    Pwl = pf(Fwl, df1, df2, false)
    D2 = zeros(ncase, ng);
    tdata = transpose(data);
    for i = 1:ng # i = 1; j = 1
        temp = tdata .- means[i, :];
        for j = 1:ncase # j = 1
            D2[j, i] = temp[:, j]' * invw * temp[:, j]
        end
    end
    D2 = (ncase-ng) .* D2
    P2 = pchisq.(D2, p, false)
    prediction = [gname[argmax(P2[j, :])] for j = 1:ncase]
    correct = prediction .== group
    factor1, factor2, correcttable = table(group, prediction)
    correctrate = sum(diag(correcttable)) / ncase * 100
    if ng == 2
        discriminantvalue = data * dfunction[1:p] .+ dfunction[p + 1]
    else
        discriminantvalue = []
    end
    Dict(:dfunction => dfunction, :header => header,
         :cfunction => cfunction,:partialF => F,
         :partialFP => P, :df1 => idf1, :df2 => idf2, :wilkslambda => wl,
         :wilkslambdaF => Fwl, :wilkslambdaP => Pwl, :wilkslambdadf1 => df1,
         :wilkslambdadf2 => df2, :distance => D2, :Pvalue => P2,
         :prediction => prediction, :correct => correct,
         :correcttable => correcttable, :correctrate => correctrate,
         :discriminantvalue => discriminantvalue, :group => group,
         :factor1 => factor1, :factor2 => factor2,
         :name => name, :gname => gname, :num => num)
end

function table(x) # indices が少ないとき
    indices = sort(unique(x))
    counts = zeros(Int, length(indices))
    for i in indexin(x, indices)
        counts[i] += 1
    end
    return indices, counts
end

function table(x, y) # 二次元
    indicesx = sort(unique(x))
    indicesy = sort(unique(y))
    counts = zeros(Int, length(indicesx), length(indicesy))
    for (i, j) in zip(indexin(x, indicesx), indexin(y, indicesy))
        counts[i, j] += 1
    end
    return indicesx, indicesy, counts
end

function printdisc(obj::Dict{Symbol, Any})
    gname = obj[:gname]
    ng = length(gname)
    # =====
    header = obj[:header]
    dfunction = NamedArray(obj[:dfunction],
                           (vcat(obj[:name], "Constant"),
                            "Func." .* string.(1:length(header))))
    println("判別関数\n", dfunction)
    for i = 1:length(header)
        println("     Func.$i: $(header[i])")
    end
    # =====
    partialF = NamedArray(hcat(obj[:partialF], obj[:partialFP]),
                          (obj[:name], ["Partial F", "p value"]))
    println("偏 F 値,p 値\n", partialF)
    println("     偏 F 値の自由度 ($(obj[:df1]), $(obj[:df2]))")
    # =====
    cfunction = NamedArray(obj[:cfunction],
                           (vcat(obj[:name], "Constant"), gname))
    println("分類関数\n", cfunction)
    # =====
    correcttable = NamedArray(obj[:correcttable],
                          (obj[:factor1], obj[:factor2]))
    println("判別結果\n", correcttable)
    println("正判別率 = $(round(obj[:correctrate], digits=2))%")
    # =====
end

function plotdisc(obj; which = "boxplot", # or "barplot" or "scatterplot"
                  nclass = 20, color1=:blue, color2=:red)
    if length(obj[:discriminantvalue]) != 0
        pyplot()
        if which == "boxplot"
            boxplot(string.(obj[:group]), obj[:discriminantvalue], xlabel = "群", ylabel = "判別値", label="")
        elseif which == "barplot"
            discriminantvalue = obj[:discriminantvalue];
            minx, maxx = extrema(discriminantvalue)
            w = (maxx - minx) / (nclass - 1)
            discv = floor.(Int, (discriminantvalue .- minx) ./ w)
            index1, index2, res = table(discv, obj[:group])
            groupedbar(res, xlabel = "判別値($nclass 階級に基準化)", label="")
        else
            gname = obj[:gname]
            g1 = obj[:group] .== obj[:gname][1];
            g2 = obj[:group] .== obj[:gname][2];
            plt = scatter(obj[:distance][g1, 1], obj[:distance][g1, 2],
                color = color1, markerstrokecolor = color1,
                xlabel = "$(gname[1]) の重心への二乗距離",
                ylabel = "$(gname[2]) の重心への二乗距離", aspect_ratio = 1, label=gname[1])
            scatter!(obj[:distance][g2, 1], obj[:distance][g2, 2],
                    color = color2, markerstrokecolor = color2, label=gname[2])
        end
    else
        error("3群以上の場合にはグラフ表示は用意されていません")
    end
end

using RDatasets
iris = dataset("datasets", "iris");
data = Matrix(iris[:, 1:4]); # typeof(data)
name = names(iris)[1:4]; # typeof(name)
group = iris[:, 5]; # typeof(group)
res = disc(data, group, name=name)
printdisc(res)

判別関数
5×3 Named Matrix{Float64}
      A ╲ B │   Func.1    Func.2    Func.3
────────────┼─────────────────────────────
SepalLength │  7.84596   11.0983   3.25236
SepalWidth  │  16.5154   19.9026   3.38723
PetalLength │ -21.6421  -29.1972  -7.55509
PetalWidth  │ -23.8326  -38.4775  -14.6449
Constant    │ -13.4559   18.0599   31.5157
     Func.1: setosa:versicolor
     Func.2: setosa:virginica
     Func.3: versicolor:virginica
偏 F 値,p 値
4×2 Named Matrix{Float64}
      A ╲ B │   Partial F      p value
────────────┼─────────────────────────
SepalLength │     4.72115    0.0103288
SepalWidth  │     21.9359    4.8312e-9
PetalLength │     35.5902  2.75621e-13
PetalWidth  │     24.9043  5.14315e-10
     偏 F 値の自由度 (2, 144)
分類関数
5×3 Named Matrix{Float64}
      A ╲ B │     setosa  versicolor   virginica
────────────┼───────────────────────────────────
SepalLength │   -47.0883    -31.3964    -24.8917
SepalWidth  │   -47.1757     -14.145    -7.37056
PetalLength │    32.8613    -10.4229    -25.5331
PetalWidth  │    34.7968    -12.8685    -42.1582
Constant    │     170.42     143.508     206.539
判別結果
3×3 Named Matrix{Int64}
     A ╲ B │     setosa  versicolor   virginica
───────────┼───────────────────────────────────
setosa     │         50           0           0
versicolor │          0          48           2
virginica  │          0           1          49
正判別率 = 98.0%

data = Matrix(iris[51:150, 1:4]); # typeof(data)
group = iris[51:150, 5]; # typeof(group)
name = names(iris)[1:4]; # typeof(name)
obj = disc(data, group, name=name)
printdisc(obj)
判別関数
5×1 Named Matrix{Float64}
      A ╲ B │   Func.1
────────────┼─────────
SepalLength │   3.5563
SepalWidth  │  5.57862
PetalLength │ -6.97013
PetalWidth  │  -12.386
Constant    │  16.6631
     Func.1: versicolor:virginica
偏 F 値,p 値
4×2 Named Matrix{Float64}
      A ╲ B │  Partial F     p value
────────────┼───────────────────────
SepalLength │    7.36791  0.00788617
SepalWidth  │    10.5875  0.00157755
PetalLength │    24.1566  3.70346e-6
PetalWidth  │    37.0916  2.38356e-8
     偏 F 値の自由度 (1, 95)
分類関数
5×2 Named Matrix{Float64}
      A ╲ B │ versicolor   virginica
────────────┼───────────────────────
SepalLength │    -30.802    -23.6894
SepalWidth  │   -31.9428    -20.7856
PetalLength │    5.16328    -8.77697
PetalWidth  │    1.17289    -23.5992
Constant    │    123.886     157.212
判別結果
2×2 Named Matrix{Int64}
     A ╲ B │ versicolor   virginica
───────────┼───────────────────────
versicolor │         48           2
virginica  │          1          49
正判別率 = 97.0%

plotdisc(obj)

plotdisc(obj, which="barplot")



plotdisc(obj, which="scatterplot")

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--192 因子分析

2021年04月16日 | ブログラミング
#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

因子分析
http://aoki2.si.gunma-u.ac.jp/R/pfa.html

ファイル名: pfa.jl
関数名:    pfa, printpfa, plotpfa

翻訳するときに書いたメモ

==========#

using CSV, DataFrames, Statistics, StatsBase, LinearAlgebra, Printf, Plots

function pfa(data::DataFrame;
    method="Varimax", # "biQuartimax", "Quartimax", "Equimax", "None"),
    eps1=1e-5, eps2=1e-5, max1=999, max2=999, factors=0)
    pfa(Array{Float64,2}(data); name=names(data), method, eps1, eps2, max1, max2, factors)
end

function pfa(data::Array{Int64,2}; name=[],
             method="Varimax", # "biQuartimax", "Quartimax", "Equimax", "None"),
             eps1=1e-5, eps2=1e-5, max1=999, max2=999, factors=0)
    pfa(Array{Float64,2}(data); name, method, eps1, eps2, max1, max2, factors)
end

function pfa(data::Array{Float64,2}; name=[],
             method="Varimax", # "biQuartimax", "Quartimax", "Equimax", "None"),
             eps1=1e-5, eps2=1e-5, max1=999, max2=999, factors=0)
    nr, nc = size(data)
    if length(name) == 0
        name = "X" .* string.(1:nc)
    end
    wt=getwt(method, nc)
    r0 = cor(data)
    r = copy(r0)
    communality0 = 1 .- 1 ./ diag(inv(r))
    communality = similar(communality0)
    [r[i, i] = communality0[i] for i = 1:nc]
    eigenvalue, eigenvector = eigen(r, sortby = x -> -x)
    if factors == 0
        factors = sum(eigenvalue .>= 1)
    end
    converged = false
    for i = 1:max1
        eigenvalue = eigenvalue[1:factors]
        eigenvector = eigenvector[:, 1:factors]
        eigenvector = transpose(sqrt.(eigenvalue) .* transpose(eigenvector))
        r = copy(r0)
        communality = sum(eigenvector .^ 2, dims = 2)
        if all(abs.(communality .- communality0) .< eps1)
            converged = true
            break
        end
        communality0 = copy(communality)
        [r[i, i] = communality[i] for i = 1:nc]
        eigenvalue, eigenvector = eigen(r, sortby = x -> -x)
    end
    if converged == false
        println("Not converged.")
    elseif any(communality .>= 1)
        println("Communality >= 1.")
    end
    temp = fit(ZScoreTransform, data, dims = 1)
    data = StatsBase.transform(temp, data)
    if factors == 1 || method == "None"
        w = inv(r0) * eigenvector
        scores = (data .* sqrt(nr / (nr - 1))) * w
        return Dict(:method => method, :correlationmatrix => r0,
            :communality => communality, :beforerotationfl => eigenvector,
            :beforerotationeval => eigenvalue, :afterrotationfl => NaN,
            :afterrotationeval => NaN, :scores => scores,
            :name => name)
    else
        fl = eigenvector ./ sqrt.(communality)
        eig = zeros(factors)
        ov = 0
        fnp = nc
        for loop = 1:max2
            for k = 1:factors-1
                for k1 = k+1:factors
                    x = fl[:, k]
                    y = fl[:, k1]
                    xy = x .^ 2 .- y .^ 2
                    a = sum(xy)
                    b = 2sum(x .* y)
                    c = sum(xy .^ 2 .- 4x .^ 2 .* y .^ 2)
                    d = 4sum(x .* y .* xy)
                    dd = d - 2 * wt * a * b / fnp
                    theta = atan(dd / (c - wt * (a^2 - b^2) / fnp))
                    if sin(theta) * dd < 0
                        if theta > 0
                            theta -= pi
                        else
                            theta += pi
                        end
                    end
                    theta /= 4.0
                    si, cs = sincos(theta)
                    fljk = fl[:, k]
                    fljk1 = fl[:, k1]
                    fl[:, k] = fljk .* cs .+ fljk1 .* si
                    fl[:, k1] = fljk1 .* cs .- fljk .* si
                end
            end
            v = sum((fl .^ 2 .- sum(fl .^ 2, dims = 1) .* (wt / fnp)) .^ 2)
            if abs(v - ov) < eps2
                break
            end
            ov = v
        end
        fl = fl .* sqrt.(communality)
        w = inv(r0) * fl
        scores = (data .* sqrt(nr / (nr - 1))) * w
        eigenvalue2 = vec(sum(fl .^ 2, dims = 1))
        Dict(:method => method, :correlationmatrix => r0,
             :communality => communality, :beforerotationfl => eigenvector,
             :beforerotationeval => eigenvalue, :afterrotationfl => fl,
             :afterrotationeval => eigenvalue2, :scores => scores,
             :name => name)
    end
end

function getwt(method, nc)
    method0 = ["Varimax", "biQuartimax", "Quartimax", "Equimax", "None"]
    for (i, m) in enumerate(method0)
        if method == m
            return [1, 0.5, 0, nc / 2, 999][i]
        end
    end
    error("'method' must be one of $method0")
end

function printpfa(result; before=false)
    communality = result[:communality]
    name = [s[1:min(length(s), 7)] for s in result[:name]]
    if before
        fl = result[:beforerotationfl]
        eigenvalue = result[:beforerotationeval]
        label = "E-value"
        if result[:method] == "None"
            println("\nResult without rotation\n")
        else
            println("\nBefore $(result[:method]) rotation\n")
        end
    else
        fl = result[:afterrotationfl]
        eigenvalue = result[:afterrotationeval]
        label = "SqSum"
        println("\nAfter $(result[:method]) rotation\n")
    end
    signchange!(fl)
    nv, npca = size(fl)
    @printf("%7s", "")
    for j = 1:npca
        @printf("     Fac%02d", j)
    end
    println("  Contribution")
    for i = 1:nv
        @printf("%-7s", name[i])
        for j = 1:npca
            @printf("%10.5f", fl[i, j])
        end
        @printf("%10.5f\n", communality[i])
    end
    lineout(label, eigenvalue)
    lineout("Cont", eigenvalue ./ nv .* 100)
    lineout("Cum", cumsum(eigenvalue) ./ nv .* 100)
end

# 列ごとに見て,負の数が過半数のときは全体の符号を付け替え,常に正の数が過半数になるようにする
# 正負の数が同数の場合には,第1要素が負であれば全体の符号を付け替える
function signchange!(x)
    nr, nc = size(x)
    half = fld(nr, 2)
    for i = 1:nc
        minus = sum(x[:, i] .< 0)
        if minus > half || (minus == half && x[1, i] < 0)
            x[:, i] = -x[:, i]
        end
    end
end

function  lineout(label, value)
    @printf("%-7s", label)
    for val in value
        @printf("%10.5f", val)
    end
    println()
end

function plotpfa(result; before=false, facno=1:2, scores=false,
            xlabel="", ylabel="", axis=true, labelcex=0.7)
    ax1, ax2 = facno
    xlabel != "" || (xlabel = "Fac-" * string(ax1))
    ylabel != "" || (ylabel = "Fac-" * string(ax2))
    if scores
        x = result[:scores][:, ax1]
        y = result[:scores][:, ax2]
        labels = string.(1:length(x))
        title = "Factor scores"
    else
        fl = before ? result[:beforerotationfl] : result[:afterrotationfl]
        x = fl[:, ax1]
        y = fl[:, ax2]
        labels = result[:name]
        title = "Factor loadings"
    end
    plt = scatter(x, y, grid=false, tick_direction=:out, markerstrokecolor=:blue,
        xlabel = xlabel, ylabel = ylabel, title=title, label = "")
    annotate!(x, y, text.("  " .* labels, 6, :left, :top, :green), label="")
    display(plt)
end

data = [
    935 955 926 585 1010 925 1028 807 769 767
    817 905 901 632 1004 950 957 844 781 738
    768 825 859 662 893 900 981 759 868 732
    869 915 856 448 867 874 884 802 804 857
    787 878 880 592 871 874 884 781 782 807
    738 848 850 569 814 950 957 700 870 764
    763 862 839 658 887 900 1005 604 709 753
    795 890 841 670 853 874 859 701 680 772
    903 877 919 460 818 849 884 700 718 716
    761 765 881 485 846 900 981 728 781 714
    747 792 800 564 796 849 932 682 746 767
    771 802 840 609 824 874 859 668 704 710
    785 878 805 527 911 680 884 728 709 747
    657 773 820 612 810 849 909 698 746 771
    696 785 791 578 774 725 932 765 706 795
    724 785 870 509 746 849 807 763 724 760
    712 829 838 516 875 725 807 754 762 585
    756 863 815 474 873 725 957 624 655 620
    622 759 786 619 820 769 807 673 698 695
    668 753 751 551 834 849 807 601 655 642
];

result = pfa(data, factors = 3, method = "Varimax")

printpfa(result)

After Varimax rotation

            Fac01     Fac02     Fac03  Contribution
X1        0.81752   0.38108  -0.25443   0.87829
X2        0.86716   0.22562  -0.05438   0.80583
X3        0.58096   0.61851  -0.13273   0.73769
X4       -0.04083   0.06992   0.72983   0.53921
X5        0.83445   0.02648   0.31515   0.79632
X6        0.18699   0.63099   0.37141   0.57106
X7        0.41170   0.33928   0.31716   0.38520
X8        0.34889   0.56003  -0.14871   0.45748
X9        0.11754   0.73398   0.12509   0.56819
X10       0.08607   0.56161   0.05523   0.32586
SqSum     2.80320   2.26529   0.99662
Cont     28.03196  22.65289   9.96624
Cum      28.03196  50.68484  60.65108

printpfa(result, before=true)

Before Varimax rotation

            Fac01     Fac02     Fac03  Contribution
X1        0.85127  -0.38093   0.09227   0.87829
X2        0.80339  -0.36668  -0.16103   0.80583
X3        0.83137  -0.04526   0.21088   0.73769
X4        0.06449   0.52620  -0.50809   0.53921
X5        0.67639  -0.22528  -0.53672   0.79632
X6        0.57352   0.49151  -0.02347   0.57106
X7        0.55426   0.17470  -0.21789   0.38520
X8        0.61545   0.03447   0.27840   0.45748
X9        0.56939   0.42882   0.24515   0.56819
X10       0.42989   0.30435   0.22006   0.32586
E-value   4.04685   1.15906   0.85920
Cont     40.46847  11.59059   8.59202
Cum      40.46847  52.05907  60.65108
===#

plotpfa(result)

plotpfa(result, scores=true)

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia の小ネタ--017 ドット演算子

2021年04月15日 | ブログラミング

縦ベクトルと横ベクトルの演算での「ドット演算子」の振る舞いもちょっと気を付けておく必要があるかも。

a = [1, 2, 3] # 縦ベクトル
b = [4 5 6]   # 横ベクトル

a + b # エラー
b + a # エラー

a .+ b # 外積(演算子が +)
# 3×3 Matrix{Int64}:
#  5  6  7
#  6  7  8
#  7  8  9

b .+ a # 可換

# 3×3 Matrix{Int64}:
#  5  6  7
#  6  7  8
#  7  8  9

a - b # エラー
b - a # エラー

a .- b # 外積(演算子が -)

# 3×3 Matrix{Int64}:
#  -3  -4  -5
#  -2  -3  -4
#  -1  -2  -3

b .- a # 可換ではない

# 3×3 Matrix{Int64}:
#  3  4  5
#  2  3  4
#  1  2  3

a * b
# 3×3 Matrix{Int64}:
#   4   5   6
#   8  10  12
#  12  15  18

b * a # 可換ではない 行列演算

# 1-element Vector{Int64}:
# 32

a .* b # 外積(演算子が *)

# 3×3 Matrix{Int64}:
#   4   5   6
#   8  10  12
#  12  15  18

b .* a # 可換

# 3×3 Matrix{Int64}:
#   4   5   6
#   8  10  12
#  12  15  18

a / b # エラー
b / a # エラー

a ./ b # 外積(演算子が /)

# 3×3 Matrix{Float64}:
#  0.25  0.2  0.166667
#  0.5   0.4  0.333333
#  0.75  0.6  0.5

b ./ a # 可換ではない

# 3×3 Matrix{Float64}:
#  4.0      5.0      6.0
#  2.0      2.5      3.0
#  1.33333  1.66667  2.0

a ÷ b # エラー
b ÷ a # エラー

a .÷ b # 外積(演算子が ÷)

# 3×3 Matrix{Int64}:
#  0  0  0
#  0  0  0
#  0  0  0

b .÷ a # 可換ではない

# 3×3 Matrix{Int64}:
#  4  5  6
#  2  2  3
#  1  1  2

a % b # エラー
b % a # エラー

a .% b # 外積(演算子が %)

# 3×3 Matrix{Int64}:
#  1  1  1
#  2  2  2
#  3  3  3

b .% a # 可換ではない

# 3×3 Matrix{Int64}:
#  0  0  0
#  0  1  0
#  1  2  0

a ^ b # エラー
b ^ a # エラー

a .^ b # 外積(演算子が ^)

# 3×3 Matrix{Int64}:
#   1    1    1
#  16   32   64
#  81  243  729

b .^ a # 可換ではない

# 3×3 Matrix{Int64}:
#   4    5    6
#  16   25   36
#  64  125  216

なんともはや。

覚えきれないので,使う前にチェックする必要があるかな。

なお,今までの,横ベクトル b は 縦ベクトル c の transpose(c), あるいは c' と同じである。

c = [4, 5, 6]

c'
#
1×3 adjoint(::Vector{Int64}) with eltype Int64:
#  4  5  6

transpose(c)
#
1×3 transpose(::Vector{Int64}) with eltype Int64:
# 4  5  6

なんとも,ややこしい言語仕様ではある。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia の小ネタ--016 ドット二項演算子の挙動

2021年04月15日 | ブログラミング

Julia の「ドット二項演算子」の挙動が怪しすぎる。

多くの場合は慣れればどうってことないが, 「縦ベクトル / 縦ベクトル」の挙動は最初何なんだかわからなかった。

a = [1, 2, 3]
b = [4, 5, 6]

a + b  # [5, 7, 9]
a .+ b # [5, 7, 9] 同じ結果

a - b  # [-3, -3, -3]
a .- b # [-3, -3, -3] 同じ結果

a * b # error
a .* b # [4, 10, 18] # 片方がエラー

後述!!
a / b
# 3×3 Matrix{Float64}:
#  0.0519481  0.0649351  0.0779221
#  0.103896   0.12987    0.155844
#  0.155844   0.194805   0.233766
a ./ b # [0.25, 0.4, 0.5]

a ^ b # error
a .^ b # [1, 32, 729] # 片方がエラー

a \ b # 2.2857142857142856
a .\ b # [4.0, 2.5, 2.0]

a % b # error
a .% b # [1, 2, 3] # 片方がエラー

a ÷ b # error
a .÷ b # [0, 0, 0] # 片方がエラー

a > b # false
a .> b # [0, 0, 0]

a < b # true
a .< b # [1, 1, 1]

何をやっているかわからなかった a / b だが,a, b が配列の場合を考えて行くと

x = [1  2  3
     4  5  6]
y = [2  4  6
     8 10 12]

x / y
# 2×2 Matrix{Float64}:
#   0.5          5.06087e-17
#  -1.26506e-15  0.5

(y' \ x')'
# 2×2 adjoint(::Matrix{Float64}) with eltype Float64:
#   0.5          5.06087e-17
#  -1.26506e-15  0.5

だから,ベクトルの場合は

a / b
# 3×3 Matrix{Float64}:
#  0.0519481  0.0649351  0.0779221
#  0.103896   0.12987    0.155844
#  0.155844   0.194805   0.233766

(b' \ a')'
# 3×3 adjoint(::Matrix{Float64}) with eltype Float64:
#  0.0519481  0.0649351  0.0779221
#  0.103896   0.12987    0.155844
#  0.155844   0.194805   0.233766

これは何だろう?数学に強い人教えて!!どんなときに使えるんだろう?

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--191 主成分分析

2021年04月15日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

主成分分析
http://aoki2.si.gunma-u.ac.jp/R/pca.html

ファイル名: pca2.jl  関数名: pca

翻訳するときに書いたメモ

エッセンス(特に機械学習屋さんが使う部分)は短い。

==========#

using CSV, DataFrames, Statistics, StatsBase, LinearAlgebra

function pca(data::DataFrame; scale::Bool =true)
    pca(Array{Float64,2}(data); scale)
end

function pca(data::Array{Float64,2}; scale::Bool =true)
    r = Symmetric((scale ? cor : cov)(data))
    eigenvalue, eigenvectors = eigen(r, sortby=x-> -x)
    eigenvalue = [x < 0 ? 0 : x for x in eigenvalue]
    temp = fit(ZScoreTransform, data, dims=1; center=true, scale)
    score = StatsBase.transform(temp, data) * eigenvectors
    return eigenvalue, eigenvectors, score
end

using Plots
using RDatasets
iris = dataset("datasets", "iris");
data = iris[:, 1:4];

col = vcat(fill(:green, 50), fill(:blue, 50), fill(:red, 50));

# scale = true
val1, vec1, score1 = pca(iris[:, 1:4]);
scatter(score1[:, 1], score1[:, 2], markercolor=col, label="") # savefig("fig1.png")

# scale = false
val2, vec2, score2 = pca(iris[:, 1:4], scale=false);
scatter(score2[:, 1], score2[:, 2], markercolor=col, label="") # savefig("fig2.png")

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--190 主成分分析

2021年04月15日 | ブログラミング
#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

 主成分分析 http://aoki2.si.gunma-u.ac.jp/R/pca.html

ファイル名: pca.jl  関数名: pca

翻訳するときに書いたメモ

色々と凝って,機能が盛り沢山になった。
一般的に,計算精度の点からは SVD によるプログラムが推奨されるが,
たいていの場合は固有値・固有ベクトルによる結果と精度的に違いはない。

==========#

using CSV, DataFrames, StatsBase, Statistics, LinearAlgebra, Printf

# データフレームで与える
function pca(data::DataFrame; method="svd", center::Bool =true, scale::Bool =true)
    pca(Array{Float64,2}(data); name=names(data), method, center, scale)
end

# 二次元配列で与える
function pca(data::Array{Int64,2}; name=[], method="svd", center::Bool =true, scale::Bool =true)
    pca(Array{Float64,2}(data); name=[], method="svd", center=true, scale=true)
end

function pca(data::Array{Float64,2}; name=[], method="svd", center::Bool =true, scale::Bool =true)
    nr, nc = size(data)
    if length(name) == 0
        name = "X" .* string.(1:nc)
    end
    if method == "svd"
        # データ行列の特異値分解による主成分分析
        temp = fit(ZScoreTransform, data, dims=1; center, scale)
        data = StatsBase.transform(temp, data)
        u, s, v = svd(data, full=false)
        loading = v .* (transpose(s) ./ sqrt(nr-1))
        score = u .* transpose(s)
        eigenvalue = s .^2 ./ (nr - 1)
    else
        # 相関係数行列の固有値・固有ベクトルに基づく主成分分析
        r = Symmetric(cor(data)) # 対称行列であることを明示するといいことがあるかも
        eigenvalue, eigenvectors = eigen(r, sortby=x-> -x)
        eigenvalue = [x < 0 ? 0 : x for x in eigenvalue]
        loading = eigenvectors .* transpose(sqrt.(eigenvalue))
        temp = fit(ZScoreTransform, data, dims=1)
        data = StatsBase.transform(temp, data)
        score = data * eigenvectors
    end
    signchange!(loading)
    signchange!(score)
    Dict(:method => method, :eigenvalue => eigenvalue,
        :loading => loading, :score => score,
        :name => name, :data => data, :center => center, :scale => scale)
end

# 主成分得点
predict_pca(object::Dict{Symbol,Any}) = object[:score]

predict_pca(object::Dict{Symbol,Any}, data::DataFrame) = predict_pca(object::Dict{Symbol,Any}, Array{Float64,2}(data))

function predict_pca(object::Dict{Symbol,Any}, data::Array{Float64,2})
    temp = fit(ZScoreTransform, data, dims=1; center = object[:center], scale = object[:scale])
    data = StatsBase.transform(temp, data)
    rotation = object[:loading] ./ transpose(sqrt.(object[:eigenvalue]))
    predict = data * rotation
    signchange!(predict)
    return predict
end

# 列ごとに見て,負の数が過半数のときは全体の符号を付け替え,常に正の数が過半数になるようにする
# 正負の数が同数の場合には,第1要素が負であれば全体の符号を付け替える
function signchange!(x::Array{Float64,2})
    nr, nc = size(x)
    half = fld(nr, 2)
    for i = 1:nc
        minus = sum(x[:, i] .< 0)
        if minus > half || (minus == half && x[1, i] < 0)
            x[:, i] = -x[:, i]
        end
    end
end

# サマリーの出力
function summary_pca(object::Dict{Symbol,Any}; npca::Int64=0)
    function  lineout(label, value)
        @printf("%-16s", label)
        for j = 1:npca
            @printf("%10.5f", value[j])
        end
        println()
    end
    loading = object[:loading]
    nc = size(loading, 1)
    eigenvalue = object[:eigenvalue]
    totalcontribution = sum(eigenvalue)
    npca = npca == 0 ? sum(eigenvalue .> 1.0) : npca
    eigenvalue = eigenvalue[1:npca]
    loading = loading[:, 1:npca]
    name = object[:name]
    println("Principal Components Analysis")
    @printf("%16s", "")
    for j = 1:npca
        @printf("      PC%02d", j)
    end
    println("  Contribution")
    cum = sum(loading .^ 2, dims=2)
    for i = 1:nc
        @printf("%-16s", name[i])
        for j = 1:npca
            @printf("%10.5f", loading[i, j])
        end
        @printf("%10.5f\n", cum[i])
    end
    proportion = eigenvalue ./ totalcontribution .* 100
    cumulative_proportion = cumsum(proportion, dims=1)
    lineout("Eigenvalue", eigenvalue)
    lineout("Proportion", proportion)
    lineout("Cumulative Prop.", cumulative_proportion)
end

using Plots
# 主成分負荷量,主成分得点,倍プロット
function plot_pca(object::Dict{Symbol,Any}; axis1::Int64=1, axis2::Int64=2, col=:red, biplot=true, width=600, height=400)
    function plotx(x1, x2)
        plot(x1, x2,
            seriestype = :scatter,
            markercolor = col,
            markerstrokecolor = col,
            grid = false,
            framestyle = :origin,
            aspect_ratio = 1,
            label = "",
            xaxis = ("PC"*string(axis1), 0.5),
            yaxis = ("PC"*string(axis2), 0.5),
            title="Factor Scores")
    end
    function ploty(y1, y2, quiver2)
        delta(y, len) = len / (maximum(y) - minimum(y)) / 1000
        quiver2(zeros(nvariables), zeros(nvariables),
            quiver = (y1, y2),
            lc = :red,
            grid = false,
            framestyle = :origin,
            aspect_ratio = 1,
            label = "",
            xaxis = ("PC"*string(axis1), 0.5),
            yaxis = ("PC"*string(axis2), 0.5),
            title = "Principal Component Loadings")
        deltax = y1 .* (1 + delta(y1, width))
        deltay = y2 .* (1 + delta(y2, height))
        name = object[:name];
        @. annotate!(deltax, deltay, text(name, :red, 8))
        hline!([0], lc=:black, lw=0.5, label="") # ダミー:これがないと不都合発生
    end
    range(x) = (-abs(minimum(x)), abs(maximum(x)))
    gr(size=(width, height))
    loading = object[:loading]
    score = object[:score]
    x1 = score[:, axis1]
    x2 = score[:, axis2]
    y1 = loading[:, axis1]
    y2 = loading[:, axis2]
    minall = minimum(min.(y1, y2))
    maxall = maximum(max.(y1, y2))
    #delta = (maxall - minall) * 0.05
    nvariables, npcas = size(loading)
    rangex1 = range(x1)
    rangex2 = range(x2)
    rangey1 = range(y1)
    rangey2 = range(y2)
    ratio = max(maximum(rangey1./rangex1), maximum(rangey2./rangex2))
    if biplot
        px = plotx(x1, x2)
        y1 = y1 ./ ratio
        y2 = y2 ./ ratio
        py = ploty(y1, y2, quiver!)
        plot(py, label = "", title = "Biplot of PCA")
    else
        display(ploty(y1, y2, quiver))
        display(plotx(x1, x2))
    end
end

using Printf
# 名前付き配列出力
function dumplist(name::String, object::Array{Float64,2}; fmt="%10.5f")
    nr, nc = size(object)
    println("----- $name -----")
    for i = 1:nr
        for j = 1:nc
            @eval(@printf($fmt, $(object[i, j])))
        end
        print("\n")
    end
end

# 名前付きベクトル出力
function dumplist(name::String, object::Array{Float64,1}; fmt="%10.5f")
    println("----- $name -----")
    len = length(object)
    for i = 1:len
        @eval(@printf($fmt, $(object[i])))
    end
    print("\n")
end

data = [1 4 4 5
        2 3 3 4
        3 2 4 3
        2 4 5 2
        3 5 6 1];

object = pca(data);
obj2 = summary_pca(object);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.63890  -0.75171   0.97326
X2                 0.61824   0.76570   0.96852
X3                 0.94686   0.23192   0.95033
X4                -0.95528   0.22267   0.96215
Eigenvalue         2.59953   1.25472
Proportion        64.98829  31.36810
Cumulative Prop.  64.98829  96.35639
=====#

object = pca(data, method="eigen");
obj2 = summary_pca(object);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.63890  -0.75171   0.97326
X2                 0.61824   0.76570   0.96852
X3                 0.94686   0.23192   0.95033
X4                -0.95528   0.22267   0.96215
Eigenvalue         2.59953   1.25472
Proportion        64.98829  31.36810
Cumulative Prop.  64.98829  96.35639
=====#

# 行数より列数が多い場合
data = [3 1 2 3 4 3 5 5
        5 3 3 5 4 3 4 3
        2 4 1 2 2 3 4 2
        1 5 3 2 3 4 2 1];

w = pca(data);
summary_pca(w);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.84022   0.33659   0.81926
X2                -0.90864   0.17872   0.85757
X3                -0.02761   0.99104   0.98293
X4                 0.72738   0.56788   0.85157
X5                 0.71110   0.61763   0.88713
X6                -0.81255   0.45653   0.86865
X7                 0.88495  -0.46553   0.99985
X8                 0.90864  -0.17872   0.85757
Eigenvalue         4.83610   2.28843
Proportion        60.45130  28.60540
Cumulative Prop.  60.45130  89.05670
=====#

w0 = pca(data, method="eigen");
summary_pca(w0);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.84022   0.33659   0.81926
X2                -0.90864   0.17872   0.85757
X3                -0.02761   0.99104   0.98293
X4                 0.72738   0.56788   0.85157
X5                 0.71110   0.61763   0.88713
X6                -0.81255   0.45653   0.86865
X7                 0.88495  -0.46553   0.99985
X8                 0.90864  -0.17872   0.85757
Eigenvalue         4.83610   2.28843
Proportion        60.45130  28.60540
Cumulative Prop.  60.45130  89.05670
=====#

long = Array{Float64,2}(transpose(data));
#=====
8×4 Matrix{Float64}:
 3.0  5.0  2.0  1.0
 1.0  3.0  4.0  5.0
 2.0  3.0  1.0  3.0
 3.0  5.0  2.0  2.0
 4.0  4.0  2.0  3.0
 3.0  3.0  3.0  4.0
 5.0  4.0  4.0  2.0
 5.0  3.0  2.0  1.0
 =====#

l = pca(long);
summary_pca(l);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.70648   0.59279   0.85052
X2                 0.66205  -0.10838   0.45005
X3                -0.47141   0.79977   0.86186
X4                -0.96028  -0.03121   0.92311
Eigenvalue         2.08179   1.00376
Proportion        52.04472  25.09400
Cumulative Prop.  52.04472  77.13872
=====#

l0 = pca(long, method="eigen");
summary_pca(l0);
#=====
Principal Components Analysis
                      PC01      PC02  Contribution
X1                 0.70648   0.59279   0.85052
X2                 0.66205  -0.10838   0.45005
X3                -0.47141   0.79977   0.86186
X4                -0.96028  -0.03121   0.92311
Eigenvalue         2.08179   1.00376
Proportion        52.04472  25.09400
Cumulative Prop.  52.04472  77.13872
=====#

##################

using RDatasets

iris = dataset("datasets", "iris");
result = pca(iris[:, 1:4]);
result2 = summary_pca(result, npca=4);
#=====
Principal Components Analysis
                      PC01      PC02      PC03      PC04  Contribution
SepalLength        0.89017   0.36083  -0.27566   0.03761   1.00000
SepalWidth        -0.46014   0.88272   0.09362  -0.01778   1.00000
PetalLength        0.99156   0.02342   0.05445  -0.11535   1.00000
PetalWidth         0.96498   0.06400   0.24298   0.07536   1.00000
Eigenvalue         2.91850   0.91403   0.14676   0.02071
Proportion        72.96245  22.85076   3.66892   0.51787
Cumulative Prop.  72.96245  95.81321  99.48213 100.00000
=====#

result = pca(iris[:, 1:4], method="eigen");
repeateach(x, n) = vec([j for i = 1:n, j in x])
colors = repeateach([:brown, :blue, :red], 50);
# バイプロット # savefig("biplot.png")
plot_pca(result, col=colors, width=600, height=600)
# 主成分負荷量,主成分得点 # savefig("loadings_scores.png")
plot_pca(result, col=colors, biplot=false)

result_center = pca(iris[:, 1:4], center=true, scale=false);
summary_pca(result_center, npca=4);
plot_pca(result_center, col=colors, width=600, height=600)
result_scale = pca(iris[:, 1:4], center=false, scale=true);
summary_pca(result_scale, npca=4);
plot_pca(result_scale, col=colors, width=600, height=600)

result_center_scale = pca(iris[:, 1:4], center=false, scale=false);
summary_pca(result_center_scale, npca=4);
plot_pca(result_center_scale, col=colors, width=600, height=600)

half1 = vcat(iris[1:25, 1:4], iris[51:75, 1:4], iris[101:125, 1:4]);
half2 = vcat(iris[26:50, 1:4], iris[76:100, 1:4], iris[126:150, 1:4]);
repeateach(x, n) = vec([j for i = 1:n, j in x])
colors = repeateach([:brown, :blue, :red], 25);
res1 = pca(half1);
res2 = pca(half2);

summary_pca(res1, npca=2)
summary_pca(res2, npca=2)
plot_pca(res1, col=colors)
plot_pca(res2, col=colors)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia の小ネタ--015 空ベクトルの和

2021年04月15日 | ブログラミング

簡単なことなんだけど,Julia では,空ベクトルの和を求めるとエラーになる。しかも,エラーメッセージが理解不能。

[julia> sum([])

MethodError: no method matching zero(::Type{Any})
Closest candidates are:
zero(::Type{Union{Missing, T}}) where T at missing.jl:105
zero(::Union{Type{P}, P}) where P<:Dates.Period at /Users/julia/buildbot/worker/package_macos64/build/usr/share/julia/stdlib/v1.6/Dates/src/periods.jl:53
zero(::SparseArrays.AbstractSparseArray) at /Users/julia/buildbot/worker/package_macos64/build/usr/share/julia/stdlib/v1.6/SparseArrays/src/SparseArrays.jl:55
...

R では 0 になる

> sum(c())
[1] 0

Python でも 0 になる

>>> sum([])
0
>>> import numpy as np
>>> sum(np.array([]))
0
>>> np.array([]).sum()
0.0

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--189 多重ロジスティックモデル,ロジスティック回帰

2021年04月14日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

多重ロジスティックモデル(ロジスティック回帰)
http://aoki2.si.gunma-u.ac.jp/R/lr.html

ファイル名: logisticregression.jl  関数名: logisticregression

翻訳するときに書いたメモ

数値解析をするときには,Julia のデータフレームは邪魔でしかない。

==========#

using Rmath, Plots, Statistics, Printf

function logisticregression(x)
    n, mp1 = size(x)
    m = mp1 - 1
    vnames = names(x)
    x = Matrix(x)
    index, num = table(x[:, mp1])
    @printf("***** 多重ロジスティック回帰 *****\n\n")
    @printf("サンプルサイズ   %5i\n", n)
    @printf("  生存(打ち切り)%5i\n", num[1])
    @printf("  死亡(故障)  %5i\n", num[2])
    if num[1] == 0 || num[2] == 0 || num[1] + num[2] == 2 || n <= mp1
        error("有効ケース数が 1 以下です")
    end
    means = mean(x, dims=1)
    sds = std(x, dims=1)
    @printf("\n         %15s %15s\n", "平均値", "標準偏差")
    for i in 1:m
        @printf("%8s %15.7f %15.7f\n", vnames[i], means[i], sds[i])
    end
    coeff = newtonlogist(x, vnames, m, n, sds)
    fitness(x, m, n, coeff)
end

function diff(x, m, n, coeff)
    mp1 = m + 1
    temp = coeff[mp1] .+ x[:, 1:m] * coeff[1:m];
    p0 = 1 ./ (1 .+ exp.(-temp));
    p1 = 1 .- p0;
    pp = [x[i, mp1] == 1 ? p1[i] : -p0[i] for i = 1:n];
    diff1 = zeros(mp1)
    diff1[mp1] = sum(pp)
    diff1[1:m] .+= vec(sum(x[:, 1:m] .* pp, dims=1))
    temp = -x[:, 1:m] .* p0 .* p1;
    diff2 = zeros(mp1, mp1)
    diff2[1:m, 1:m] = transpose(x[:, 1:m]) * temp
    [diff2[i, j] = 0 for i=1:m, j = 1:m if i > j]
    diff2[mp1, mp1] = -sum(p0 .* p1)
    diff2[1:m, mp1] += vec(sum(temp[:, 1:m], dims=1))
    [diff2[i, j] = diff2[j, i] for i=1:mp1, j = 1:mp1 if i > j]
    return diff1, diff2
end

function llh(x, m, coeff)
    temp = x[:, 1:m] * coeff[1:m] .+ coeff[m + 1];
    -sum(log.(1 .+ exp.([x[i, m + 1] == 1 ? -temp[i] : temp[i] for i = 1:size(x, 1)])))
end

function newtonlogist(x, vnames, m, n, sds)
    mp1 = m + 1
    coeff0 = zeros(mp1)
    coeff = fill(1e-14, mp1)
    for itr = 1:500
        diff1, diff2 = diff(x, m, n, coeff)
        coeff0 = diff2 \ diff1
        converge = all(abs.(coeff0 ./ coeff) .< 1e-10)
        coeff .-= coeff0
        if converge
            se = sqrt.(-[inv(diff2)[i, i] for i = 1:mp1])
            @printf("\n対数尤度 = %.14g\n", llh(x, m, coeff))
            @printf("\nパラメータ推定値\n\n")
            @printf("         %14s %14s %12s %8s %14s\n", "偏回帰係数", "標準偏差", "t 値", "P 値", "標準化偏回帰係数")
            t = abs.(coeff[1:m] ./ se[1:m])
            p = pt.(t, n - mp1, false) * 2
            for i in 1:m
                @printf(" %8s %14.7g %14.7g %12.7g %8.5f %14.7g\n", vnames[i], coeff[i], se[i], t[i], p[i], coeff[i] * sds[i])
            end
            t = abs(coeff[mp1] / se[mp1])
            p = pt(t, n - mp1, false) * 2
            @printf(" %8s %14.7g %14.7g %12.7g %8.5f\n %60s %i\n\n", " 定数項", coeff[mp1], se[mp1], t, p, "t の自由度 = ", n - mp1)
            return coeff
        end
    end
    error("not converged")
end

function fitness(x, m, n, coeff)
    lambda = x[:, 1:m] * coeff[1:m] .+ coeff[m + 1];
    pred = 1 ./ (1 .+ exp.(-lambda));
    y = x[:, m + 1];
    div = round.(Int, collect(range(0, n-1, step = n / 10)))[2:end]
    xs = sort(lambda);
    div2 = vcat((xs[div] .+ xs[div .+ 1]) ./ 2, Inf)
    g = zeros(Int, n);
    for i = 1:n
        for j = 1:10
            if lambda[i] <= div2[j]
                g[i] = j
                break
            end
        end
    end
    index, cnt = table(g)
    from = vcat(minimum(lambda), xs[div .+ 1]...)
    to = vcat(xs[div], maximum(lambda)...)
    mid = (from .+ to) ./ 2
    pred = [sum(pred[g .== i]) for i = 1:10]
    obs = [sum(y[g .== i]) for i = 1:10]
    @printf("   %10s %10s %10s %10s %6s %10s %10s\n",
            "以上", "以下", "期待値", "リスク", "観察値", "故障率", "サンプル数")
    for i = 1:10
        @printf("%2d %10.6f %10.6f %10.6f %10.6f %6d %10.6f %10d\n",
                i, from[i], to[i], pred[i], pred[i] / cnt[i], obs[i],
                obs[i] / cnt[i], cnt[i])
    end
    @printf(" % 60s % s\n", "", "左の2列は,各区間のλの値(最小値と最大値)")
    x2 = range(minimum(lambda), maximum(lambda), length=1000)
    y2 = 1 ./ (1 .+ exp.(-x2))
    plt = plot(x2, y2, grid=false, tick_direction=:out,
               color=:red, linewidth=0.5, xlabel="\$\\lambda\$",
               ylabel="Risk", label="")
    for i = 1:10
        plot!([from[i], to[i]], [pred[i], pred[i]] ./ cnt[i], color=:red, linewidth=0.5, label="")
        plot!([from[i], to[i]], [obs[i], obs[i]] ./ cnt[i], color=:black, linewidth=0.5, label="")
    end
    display(plt)
end

function table(x) # indices が少ないとき
    indices = sort(unique(x))
    counts = zeros(Int, length(indices))
    for i in indexin(x, indices)
        counts[i] += 1
    end
    return indices, counts
end

using CSV, DataFrames
x = CSV.read("/Users/aoki/Desktop/HD3/www/R/lr.data", DataFrame);
logisticregression(x)
#===
***** 多重ロジスティック回帰 *****

サンプルサイズ      98
  生存(打ち切り)   85
  死亡(故障)     13

                     平均値            標準偏差
      x1     132.6734694      14.5047276
      x2     223.2346939      49.2250881

対数尤度 = -36.09198547355

パラメータ推定値

                  偏回帰係数           標準偏差          t 値      P 値       標準化偏回帰係数
       x1    0.008297108     0.02120826    0.3912206  0.69651      0.1203473
       x2     0.01138648    0.005739863     1.983755  0.05017      0.5605007
      定数項      -5.645581       3.048239     1.852079  0.06712
                                                    t の自由度 =  95

           以上         以下        期待値        リスク    観察値        故障率      サンプル数
 1  -3.090951  -2.663472   0.540297   0.054030      0   0.000000         10
 2  -2.661530  -2.490380   0.729186   0.072919      0   0.000000         10
 3  -2.472638  -2.436890   0.712089   0.079121      0   0.000000          9
 4  -2.398670  -2.202452   0.916765   0.091676      3   0.300000         10
 5  -2.160525  -2.054780   1.097699   0.109770      1   0.100000         10
 6  -2.029713  -1.945594   1.206158   0.120616      1   0.100000         10
 7  -1.944181  -1.742756   1.350194   0.135019      1   0.100000         10
 8  -1.724572  -1.549538   1.427380   0.158598      3   0.333333          9
 9  -1.522529  -1.252166   1.986057   0.198606      0   0.000000         10
10  -1.238838   0.587855   3.034176   0.303418      4   0.400000         10
                                                              左の2列は,各区間のλの値(最小値と最大値)
===#

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--188 ポリシリアル相関係数

2021年04月13日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

ポリシリアル相関係数
http://aoki2.si.gunma-u.ac.jp/Python/polyserial.pdf

ファイル名: polyserial.jl  関数名: polyserial

翻訳するときに書いたメモ

Julia には(まだ?) pmvnorm() がないので,R の pmvnorm() を呼ぶ。

optimize() も,hessian を明示的には得られないので,トリッキーなことをする(方法が,インターネットから得られた)。

==========#

using Rmath, Statistics, Optim, Printf # LinearAlgebra

function polyserial(x, y; twostep=false, bins=4)
    function f(pars)
        rho = pars[1]
        if length(pars) == 1
            cts = vcat(-Inf, rowCuts, Inf)
        else
            temp = pars[2:end]
            if any(diff(temp) .< 0)
                return Inf
            end
            cts = vcat(-Inf, temp, Inf)
        end
        tau = -(rho .* z .- cts') ./ sqrt(1 - rho^2)
        choose = pnorm.(tau[i, y[i]+1] for i = 1:n)
        choose2 = pnorm.(tau[i, y[i]] for i = 1:n)
        -sum(log.(dnorm.(z) .* (choose .- choose2)))
    end

    method = "Polyserial Correlation:  " * (twostep ? "two step " : "") * "ML estimator"
    z = zscore(x)
    val, tab = table(y)
    n = sum(tab)
    s = length(tab)
    rowCuts = qnorm.(cumsum(tab) ./ n)[1:s-1]
    initval = std(y, corrected=false) * cor(x, y) / sum(dnorm.(rowCuts))
    if twostep
        result = optimize(f, [initval], BFGS())
        rho = Optim.minimizer(result)
        SE = sqrt(invH)
    else # pars = vcat(initval, rowCuts)
        result = optimize(f, vcat(initval, rowCuts), BFGS())
        x = Optim.minimizer(result)
        rho, rowCuts = x[1], x[2:end]
        hes = sqrt.(invH[i, i] for i = 1:s)
        SE, ser = hes[1], hes[2:end]
    end
    chisq = chisqfunc(y, z, rho, rowCuts, bins)
    df = s * bins - s - 1
    pvalue = pchisq(chisq, df, false)
    println("$method\n  ML estimator = $rho,  Std.Err. = $SE")
    println("Test of bivariate normality:\n  chisq = $chisq,  df = $df,  p value = $pvalue")
    if !twostep
        @printf("%13s  %9s\n", "Treshold", "Std. Err.")
        for i = 1:length(rowCuts)
            @printf("%2d  %9.6f  %9.6f\n", i, rowCuts[i], ser[i])
        end
    end
    Dict(:method => method, :rho => rho, :SE => SE, :chisq => chisq, :df => df, :pvalue => pvalue, :rowCuts => rowCuts)
end

Optim.after_while!(d, state::Optim.BFGSState, method::BFGS, options) = global invH = state.invH

function binBvn(rho, rowCuts, colCuts)
    rowCuts = vcat(-Inf, rowCuts, Inf)
    colCuts = vcat(-Inf, colCuts, Inf)
    r = length(rowCuts) - 1
    c = length(colCuts) - 1
    P = zeros(r, c)
    S = [1 rho; rho 1]
    mu = zeros(2)
    for i = 1:r
        for j = 1:c
            P[i, j] = pmvnorm([rowCuts[i], colCuts[j]],
                              [rowCuts[i + 1], colCuts[j + 1]], mu, S)
        end
    end
    P
end

using RCall
pmvnorm(lower, upper, mu, S) = rcopy(R"library(mvtnorm); pmvnorm($lower, $upper, $mu, $S)")

zscore(x) = (x .- mean(x)) / std(x, corrected=false)

function table(x) # indices が少ないとき
    indices = sort(unique(x))
    counts = zeros(Int, length(indices))
    for i in indexin(x, indices)
        counts[i] += 1
    end
    return indices, counts
end

function table(x, y) # 二次元
    indicesx = sort(unique(x))
    indicesy = sort(unique(y))
    counts = zeros(Int, length(indicesx), length(indicesy))
    for (i, j) in zip(indexin(x, indicesx), indexin(y, indicesy))
        counts[i, j] += 1
    end
    return indicesx, indicesy, counts
end

function chisqfunc(y, z, rho, rowCuts, bins)
    colCuts = qnorm.((1:bins-1) ./ bins)
    P = binBvn(rho, rowCuts, colCuts)
    catz = [sum(w .> vcat(-Inf, colCuts, Inf)) for w in zscore(z)]
    indexx, indexy, tab = table(y, catz)
    nonzero = tab .!= 0
    n = length(y)
    2sum(tab[nonzero] .* log.(tab[nonzero] ./ (P[nonzero] .* n)))
end

x = [0.7492, -0.22295, 0.11472, 0.53715, -0.51242, 0.35807, 0.49264,
    -0.51353, -0.94197, 1.15984, 1.12984, -1.02436, -1.07608, -0.30467,
    0.54926, 1.35279, 2.40187, 0.37274, -0.74321, 1.71418, 0.47398,
    -0.78159, 1.2034, -1.21809, 0.22509, -0.01787, 0.14278, -0.57617,
    0.88083, 1.46454, -0.20298, 0.94596, -1.04114, 1.2703, 0.1639,
    -0.15033, -0.41042, 1.59887, 0.58806, 0.72434, 0.89338, 0.34713,
    1.42137, 0.56944, 0.73173, -1.15237, 1.72124, -0.76932, 0.07062,
    -0.75912, -0.08296, 0.06515, -0.00246, 0.10176, -0.34965, -1.53095,
    1.55971, -0.20873, 0.11238, 2.08786, 1.83424, 0.70741, -0.70681,
    -1.48295, -2.36075, 1.81494, 0.20038, 2.29407, -0.80354, 0.0154,
    -1.43625, -0.96287, 0.15512, -1.27466, 0.90138, -1.42222, -0.02011,
    -0.16987, 1.55233, -0.10292, -0.39256, -0.35841, -1.03065, 0.29056,
    1.69807, 0.54179, 0.24826, -1.52018, 2.50281, -0.2621, -0.89337,
    -0.09901, 0.80746, 1.50104, -0.29506, 0.39425, 0.83788, 1.47223,
    0.70706, -0.42811]

y = [3, 2, 1, 2, 2, 4, 3, 3, 2, 3, 4, 1, 3, 2, 2, 4, 4, 3, 1, 2,
    1, 3, 4, 2, 1, 4, 2, 2, 3, 1, 1, 4, 1, 4, 1, 2, 4, 3, 2, 3, 3,
    4, 4, 2, 3, 1, 2, 2, 4, 2, 1, 1, 2, 3, 2, 1, 4, 2, 3, 2, 4, 4,
    1, 3, 1, 3, 1, 2, 2, 2, 1, 1, 3, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
    1, 2, 3, 3, 2, 3, 1, 2, 3, 2, 3, 2, 2, 2, 3, 2, 2]

polyserial(x, y, twostep=true)
# Polyserial Correlation:  two step ML estimator
#   ML estimator = [0.46699921329233146],  Std.Err. = [0.07931271523690714]
# Test of bivariate normality:
#   chisq = 5.488940449811883,  df = 11,  p value = 0.9051999325887348

polyserial(x, y)
# Polyserial Correlation:  ML estimator
#   ML estimator = 0.46619488420452654,  Std.Err. = 0.08060954580245325
# Test of bivariate normality:
#   chisq = 5.484065294038735,  df = 11,  p value = 0.9054810695989302
#      Treshold  Std. Err.
#  1  -0.845491   0.133867
#  2   0.305882   0.118075
#  3   1.042709   0.144813

polyserial(x, y, bins=6)
# Polyserial Correlation:  ML estimator
# Polyserial Correlation:
#   ML estimator = 0.46619488420452654,  Std.Err. = 0.08060954580245325
# Test of bivariate normality:
#   chisq = 12.914187782275436,  df = 19,  p value = 0.8429348531100296
#      Treshold  Std. Err.
#  1  -0.845491   0.133867
#  2   0.305882   0.118075
#  3   1.042709   0.144813

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--187 ゴンペルツ曲線回帰 y = a * b^exp(-c*x)

2021年04月13日 | ブログラミング

n#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

ゴンペルツ曲線回帰 y = a * b**exp(-c*x)
http://aoki2.si.gunma-u.ac.jp/Python/gomperts.pdf

ファイル名: gomperts.jl  関数名: gomperts

翻訳するときに書いたメモ

for ループが変数スコープを形成するので,for ループ内から結果を表示する関数を呼ぶようにした。

==========#

using Statistics, Printf, Plots

function gomperts(y, maxit=1000, tol=1e-6, printout=true, graph=true)
    model = "y = a * b^exp(-c*x)"
    n = length(y)
    n > 3 || error("sample size must be greater than 3")
    all(y .> 0) || error("all y[i] must be positive")
    d = zeros(n, 3)
    u1 = u0 = init(y, n)
    d[:, 3] = log.(y)
    x = 1:n
    for i = 1:maxit
        d[:, 1] = exp.(-u1 .* x)
        d[:, 2] = x .* d[:, 1]
        a, b, c = mreg(d)
        u0 = u1
        u1 -= c / b
        if abs((u0 - u1) / u0) < tol
            a = exp(a)
            b = exp(b)
            c = u1
            predicted = f.(x, a, b, c)
            resid = y - predicted
            printout && printout2(model, a, b, c, n, x, y, predicted, resid)
            graph    && graph2(model, a, b, c, x, y)
            return Dict(:a => a, :b => b, :c => c, :predicted => predicted,
                        :resid => resid,
                        :x => x, :y => y, :model => model)
        end
    end
    error("not converged")
end

f(x, a, b, c) = a * b ^ exp(-c * x)

function printout2(model, a, b, c, n, x, y, predicted, resid)
    println(model)
    println("a = $a, b = $b, c = $c")
    @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
    for i =1:n
        @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
    end
end

function graph2(model, a, b, c, x, y)
    model = "y = a * b^{\\exp(-c*x)}"
    plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                  color=:blue, markerstrokecolor=:blue, label="")
    min, max = extrema(x)
    w = 0.05(max - min)
    x2 = range(min - w, max + w, length=1000)
    y2 = f.(x2, a, b, c)
    plot!(x2, y2, linewidth=0.5, color=:red, label="")
    display(plt)
end

function init(y, n)
    m = length(y) ÷ 3
    s1 = sum(log.(y[1:m]))
    s2 = sum(log.(y[m+1:2m]))
    s3 = sum(log.(y[2m+1:end]))
    log((s1 - s2) / (s2 - s3)) / m
end

function mreg(dat) # 回帰分析を行い,偏回帰係数を返す関数
    r = cor(dat)
    betas = r[1:end-1, 1:end-1] \ r[1:end-1, end]
    SS = cov(dat, corrected=false) .* size(dat, 1)
    prop = [SS[i, i] for i in 1:size(SS, 1)]
    b = betas .* sqrt.(prop[end] ./ prop[1:end-1])
    means = mean(dat, dims=1)
    b0 = means[end] - sum(b .* means[1:end-1])
    vcat(b0, b)
end

y = [2.9, 5.2, 9.1, 15.5, 25.0, 37.8, 52.6, 66.9, 78.6, 87.0, 92.4, 95.7, 97.6, 98.6, 99.2];
gomperts(y)
# y = a * b^exp(-c*x)
# a = 134.13510703273636, b = 0.006807921520544414, c = 0.22478593362143764
#            x            y        pred.       resid.
#     1.000000     2.900000     2.493440     0.406560
#     2.000000     5.200000     5.561857    -0.361857
#     3.000000     9.100000    10.555993    -1.455993
#     4.000000    15.500000    17.609913    -2.109913
#     5.000000    25.000000    26.501587    -1.501587
#     6.000000    37.800000    36.732508     1.067492
#     7.000000    52.600000    47.674639     4.925361

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--186 ロジスティック曲線回帰 y = a / (1 + b*exp(-c*x))

2021年04月13日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

ロジスティック曲線回帰 y = a / (1 + b*exp(-c*x))
http://aoki2.si.gunma-u.ac.jp/Python/logistic.pdf

ファイル名: logistic.jl  関数名: logistic

翻訳するときに書いたメモ

for ループが変数スコープを形成するので,for ループ内から結果を表示する関数を呼ぶようにした。

==========#

using Statistics, Printf, Plots

function logistic(y; maxit=1000, tol=1e-6, printout=true, graph=true)
    model = "y = a / (1 + b * exp(-c * x))"
    n = length(y)
    n > 3 || error("sample size must be greater than 3")
    all(y .> 0) || error("all y[i] must be positive")
    d = zeros(n, 3)
    u1 = u0 = init(y)
    d[:, 3] = 1 ./ y
    x = 1:n
    for i = 1:maxit
        d[:, 1] = exp.(-u1 .* x)
        d[:, 2] = x .* d[:, 1]
        a, b, c = mreg(d)
        u0 = u1
        u1 -= c / b
        if abs((u0 - u1) / u0) < tol
            a = 1 / a
            b *= a
            c = u1
            predicted = f.(x, a, b, c)
            resid = y - predicted
            printout && printout2(model, a, b, c, n, x, y, predicted, resid)
            graph    && graph2(model, a, b, c, x, y)
            return Dict(:a => a, :b => b, :c => c, :predicted => predicted,
                        :resid => resid,
                        :x => x, :y => y, :model => model)
        end
    end
    error("not converged")
end

f(x, a, b, c) = a / (1 + b * exp(-c * x))

function printout2(model, a, b, c, n, x, y, predicted, resid)
    println(model)
    println("a = $a, b = $b, c = $c")
    @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
    for i =1:n
        @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
    end
end

function graph2(model, a, b, c, x, y)
    model = replace(model, "exp" => "\\exp")
    plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                  color=:blue, markerstrokecolor=:blue, label="")
    min, max = extrema(x)
    w = 0.05(max - min)
    x2 = range(min - w, max + w, length=1000)
    y2 = f.(x2, a, b, c)
    plot!(x2, y2, linewidth=0.5, color=:red, label="")
    display(plt)
end

function init(y)
    m = length(y) ÷ 3
    s1 = sum(log.(y[1:m]))
    s2 = sum(log.(y[m+1:2m]))
    s3 = sum(log.(y[2m+1:end]))
    log((s1 - s2) / (s2 - s3)) / m
end

function mreg(dat) # 回帰分析を行い,偏回帰係数を返す関数
    r = cor(dat)
    betas = r[1:end-1, 1:end-1] \ r[1:end-1, end]
    SS = cov(dat, corrected=false) .* size(dat, 1)
    prop = [SS[i, i] for i in 1:size(SS, 1)]
    b = betas .* sqrt.(prop[end] ./ prop[1:end-1])
    means = mean(dat, dims=1)
    b0 = means[end] - sum(b .* means[1:end-1])
    vcat(b0, b)
end

y = [2.9, 5.2, 9.1, 15.5, 25.0, 37.8, 52.6, 66.9, 78.6, 87.0, 92.4,95.7, 97.6, 98.6, 99.2];
logistic(y)
# y = a / (1 + b * exp(-c * x))
# a = 99.10621619280843, b = 60.7563899945766, c = 0.6055235054694381
#            x            y        pred.       resid.
#     1.000000     2.900000     2.901223    -0.001223
#     2.000000     5.200000     5.189233     0.010767
#     3.000000     9.100000     9.110771    -0.010771
#     4.000000    15.500000    15.506534    -0.006534
#     5.000000    25.000000    25.138002    -0.138002
#     6.000000    37.800000    38.030374    -0.230374
#     7.000000    52.600000    52.813748    -0.213748
#     8.000000    66.900000    67.036298    -0.136298
#     9.000000    78.600000    78.586916     0.013084
#    10.000000    87.000000    86.744501     0.255499
#    11.000000    92.400000    91.954133     0.445867
#    12.000000    95.700000    95.070403     0.629597
#    13.000000    97.600000    96.862005     0.737995
#    14.000000    98.600000    97.868622     0.731378
#    15.000000    99.200000    98.426898     0.773102

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--185 漸近指数曲線回帰 y = a * b^x + c

2021年04月13日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

漸近指数曲線回帰 y = a * b**x + c
http://aoki2.si.gunma-u.ac.jp/Python/asyr.pdf


ファイル名: asyr.jl  関数名: asyr

翻訳するときに書いたメモ

for ループが変数スコープを形成するので,for ループ内から結果を表示する関数を呼ぶようにした。

==========#

using Statistics, Printf, Plots

function asyr(x, y; maxiter=1000, tol=1e-6, printout=true, graph=true)
    model = "y = a * b^x + c"
    n = length(x)
    n > 3 || error("sample size must be greater than 3")
    d = zeros(n, 3)
    d[:, 3] = y
    u1 = init(y, n)
    for loop = 1:maxiter
        d[:, 1] = u1 .^ x
        d[:, 2] = x .* u1 .^ (x .- 1)
        c, a, b = mreg(d)
        u0 = u1
        u1 += b / a
        if abs((u0 - u1) / u0) < tol
            b = u1
            predicted = f.(x, a, b, c)
            resid = y - predicted
            printout && printout2(model, a, b, c, n, x, y, predicted, resid)
            graph    && graph2(model, a, b, c, x, y)
            return Dict(:a => a, :b => b, :c => c, :predicted => predicted,
                        :resid => resid,
                        :x => x, :y => y, :model => model)
        end
    end
    error("not converged")
end

f(x, a, b, c) = a * b^x + c

function printout2(model, a, b, c, n, x, y, predicted, resid)
    println(model)
    println("a = $a, b = $b, c = $c")
    @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
    for i =1:n
        @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
    end
end

function graph2(model, a, b, c, x, y)
    plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                  color=:blue, markerstrokecolor=:blue, label="")
    min, max = extrema(x)
    w = 0.05(max - min)
    x2 = range(min - w, max + w, length=1000)
    y2 = f.(x2, a, b, c)
    plot!(x2, y2, linewidth=0.5, color=:red, label="")
    display(plt)
end

function init(d, n)
    if n == 4
        (4d[4]+d[3]-5d[2])/(4d[3]+d[2]-5d[1])
    elseif n == 5
        (4d[5]+3d[4]-d[3]-6d[2])/(4d[4]+3d[3]-d[2]-6d[1])
    elseif n == 6
        (4d[6]+4d[5]+2d[4]-3d[3]-7d[2])/(4d[5]+4d[4]+2d[3]-3d[2]-7d[1])
    elseif n == 7
        (d[7]+d[6]+d[5]-d[3]-2d[2])/(d[6]+d[5]+d[4]-d[2]-2d[1])
    else
        k = n/7
        (d[floor(Int, 6*k)+1]+d[floor(Int, 5*k)+1]+d[floor(Int, 4*k)+1]-d[floor(Int, 2*k)+1]-2d[floor(Int, k)+1]) /
            (d[floor(Int, 5*k)+1]+d[floor(Int, 4*k)+1]+d[floor(Int, 3*k)+1]-d[floor(Int, k)+1]-2d[1])
    end
end

function mreg(dat) # 回帰分析を行い,偏回帰係数を返す関数
    r = cor(dat)
    betas = r[1:end-1, 1:end-1] \ r[1:end-1, end]
    SS = cov(dat, corrected=false) .* size(dat, 1)
    prop = [SS[i, i] for i in 1:size(SS, 1)]
    b = betas .* sqrt.(prop[end] ./ prop[1:end-1])
    means = mean(dat, dims=1)
    b0 = means[end] - sum(b .* means[1:end-1])
    vcat(b0, b)
end

x = 0:0.5:5
y = [52, 53, 56, 60, 68, 81, 104, 144, 212, 331, 536];
asyr(x, y)
# y = a * b^x + c
# a = 2.0282343471965527, b = 2.991960122729875, c = 49.73508957252342
#            x            y        pred.       resid.
#     0.000000    52.000000    51.763324     0.236676
#     0.500000    53.000000    53.243384    -0.243384
#     1.000000    56.000000    55.803486     0.196514
#     1.500000    60.000000    60.231767    -0.231767
#     2.000000    68.000000    67.891489     0.108511
#     2.500000    81.000000    81.140729    -0.140729
#     3.000000   104.000000   104.058313    -0.058313
#     3.500000   144.000000   143.699509     0.300491
#     4.000000   212.000000   212.268009    -0.268009
#     4.500000   331.000000   330.872886     0.127114
#     5.000000   536.000000   536.027103    -0.027103

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--184 冪曲線回帰 y = a * x^b

2021年04月12日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

冪曲線回帰 y = a * x**b
http://aoki2.si.gunma-u.ac.jp/Python/power.pdf

ファイル名: power.jl  関数名: power

翻訳するときに書いたメモ

==========#

using Statistics, Printf, Plots

function power(x, y; printout=true, graph=true)
    f(x, a, b) = a * x ^ b
    model = "y = a * x^b"
    n = length(x)
    n >= 2 || error("sample size must be greater than 1")
    (all(x .> 0) && all(y .> 0)) || error("all x[i] && y[i] must be positive")
    a, b = sreg(log.(x), log.(y))
    a = exp(a)
    predicted = f.(x, a, b)
    resid = y .- predicted
    println(model)
    println("a = $a, b = $b")
    if printout
        @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
        for i =1:n
            @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
        end
    end
    if graph
        plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                      color=:blue, markerstrokecolor=:blue, label="")
        min, max = extrema(x)
        w = 0.05(max - min)
        x2 = range(min - w, max + w, length=1000)
        y2 = f.(x2, a, b)
        plot!(x2, y2, linewidth=0.5, color=:red, label="")
        display(plt)
    end
    Dict(:a => a, :b => b, :predicted => predicted, :resid => resid,
        :x => x, :y => y, :model => model)
end

function sreg(x, y)
    a = cov(x, y) / var(x)
    mean(y) - a * mean(x), a
end

x = collect(1:10);
y = [2, 16, 54, 128, 250, 432, 686, 1024, 1458, 2000];
power(x, y)
# y = a * x^b
# a = 1.9999999999999984, b = 2.9999999999999996
#            x            y        pred.       resid.
#     1.000000     2.000000     2.000000     0.000000
#     2.000000    16.000000    16.000000     0.000000
#     3.000000    54.000000    54.000000     0.000000
#     4.000000   128.000000   128.000000     0.000000
#     5.000000   250.000000   250.000000     0.000000
#     6.000000   432.000000   432.000000     0.000000
#     7.000000   686.000000   686.000000     0.000000
#     8.000000  1024.000000  1024.000000     0.000000
#     9.000000  1458.000000  1458.000000     0.000000
#    10.000000  2000.000000  2000.000000     0.000000

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--183 特殊な指数曲線回帰 b^y = a * x

2021年04月12日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

特殊な指数曲線回帰 b**y = a * x
http://aoki2.si.gunma-u.ac.jp/Python/exp3.pdf

ファイル名: exp3.jl  関数名: exp3

翻訳するときに書いたメモ

==========#

using Statistics, Printf, Plots

function exp3(x, y; printout=true, graph=true)
    f(x, a, b) = a + b * x
    model = "b^y = a * x"
    n = length(x)
    n >= 2 || error("sample size must be greater than 1")
    all(x .> 0) || error("all x[i] must be positive")
    logx = log.(x)
    intercept, slope = sreg(logx, y)
    b = exp(1 / slope)
    a = exp(intercept / slope)
    #predicted = intercept + slope*logx
    predicted = f.(logx, intercept, slope)
    resid = y - predicted
    println(model)
    println("a = $a, b = $b")
    if printout
        @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
        for i =1:n
            @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
        end
    end
    if graph
        plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                      color=:blue, markerstrokecolor=:blue, label="")
        min, max = extrema(x)
        w = 0.05(max - min)
        x2 = range(min - w, max + w, length=1000)
        y2 = f.(log.(x2), intercept, slope)
        plot!(x2, y2, linewidth=0.5, color=:red, label="")
        display(plt)
    end
    Dict(:a => a, :b => b, :intercept => intercept, :slope => slope, :predicted => predicted, :resid => resid, :x => x, :logx => logx, :y => y, :model => model)
end

function sreg(x, y)
    a = cov(x, y) / var(x)
    mean(y) - a * mean(x), a
end

x = collect(1:10);
y = [0.631, 1.262, 1.631, 1.893, 2.096, 2.262, 2.402, 2.524, 2.631, 2.727];
exp3(x, y)
# b^y = a * x
# a = 2.000197950638151, b = 2.999971611554844
#            x            y        pred.       resid.
#     1.000000     0.631000     0.631025    -0.000025
#     2.000000     1.262000     1.261960     0.000040
#     3.000000     1.631000     1.631034    -0.000034
#     4.000000     1.893000     1.892896     0.000104
#     5.000000     2.096000     2.096011    -0.000011
#     6.000000     2.262000     2.261969     0.000031
#     7.000000     2.402000     2.402284    -0.000284
#     8.000000     2.524000     2.523831     0.000169
#     9.000000     2.631000     2.631043    -0.000043
#    10.000000     2.727000     2.726947     0.000053

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Julia に翻訳--182 指数曲線回帰 y = a * b^x

2021年04月12日 | ブログラミング

#==========
Julia の修行をするときに,いろいろなプログラムを書き換えるのは有効な方法だ。
以下のプログラムを Julia に翻訳してみる。

Python による統計処理 
http://aoki2.si.gunma-u.ac.jp/Python/PythonDir.tar.gz

指数曲線回帰 y = a * b**x
http://aoki2.si.gunma-u.ac.jp/Python/exp1.pdf

ファイル名: exp1.jl  関数名: exp1

翻訳するときに書いたメモ

==========#

using Statistics, Printf, Plots

function exp1(x, y; printout=true, graph=true)
    f(x, a, b) = a * b ^ x
    model = "y = a * b^x"
    n = length(x)
    n >= 2 || error("sample size must be greater than 1")
    all(y .> 0) || error("all y[i] must be positive")
    a, b = exp.(sreg(x, log.(y)))
    predicted = f.(x, a, b)
    resid = y .- predicted
    println(model)
    println("a = $a, b = $b")
    if printout
        @printf("%12s %12s %12s %12s\n", "x", "y", "pred.", "resid.")
        for i =1:n
            @printf("%12.6f %12.6f %12.6f %12.6f\n", x[i], y[i], predicted[i], resid[i])
        end
    end
    if graph
        plt = scatter(x, y, grid=false, tick_direction=:out, title="\$$model\$",
                      color=:blue, markerstrokecolor=:blue, label="")
        min, max = extrema(x)
        w = 0.05(max - min)
        x2 = range(min - w, max + w, length=1000)
        y2 = f.(x2, a, b)
        plot!(x2, y2, linewidth=0.5, color=:red, label="")
        display(plt)
    end
    Dict(:a => a, :b => b, :predicted => predicted, :resid => resid,
        :x => x, :y => y, :model => model)
end

function sreg(x, y)
    a = cov(x, y) / var(x)
    mean(y) - a * mean(x), a
end


x = collect(1:10);
y = [3, 4.5, 6.75, 10.125, 15.188, 22.781, 34.172, 51.258, 76.887, 115.330];
exp1(x, y)

# y = a * b^x
# a = 2.0000061235873563, b = 1.5000000443425876
#            x            y        pred.       resid.
#     1.000000     3.000000     3.000009    -0.000009
#     2.000000     4.500000     4.500014    -0.000014
#     3.000000     6.750000     6.750021    -0.000021
#     4.000000    10.125000    10.125032    -0.000032
#     5.000000    15.188000    15.187549     0.000451
#     6.000000    22.781000    22.781324    -0.000324
#     7.000000    34.172000    34.171987     0.000013
#     8.000000    51.258000    51.257982     0.000018
#     9.000000    76.887000    76.886975     0.000025
#    10.000000   115.330000   115.330465    -0.000465


コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村