Minsta kvadratmetoden i Excel. Regressionsanalys

KURSARBETE

disciplin: Datavetenskap

Ämne: Funktionsapproximation med minsta kvadratmetoden

Introduktion

1. Redogörelse för problemet

2. Beräkningsformler

Beräkning med tabeller gjorda med Microsoft Excel

Algoritmdiagram

Beräkning i MathCad

Resultat som erhålls med den linjära funktionen

Presentation av resultat i form av grafer

Introduktion

Syftet med kursarbetet är att fördjupa kunskaperna inom datavetenskap, utveckla och befästa färdigheter i att arbeta med Microsoft Excel-kalkylbladsprocessorn och programvaran MathCAD och använda dem för att lösa problem med hjälp av en dator från ett ämnesområde relaterat till forskning.

Approximation (från latin "approximare" - "att komma närmare") är ett ungefärligt uttryck för alla matematiska objekt (till exempel siffror eller funktioner) genom andra som är enklare, bekvämare att använda eller helt enkelt mer kända. Inom vetenskaplig forskning används approximation för att beskriva, analysera, generalisera och vidare använda empiriska resultat.

Som bekant kan det finnas ett exakt (funktionellt) samband mellan kvantiteter, när ett specifikt värde motsvarar ett värde i argumentet, och ett mindre exakt (korrelations) samband, när ett specifikt värde av argumentet motsvarar ett ungefärligt värde eller en viss uppsättning funktionsvärden, i en eller annan grad nära varandra. När du bedriver vetenskaplig forskning, bearbetar resultaten av en observation eller experiment måste du vanligtvis ta itu med det andra alternativet.

När man studerar de kvantitativa beroenden av olika indikatorer, vars värden bestäms empiriskt, finns det som regel viss variation. Det bestäms dels av heterogeniteten hos de studerade föremålen i den livlösa och särskilt levande naturen, och dels bestäms den av observationsfelet och den kvantitativa bearbetningen av material. Den sista komponenten kan inte alltid elimineras helt, den kan endast minimeras genom noggrant val av en adekvat forskningsmetod och noggrant arbete. Därför, när du utför något forskningsarbete, uppstår problemet med att identifiera den sanna naturen av beroendet av de studerade indikatorerna, denna eller den grad maskerad av underlåtenheten att ta hänsyn till variabiliteten: värden. För detta ändamål används approximation - en ungefärlig beskrivning av korrelationsberoendet av variabler med en lämplig funktionell beroendeekvation som förmedlar beroendets (eller dess "trend") huvudtendens.

När man väljer en approximation bör man utgå från det specifika forskningsproblemet. Vanligtvis gäller att ju enklare ekvationen som används för approximation, desto mer approximativ blir den resulterande beskrivningen av sambandet. Därför är det viktigt att läsa hur betydande och vad som orsakar avvikelserna för specifika värden från den resulterande trenden. När man beskriver beroendet av empiriskt bestämda värden kan mycket större noggrannhet uppnås genom att använda en mer komplex, multiparametrisk ekvation. Det är dock ingen idé att sträva efter att förmedla slumpmässiga avvikelser av värden i specifika serier av empirisk data med maximal noggrannhet. Det är mycket viktigare att förstå det allmänna mönstret, som i detta fall är mest logiskt och med acceptabel noggrannhet uttryckt exakt av tvåparametersekvationen för en potensfunktion. Sålunda, när forskaren väljer en approximationsmetod, gör forskaren alltid en kompromiss: han bestämmer i vilken utsträckning det i detta fall är tillrådligt och lämpligt att "offra" detaljer och följaktligen hur generellt beroendet av de jämförda variablerna ska uttryckas. Tillsammans med att identifiera mönster maskerade av slumpmässiga avvikelser av empiriska data från det allmänna mönstret, gör approximation det också möjligt att lösa många andra viktiga problem: formalisera det hittade beroendet; hitta okända värden för den beroende variabeln genom interpolation eller, om så är lämpligt, extrapolering.

I varje uppgift formuleras villkoren för problemet, initialdata, formuläret för att utfärda resultat och de huvudsakliga matematiska beroenden för att lösa problemet anges. I enlighet med metoden för att lösa problemet utvecklas en lösningsalgoritm, som presenteras i grafisk form.

1. Redogörelse för problemet

1. Använd minsta kvadratmetoden och approximera funktionen som ges i tabellen:

a) ett polynom av första graden ;

b) ett polynom av andra graden;

c) exponentiellt beroende.

Beräkna determinismkoefficienten för varje beroende.

Beräkna korrelationskoefficienten (endast i fall a).

Konstruera en trendlinje för varje beroende.

Med hjälp av LINEST-funktionen, beräkna de numeriska egenskaperna för beroendet av.

Jämför dina beräkningar med de resultat som erhållits med funktionen LINJE.

Avgör vilken av de resulterande formlerna som bäst approximerar funktionen.

Skriv ett program på ett av programmeringsspråken och jämför beräkningsresultaten med de som erhållits ovan.

Alternativ 3. Funktionen anges i tabellen. 1.

Bord 1.


2. Beräkningsformler

Ofta, när man analyserar empiriska data, finns det ett behov av att hitta ett funktionellt samband mellan storheterna x och y, som erhålls som ett resultat av erfarenhet eller mätningar.

Xi (oberoende värde) sätts av försöksledaren, och yi, som kallas empiriska eller experimentella värden, erhålls som ett resultat av experiment.

Den analytiska formen av det funktionella sambandet mellan storheterna x och y är vanligtvis okänd, så en praktiskt viktig uppgift uppstår - att hitta en empirisk formel

, (1)

(var finns parametrarna), vars värden skulle skilja sig lite från de experimentella värdena.

Enligt minsta kvadratmetoden är de bästa koefficienterna de för vilka summan av kvadrerade avvikelser för den hittade empiriska funktionen från de givna funktionsvärdena kommer att vara minimal.

Med hjälp av det nödvändiga villkoret för extremumet av en funktion av flera variabler - likheten mellan partiella derivator till noll, hittar vi en uppsättning koefficienter som levererar minimum av funktionen definierad av formel (2) och erhåller ett normalt system för att bestämma koefficienterna :

(3)

Att hitta koefficienterna reduceras således till att lösa system (3).

Typen av system (3) beror på den klass av empiriska formler som vi letar efter beroende (1). I fallet med ett linjärt beroende kommer system (3) att ha formen:

(4)

I fallet med ett kvadratiskt beroende kommer system (3) att ha formen:

(5)

I vissa fall tas en funktion där de osäkra koefficienterna kommer in olinjärt som en empirisk formel. I det här fallet kan ibland problemet linjäriseras, d.v.s. reducera till linjärt. Sådana beroenden inkluderar det exponentiella beroendet

där a1 och a2 är odefinierade koefficienter.

Linearisering uppnås genom att ta logaritmen av likhet (6), varefter vi får relationen

(7)

Låt oss beteckna och respektive med och , då beroende (6) kan skrivas i formen , vilket gör att vi kan tillämpa formler (4) med att ersätta a1 med och med .

Grafen för det rekonstruerade funktionella beroendet y(x) baserat på mätresultaten (xi, yi), i=1,2,...,n kallas en regressionskurva. För att kontrollera överensstämmelsen mellan den konstruerade regressionskurvan och de experimentella resultaten, introduceras vanligtvis följande numeriska egenskaper: korrelationskoefficient (linjärt beroende), korrelationsförhållande och bestämningskoefficient.

Korrelationskoefficienten är ett mått på det linjära sambandet mellan beroende stokastiska variabler: den visar hur väl, i genomsnitt, en av variablerna kan representeras som en linjär funktion av den andra.

Korrelationskoefficienten beräknas med formeln:

(8)

(9)

var är det aritmetiska medelvärdet av x, y respektive.

Korrelationskoefficienten mellan stokastiska variabler i absoluta värden överstiger inte 1. Ju närmare 1, desto närmare är det linjära sambandet mellan x och y.

I fallet med en icke-linjär korrelation är de villkorliga medelvärdena placerade nära den krökta linjen. I det här fallet rekommenderas det att använda ett korrelationsförhållande som en egenskap för styrkan i sambandet, vars tolkning inte beror på vilken typ av beroende som studeras.

Korrelationsförhållandet beräknas med formeln:

(10)

Var och täljaren karakteriserar spridningen av villkorliga medelvärden runt det ovillkorliga medelvärdet.

Alltid. Likhet = motsvarar slumpmässiga okorrelerade värden; = om och endast om det finns ett exakt funktionellt samband mellan x och y. I fallet med ett linjärt beroende av y på x, sammanfaller korrelationsförhållandet med kvadraten på korrelationskoefficienten. Värdet används som en indikator på regressionens avvikelse från linjär.

Korrelationsförhållandet är ett mått på korrelationen mellan y och x i någon form, men kan inte ge en uppfattning om graden av approximation av empiriska data till en speciell form. För att ta reda på hur exakt den konstruerade kurvan återspeglar empiriska data, introduceras en annan egenskap - bestämningskoefficienten.

Determinismkoefficienten bestäms av formeln:

där Sres = - restsumma av kvadrater, som kännetecknar avvikelsen av experimentella data från teoretiska totalt - total summa av kvadrater, där medelvärdet är yi.

- regressionssumma av kvadrater som kännetecknar spridningen av data.

Ju mindre restsumman av kvadrater jämfört med totalsumman av kvadrater, desto större blir bestämningskoefficienten r2, som mäter hur väl regressionsekvationen förklarar sambanden mellan variablerna. Om det är lika med 1, så finns det en fullständig korrelation med modellen, d.v.s. det finns ingen skillnad mellan de faktiska och uppskattade värdena för y. I det motsatta fallet, om bestämningskoefficienten är 0, är ​​regressionsekvationen misslyckad med att förutsäga värdena för y.

Determinismkoefficienten överstiger alltid inte korrelationsförhållandet. I det fall när jämlikhet är uppfylld kan vi anta att den konstruerade empiriska formeln mest korrekt återspeglar empirin.

3. Beräkning med tabeller gjorda med Microsoft Excel

För att utföra beräkningar är det lämpligt att ordna data i form av tabell 2 med hjälp av Microsoft Excel-kalkylbladsprocessorn.

Tabell 2












Låt oss förklara hur Tabell 2 är sammanställd.

Steg 1. I cellerna A1:A25 anger vi värdena xi.

Steg 2. I cellerna B1:B25 anger vi värdena för yi.

Steg 3. I cell C1 anger du formeln = A1^2.

Steg 4. Denna formel kopieras in i cellerna C1:C25.

Steg 5. I cell D1 anger du formeln = A1 * B1.

Steg 6. Denna formel kopieras in i cellerna D1:D25.

Steg 7. I cell F1 anger du formeln = A1^4.

Steg 8. Denna formel kopieras till cellerna F1:F25.

Steg 9. I cell G1 anger du formeln = A1^2*B1.

Steg 10. Denna formel kopieras in i cellerna G1:G25.

Steg 11. I cell H1 anger du formeln = LN(B1).

Steg 12. Denna formel kopieras in i cellerna H1:H25.

Steg 13. I cell I1 anger du formeln = A1*LN(B1).

Steg 14. Denna formel kopieras till cellerna I1:I25.

Vi utför de efterföljande stegen med automatisk summering S.

Steg 15. I cell A26 anger du formeln = SUMMA(A1:A25).

Steg 16. I cell B26 anger du formeln = SUMMA(B1:B25).

Steg 17. I cell C26 anger du formeln = SUMMA(C1:C25).

Steg 18. I cell D26 anger du formeln = SUMMA(D1:D25).

Steg 19. I cell E26 anger du formeln = SUMMA(E1:E25).

Steg 20. I cell F26 anger du formeln = SUMMA(F1:F25).

Steg 21. I cell G26 anger du formeln = SUMMA(G1:G25).

Steg 22. I cell H26 anger du formeln = SUMMA(H1:H25).

Steg 23. I cell I26 anger du formeln = SUMMA(I1:I25).

Låt oss approximera funktionen med en linjär funktion. För att bestämma koefficienterna kommer vi att använda system (4). Med hjälp av summorna i Tabell 2, som finns i cellerna A26, B26, C26 och D26, skriver vi system (4) i formen

(11)

lösa vilket, vi får Och .

Systemet löstes med Cramers metod. Kärnan i detta är följande. Betrakta ett system av n algebraiska linjära ekvationer med n okända:

(12)

Systemets determinant är determinanten för systemmatrisen:

(13)

Låt oss beteckna - determinanten som erhålls från determinanten för systemet Δ genom att ersätta den j:te kolumnen med kolumnen

Således har den linjära approximationen formen

Vi löser system (11) med hjälp av Microsoft Excel. Resultaten presenteras i tabell 3.

Tabell 3











invers matris






I tabell 3, i celler A32:B33 skrivs formeln (=MOBR(A28:B29)).

I cellerna E32:E33 skrivs formeln (=MULTIPLE(A32:B33),(C28:C29)).

Därefter approximerar vi funktionen med en kvadratisk funktion . För att bestämma koefficienterna a1, a2 och a3 använder vi system (5). Med hjälp av summan i Tabell 2, som finns i cellerna A26, B26, C26, D26, E26, F26, G26, skriver vi system (5) i formen

(16)

löser vi vilket får vi a1=10,663624, Och

Sålunda har den kvadratiska approximationen formen

Vi löser system (16) med hjälp av Microsoft Excel. Resultaten presenteras i tabell 4.

Tabell 4














invers matris







I tabell 4, i celler A41:C43 skrivs formeln (=MOBR(A36:C38)).

I cellerna F41:F43 skrivs formeln (=MULTIPLE(A41:C43),(D36:D38)).

Låt oss nu approximera funktionen med en exponentialfunktion. För att bestämma koefficienterna och tar vi logaritmen för värdena och, med hjälp av summan av tabell 2, som finns i cellerna A26, C26, H26 och I26, får vi systemet

(18)

Efter att ha löst system (18) får vi och .

Efter potentiering får vi .

Således har den exponentiella approximationen formen

Vi löser system (18) med hjälp av Microsoft Excel. Resultaten presenteras i tabell 5.

Tabell 5











invers matris




I celler A50:B51 skrivs formeln (=MOBR(A46:B47)).

I cellerna E49:E50 skrivs formeln (=MULTIPLE(A50:B51),(C46:C47)).

I cell E51 skrivs formeln =EXP(E49).

Låt oss beräkna det aritmetiska medelvärdet med hjälp av formlerna:

Beräkningsresultaten med Microsoft Excel presenteras i tabell 6.

Tabell 6



I cell B54 skrivs formeln = A26/25.

I cell B55 skrivs formeln = B26/25

Tabell 7


Steg 1. I cell J1 anger du formeln = (A1-$B$54)*(B1-$B$55).

Steg 2. Denna formel kopieras till cellerna J2:J25.

Steg 3. I cell K1 anger du formeln = (A1-$B$54)^2.

Steg 4. Denna formel kopieras till cellerna k2:K25.

Steg 5. I cell L1 anger du formeln = (B1-$B$55)^2.

Steg 6. Denna formel kopieras till cellerna L2:L25.

Steg 7. I cell M1 anger du formeln = ($E$32+$E$33*A1-B1)^2.

Steg 8. Denna formel kopieras till cellerna M2:M25.

Steg 9. I cell N1 anger du formeln = ($F$41+$F$42*A1+$F$43*A1^2-B1)^2.

Steg 10. Denna formel kopieras till celler N2:N25.

Steg 11. I cell O1 anger du formeln = ($E$51*EXP($E$50*A1)-B1)^2.

Steg 12. Denna formel kopieras in i cellerna O2:O25.

Vi utför de efterföljande stegen med automatisk summering S.

Steg 13. I cell J26 anger du formeln = SUMMA(J1:J25).

Steg 14. I cell K26 anger du formeln = SUMMA(K1:K25).

Steg 15. I cell L26 anger du formeln = CUM(L1:L25).

Steg 16. I cell M26 anger du formeln = SUMMA(M1:M25).

Steg 17. I cell N26 anger du formeln = SUMMA(N1:N25).

Steg 18. I cell O26 anger du formeln = SUMMA(O1:O25).

Låt oss nu beräkna korrelationskoefficienten med formeln (8) (endast för linjär approximation) och determinationskoefficienten med formeln (10). Resultaten av beräkningar med Microsoft Excel presenteras i tabell 8.

Tabell 8


Korrelationskoefficient

Determinismkoefficient (linjär approximation)



Determinismkoefficient (kvadratisk approximation)



Determinismkoefficient (exponentiell approximation)



I cell E57 skrivs formeln =J26/(K26*L26)^(1/2).

I cell E59 skrivs formeln = 1-M26/L26.

I cell E61 skrivs formeln = 1-N26/L26.

I cell E63 skrivs formeln = 1-O26/L26.

Analys av beräkningsresultaten visar att den kvadratiska approximationen bäst beskriver experimentdata.

Algoritmdiagram

Ris. 1. Algoritmdiagram för beräkningsprogrammet.

5. Beräkning i MathCad

Linjär regression

· linje (x, y) - vektor av två element (b, a) linjära regressionskoefficienter b+ax;

· x - vektor för verkliga argumentdata;

· y är en vektor av verkliga datavärden av samma storlek.

Figur 2.

Polynomregression innebär att approximera data (x1, y1) med ett polynom av k:te graden. För k=i är polynomet en rät linje, för k=2 - en parabel, för k=3 - en kubisk parabel osv. Som regel gäller i praktiken k<5.

· regress (x,y,k) - vektor av koefficienter för att konstruera polynomregression av data;

· interp (s,x,y,t) - resultatet av polynomregression;

· s=regress(x,y,k);

· x är en vektor av reella argumentdata, vars element är ordnade i stigande ordning;

· y är en vektor av verkliga datavärden av samma storlek;

· k - grad av regressionspolynom (positivt heltal);

· t - värdet på argumentet för regressionspolynomet.

Figur 3

Utöver de som diskuterats finns flera fler typer av treparameterregression inbyggda i Mathcad; deras implementering skiljer sig något från ovanstående regressionsalternativ genom att det för dem, förutom datamatrisen, är nödvändigt att specificera några initiala värden ​av koefficienterna a, b, c. Använd lämplig typ av regression om du har en god uppfattning om vilken typ av beroende som beskriver din datamängd. När en typ av regression inte speglar en datasekvens väl, blir resultatet ofta otillfredsställande och till och med väldigt olika beroende på valet av initiala värden. Var och en av funktionerna producerar en vektor av förfinade parametrar a, b, c.

Resultat som erhålls med funktionen LINEST

Låt oss titta på syftet med LINEST-funktionen.

Den här funktionen använder minsta kvadrater för att beräkna den räta linje som bäst passar de tillgängliga data.

Funktionen returnerar en array som beskriver den resulterande raden. Ekvationen för en rät linje är:

M1x1 + m2x2 + ... + b eller y = mx + b,

tabellalgoritm Microsoft programvara

där det beroende värdet y är en funktion av det oberoende värdet x. Värdena på m är koefficienterna som motsvarar varje oberoende variabel x, och b är en konstant. Observera att y, x och m kan vara vektorer.

För att få resultaten måste du skapa en tabellformel som kommer att uppta 5 rader och 2 kolumner. Detta intervall kan placeras var som helst på arbetsbladet. Under detta intervall måste du gå in i LINEST-funktionen.

Som ett resultat bör alla celler i intervallet A65:B69 fyllas (som visas i tabell 9).

Tabell 9.



Låt oss förklara syftet med några av kvantiteterna i Tabell 9.

Värdena som finns i cellerna A65 och B65 kännetecknar lutningen respektive skiftningen - bestämningskoefficient - F-observerat värde - antal frihetsgrader - regressionssumma av kvadrater - restsumma av kvadrater.

Presentation av resultat i form av grafer

Ris. 4. Linjär approximationsgraf

Ris. 5. Kvadratisk approximationsgraf

Ris. 6. Exponentiell passningsgraf

Slutsatser

Låt oss dra slutsatser baserat på resultaten av de erhållna uppgifterna.

Analys av beräkningsresultaten visar att den kvadratiska approximationen bäst beskriver experimentdata, eftersom trendlinjen för den återspeglar mest exakt funktionens beteende i detta område.

Genom att jämföra resultaten som erhålls med hjälp av LINEST-funktionen ser vi att de helt sammanfaller med beräkningarna ovan. Detta tyder på att beräkningarna är korrekta.

Resultaten som erhålls med MathCad-programmet överensstämmer helt med värdena ovan. Detta indikerar noggrannheten i beräkningarna.

Bibliografi

1 B.P. Demidovich, I.A. Rödbrun. Grunderna i beräkningsmatematik. M: Statens förlag för fysisk och matematisk litteratur.

2 Datavetenskap: Lärobok, red. prof. N.V. Makarova. M: Finans och statistik, 2007.

3 Datavetenskap: Workshop om datateknik, red. prof. N.V. Makarova. M: Finans och statistik, 2010.

4 V.B. Komyagin. Programmering i Excel med Visual Basic. M: Radio och kommunikation, 2007.

5 N. Nicole, R. Albrecht. Excel. Kalkylblad. M: Ed. "ECOM", 2008.

6 Riktlinjer för att slutföra kurser i datavetenskap (för korrespondensstudenter av alla specialiteter), red. Zhurova G. N., St. Petersburg State Hydrologic Institute (TU), 2011.

Som finner den bredaste tillämpningen inom olika områden av vetenskap och praktisk verksamhet. Detta kan vara fysik, kemi, biologi, ekonomi, sociologi, psykologi och så vidare och så vidare. Enligt ödets vilja måste jag ofta ta itu med ekonomin, och därför kommer jag idag att ordna en resa till ett fantastiskt land som heter Ekonometri=) ...Hur kan du inte vilja ha det?! Det är väldigt bra där – du behöver bara bestämma dig! ...Men vad du förmodligen definitivt vill är att lära dig hur man löser problem minsta kvadratmetoden. Och särskilt flitiga läsare kommer att lära sig att lösa dem inte bara exakt, utan också MYCKET SNABBT ;-) Men först en allmän redogörelse för problemet+ medföljande exempel:

Låt oss studera indikatorer inom ett visst ämnesområde som har ett kvantitativt uttryck. Samtidigt finns det all anledning att tro att indikatorn beror på indikatorn. Detta antagande kan antingen vara en vetenskaplig hypotes eller baserat på grundläggande sunt förnuft. Låt oss dock lämna vetenskapen åt sidan och utforska mer aptitretande områden – nämligen livsmedelsbutiker. Låt oss beteckna med:

– butiksyta för en livsmedelsbutik, kvm,
– årlig omsättning för en livsmedelsbutik, miljoner rubel.

Det är helt klart att ju större butiksyta desto större i de flesta fall blir dess omsättning.

Antag att vi efter att ha utfört observationer/experiment/beräkningar/danser med en tamburin har numeriska data till vårt förfogande:

Med livsmedelsbutiker tror jag att allt är klart: - det här är området för den första butiken, - dess årliga omsättning, - området för den andra butiken, - dess årliga omsättning, etc. För övrigt är det inte alls nödvändigt att ha tillgång till sekretessbelagt material - en ganska korrekt bedömning av handelns omsättning kan fås m.b.t. matematisk statistik. Men låt oss inte bli distraherade, den kommersiella spionagekursen är redan betald =)

Tabelldata kan också skrivas i form av punkter och avbildas i den välbekanta formen Kartesiskt system .

Låt oss svara på en viktig fråga: Hur många poäng behövs för en kvalitativ studie?

Ju större desto bättre. Minsta acceptabla set består av 5-6 poäng. Dessutom, när mängden data är liten, kan "anomala" resultat inte inkluderas i urvalet. Så, till exempel, en liten elitbutik kan tjäna storleksordningar mer än "sina kollegor", och därmed förvränga det allmänna mönstret som du behöver hitta!

För att uttrycka det väldigt enkelt måste vi välja en funktion, schema som passerar så nära punkterna som möjligt . Denna funktion kallas ungefärlig (approximation - approximation) eller teoretisk funktion . Generellt sett visas en uppenbar "utmanare" omedelbart här - ett höggradigt polynom, vars graf går igenom ALLA punkter. Men det här alternativet är komplicerat och ofta helt enkelt felaktigt. (eftersom grafen kommer att "loopa" hela tiden och återspeglar den huvudsakliga trenden dåligt).

Den sökta funktionen måste alltså vara ganska enkel och samtidigt adekvat återspegla beroendet. Som du kanske kan gissa kallas en av metoderna för att hitta sådana funktioner minsta kvadratmetoden. Låt oss först titta på dess väsen i allmänna termer. Låt någon funktion approximera experimentella data:


Hur utvärderar man noggrannheten i denna approximation? Låt oss också beräkna skillnaderna (avvikelserna) mellan de experimentella och funktionella värdena (vi studerar ritningen). Den första tanken man tänker på är att uppskatta hur stor summan är, men problemet är att skillnaderna kan vara negativa (Till exempel, ) och avvikelser till följd av sådan summering kommer att ta bort varandra. Därför, som en uppskattning av approximationens noggrannhet, ber det att ta summan moduler avvikelser:

eller kollapsade: (om någon inte vet: - detta är summaikonen och - en extra "räknarvariabel" som tar värden från 1 till ).

Genom att approximera experimentella punkter med olika funktioner kommer vi att få olika värden, och uppenbarligen, där denna summa är mindre, är den funktionen mer exakt.

En sådan metod finns och den kallas minsta modulmetoden. Men i praktiken har det blivit mycket mer utbrett minsta kvadratmetoden, där möjliga negativa värden elimineras inte av modulen, utan genom att kvadrera avvikelserna:

, varefter ansträngningar syftar till att välja en funktion så att summan av kvadrerade avvikelser var så liten som möjligt. Egentligen är det här namnet på metoden kommer ifrån.

Och nu återvänder vi till en annan viktig punkt: som nämnts ovan bör den valda funktionen vara ganska enkel - men det finns också många sådana funktioner: linjär , hyperbolisk, exponentiell, logaritmisk, kvadratisk etc. Och, naturligtvis, här skulle jag omedelbart vilja "minska verksamhetsområdet." Vilken klass av funktioner ska jag välja för forskning? En primitiv men effektiv teknik:

– Det enklaste sättet är att avbilda punkter på ritningen och analysera deras plats. Om de tenderar att springa i en rak linje, då bör du leta efter ekvation för en linje med optimala värden och . Uppgiften är med andra ord att hitta SÅDANA koefficienter så att summan av kvadrerade avvikelser är som minst.

Om punkterna är placerade till exempel längs överdrift, då är det uppenbarligen klart att den linjära funktionen ger en dålig approximation. I det här fallet letar vi efter de mest "gynnsamma" koefficienterna för hyperbelekvationen – de som ger minimisumman av kvadrater .

Notera nu att vi talar om i båda fallen funktioner av två variabler, vars argument är sökte beroendeparametrar:

Och i huvudsak måste vi lösa ett standardproblem - hitta minsta funktion av två variabler.

Låt oss komma ihåg vårt exempel: anta att "butikspunkter" tenderar att vara placerade i en rak linje och det finns all anledning att tro att linjärt beroende omsättning från butiksytor. Låt oss hitta SÅDANA koefficienter "a" och "vara" så att summan av kvadrerade avvikelser var den minsta. Allt är som vanligt - först 1:a ordningens partiella derivator. Enligt linjäritetsregel Du kan skilja direkt under summaikonen:

Om du vill använda denna information för en uppsats eller terminsuppsats, är jag mycket tacksam för länken i källlistan, du hittar sådana detaljerade beräkningar på några ställen:

Låt oss skapa ett standardsystem:

Vi reducerar varje ekvation med "två" och "bryter upp" dessutom summorna:

Notera : analysera oberoende varför "a" och "be" kan tas bort bortom summaikonen. Förresten, formellt kan detta göras med summan

Låt oss skriva om systemet i "tillämpad" form:

varefter algoritmen för att lösa vårt problem börjar dyka upp:

Känner vi till punkternas koordinater? Vi vet. Belopp kan vi hitta den? Lätt. Låt oss göra det enklaste system av två linjära ekvationer i två okända("a" och "be"). Vi löser systemet t.ex. Cramers metod, som ett resultat av vilket vi får en stationär punkt. Kontroll tillräcklig förutsättning för ett extremum, kan vi verifiera att funktionen vid denna tidpunkt når exakt minimum. Kontrollen innebär ytterligare beräkningar och därför lämnar vi den bakom kulisserna (vid behov kan den saknade ramen ses). Vi drar slutsatsen:

Fungera det bästa sättet (åtminstone jämfört med någon annan linjär funktion) för experimentella poäng närmare . Grovt sett går dess graf så nära dessa punkter som möjligt. I tradition ekonometri den resulterande approximationsfunktionen kallas också parad linjär regressionsekvation .

Det aktuella problemet är av stor praktisk betydelse. I vår exempelsituation, Eq. låter dig förutsäga vilken handelsomsättning ("Igrek") butiken kommer att ha till ett eller annat värde av försäljningsytan (en eller annan betydelse av "x"). Ja, den resulterande prognosen kommer bara att vara en prognos, men i många fall kommer den att visa sig vara ganska korrekt.

Jag kommer att analysera bara ett problem med "riktiga" siffror, eftersom det inte finns några svårigheter i det - alla beräkningar är på nivån för 7:e-8:e årskursens läroplan. I 95 procent av fallen kommer du att bli ombedd att bara hitta en linjär funktion, men i slutet av artikeln kommer jag att visa att det inte är svårare att hitta ekvationerna för den optimala hyperbeln, exponentialen och några andra funktioner.

I själva verket återstår bara att dela ut de utlovade godsakerna – så att du kan lära dig att lösa sådana exempel inte bara exakt, utan också snabbt. Vi studerar noggrant standarden:

Uppgift

Som ett resultat av att studera sambandet mellan två indikatorer erhölls följande par av siffror:

Använd minsta kvadratmetoden och hitta den linjära funktion som bäst approximerar empirin (erfaren) data. Gör en ritning för att konstruera experimentella punkter och en graf över den approximativa funktionen i ett kartesiskt rektangulärt koordinatsystem . Hitta summan av kvadrerade avvikelser mellan empiriska och teoretiska värden. Ta reda på om funktionen skulle vara bättre (ur minsta kvadratmetodens synvinkel) föra experimentella punkter närmare.

Observera att "x" betydelserna är naturliga, och detta har en karakteristisk meningsfull betydelse, som jag kommer att prata om lite senare; men de kan naturligtvis också vara bråkdelar. Dessutom, beroende på innehållet i en viss uppgift, kan både "X" och "game" värden vara helt eller delvis negativa. Tja, vi har fått en "ansiktslös" uppgift, och vi börjar med den lösning:

Vi hittar koefficienterna för den optimala funktionen som en lösning på systemet:

För mer kompakt registrering kan variabeln "räknare" utelämnas, eftersom det redan är klart att summeringen utförs från 1 till .

Det är bekvämare att beräkna de nödvändiga beloppen i tabellform:


Beräkningar kan utföras på en mikroräknare, men det är mycket bättre att använda Excel - både snabbare och utan fel; se en kort video:

Därmed får vi följande systemet:

Här kan du multiplicera den andra ekvationen med 3 och subtrahera 2:an från 1:a ekvationen term för term. Men det här är tur - i praktiken är system ofta inte en gåva, och i sådana fall sparar det Cramers metod:
, vilket innebär att systemet har en unik lösning.

Låt oss kolla. Jag förstår att du inte vill, men varför hoppa över fel där de absolut inte kan missas? Låt oss ersätta den hittade lösningen i den vänstra sidan av varje ekvation i systemet:

De högra sidorna av motsvarande ekvationer erhålls, vilket betyder att systemet är löst korrekt.

Den önskade approximationsfunktionen: – från alla linjära funktioner Det är hon som bäst approximerar experimentdata.

Till skillnad från hetero beroende av butikens omsättning på sin yta är det konstaterade beroendet omvänd (principen "ju mer, desto mindre"), och detta faktum avslöjas omedelbart av det negativa backe. Fungera säger oss att med en ökning av en viss indikator med 1 enhet, minskar värdet på den beroende indikatorn genomsnitt med 0,65 enheter. Som de säger, ju högre pris på bovete, desto mindre säljs det.

För att plotta grafen för den approximerande funktionen hittar vi dess två värden:

och utför ritningen:


Den konstruerade räta linjen kallas trendlinje (Nämligen en linjär trendlinje, dvs i det allmänna fallet är en trend inte nödvändigtvis en rak linje). Alla är bekanta med uttrycket "att vara i trenden", och jag tror att denna term inte behöver ytterligare kommentarer.

Låt oss beräkna summan av kvadrerade avvikelser mellan empiriska och teoretiska värden. Geometriskt är detta summan av kvadraterna av längderna på "hallon"-segmenten (varav två är så små att de inte ens syns).

Låt oss sammanfatta beräkningarna i en tabell:


Återigen, de kan göras manuellt; för säkerhets skull ska jag ge ett exempel för den första punkten:

men det är mycket mer effektivt att göra det på det redan kända sättet:

Vi upprepar ännu en gång: Vad är meningen med det erhållna resultatet? Från alla linjära funktioner y funktion indikatorn är den minsta, det vill säga i sin familj är den den bästa approximationen. Och här är förresten den sista frågan om problemet inte av misstag: vad händer om den föreslagna exponentialfunktionen skulle det vara bättre att föra de experimentella punkterna närmare?

Låt oss hitta motsvarande summa av kvadrerade avvikelser - för att särskilja dem kommer jag att beteckna dem med bokstaven "epsilon". Tekniken är exakt densamma:


Och återigen, för säkerhets skull, beräkningarna för den första punkten:

I Excel använder vi standardfunktionen EXP (syntax finns i Excel Hjälp).

Slutsats: , vilket betyder att exponentialfunktionen approximerar experimentpunkterna sämre än en rät linje .

Men här bör det noteras att "värre" är betyder inte ännu, vad är fel. Nu har jag byggt en graf över denna exponentialfunktion – och den går också nära punkterna – så pass att det utan analytisk forskning är svårt att säga vilken funktion som är mer exakt.

Detta avslutar lösningen, och jag återkommer till frågan om argumentets naturvärden. I olika studier, vanligtvis ekonomiska eller sociologiska, används naturliga "X" för att räkna månader, år eller andra lika tidsintervall. Tänk till exempel på följande problem.

Jag är matematiker och programmerare. Det största steget jag tog i min karriär var när jag lärde mig att säga: "Jag förstår ingenting!" Nu skäms jag inte för att berätta för vetenskapens luminary att han håller en föreläsning för mig, att jag inte förstår vad han, luminary, säger till mig. Och det är väldigt svårt. Ja, att erkänna sin okunskap är svårt och pinsamt. Vem gillar att erkänna att han inte kan grunderna i något? På grund av mitt yrke måste jag gå på ett stort antal presentationer och föreläsningar, där jag erkänner, i de allra flesta fall vill jag sova för att jag inte förstår någonting. Men jag förstår inte eftersom det enorma problemet med den nuvarande situationen inom naturvetenskap ligger i matematiken. Den förutsätter att alla lyssnare är bekanta med absolut alla områden inom matematiken (vilket är absurt). Att erkänna att du inte vet vad ett derivat är (vi ska prata om vad det är lite senare) är skamligt.

Men jag har lärt mig att säga att jag inte vet vad multiplikation är. Ja, jag vet inte vad en subalgebra över en Lie-algebra är. Ja, jag vet inte varför andragradsekvationer behövs i livet. Förresten, om du är säker på att du vet, då har vi något att prata om! Matematik är en serie trick. Matematiker försöker förvirra och skrämma allmänheten; där det inte finns någon förvirring, det finns inget rykte, ingen auktoritet. Ja, det är prestigefyllt att prata på ett så abstrakt språk som möjligt, vilket är fullständigt nonsens.

Vet du vad ett derivat är? Troligtvis kommer du att berätta för mig om gränsen för skillnadsförhållandet. Under det första året i matematik och mekanik vid St. Petersburg State University berättade Viktor Petrovich Khavin för mig fast besluten derivata som koefficienten för den första termen i Taylor-serien av funktionen vid en punkt (detta var en separat gymnastik för att bestämma Taylor-serien utan derivator). Jag skrattade åt den här definitionen länge tills jag äntligen förstod vad den handlade om. Derivatan är inget annat än ett enkelt mått på hur lik funktionen vi differentierar är med funktionen y=x, y=x^2, y=x^3.

Jag har nu äran att föreläsa för studenter som rädd matematik. Om du är rädd för matematik är vi på samma väg. Så fort du försöker läsa någon text och det verkar som om den är alltför komplicerad, vet då att den är dåligt skriven. Jag hävdar att det inte finns ett enda område av matematik som inte kan diskuteras "på fingrarna" utan att förlora noggrannheten.

Uppgift för den närmaste framtiden: Jag gav mina elever i uppdrag att förstå vad en linjär kvadratisk regulator är. Var inte blyg, spendera tre minuter av ditt liv och följ länken. Om du inte förstår någonting så är vi på samma väg. Jag (en professionell matematiker-programmerare) förstod ingenting heller. Och jag försäkrar dig, du kan räkna ut detta "på fingrarna." För tillfället vet jag inte vad det är, men jag försäkrar dig att vi kommer att kunna ta reda på det.

Så, den första föreläsningen som jag ska hålla för mina elever efter att de kommer springande till mig i fasa och säger att en linjär-kvadratisk regulator är en hemsk sak som du aldrig kommer att bemästra i ditt liv är minsta kvadratmetoder. Kan du lösa linjära ekvationer? Om du läser den här texten, så troligen inte.

Så, givet två punkter (x0, y0), (x1, y1), till exempel (1,1) och (3,2), är uppgiften att hitta ekvationen för linjen som går genom dessa två punkter:

illustration

Denna linje bör ha en ekvation som följande:

Här är alfa och beta okända för oss, men två punkter på denna linje är kända:

Vi kan skriva denna ekvation i matrisform:

Här bör vi göra en lyrisk utvikning: vad är en matris? En matris är inget mer än en tvådimensionell matris. Detta är ett sätt att lagra data, inga ytterligare betydelser bör tillskrivas det. Det beror på oss exakt hur vi ska tolka en viss matris. Periodvis kommer jag att tolka det som en linjär mappning, periodvis som en kvadratisk form och ibland helt enkelt som en uppsättning vektorer. Allt detta kommer att förtydligas i sammanhanget.

Låt oss ersätta konkreta matriser med deras symboliska representation:

Då (alfa, beta) kan lätt hittas:

Mer specifikt för våra tidigare uppgifter:

Vilket leder till följande ekvation av linjen som går genom punkterna (1,1) och (3,2):

Okej, allt är klart här. Låt oss hitta ekvationen för linjen som går igenom tre poäng: (x0,y0), (x1,y1) och (x2,y2):

Oh-oh-oh, men vi har tre ekvationer för två okända! En vanlig matematiker kommer att säga att det inte finns någon lösning. Vad kommer programmeraren att säga? Och han kommer först att skriva om det tidigare ekvationssystemet i följande form:

I vårt fall är vektorerna i, j, b tredimensionella, därför (i det allmänna fallet) finns det ingen lösning på detta system. Vilken vektor som helst (alfa\*i + beta\*j) ligger i planet som sträcks av vektorerna (i, j). Om b inte tillhör detta plan, så finns det ingen lösning (likhet kan inte uppnås i ekvationen). Vad ska man göra? Låt oss leta efter en kompromiss. Låt oss beteckna med e (alfa, beta) exakt hur långt vi inte har uppnått jämställdhet:

Och vi kommer att försöka minimera detta fel:

Varför kvadrat?

Vi letar inte bara efter minimum av normen, utan efter minimum av kvadraten av normen. Varför? Själva minimipunkten sammanfaller, och kvadraten ger en jämn funktion (en kvadratisk funktion av argumenten (alfa, beta)), medan längden helt enkelt ger en konformad funktion, icke-differentierbar vid minimipunkten. Brr. En fyrkant är bekvämare.

Uppenbarligen minimeras felet när vektorn e vinkelrät mot planet som spänner över av vektorerna i Och j.

Illustration

Med andra ord: vi letar efter en rät linje så att summan av de kvadratiska längderna av avstånden från alla punkter till denna räta linje är minimal:

UPPDATERING: Jag har ett problem här, avståndet till den räta linjen ska mätas vertikalt och inte med ortogonal projektion. Den här kommentatorn har rätt.

Illustration

Med helt andra ord (försiktigt, dåligt formaliserat, men det borde vara tydligt): vi tar alla möjliga linjer mellan alla par av punkter och letar efter medellinjen mellan alla:

Illustration

En annan förklaring är enkel: vi fäster en fjäder mellan alla datapunkter (här har vi tre) och den räta linjen som vi letar efter, och den räta linjen i jämviktstillståndet är precis vad vi letar efter.

Minsta kvadratiska form

Så, givet denna vektor b och ett plan som sträcks av matrisens kolumnvektorer A(i detta fall (x0,x1,x2) och (1,1,1)), letar vi efter vektorn e med en minsta kvadratisk längd. Uppenbarligen kan minimum uppnås endast för vektorn e, ortogonalt mot planet som spänns över av matrisens kolumnvektorer A:

Med andra ord letar vi efter en vektor x=(alfa, beta) så att:

Låt mig påminna dig om att denna vektor x=(alfa, beta) är minimum av den kvadratiska funktionen ||e(alfa, beta)||^2:

Här skulle det vara bra att komma ihåg att matrisen också kan tolkas som en kvadratisk form, till exempel kan identitetsmatrisen ((1,0),(0,1)) tolkas som en funktion x^2 + y^ 2:

kvadratisk form

All denna gymnastik är känd under namnet linjär regression.

Laplaces ekvation med Dirichlets gränsvillkor

Nu är den enklaste verkliga uppgiften: det finns en viss triangulerad yta, det är nödvändigt att jämna till den. Låt oss till exempel ladda en modell av mitt ansikte:

Den ursprungliga commit är tillgänglig. För att minimera externa beroenden tog jag koden för min mjukvarurenderare, redan på Habré. För att lösa ett linjärt system använder jag OpenNL, detta är en utmärkt lösare, som dock är väldigt svår att installera: du behöver kopiera två filer (.h+.c) till mappen med ditt projekt. All utjämning görs med följande kod:

För (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&ansikte = ansikten[i]; för (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X-, Y- och Z-koordinaterna är separerbara, jag jämnar ut dem separat. Det vill säga jag löser tre linjära ekvationssystem, var och en med ett antal variabler lika med antalet hörn i min modell. De första n raderna av matris A har bara en 1 per rad, och de första n raderna av vektor b har de ursprungliga modellkoordinaterna. Det vill säga, jag knyter en fjäder mellan vertexens nya position och vertexens gamla position - de nya ska inte flytta för långt från de gamla.

Alla efterföljande rader av matris A (faces.size()*3 = antal kanter på alla trianglar i nätet) har en förekomst av 1 och en förekomst av -1, med vektorn b som har noll komponenter motsatt. Det betyder att jag sätter en fjäder på varje kant av vårt triangulära nät: alla kanter försöker få samma vertex som deras start- och slutpunkt.

Återigen: alla hörn är variabler, och de kan inte röra sig långt från sin ursprungliga position, men samtidigt försöker de bli lika varandra.

Här är resultatet:

Allt skulle vara bra, modellen är riktigt slätad, men den har flyttat sig bort från sin ursprungliga kant. Låt oss ändra koden lite:

För (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

I vår matris A, för de hörn som är på kanten, lägger jag inte till en rad från kategorin v_i = verts[i][d], utan 1000*v_i = 1000*verts[i][d]. Vad förändrar det? Och detta förändrar vår kvadratiska form av fel. Nu kommer en enda avvikelse från toppen vid kanten att kosta inte en enhet, som tidigare, utan 1000*1000 enheter. Det vill säga, vi hängde en starkare fjäder på de extrema hörnen, lösningen kommer att föredra att sträcka de andra starkare. Här är resultatet:

Låt oss dubbla fjäderstyrkan mellan hörnen:
nlKoefficient(ansikte[ j ], 2); nlKoefficient(ansikte[(j+1)%3], -2);

Det är logiskt att ytan har blivit slätare:

Och nu till och med hundra gånger starkare:

Vad är detta? Föreställ dig att vi har doppat en trådring i tvålvatten. Som ett resultat kommer den resulterande tvålfilmen att försöka ha minsta möjliga krökning och vidrör gränsen - vår trådring. Detta är precis vad vi fick genom att fixa bården och be om en slät yta inuti. Grattis, vi har precis löst Laplaces ekvation med Dirichlets randvillkor. Låter coolt? Men i verkligheten behöver du bara lösa ett system av linjära ekvationer.

Poissons ekvation

Låt oss komma ihåg ett annat coolt namn.

Låt oss säga att jag har en sådan här bild:

Ser bra ut för alla, men jag gillar inte stolen.

Jag ska skära bilden på mitten:



Och jag kommer att välja en stol med mina händer:

Sedan kommer jag att dra allt som är vitt i masken till vänster sida av bilden, och samtidigt genom hela bilden kommer jag att säga att skillnaden mellan två angränsande pixlar ska vara lika med skillnaden mellan två angränsande pixlar till höger bild:

För (int i=0; i

Här är resultatet:

Exempel från livet

Jag gjorde medvetet inga slickade resultat, eftersom... Jag ville bara visa hur exakt du kan tillämpa minsta kvadratmetoder, detta är en träningskod. Låt mig nu ge ett exempel från livet:

Jag har ett antal fotografier av tygprover så här:

Min uppgift är att göra sömlösa texturer från fotografier av denna kvalitet. Till att börja med letar jag (automatiskt) efter ett upprepande mönster:

Om jag skär den här fyrhörningen rakt ut, kommer kanterna inte att mötas på grund av förvrängning, här är ett exempel på ett mönster som upprepas fyra gånger:

Dold text

Här är ett fragment där sömmen är tydligt synlig:

Därför kommer jag inte att skära längs en rak linje, här är skärlinjen:

Dold text

Och här är ett mönster som upprepas fyra gånger:

Dold text

Och ett fragment av det för att göra det tydligare:

Det är redan bättre, snittet gick inte i en rak linje och undviker alla typer av lockar, men sömmen är fortfarande synlig på grund av den ojämna belysningen i originalfotot. Det är här minsta kvadratmetoden för Poissons ekvation kommer till undsättning. Här är det slutliga resultatet efter utjämning av belysningen:

Texturen blev perfekt sömlös, och allt detta automatiskt från ett foto av mycket medelmåttig kvalitet. Var inte rädd för matematik, leta efter enkla förklaringar, så kommer du att bli glad i tekniken.

Efter utjämning får vi en funktion av följande form: g (x) = x + 1 3 + 1 .

Vi kan approximera dessa data genom att använda det linjära sambandet y = a x + b genom att beräkna motsvarande parametrar. För att göra detta kommer vi att behöva tillämpa den så kallade minsta kvadratmetoden. Du måste också göra en ritning för att kontrollera vilken linje som bäst anpassar experimentdata.

Vad exakt är OLS (minsta kvadratmetoden)

Det viktigaste vi behöver göra är att hitta sådana linjära beroendekoefficienter där värdet av funktionen för två variabler F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 kommer att vara minsta. Med andra ord, för vissa värden av a och b, kommer summan av de kvadrerade avvikelserna för de presenterade data från den resulterande räta linjen att ha ett minimivärde. Detta är meningen med minsta kvadratmetoden. Allt vi behöver göra för att lösa exemplet är att hitta extremumet för funktionen av två variabler.

Hur man härleder formler för att beräkna koefficienter

För att härleda formler för att beräkna koefficienter måste du skapa och lösa ett ekvationssystem med två variabler. För att göra detta, beräknar vi de partiella derivatorna av uttrycket F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 med avseende på a och b och likställer dem med 0.

δ F (a, b) δ a = 0 δ F (a, b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ y i = ∑ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

För att lösa ett ekvationssystem kan du använda vilka metoder som helst, till exempel substitution eller Cramers metod. Som ett resultat bör vi ha formler som kan användas för att beräkna koefficienter med minsta kvadratmetoden.

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n

Vi har beräknat värdena för de variabler som funktionen
F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 tar minimivärdet. I tredje stycket kommer vi att bevisa varför det är exakt så här.

Detta är tillämpningen av minsta kvadratmetoden i praktiken. Dess formel, som används för att hitta parametern a, inkluderar ∑ i = 1 n x i, ∑ i = 1 n y i, ∑ i = 1 n x i y i, ∑ i = 1 n x i 2, såväl som parametern
n – det anger mängden experimentella data. Vi rekommenderar att du beräknar varje belopp separat. Värdet på koefficienten b beräknas omedelbart efter a.

Låt oss gå tillbaka till det ursprungliga exemplet.

Exempel 1

Här har vi n lika med fem. För att göra det mer bekvämt att beräkna de nödvändiga mängderna som ingår i koefficientformlerna, låt oss fylla i tabellen.

i = 1 i=2 i=3 i=4 i=5 ∑ i = 1 5
x i 0 1 2 4 5 12
y i 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x i y i 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x i 2 0 1 4 16 25 46

Lösning

Den fjärde raden innehåller data som erhålls genom att multiplicera värdena från den andra raden med värdena för den tredje för varje enskild i. Den femte raden innehåller data från den andra, i kvadrat. Den sista kolumnen visar summan av värdena för enskilda rader.

Låt oss använda minsta kvadratmetoden för att beräkna koefficienterna a och b vi behöver. För att göra detta, ersätt de nödvändiga värdena från den sista kolumnen och beräkna beloppen:

n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n 3 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

Det visar sig att den nödvändiga approximativa räta linjen kommer att se ut som y = 0, 165 x + 2, 184. Nu måste vi bestämma vilken linje som bättre approximerar data - g (x) = x + 1 3 + 1 eller 0, 165 x + 2, 184. Låt oss uppskatta med minsta kvadratmetoden.

För att beräkna felet måste vi hitta summan av kvadrerade avvikelser för data från de räta linjerna σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 och σ 2 = ∑ i = 1 n (y i - g (x i)) 2, kommer minimivärdet att motsvara en mer lämplig linje.

σ 1 = ∑ i = 1 n (y i - (a x i + bi)) 2 = = ∑ i = 1 5 (y i - (0, 165 x i + 2, 184)) 2 ≈ 0, 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (xi + 1 3 + 1)) 2 ≈ 0,096

Svar: sedan σ 1< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0,165 x + 2,184.

Minsta kvadratmetoden visas tydligt i den grafiska illustrationen. Den röda linjen markerar den raka linjen g (x) = x + 1 3 + 1, den blå linjen markerar y = 0, 165 x + 2, 184. Originaldata indikeras med rosa prickar.

Låt oss förklara varför exakta approximationer av denna typ behövs.

De kan användas i uppgifter som kräver datautjämning, såväl som i de där data måste interpoleras eller extrapoleras. Till exempel, i problemet som diskuterats ovan, kan man hitta värdet av den observerade kvantiteten y vid x = 3 eller vid x = 6. Vi har ägnat en separat artikel åt sådana exempel.

Bevis på OLS-metoden

För att funktionen ska ta ett minimivärde när a och b beräknas, är det nödvändigt att vid en given punkt matrisen för kvadratformen av differentialen för funktionen av formen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 är positivt bestämt. Låt oss visa dig hur det ska se ut.

Exempel 2

Vi har en andra ordningens differential av följande form:

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2 b

Lösning

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a; b) δ a δ b = δ δ F (a; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

Med andra ord kan vi skriva det så här: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b.

Vi fick en matris av kvadratisk form M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

I det här fallet kommer värdena för enskilda element inte att ändras beroende på a och b . Är denna matris positiv definitiv? För att svara på denna fråga, låt oss kontrollera om dess kantiga minderåriga är positiva.

Vi beräknar vinkelmoll av första ordningen: 2 ∑ i = 1 n (x i) 2 > 0 . Eftersom punkterna x i inte sammanfaller är ojämlikheten strikt. Vi kommer att ha detta i åtanke i vidare beräkningar.

Vi beräknar andra ordningens vinkelmoll:

d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

Efter detta fortsätter vi att bevisa olikheten n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 med hjälp av matematisk induktion.

  1. Låt oss kontrollera om denna ojämlikhet är giltig för ett godtyckligt n. Låt oss ta 2 och räkna ut:

2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

Vi har fått en korrekt likhet (om värdena x 1 och x 2 inte sammanfaller).

  1. Låt oss göra antagandet att denna ojämlikhet kommer att vara sant för n, dvs. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – sant.
  2. Nu ska vi bevisa giltigheten för n + 1, dvs. att (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0, om n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

Vi beräknar:

(n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

Uttrycket som är inneslutet i klammerparenteser kommer att vara större än 0 (baserat på vad vi antog i steg 2), och de återstående termerna kommer att vara större än 0, eftersom de alla är kvadrater av tal. Vi har bevisat ojämlikheten.

Svar: de funna a och b kommer att motsvara det minsta värdet av funktionen F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, vilket betyder att de är de nödvändiga parametrarna för minsta kvadratmetoden (LSM).

Om du märker ett fel i texten, markera det och tryck på Ctrl+Enter

KURSARBETE

Funktionsapproximation med minsta kvadratmetoden


Introduktion

empirisk mathcad approximation

Syftet med kursarbetet är att fördjupa kunskaperna inom datavetenskap, utveckla och befästa färdigheter i att arbeta med Microsoft Excel och MathCAD kalkylbladsprocessor. Använda dem för att lösa problem med hjälp av en dator från ett ämnesområde relaterat till forskning.

I varje uppgift formuleras villkoren för problemet, initiala data, formuläret för att utfärda resultat, de viktigaste matematiska beroenden för att lösa problemet anges.Kontrollberäkningen låter dig verifiera programmets korrekta funktion.

Begreppet approximation är ett ungefärligt uttryck för alla matematiska objekt (till exempel siffror eller funktioner) genom andra som är enklare, bekvämare att använda eller helt enkelt mer kända. Inom vetenskaplig forskning används approximation för att beskriva, analysera, generalisera och vidare använda empiriska resultat.

Som bekant kan det finnas ett exakt (funktionellt) samband mellan kvantiteter, när ett specifikt värde motsvarar ett värde i argumentet, och ett mindre exakt (korrelations) samband, när ett specifikt värde av argumentet motsvarar ett ungefärligt värde eller en viss uppsättning funktionsvärden, i en eller annan grad nära varandra. När du bedriver vetenskaplig forskning, bearbetar resultaten av en observation eller experiment måste du vanligtvis ta itu med det andra alternativet. När man studerar de kvantitativa beroenden av olika indikatorer, vars värden bestäms empiriskt, finns det som regel viss variation. Det bestäms delvis av heterogeniteten hos de studerade föremålen i den livlösa och särskilt levande naturen, och bestäms delvis av observationsfelet och kvantitativ bearbetning av material. Den sista komponenten kan inte alltid elimineras helt, den kan endast minimeras genom noggrant val av en adekvat forskningsmetod och noggrant arbete.

Specialister inom området för automatisering av tekniska processer och produktion hanterar en stor mängd experimentella data, för bearbetning av vilken en dator används. Källdata och de erhållna beräkningsresultaten kan presenteras i tabellform med hjälp av kalkylbladsprocessorer (kalkylblad) och i synnerhet Excel. Kursarbete i datavetenskap gör det möjligt för studenten att konsolidera och utveckla färdigheter med hjälp av grundläggande datorteknik vid lösning av problem inom yrkesverksamheten - ett datoralgebrasystem från klassen datorstödda designsystem, fokuserat på förberedelse av interaktiva dokument med beräkningar och visuellt stöd, är lätt att använda och tillämpa för lagarbete.


1. Allmän information


Mycket ofta, särskilt när man analyserar empiriska data, finns det ett behov av att explicit hitta ett funktionellt samband mellan storheter xOch , som erhålls som ett resultat av mätningar.

I en analytisk studie av sambandet mellan två storheter x och y görs en serie observationer och resultatet är en värdetabell:


xx1 x1 xiXnåå1 y1 yiYn

Denna tabell erhålls vanligtvis som ett resultat av några experiment där x,(oberoende värde) ställs in av försöksledaren, och y,erhållits som ett resultat av erfarenhet. Därför dessa värden y,vi kommer att kalla dem empiriska eller experimentella värden.

Det finns ett funktionellt samband mellan storheterna x och y, men dess analytiska form är vanligtvis okänd, så en praktiskt viktig uppgift uppstår - att hitta den empiriska formeln


y =f (x; a 1,a 2,..., am ), (1)


(Var a1 ,a2 ,…, am- parametrar), vars värden vid x = x,skulle förmodligen skilja sig lite från de experimentella värdena y, (i = 1,2,…, P).

Ange vanligtvis klassen av funktioner (till exempel en uppsättning av linjär, potens, exponentiell, etc.) från vilken funktionen väljs f(x), och sedan bestäms de bästa parametervärdena.

Om vi ​​ersätter originalet x,då får vi teoretiska värden

YTi= f (xi; a 1,a 2……am) , Var jag = 1,2,…, n.


Skillnader yiT- yi, kallas avvikelser och representerar vertikala avstånd från punkter Mitill grafen för den empiriska funktionen.

Enligt minsta kvadratmetoden, de bästa koefficienterna a1 ,a2 ,…, amde för vilka summan av de kvadrerade avvikelserna för den funna empiriska funktionen från de givna funktionsvärdena beaktas



kommer att vara minimal.

Låt oss förklara den geometriska betydelsen av minsta kvadratmetoden.

Varje par av nummer ( xi, yi) från källtabellen bestämmer punkten Mipå ytan XOY.Använd formel (1) för olika värden på koefficienterna a1 ,a2 ,…, amdu kan konstruera en serie kurvor som är grafer över funktion (1). Uppgiften är att bestämma koefficienterna a1 ,a2 ,…, ampå ett sådant sätt att summan av kvadraterna av de vertikala avstånden från punkterna Mi (xi, yi) innan grafen för funktion (1) var den minsta (fig. 1).



Konstruktionen av en empirisk formel består av två steg: att klargöra den allmänna formen för denna formel och bestämma dess bästa parametrar.

Om arten av sambandet mellan dessa storheter x och y, då är typen av empiriskt beroende godtycklig. Företräde ges till enkla formler med god noggrannhet. Det framgångsrika valet av en empirisk formel beror till stor del på forskarens kunskap inom ämnesområdet, med hjälp av vilken han kan ange klassen av funktioner utifrån teoretiska överväganden. Av stor betydelse är representationen av erhållna data i kartesiska eller speciella koordinatsystem (semi-logaritmiska, logaritmiska, etc.). Från punkternas position kan du ungefär gissa den allmänna formen av beroendet genom att fastställa likheten mellan den konstruerade grafen och prover av kända kurvor.

Att bestämma de bästa oddsen a1 ,a2,…, amsom ingår i den empiriska formeln framställs med välkända analysmetoder.

För att hitta en uppsättning koefficienter a1 ,a2 …..am, som levererar minimum av funktionen S definierad av formel (2), använder vi det nödvändiga villkoret för extremumet av en funktion av flera variabler - likheten mellan partiella derivator till noll.

Som ett resultat får vi ett normalt system för att bestämma koefficienterna ai(i = 1,2,…, m):



Alltså att hitta koefficienterna aireducerar till lösningssystem (3). Detta system förenklas om den empiriska formeln (1) är linjär med avseende på parametrarna ai, då kommer systemet (3) att vara linjärt.


1.1 Linjärt beroende


Den specifika formen av system (3) beror på från vilken klass av empiriska formler vi letar efter beroende (1). Vid linjärt beroende y = a1 +a2 xsystem (3) kommer att ha formen:


Detta linjära system kan lösas med vilken känd metod som helst (Gauss-metoden, enkla iterationer, Cramer-formler).


1.2 Kvadratiskt beroende


Vid kvadratiskt beroende y = a1 +a2 x+a3x 2system (3) kommer att ha formen:



1.3 Exponentiellt beroende


I vissa fall tas en funktion där de osäkra koefficienterna kommer in olinjärt som en empirisk formel. I det här fallet kan ibland problemet linjäriseras, d.v.s. reducera till linjärt. Sådana beroenden inkluderar det exponentiella beroendet


y = a1 *ea2x (6)


där en 1Och a 2, osäkra koefficienter.

Linearisering uppnås genom att ta logaritmen av likhet (6), varefter vi får relationen

ln y = ln a 1+a 2x (7)


Låt oss beteckna ln och ln axföljaktligen genom tOch c, då kan beroende (6) skrivas i formen t = a1 +a2 X, vilket gör att vi kan tillämpa formler (4) med ersättningen a1 cOch iti


1.4 Element i korrelationsteori


Graf över återställt funktionellt beroende y(x)enligt mätresultat (x i, i),i = 1,2, K, nkallas en regressionskurva. För att kontrollera överensstämmelsen mellan den konstruerade regressionskurvan och de experimentella resultaten, introduceras vanligtvis följande numeriska egenskaper: korrelationskoefficient (linjärt beroende), korrelationsförhållande och bestämningskoefficient. I det här fallet grupperas resultaten vanligtvis och presenteras i form av en korrelationstabell. Varje cell i denna tabell visar siffrorna nI j - dessa par (x, y), vars komponenter faller in i lämpliga grupperingsintervall för varje variabel. Förutsatt att längden på grupperingsintervallen (för varje variabel) är lika med varandra, välj centra x i(respektive i) av dessa intervall och siffror nI j- som underlag för beräkningar.

Korrelationskoefficienten är ett mått på det linjära sambandet mellan beroende stokastiska variabler: den visar hur väl, i genomsnitt, en av variablerna kan representeras som en linjär funktion av den andra.

Korrelationskoefficienten beräknas med formeln:


var och är det aritmetiska medelvärdet X Och .

Korrelationskoefficienten mellan stokastiska variabler i absolut värde överstiger inte 1. Ju närmare |p| till 1, ju närmare det linjära förhållandet mellan x och u.

I fallet med en icke-linjär korrelation är de villkorliga medelvärdena placerade nära den krökta linjen. I det här fallet rekommenderas det att använda ett korrelationsförhållande som en egenskap för styrkan i sambandet, vars tolkning inte beror på vilken typ av beroende som studeras.

Korrelationsförhållandet beräknas med formeln:



Var ni = , nf= , och täljaren karakteriserar spridningen av villkorliga medel y, om det absoluta medelvärdet y.

Alltid. Jämlikhet = 0 motsvarar okorrelerade slumpvariabler; = 1 om och bara om det finns ett exakt funktionellt samband mellan y och x. Vid linjärt beroende y av x sammanfaller korrelationsförhållandet med kvadraten på korrelationskoefficienten. Magnitud - ? 2 används som en indikator på regressionsavvikelse från linjär.

Korrelationsförhållandet är ett mått på korrelationsförhållandet y Med x i någon form, men kan inte ge en uppfattning om graden av närhet av empiriska data till en speciell form. För att ta reda på hur exakt den konstruerade kurvan återspeglar empiriska data, introduceras en annan egenskap - bestämningskoefficienten.

För att beskriva det, överväg följande kvantiteter. - total summa av kvadrater, där är medelvärdet.

Vi kan bevisa följande likhet

Den första termen är lika med Sres = och kallas restsumman av kvadrater. Det kännetecknar avvikelsen mellan experimentell och teoretisk.

Den andra termen är lika med Sreg = 2 och kallas regressionssumman av kvadrater och den kännetecknar spridningen av data.

Uppenbarligen är följande likhet sann: S full = S ost + S reg.

Determinismkoefficienten bestäms av formeln:



Ju mindre restsumman av kvadrater jämfört med totalsumman av kvadrater, desto större är värdet på determinismkoefficienten r2 , som visar hur väl den ekvation som produceras av regressionsanalys förklarar sambanden mellan variabler. Om det är lika med 1, så finns det en fullständig korrelation med modellen, d.v.s. det finns ingen skillnad mellan de faktiska och uppskattade värdena för y. I det motsatta fallet, om determinismkoefficienten är 0, är ​​regressionsekvationen misslyckad med att förutsäga värdena för y

Determinismkoefficienten överstiger alltid inte korrelationsförhållandet. I fallet när jämställdheten är tillgodosedd r 2 = då kan vi anta att den konstruerade empiriska formeln mest korrekt återspeglar den empiriska datan.


2. Redogörelse för problemet


1. Använd minsta kvadratmetoden och approximera funktionen som ges i tabellen

a) ett polynom av första graden;

b) ett polynom av andra graden;

c) exponentiellt beroende.

Beräkna determinismkoefficienten för varje beroende.

Beräkna korrelationskoefficienten (endast i fall a).

Konstruera en trendlinje för varje beroende.

Med hjälp av LINEST-funktionen, beräkna de numeriska egenskaperna för beroendet av.

Jämför dina beräkningar med de resultat som erhållits med funktionen LINJE.

Avgör vilken av de resulterande formlerna som bäst approximerar funktionen.

Skriv ett program på ett av programmeringsspråken och jämför beräkningsresultaten med de som erhållits ovan.


3. Inledande data


Funktionen visas i figur 1.



4. Beräkning av approximationer i Excel-kalkylbladsprocessorn


För att utföra beräkningar är det lämpligt att använda Microsoft Excel-kalkylbladsprocessorn. Och arrangera data som visas i figur 2.



För att göra detta anger vi:

· i cellerna A6:A30 anger vi värdena xi .

· i cellerna B6:B30 anger vi värdena för уi .

· i cell C6 anger du formeln =A6^ 2.

· Denna formel kopieras till cellerna C7:C30.

· i cell D6 anger du formeln =A6*B6.

· Denna formel kopieras till cellerna D7:D30.

· I cell F6 anger vi formeln =A6^4.

· Denna formel kopieras till cellerna F7:F30.

· I cell G6 anger vi formeln =A6^2*B6.

· Denna formel kopieras till cellerna G7:G30.

· I cell H6 anger du formeln =LN(B6).

· Denna formel kopieras till cellerna H7:H30.

· i cell I6 anger du formeln =A6*LN(B6).

· Denna formel kopieras till cellerna I7:I30. Vi utför nästa steg med automatisk summering

· i cell A33 anger du formeln =SUMMA (A6:A30).

· i cell B33 anger du formeln =SUMMA (B6:B30).

· i cell C33 anger du formeln =SUMMA (C6:C30).

· i cell D33 anger du formeln =SUMMA (D6:D30).

· i cell E33 anger du formeln =SUMMA (E6:E30).

· i cell F33 anger du formeln =SUMMA (F6:F30).

· I cell G33 anger du formeln =SUMMA (G6:G30).

· I cell H33 anger du formeln =SUMMA (H6:H30).

· i cell I33 anger du formeln =SUMMA (I6:I30).

Låt oss approximera funktionen y = f(x) linjär funktion y = a1 +a2x. För att bestämma koefficienterna a 1och a 2Låt oss använda system (4). Med hjälp av summan i Tabell 2, som finns i cellerna A33, B33, C33 och D33, skriver vi system (4) i formen



lösa som vi får en 1= -24,7164 och a2 = 11,63183

Således har den linjära approximationen formen y= -24,7164 + 11,63183x (12)

System (11) löstes med Microsoft Excel. Resultaten presenteras i figur 3:



I tabellen i celler A38:B39 skrivs formeln (=MOBR (A35:B36)). Cellerna E38:E39 innehåller formeln (=FLERA (A38:B39, C35:C36)).


Därefter uppskattar vi funktionen y = f(x) med en kvadratisk funktion y = a1 +a2 x+a3 x2. För att bestämma koefficienterna a 1,a 2och a 3Låt oss använda system (5). Med hjälp av summan i Tabell 2, som finns i cellerna A33, B33, C33, D33, E33, F33 och G33, skriver vi system (5) i formen:



Efter att ha löst vilket får vi en 1= 1,580946, a 2= -0,60819 och a3 = 0,954171 (14)

Sålunda har den kvadratiska approximationen formen:

y = 1,580946 -0,60819x +0,954171 x2

System (13) löstes med Microsoft Excel. Resultaten presenteras i figur 4.



I tabellen i celler A46:C48 skrivs formeln (=MOBR (A41:C43)). Cellerna F46:F48 innehåller formeln (=FLERA (A41:C43, D46:D48)).

Låt oss nu approximera funktionen y = f(x) exponentiell funktion y = a1 ea2x. För att bestämma koefficienterna a1 Och a2 låt oss logaritma värdena yioch genom att använda summan av tabell 2, som finns i cellerna A26, C26, H26 och I26, får vi systemet:



Var с = ln(a1 ).

Efter att ha löst system (10) finner vi c =0,506435, a2 = 0.409819.

Efter potentieringen får vi a1 = 1,659365.

Således har den exponentiella approximationen formen y = 1,659365*e0,4098194x

System (15) löstes med Microsoft Excel. Resultaten presenteras i figur 5.


I tabellen i cellerna A55:B56 skrivs formeln (=MOBR (A51:B52)). I cellerna E54:E56 skrivs formeln (=FLERA (A51:B52, C51:C52)). Cell E56 innehåller formeln =EXP(E54).

Låt oss beräkna det aritmetiska medelvärdet av x och y med hjälp av formlerna:



Beräkningsresultat x och yanvända Microsoft Excel visas i figur 6.



Cell B58 innehåller formeln =A33/25. Cell B59 innehåller formeln =B33/25.

Tabell 2


Låt oss förklara hur tabellen i figur 7 är sammanställd.

Cellerna A6:A33 och B6:B33 är redan ifyllda (se figur 2).

· i cell J6 anger du formeln =(A6-$B$58)*(B6-$B$59).

· Denna formel kopieras till cellerna J7:J30.

· i cell K6 anger du formeln =(A6-$B$58)^ 2.

· Denna formel kopieras till cellerna K7:K30.

· I cell L6 anger vi formeln =(B1-$B$59)^2.

· Denna formel kopieras till cellerna L7:L30.

· i cell M6 anger vi formeln =($E$38+$E$39*A6-B6)^2.

· Denna formel kopieras till cellerna M7:M30.

· i cell N6 anger vi formeln =($F$46 +$F$47*A6 +$F$48*A6 L6-B6)^2.

· Denna formel kopieras till celler N7:N30.

· i cell O6 skriv in formeln =($E$56*EXP ($E$55*A6) - B6)^2.

· Denna formel kopieras till cellerna O7:O30.

Vi utför nästa steg med automatisk summering.

· i cell J33 anger du formeln =CYMM (J6:J30).

· I cell K33 anger vi formeln =SUMMA (K6:K30).

· i cell L33 anger du formeln =CYMM (L6:L30).

· I cell M33 anger vi formeln =SUMMA (M6:M30).

· i cell N33 anger du formeln =SUMMA (N6:N30).

· i cell O33 anger du formeln =SUMMA (06:030).

Låt oss nu beräkna korrelationskoefficienten med formeln (8) (endast för linjär approximation) och determinationskoefficienten med formeln (10). Resultaten av beräkningar med Microsoft Excel presenteras i figur 7.



I tabell 8, i cell B61 skrivs formeln =J33/(K33*L33^(1/2). I cell B62 skrivs formeln =1 - M33/L33. I cell B63 skrivs formeln =1 - N33 /L33.I cell B64 skrivs formeln formel =1 - O33/L33.

Analys av beräkningsresultaten visar att den kvadratiska approximationen bäst beskriver experimentdata.


4.1 Rita grafer i Excel


Markera cellerna A1:A25 och gå sedan till diagramguiden. Låt oss välja ett spridningsdiagram. Efter att diagrammet är konstruerat högerklickar du på graflinjen och väljer lägg till en trendlinje (linjär, exponentiell, potens respektive polynom av andra graden).

Linjär approximationsgraf


Kvadratisk approximationsgraf


Exponentiell passningsgraf.


5. Funktionsapproximation med MathCAD


Approximation av data med hänsyn till deras statistiska parametrar hör till regressionsproblem. De uppstår vanligtvis vid bearbetning av experimentella data som erhållits som ett resultat av mätningar av processer eller fysikaliska fenomen som är statistiska till sin natur (såsom mätningar inom radiometri och kärngeofysik), eller vid en hög nivå av interferens (brus). Uppgiften med regressionsanalys är att välja matematiska formler som bäst beskriver experimentella data.


.1 Linjär regression


Linjär regression i Mathcad-systemet utförs med hjälp av argumentvektorer Xoch läsningar Y funktioner:

skärpa (x, y)- beräknar parametern A1 , vertikal förskjutning av regressionslinjen (se figur)

lutning(x, y)- beräknar parametern a2 , lutning av regressionslinjen (se figur)

y(x) = al+a2*x


Fungera corr (y, y(x))beräknar Pearson korrelationskoefficient.Ju närmare han är 1, desto mer exakt motsvarar den bearbetade datan det linjära sambandet (se figur)

.2 Polynomregression


Endimensionell polynomregression med en godtycklig grad n av polynomet och med godtyckliga koordinater för sampel i Mathcad utförs av funktionerna:

regress (x, y, n)- beräknar vektorn S,som innehåller koefficienterna aipolynom n e graden;

Koefficientvärden aikan extraheras från vektorn Sfungera submatris(S, 3, längd(S) - 1, 0, 0).

Vi använder de erhållna koefficientvärdena i regressionsekvationen


y(x) = al+a2*x+a3*x2 (se bild)

.3 Icke-linjär regression


För enkla standardapproximationsformler tillhandahålls ett antal icke-linjära regressionsfunktioner, där funktionsparametrarna väljs av Mathcad-programmet.

Dessa inkluderar funktionen expfit (x, y, s),som returnerar en vektor som innehåller koefficienterna a1, a2Och a3exponentiell funktion

y(x) = a1 ^exp (a2x) + a3.V vektor Sde initiala värdena för koefficienterna skrivs in a1, a2Och a3första uppskattningen.


Slutsats


Analys av beräkningsresultaten visar att den linjära approximationen bäst beskriver experimentdata.

Resultaten som erhålls med MathCAD-programmet överensstämmer helt med de värden som erhålls med Excel. Detta indikerar noggrannheten i beräkningarna.


Bibliografi

  1. Datavetenskap: Lärobok / Ed. prof. N.V. Makarova. M.: Finans och statistik 2007
  2. Informatik: Workshop om datorteknik / Ed. Ed. prof. N.V. Makarova. M Finans och statistik, 2011.
  3. N.S. Piskunov. Differential- och integralkalkyl, 2010.
  4. Datavetenskap, Minsta kvadraters approximation, riktlinjer, St. Petersburg, 2009.
Handledning

Behöver du hjälp med att studera ett ämne?

Våra specialister kommer att ge råd eller tillhandahålla handledningstjänster i ämnen som intresserar dig.
Skicka in din ansökan anger ämnet just nu för att ta reda på möjligheten att få en konsultation.

Läser in...Läser in...