ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
ਇਹ ਲੇਖ AI ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਜਾਪਾਨੀ ਤੋਂ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ
ਜਾਪਾਨੀ ਵਿੱਚ ਪੜ੍ਹੋ
ਇਹ ਲੇਖ ਪਬਲਿਕ ਡੋਮੇਨ (CC0) ਵਿੱਚ ਹੈ। ਇਸਨੂੰ ਸੁਤੰਤਰ ਰੂਪ ਵਿੱਚ ਵਰਤਣ ਲਈ ਸੁਤੰਤਰ ਮਹਿਸੂਸ ਕਰੋ। CC0 1.0 Universal

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ

ਰਵਾਇਤੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੱਕ ਅਜਿਹੇ ਪੈਰਾਡਾਈਮ ਦੇ ਅੰਦਰ ਕੰਮ ਕਰਦੀ ਹੈ ਜਿੱਥੇ ਕੰਪਿਊਟਰ, ਸੰਖਿਆਤਮਕ ਗਣਨਾ ਵਿੱਚ ਨਿਪੁੰਨ, ਸੰਖਿਆਤਮਕ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿੱਖਦੇ ਹਨ ਅਤੇ ਮਾਤਰਾਤਮਕ ਮਾਪਦੰਡ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ।

ਹਾਲਾਂਕਿ, ਮਨੁੱਖ ਨਾ ਸਿਰਫ਼ ਸੰਖਿਆਤਮਕ ਵਿਧੀਆਂ ਰਾਹੀਂ, ਬਲਕਿ ਭਾਸ਼ਾ ਰਾਹੀਂ ਵੀ ਸਿੱਖਣ ਦੇ ਸਮਰੱਥ ਹਨ। ਅਸੀਂ ਅਨੁਭਵਾਂ ਨੂੰ ਸ਼ਬਦਾਂ ਵਿੱਚ ਵਿਵਸਥਿਤ ਅਤੇ ਰਿਕਾਰਡ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਫਿਰ ਉਹਨਾਂ ਸ਼ਬਦਾਂ ਨੂੰ ਯਾਦ ਕਰਦੇ, ਪੜ੍ਹਦੇ ਅਤੇ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ।

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLMs) ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਗਿਆਨ ਨੂੰ ਸ਼ਬਦਾਂ ਵਿੱਚ ਦਰਸਾ ਸਕਦੇ ਹਨ ਅਤੇ ਸ਼ਬਦਾਂ ਨੂੰ ਪੜ੍ਹ ਕੇ ਗਿਆਨ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ।

LLMs ਨੂੰ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਰਾਂ ਵਜੋਂ ਵਰਤ ਕੇ, ਸਿਰਫ਼ ਸੰਖਿਆਤਮਕ-ਆਧਾਰਿਤ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀ ਬਜਾਏ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ-ਆਧਾਰਿਤ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸੰਭਵ ਹੋ ਜਾਂਦੀ ਹੈ।

ਇਸ ਕਾਰਨ ਕਰਕੇ, LLMs ਦੇ ਆਗਮਨ ਨੇ ਇੱਕ ਨਵਾਂ ਖੇਤਰ ਖੋਲ੍ਹਿਆ ਹੈ: ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ।

LLMs ਦੀ ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਰਵਾਇਤੀ ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਇੱਕ ਰੂਪ ਹੈ। ਇੱਥੇ ਚਰਚਾ ਕੀਤੀ ਗਈ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਇੱਕ ਨਵੀਂ ਕਿਸਮ ਦੀ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ ਜੋ ਪ੍ਰੀ-ਟ੍ਰੇਨਡ LLMs ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ।

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਬੁਨਿਆਦੀ ਮਾਡਲ

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਅਜਿਹੇ ਪਹਿਲੂ ਹੁੰਦੇ ਹਨ ਜੋ ਰਵਾਇਤੀ ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਸਮਾਨ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਨਾਲ ਹੀ ਅਜਿਹੇ ਪਹਿਲੂ ਵੀ ਹੁੰਦੇ ਹਨ ਜੋ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵੱਖਰੇ ਹੁੰਦੇ ਹਨ।

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਸੰਕਲਪ ਨੂੰ ਪਹਿਲਾਂ ਸਮਝਣ ਲਈ, ਆਓ ਇੱਕ ਬੁਨਿਆਦੀ ਮਾਡਲ ਦਾ ਵਰਣਨ ਕਰੀਏ ਜੋ ਰਵਾਇਤੀ ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਰਗੇ ਭਾਗਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹੋਵੇ।

ਇੱਥੋਂ ਅੱਗੇ, ਇੱਕ ਪ੍ਰੀ-ਟਰੇਨਡ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਨੂੰ LLM ਵਜੋਂ ਦਰਸਾਇਆ ਜਾਵੇਗਾ। ਧਿਆਨ ਦਿਓ ਕਿ ਇਸ ਸਿੱਖਣ ਪ੍ਰਕਿਰਿਆ ਦੌਰਾਨ LLM ਦੇ ਪੈਰਾਮੀਟਰ ਬਿਲਕੁਲ ਨਹੀਂ ਬਦਲਦੇ।

ਬੁਨਿਆਦੀ ਮਾਡਲ ਇੱਕ ਨਿਰੀਖਣ ਕੀਤਾ ਸਿੱਖਣ ਮਾਡਲ ਹੈ, ਜੋ ਵਰਗੀਕਰਨ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ।

ਸਿੱਖਣ ਦੇ ਡੇਟਾ ਲਈ, ਇਨਪੁਟ ਵਾਕਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਵਰਗੀਕਰਨਾਂ ਦੇ ਕਈ ਜੋੜੇ ਸਹੀ ਜਵਾਬਾਂ ਵਜੋਂ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।

ਉਦਾਹਰਨ ਲਈ, ਮੰਨ ਲਓ ਕਿ ਇੱਕ ਕੰਪਨੀ ਵਿੱਚ ਇੱਕ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਅਤੇ ਇੱਕ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਹੈ।

ਇਹਨਾਂ ਦੋਹਾਂ ਵਿਭਾਗਾਂ ਦੀਆਂ ਵੱਖ-ਵੱਖ ਭੂਮਿਕਾਵਾਂ ਹਨ। "ਦਫਤਰ ਦਾ ਬਲਬ ਖਰਾਬ ਹੈ," "ਮੈਂ ਆਪਣਾ ਐਕਸੈਸ ਕਾਰਡ ਭੁੱਲ ਗਿਆ," ਜਾਂ "ਮੈਂ ਮੁੱਖ ਦਫਤਰ ਦੇ ਮੁੱਖ ਹਾਲ ਨੂੰ ਬੁੱਕ ਕਰਨਾ ਚਾਹੁੰਦਾ ਹਾਂ" ਵਰਗੇ ਇਨਪੁਟ ਵਾਕਾਂ ਲਈ, ਵਰਗੀਕਰਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਕਿਹੜਾ ਵਿਭਾਗ, ਜਨਰਲ ਅਫੇਅਰਜ਼ ਜਾਂ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼, ਜ਼ਿੰਮੇਵਾਰ ਹੈ।

ਇਸ ਸਿਖਲਾਈ ਡੇਟਾ ਤੋਂ, ਸਿਰਫ਼ ਇਨਪੁਟ ਵਾਕਾਂ ਨੂੰ ਕੱਢਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ LLM ਵਿੱਚ ਫੀਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਇੱਥੇ, ਅਸੀਂ ਜਾਣਬੁੱਝ ਕੇ ਇੱਕ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਰਾਹੀਂ ਜਵਾਬ ਨੂੰ ਸੀਮਤ ਕਰਦੇ ਹਾਂ, ਜਿਵੇਂ ਕਿ, "ਕਿਰਪਾ ਕਰਕੇ ਦੱਸੋ ਕਿ ਇਸ ਪੁੱਛਗਿੱਛ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਵਿਭਾਗ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਹੈ ਜਾਂ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼। ਆਪਣੇ ਜਵਾਬ ਵਿੱਚ 'ਜਨਰਲ ਅਫੇਅਰਜ਼' ਜਾਂ 'ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼' ਤੋਂ ਇਲਾਵਾ ਕੋਈ ਵੀ ਅੱਖਰ ਸ਼ਾਮਲ ਨਾ ਕਰੋ।"

ਸ਼ੁਰੂ ਵਿੱਚ, LLM ਇਸ ਕੰਪਨੀ ਦੇ ਗਿਆਨ ਤੋਂ ਬਿਨਾਂ ਇੱਕ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ, ਇਹ ਗਲਤ ਹੋ ਸਕਦਾ ਹੈ, ਜਾਂ ਕਦੇ-ਕਦਾਈਂ ਇਤਫ਼ਾਕ ਨਾਲ ਸਹੀ ਵੀ ਹੋ ਸਕਦਾ ਹੈ।

ਹਰੇਕ ਜਵਾਬ ਲਈ, ਇੱਕ ਸਿੱਖਿਆ ਪ੍ਰਣਾਲੀ ਇਹ ਨਿਰਧਾਰਤ ਕਰਦੀ ਹੈ ਕਿ ਇਹ ਸਹੀ ਹੈ ਜਾਂ ਗਲਤ। ਫਿਰ, ਇਨਪੁਟ ਵਾਕ, LLM ਦੇ ਜਵਾਬ, ਅਤੇ ਨਿਰਣੇ ਦੇ ਨਤੀਜੇ ਦਾ ਸੁਮੇਲ ਇੱਕ ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਇਹ ਪ੍ਰਕਿਰਿਆ ਸਿਖਲਾਈ ਡੇਟਾ ਦੇ ਲਗਭਗ ਅੱਧੇ ਹਿੱਸੇ ਲਈ ਦੁਹਰਾਈ ਜਾਂਦੀ ਹੈ।

ਬਾਕੀ ਅੱਧੇ ਸਿਖਲਾਈ ਡੇਟਾ ਲਈ, ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਰਿਕਾਰਡ ਕੀਤੀ ਸਾਰੀ ਜਾਣਕਾਰੀ LLM ਲਈ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਜੋੜੀ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਉਹੀ ਪ੍ਰਕਿਰਿਆ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

ਇਸ ਬਿੰਦੂ 'ਤੇ, ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਇਸ ਕੰਪਨੀ ਦੇ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਵਿਭਾਗਾਂ ਵਿਚਕਾਰ ਕਰਤੱਵਾਂ ਦੀ ਵੰਡ ਬਾਰੇ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੁੰਦੀ ਹੈ, ਇਸਲਈ ਸਹੀ ਜਵਾਬ ਦੀ ਸੰਭਾਵਨਾ ਪਹਿਲੇ ਅੱਧੇ ਡੇਟਾ ਨਾਲੋਂ ਵੱਧ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।

ਇਸ ਤਰ੍ਹਾਂ, ਇੱਕ LLM ਅਤੇ ਇੱਕ ਗਿਆਨ ਆਧਾਰ ਨੂੰ ਜੋੜਨ ਵਾਲਾ ਇੱਕ ਸਿਸਟਮ ਇੱਕ ਕੰਪਨੀ ਦੇ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਵਿਭਾਗਾਂ ਲਈ ਕਰਤੱਵਾਂ ਦੀ ਵੰਡ ਸਿੱਖ ਸਕਦਾ ਹੈ।

ਸਿੱਖਣ ਦੀ ਵਿਧੀ ਖੁਦ ਰਵਾਇਤੀ ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਸਮਾਨ ਹੈ। ਫਰਕ ਇਹ ਹੈ ਕਿ ਸਿੱਖਣ ਦੇ ਨਤੀਜੇ ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਦਰਸਾਏ ਜਾਂਦੇ ਹਨ, ਨਾ ਕਿ LLM ਦੇ ਅੰਦਰ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਗਿਆਨ ਆਧਾਰ ਸੰਖਿਆਤਮਕ ਮੁੱਲਾਂ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਨੂੰ ਰਿਕਾਰਡ ਕਰਦਾ ਹੈ।

ਇਹ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਬੁਨਿਆਦੀ ਮਾਡਲ ਹੈ।

ਬੁਨਿਆਦੀ ਮਾਡਲ ਦੀ ਹਕੀਕਤ

ਜਿਵੇਂ ਕਿ LLM ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਜਲਦੀ ਹੀ ਸਮਝ ਜਾਣਗੇ, ਇਸ ਬੁਨਿਆਦੀ ਮਾਡਲ ਵਿੱਚ ਯਥਾਰਥਵਾਦ ਦੀ ਘਾਟ ਹੈ।

ਇਹ ਇਸ ਲਈ ਹੈ ਕਿਉਂਕਿ ਇੱਕ ਸਿੱਖਿਆ ਪ੍ਰਣਾਲੀ ਨੂੰ ਸਹੀ/ਗਲਤ ਨਿਰਣੇ ਨਿਰਧਾਰਤ ਕਰਨ ਦੀ ਮੁਸ਼ਕਲ ਵਿੱਚੋਂ ਲੰਘਣ ਦੀ ਕੋਈ ਲੋੜ ਨਹੀਂ; ਕੋਈ ਵੀ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਸਿਸਟਮ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਸਿੱਧਾ ਦਾਖਲ ਕਰ ਸਕਦਾ ਹੈ।

ਹਾਲਾਂਕਿ, ਬੁਨਿਆਦੀ ਮਾਡਲ ਨੂੰ ਲਾਗੂ ਕਰਕੇ ਅਤੇ ਦ੍ਰਿਸ਼ ਨੂੰ ਥੋੜ੍ਹਾ ਬਦਲ ਕੇ, ਇਹ ਯਥਾਰਥਵਾਦ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਕਲਪਨਾ ਕਰੋ ਕਿ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਅਤੇ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਸਾਂਝੇ ਤੌਰ 'ਤੇ ਇੱਕ ਪੁੱਛਗਿੱਛ ਡੈਸਕ ਬਣਾਉਂਦੇ ਹਨ, ਅਤੇ ਇੱਕ ਮਨੁੱਖ ਹੱਥੀਂ ਹਰ ਆਉਣ ਵਾਲੀ ਪੁੱਛਗਿੱਛ ਨੂੰ ਢੁਕਵੇਂ ਵਿਭਾਗ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ।

ਇਹਨਾਂ ਪੁੱਛਗਿੱਛਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਨਿਰਧਾਰਨ ਨਤੀਜਿਆਂ ਨੂੰ ਇੱਕ ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਜੋੜਨ ਲਈ ਇੱਕ ਸਧਾਰਨ ਪ੍ਰਣਾਲੀ ਬਣਾਈ ਜਾਂਦੀ ਹੈ।

ਫਿਰ, ਇਸ ਗਿਆਨ ਆਧਾਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, LLM ਮਨੁੱਖਾਂ ਤੋਂ ਕਾਰਜਭਾਰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ ਅਤੇ ਨਵੀਆਂ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਵਿਭਾਗਾਂ ਨੂੰ ਨਿਰਧਾਰਤ ਕਰ ਸਕਦਾ ਹੈ।

ਇਸ ਸਥਿਤੀ ਵਿੱਚ, ਜੇ LLM ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਲਈ ਇੱਕ ਪੁੱਛਗਿੱਛ ਨੂੰ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਨੂੰ ਗਲਤ ਢੰਗ ਨਾਲ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ, ਤਾਂ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਦਾ ਸਟਾਫ ਪੁੱਛਗਿੱਛ ਨੂੰ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਨੂੰ ਦੁਬਾਰਾ ਨਿਰਧਾਰਤ ਕਰੇਗਾ। ਇਹ ਦੁਬਾਰਾ ਨਿਰਧਾਰਨ ਜਾਣਕਾਰੀ ਵੀ ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਰਿਕਾਰਡ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

ਨਿਰਧਾਰਨ ਲੌਗਸ ਨੂੰ ਰਿਕਾਰਡ ਕਰਨ ਲਈ ਇਹ ਸਧਾਰਨ ਵਿਧੀ, ਇੱਕ LLM ਅਤੇ ਇੱਕ ਗਿਆਨ ਆਧਾਰ ਨਾਲ ਮਿਲਾ ਕੇ, ਇੱਕ ਯਥਾਰਥਵਾਦੀ ਨਿਰੀਖਣ ਕੀਤਾ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਮਾਡਲ ਬਣਾਵੇਗੀ।

ਇੱਥੇ ਮੁੱਖ ਬਿੰਦੂ, ਦੁਹਰਾਉਣ ਲਈ, ਇਹ ਹੈ ਕਿ LLM ਦੇ ਅੰਦਰ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੇ ਪੈਰਾਮੀਟਰ ਬਿਲਕੁਲ ਨਹੀਂ ਬਦਲਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਫੀਡਬੈਕ ਸਿੱਖਣ ਦਾ ਨਤੀਜਾ ਸੰਖਿਆਤਮਕ ਮੁੱਲਾਂ ਦੀ ਬਜਾਏ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਦੇ ਵਾਕਾਂ ਦਾ ਸੰਗ੍ਰਹਿ ਹੈ।

ਅਤੇ, ਬਿਨਾਂ ਸ਼ੱਕ, ਇਸ ਪ੍ਰਣਾਲੀ ਵਿੱਚ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸ਼ਾਮਲ ਹੈ, ਨਾ ਕਿ ਮਨੁੱਖੀ ਸਿੱਖਿਆ।

ਇਸ ਲਈ, ਇਹ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦਾ ਇੱਕ ਨਵਾਂ ਰੂਪ ਹੈ: ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ।

ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੀਆਂ ਤਾਕਤਾਂ

ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੇ ਉਲਟ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਸਿੱਖਿਆ ਬਹੁਤ ਸਾਰੇ ਫਾਇਦੇ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ।

ਸੰਖੇਪ ਵਿੱਚ, ਇਸਦੀ ਪਰਿਭਾਸ਼ਿਤ ਵਿਸ਼ੇਸ਼ਤਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸਿੱਖਣ ਕੁਸ਼ਲਤਾ ਹੈ।

ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਸਿਖਲਾਈ ਡੇਟਾ ਅਤੇ ਦੁਹਰਾਉਣ ਵਾਲੀ ਸਿੱਖਿਆ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਵੀ ਜ਼ਰੂਰੀ ਹੈ।

ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਕਿਉਂਕਿ ਸਿੱਖੇ ਜਾਣ ਵਾਲੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਡੇਟਾ ਦੇ ਇੱਕ ਟੁਕੜੇ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਹੁੰਦੀਆਂ ਬਲਕਿ ਡੇਟਾ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਮਾਤਰਾ ਵਿੱਚ ਵੰਡੀਆਂ ਹੁੰਦੀਆਂ ਹਨ।

ਇਸ ਕਾਰਨ ਕਰਕੇ, ਸੱਚਮੁੱਚ ਲੋੜੀਂਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਆਯਾਮਤਾ ਦੇ ਵਰਗ ਦੇ ਕ੍ਰਮ ਵਿੱਚ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਦੁਹਰਾਉਣ ਵਾਲੀ ਸਿੱਖਿਆ ਜ਼ਰੂਰੀ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੇ ਪੈਰਾਮੀਟਰ ਸਥਾਨਕ ਨਿਊਨਤਮ ਵਿੱਚ ਡਿੱਗੇ ਬਿਨਾਂ ਸਹੀ ਢੰਗ ਨਾਲ ਸਿੱਖੇ ਜਾਣ, ਜਿਸ ਲਈ ਹਰੇਕ ਫੀਡਬੈਕ ਨਾਲ ਪੈਰਾਮੀਟਰ ਤਬਦੀਲੀ ਨੂੰ ਛੋਟਾ ਰੱਖਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਸੱਚਮੁੱਚ ਲੋੜੀਂਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਉਜਾਗਰ ਕਰਨ ਲਈ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ, ਜਿਵੇਂ ਕਿ ਸਧਾਰਨਕਰਨ ਅਤੇ ਕਿਨਾਰੇ ਕੱਢਣ, ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਲਈ ਵੀ ਕਾਫ਼ੀ ਕੋਸ਼ਿਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਜੇ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਅਤੇ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਵਿਚਕਾਰ ਕਰਤੱਵਾਂ ਦੀ ਵੰਡ ਨੂੰ ਇੱਕ ਰਵਾਇਤੀ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿੱਖਿਆ ਜਾਣਾ ਸੀ, ਅਤੇ ਇਸਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 50-ਆਯਾਮੀ ਸਨ, ਤਾਂ ਘੱਟੋ-ਘੱਟ ਲਗਭਗ 1,000 ਜਾਂ ਵੱਧ ਸਿਖਲਾਈ ਡੇਟਾ ਉਦਾਹਰਨਾਂ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹਨਾਂ 1,000+ ਡੇਟਾ ਉਦਾਹਰਨਾਂ ਨੂੰ ਉਚਿਤ ਸਿੱਖਣ ਦੀ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਲਗਭਗ 100 ਵਾਰ ਦੁਹਰਾਉਣ ਵਾਲੇ ਢੰਗ ਨਾਲ ਸਿੱਖਣਾ ਪੈ ਸਕਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਜੇਕਰ 1,000 ਸਿਖਲਾਈ ਡੇਟਾ ਉਦਾਹਰਨਾਂ ਦੇ ਇਸ ਸਮੂਹ ਵਿੱਚ ਵਾਧੂ ਸ਼ਬਦ, ਸਪੈਲਿੰਗ ਵਿੱਚ ਭਿੰਨਤਾਵਾਂ, ਜਾਂ ਕਈ ਤਰ੍ਹਾਂ ਦੇ ਸ਼ਬਦ ਕ੍ਰਮ ਅਤੇ ਵਾਕ ਬਣਤਰ ਸ਼ਾਮਲ ਹਨ, ਤਾਂ ਸਿੱਖਣ ਦੀ ਕੁਸ਼ਲਤਾ ਘੱਟ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਗੈਰ-ਸਬੰਧਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਿੱਖੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।

ਇਸ ਲਈ, ਵਾਧੂ ਸ਼ਬਦਾਂ ਨੂੰ ਹਟਾਉਣ, ਭਿੰਨਤਾਵਾਂ ਨੂੰ ਖਤਮ ਕਰਨ ਲਈ ਸ਼ਬਦਾਵਲੀ ਨੂੰ ਮਾਨਕੀਕਰਨ ਕਰਨ, ਅਤੇ ਸ਼ਬਦ ਕ੍ਰਮ ਅਤੇ ਸੰਟੈਕਸ ਨੂੰ ਇਕਸਾਰ ਕਰਨ ਲਈ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਜ਼ਰੂਰੀ ਹੈ।

ਇਸਦੇ ਉਲਟ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨੂੰ ਘੱਟ ਸਿਖਲਾਈ ਡੇਟਾ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਉਸੇ ਸਿਖਲਾਈ ਡੇਟਾ ਨਾਲ ਕੋਈ ਦੁਹਰਾਓ ਨਹੀਂ ਹੁੰਦਾ, ਅਤੇ ਅਕਸਰ ਕੋਈ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ।

ਜੇ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਅਤੇ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਵਿਚਕਾਰ ਕਰਤੱਵਾਂ ਦੀ ਵੰਡ ਲਈ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ 50-ਆਯਾਮੀ ਹਨ, ਤਾਂ ਹਰੇਕ ਆਯਾਮ ਨਾਲ ਸਬੰਧਤ 50 ਜਾਣਕਾਰੀ ਦੇ ਟੁਕੜੇ ਕਾਫ਼ੀ ਹਨ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ ਕਿ 50 ਵੱਖਰੇ ਵਾਕਾਂ ਦੀ ਲੋੜ ਹੈ।

"A, B, C, ਅਤੇ D ਨਾਲ ਸਬੰਧਤ ਕਰਤੱਵ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਦੁਆਰਾ ਸੰਭਾਲੇ ਜਾਂਦੇ ਹਨ" ਵਰਗਾ ਇੱਕ ਸਿੰਗਲ ਵਾਕ ਜਾਣਕਾਰੀ ਦੇ ਚਾਰ ਆਯਾਮਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰ ਸਕਦਾ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਭਾਸ਼ਾ ਨੂੰ ਅਮੂਰਤ ਕਰਕੇ, ਕਈ ਆਯਾਮਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਨੂੰ ਇਕੱਠਾ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। "ਇਮਾਰਤ ਦੀ ਖਪਤ ਵਾਲੀਆਂ ਚੀਜ਼ਾਂ ਅਤੇ ਸਹੂਲਤਾਂ ਦੀ ਦੇਖਭਾਲ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ ਹੈ" ਵਰਗਾ ਇੱਕ ਵਾਕ ਆਯਾਮੀ ਜਾਣਕਾਰੀ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਇਕੱਠਾ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਲਾਈਟ ਬਲਬ ਬਦਲਣਾ ਅਤੇ ਆਟੋਮੈਟਿਕ ਦਰਵਾਜ਼ੇ ਦੀਆਂ ਖਰਾਬੀਆਂ ਸ਼ਾਮਲ ਹਨ।

ਇਸ ਅਮੂਰਤੀਕਰਨ ਨੂੰ LLM ਦੇ ਪ੍ਰੀ-ਟਰੇਨਡ ਗਿਆਨ ਅਤੇ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਦਾ ਲਾਭ ਉਠਾ ਕੇ ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਘਟਾਉਣਾ ਕਿਹਾ ਜਾ ਸਕਦਾ ਹੈ।

ਅਤੇ, ਮੂਲ ਰੂਪ ਵਿੱਚ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਸਿੱਖਿਆ ਨੂੰ ਦੁਹਰਾਉਣ ਵਾਲੀ ਸਿੱਖਿਆ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ। ਇੱਕ ਵਾਰ ਜਦੋਂ ਉੱਪਰੋਕਤ ਵਾਕ ਗਿਆਨ ਆਧਾਰ ਵਿੱਚ ਜੋੜਿਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਸਿੱਖਿਆ ਪੂਰੀ ਹੋ ਜਾਂਦੀ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਗਿਆਨ ਦੀ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਭਾਵੇਂ ਪ੍ਰਸ਼ਾਸਕੀ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਜਾਂ ਜਨਰਲ ਅਫੇਅਰਜ਼ ਡਿਪਾਰਟਮੈਂਟ ਦੀਆਂ ਵਿਆਖਿਆਵਾਂ ਵੱਖ-ਵੱਖ ਲਿਖਤਾਂ ਵਿੱਚ ਮਿਲੀਆਂ ਹੋਣ, ਉਹਨਾਂ ਨੂੰ ਫਿਰ ਵੀ ਗਿਆਨ ਵਜੋਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਜਾਂ, ਪਿਛਲੀ ਉਦਾਹਰਨ ਵਾਂਗ, ਪੁੱਛਗਿੱਛ ਅਤੇ ਨਿਰਧਾਰਨ ਰਿਕਾਰਡ ਵਰਗੇ ਕੱਚੇ ਡੇਟਾ ਨੂੰ ਬਿਨਾਂ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ ਦੇ ਤੁਰੰਤ ਸਿਖਲਾਈ ਡੇਟਾ ਵਜੋਂ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।

ਇਸ ਤਰ੍ਹਾਂ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਸੰਖਿਆਤਮਕ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਨਾਲੋਂ ਕਿਤੇ ਵੱਧ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸਿੱਖ ਸਕਦੀ ਹੈ।

ਸਿੱਟਾ

ਕੰਪਿਊਟਰਾਂ ਦੀਆਂ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਸੰਖਿਆਤਮਕ ਗਣਨਾ ਸਮਰੱਥਾਵਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ, ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਦੀ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਸਮਰੱਥਾ ਕਾਫ਼ੀ ਹੌਲੀ ਹੈ।

ਹਾਲਾਂਕਿ, ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕੁਸ਼ਲ ਸਿੱਖਣ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜੋ ਤੇਜ਼ ਰਫ਼ਤਾਰ ਸੰਖਿਆਤਮਕ ਗਣਨਾ ਅਤੇ ਹੌਲੀ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪ੍ਰੋਸੈਸਿੰਗ ਵਿਚਕਾਰਲੇ ਅੰਤਰ ਨੂੰ ਬਹੁਤ ਪਾਰ ਕਰ ਜਾਂਦੀ ਹੈ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲ, ਜਿਨ੍ਹਾਂ ਨੇ ਸੰਖਿਆਤਮਕ ਸਿੱਖਣ ਦੁਆਰਾ ਹੈਰਾਨੀਜਨਕ ਤਰੱਕੀ ਕੀਤੀ ਹੈ, ਸਕੇਲਿੰਗ ਕਾਨੂੰਨਾਂ ਦੇ ਅਨੁਸਾਰ, ਸਧਾਰਨ ਸਕੇਲਿੰਗ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਦੀਆਂ ਸੀਮਾਵਾਂ ਤੱਕ ਪਹੁੰਚਦੇ ਪ੍ਰਤੀਤ ਹੁੰਦੇ ਹਨ।

ਅਜਿਹੇ ਦ੍ਰਿਸ਼ ਵਿੱਚ, ਇਹ ਬਹੁਤ ਸੰਭਵ ਹੈ ਕਿ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਦੁਆਰਾ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਜਾਵੇਗਾ।